03 - Descenso de gradiente

¡Esta es una revisión vieja del documento!

Cuando tenemos un número elevado de características o demasiadas instancias de entrenamiento para caber en la memoria, las funciones de coste anteriores pueden no ser adecuadas. Para estos casos, podemos utilizar una manera muy diferente para minimizar la función de coste: descenso de gradiente.

Para encontrar el mínimo en una función de coste, el descenso de gradiente empieza en un punto aleatorio. En sucesivas iteraciones, va calculando las derivadas parciales (pendiente de la función) para ir aproximándose al mínimo cada vez más.

Un parámetro importante en el descenso de gradiente es el tamaño de los pasos, determinado por el hiperparámetro tasa de aprendizaje. Si la tasa de aprendizaje es demasiado pequeña, el algoritmo tendrá que pasar por muchos pasos para converger (si llega a hacerlo antes de terminar las iteraciones), lo cual llevará mucho más tiempo.

Por el contrario, si la tasa de aprendizaje es demasiado grande, el algoritmo puede no converger nunca.

Otro problema es que no todas las funciones de coste tienen una forma regular con un sólo mínimo. Pueden haber muchos socavones, crestas, mesetas y todo tipo de terrenos irregulares, lo que dificulta la convergencia en el mínimo global.