Diferencias
Muestra las diferencias entre dos versiones de la página.
| Ambos lados, revisión anterior Revisión previa | |||
|
clase:ia:saa:3_regresion_lineal:dg [2022/09/23 09:30] cesguiro borrado |
— (actual) | ||
|---|---|---|---|
| Línea 1: | Línea 1: | ||
| - | ====== 03 - Descenso de gradiente ====== | ||
| - | Cuando tenemos un número elevado de características o demasiadas instancias de entrenamiento para caber en la memoria, las funciones de coste anteriores pueden no ser adecuadas. Para estos casos, podemos utilizar una manera muy diferente para minimizar la función de coste: **descenso de gradiente**. | ||
| - | |||
| - | Para encontrar el mínimo en una función de coste, el descenso de gradiente empieza en un punto aleatorio. En sucesivas iteraciones, | ||
| - | |||
| - | {{ : | ||
| - | |||
| - | Un parámetro importante en el descenso de gradiente es el tamaño de los pasos, determinado por el hiperparámetro **tasa de aprendizaje**. Si la tasa de aprendizaje es demasiado pequeña, el algoritmo tendrá que pasar por muchos pasos para converger (si llega a hacerlo antes de terminar las iteraciones), | ||
| - | |||
| - | {{ : | ||
| - | |||
| - | Por el contrario, si la tasa de aprendizaje es demasiado grande, el algoritmo puede no converger nunca. | ||
| - | |||
| - | {{ : | ||
| - | |||
| - | Otro problema es que no todas las funciones de coste tienen una forma regular con un sólo mínimo. Pueden haber muchos socavones, crestas, mesetas y todo tipo de terrenos irregulares, | ||
| - | |||
| - | {{ : | ||
| - | |||
| - | Por suerte, la función de coste MSE para un modelo de regresión es una función convexa. Eso implica que no hay mínimos locales, sólo hay un mínimo global. | ||
| - | |||
| - | < | ||