¿Cómo aprende una red neuronal de sus errores?

Una red neuronal aprende de sus errores ajustando matemáticamente sus conexiones internas cada vez que se equivoca, usando un proceso llamado backpropagation combinado con el descenso del gradiente.

¿Adivinas cuántas veces se equivoca una red antes de ser útil?

Antes de responder, piensa en esto: cuando Mercado Libre entrena un modelo para detectar fraudes en pagos, ¿cuántos errores comete ese modelo antes de ser confiable?

La respuesta real es millones de errores. Un modelo típico de detección de fraude puede procesar más de 10 millones de transacciones de entrenamiento. En cada una, se equivoca, mide qué tan mal lo hizo y corrige. No una vez. No cien veces. Millones de veces.

Eso rompe la intuición de muchas personas. Pensamos que una computadora "aprende" rápido, casi sin fallar. Pero el aprendizaje de una red neuronal se parece más a un atleta entrenando: el progreso viene del error repetido y corregido, no de la perfección inmediata.

Ese ciclo de error → medición → corrección es el corazón de este tema.

El error tiene nombre: función de pérdida

Para que una red pueda aprender de sus errores, primero necesita medir qué tan equivocada estuvo. Ese medidor se llama función de pérdida (loss function en inglés).

Imagina que la red de FEMSA predice que un cliente comprará refresco grande con una probabilidad del 80%, pero en realidad sí compró. El error es pequeño. Ahora imagina que predice 10% de probabilidad y el cliente sí compró. El error es grande.

La función de pérdida convierte esa diferencia en un número. Entre más grande el número, peor estuvo la predicción. El objetivo del entrenamiento es hacer ese número lo más pequeño posible.

Una función de pérdida muy común se llama Error Cuadrático Medio (ECM). Funciona así:

Tomas la diferencia entre lo que predijo la red y lo que era correcto.
Elevas esa diferencia al cuadrado (para que los errores negativos también cuenten).
Promedias todos esos errores del lote de datos.

Ese número resultante es tu "termómetro del mal desempeño". Si baja, vas bien. Si sube o no cambia, algo está mal en tu entrenamiento.

El mapa del error: visualiza el paisaje del gradiente

Aquí viene el concepto más importante de esta lección. Visualízalo así:

Imagina que estás parado en una montaña con los ojos vendados. Tu objetivo es llegar al valle más bajo (el error mínimo). Solo puedes sentir con tus pies si el terreno baja o sube a tu alrededor.

Esa montaña es lo que se llama el paisaje de pérdida (loss landscape). Cada punto en esa montaña representa una combinación de pesos en tu red neuronal. El valle más bajo representa los pesos que generan el menor error posible.

El gradiente es la inclinación del terreno bajo tus pies. Te dice en qué dirección está el camino más empinado hacia abajo. El descenso del gradiente es simplemente la estrategia de siempre dar un paso en esa dirección más baja.

Matemáticamente, el gradiente calcula cómo cambia la pérdida si ajustas cada peso un poquito. Si subir el peso aumenta el error, el gradiente te dice: bájalo. Si bajarlo aumenta el error, te dice: súbelo.

El algoritmo que lo hace posible: backpropagation

Descenso del gradiente suena bien, pero hay un problema técnico enorme: una red neuronal moderna puede tener millones de pesos. ¿Cómo calculas el gradiente para cada uno sin que tome siglos?

La respuesta es backpropagation, que significa "retropropagación del error".

El algoritmo usa una regla matemática llamada la regla de la cadena del cálculo diferencial. Funciona así:

La red hace una predicción (esto se llama el pase hacia adelante o forward pass).
Se calcula el error con la función de pérdida.
Ese error se "propaga hacia atrás" por toda la red, capa por capa.
En cada capa, se calcula cuánto contribuyó cada peso al error total.
Todos los pesos se ajustan en la dirección que reduce el error.

Este proceso es brillante porque es eficiente. En lugar de calcular el impacto de cada peso de forma independiente, backpropagation reutiliza los cálculos de las capas anteriores. Una red con 10 millones de parámetros puede actualizar todos sus pesos en milisegundos.

Bimbo usa redes neuronales para predecir demanda de pan por región y por día. Su modelo tiene miles de pesos. Cada vez que el modelo falla (predice 500 piezas y la tienda vendió 800), backpropagation ajusta todos esos pesos para que la próxima predicción sea mejor.

El Marco APRENDER: los seis pasos del entrenamiento

Para que no se te olvide el flujo completo, aquí está el Marco APRENDER:

Alimentar: entras datos a la red (por ejemplo, historial de compras en Liverpool).
Predecir: la red genera una salida con sus pesos actuales.
Registrar el error: la función de pérdida mide qué tan mal estuvo.
Encontrar el gradiente: backpropagation calcula la dirección de corrección.
Normalizar el ajuste: se aplica la tasa de aprendizaje para no corregir de más.
Desdoblarse: se repite el ciclo con el siguiente lote de datos.

Este ciclo se repite miles o millones de veces. Cada vuelta completa se llama una época (epoch). Un modelo bien entrenado puede requerir entre 10 y 500 épocas dependiendo del problema.

La tasa de aprendizaje: el control de velocidad

Hay un parámetro crítico que controla qué tan grandes son los pasos que da el descenso del gradiente. Se llama tasa de aprendizaje (learning rate).

Si la tasa es muy alta, los pasos son enormes. Puedes saltar por encima del valle mínimo y nunca llegar. Si la tasa es muy baja, los pasos son minúsculos. Llegas al valle, pero tardas una eternidad.

Una tasa de aprendizaje típica en proyectos reales está entre 0.001 y 0.01. Ese rango no es aleatorio: es el resultado de décadas de experimentación en la comunidad de IA.

Un equipo de ciencia de datos en México que trabaja con IMSS, por ejemplo, ajustando modelos para predecir riesgo de enfermedades crónicas, dedica una parte importante de su tiempo solo a encontrar la tasa de aprendizaje correcta. Es parte del trabajo real.

Errores comunes al entrenar una red neuronal

Conocer backpropagation no garantiza que tu entrenamiento salga bien. Estos son los tres errores más frecuentes:

Tasa de aprendizaje mal elegida. Si el error de tu modelo no baja después de varias épocas, el primer sospechoso es la tasa de aprendizaje. Prueba reducirla a la mitad y observa si mejora.

Datos sin normalizar. Los pesos de una red funcionan mejor cuando los datos de entrada tienen escalas similares. Si una variable va de 0 a 1 y otra de $1,000 a $500,000, la segunda domina el gradiente y el entrenamiento se distorsiona. Siempre normaliza tus datos antes de entrenar.

Muy pocas épocas o demasiadas. Con pocas épocas, el modelo no aprende suficiente (underfitting). Con demasiadas, memoriza los datos de entrenamiento y falla con datos nuevos (overfitting). En la lección 5 veremos cómo detectar y corregir ambos casos.

De la teoría al código: un vistazo rápido

En Python con TensorFlow, todo este proceso se activa con dos líneas:

model.compile(optimizer='adam', loss='mean_squared_error')
model.fit(X_entrenamiento, y_entrenamiento, epochs=50)

El parámetro optimizer='adam' usa una versión avanzada del descenso del gradiente que ajusta automáticamente la tasa de aprendizaje. El parámetro loss='mean_squared_error' define tu función de pérdida. Con esas dos líneas, TensorFlow ejecuta el Marco APRENDER completo en cada época.

No necesitas implementar backpropagation a mano. Pero sí necesitas entender qué está haciendo la librería por dentro. Eso es lo que acabas de aprender.

La diferencia entre saber y entender

Muchos desarrolladores en México usan TensorFlow sin saber qué ocurre detrás. Ejecutan el código, ven que el modelo "aprende" y siguen. Eso funciona hasta que el modelo falla y no saben por qué.

Entender backpropagation y descenso del gradiente te convierte en alguien que puede diagnosticar un modelo, no solo ejecutarlo. Esa diferencia vale, literalmente, entre $18,500 y $35,000 al mes en el mercado laboral de datos en México según reportes de plataformas como OCC Mundial y LinkedIn México en 2024.

El error no es el enemigo del aprendizaje. En redes neuronales, el error es el aprendizaje.