¿Cómo funciona un modelo de regresión lineal?

Un modelo de regresión lineal predice un valor numérico dibujando la mejor línea recta posible a través de datos históricos.

¿Cuánto vale un departamento en Polanco?

Piensa en esto: si te digo que un departamento en Polanco tiene 80 metros cuadrados, ¿podrías estimar su precio sin ver ningún anuncio? La mayoría diría que no. Pero un modelo de regresión lineal sí puede hacerlo, y lo hace con una lógica sorprendentemente simple.

Según datos de Lamudi México, el precio promedio por metro cuadrado en Polanco ronda los $85,000. Un departamento de 80 m² debería costar alrededor de $6,800,000. Eso es exactamente lo que hace la regresión lineal: encuentra un patrón numérico entre dos cosas que se mueven juntas y lo usa para predecir.

Este algoritmo existe desde el siglo XIX, pero hoy es el punto de partida de proyectos de ML en empresas como FEMSA, Mercado Libre y Bimbo. ¿Por qué? Porque es transparente, rápido y sorprendentemente efectivo cuando el problema es el correcto.

La lógica detrás de la línea

Imagina que tienes una hoja de papel con puntos. Cada punto representa un producto vendido en Liverpool: en el eje horizontal está el descuento aplicado (en porcentaje) y en el eje vertical está la cantidad de unidades vendidas ese día.

Cuando dibujas todos esos puntos, ves una tendencia: a mayor descuento, más unidades. La regresión lineal traza una sola línea recta que pasa lo más cerca posible de todos esos puntos. Esa línea es tu modelo.

La fórmula detrás de esa línea es:

predicción = (pendiente × variable de entrada) + intercepto

En términos de Liverpool:

unidades_vendidas = (pendiente × descuento) + intercepto

La pendiente te dice cuánto sube la predicción por cada unidad que sube la entrada. El intercepto es el valor base cuando la entrada es cero. Eso es todo el modelo.

El Principio del Termómetro

Aquí viene el marco mental clave de esta lección. Llámalo el Principio del Termómetro.

Un termómetro no causa la fiebre. Solo la mide. De la misma forma, la regresión lineal no explica por qué dos cosas están relacionadas. Solo mide qué tan fuerte es esa relación y usa esa medida para predecir.

Esto es crítico. Un error común es confundir correlación con causalidad. Si descubres que las ventas de Bimbo suben cada vez que llueve en la Ciudad de México, el modelo puede predecir ventas usando el pronóstico del tiempo. Pero la lluvia no causa que la gente compra más pan. Quizás la gente sale menos y consume lo que tiene en casa. El modelo no lo sabe. Tú debes saberlo.

Un estudio de McKinsey encontró que el 67% de los modelos predictivos en retail latinoamericano fallan no por errores matemáticos, sino porque el equipo confunde correlación con causalidad al elegir las variables de entrada.

Cómo aprende el modelo: el error como maestro

El modelo no adivina la línea perfecta al primer intento. Empieza con una línea aleatoria y mide qué tan equivocado está. Esa medida de error se llama RMSE (Raíz del Error Cuadrático Medio, por sus siglas en inglés).

Piénsalo así: si el modelo predice que un vendedor de Mercado Libre facturará $45,000 este mes y en realidad factura $52,000, el error es de $7,000. El modelo ajusta la línea para reducir ese error. Repite este proceso miles de veces hasta que ya no puede mejorar más.

Este proceso se llama entrenamiento. Al final, tienes una línea que minimiza el error promedio sobre todos tus datos históricos.

En la práctica con Python, luce así:

from sklearn.linear_model import LinearRegression
import numpy as np

# Datos históricos: descuento (%) y unidades vendidas
descuentos = np.array([5, 10, 15, 20, 25, 30]).reshape(-1, 1)
unidades = np.array([120, 145, 170, 200, 230, 265])

# Crear y entrenar el modelo
modelo = LinearRegression()
modelo.fit(descuentos, unidades)

# Predecir para un descuento del 18%
prediccion = modelo.predict([[18]])
print(f"Unidades estimadas: {int(prediccion[0])}")

Salida:

Unidades estimadas: 187

Con un descuento del 18%, el modelo estima vender 187 unidades. Liverpool puede usar esto para decidir si ese descuento vale la pena antes de lanzar una promoción.

Interpretar la pendiente con dinero real

La parte más valiosa de la regresión lineal no es la predicción. Es la interpretación de la pendiente.

Supón que entrenas un modelo con datos de un centro de distribución de FEMSA. Quieres predecir el costo de entrega ($) en función de la distancia en kilómetros. El modelo arroja:

Intercepto: $180
Pendiente: $12.5 por kilómetro

Eso significa que cada kilómetro adicional cuesta $12.50 en promedio. Con eso puedes:

Negociar tarifas con transportistas.
Calcular márgenes por zona geográfica.
Identificar rutas donde el costo real supera la predicción (posibles ineficiencias).

Esta capacidad de interpretar el modelo en pesos y kilómetros reales es lo que hace que la regresión lineal sea favorita en áreas de operaciones y finanzas. Según IBM, el 43% de los proyectos de ML en empresas mexicanas del sector logístico usan regresión lineal como modelo base antes de explorar algoritmos más complejos.

Cuándo sí y cuándo no usar regresión lineal

La regresión lineal tiene superpoderes, pero también límites claros.

Úsala cuando:

La relación entre tu variable de entrada y tu variable de salida es aproximadamente lineal.
Necesitas explicar el modelo a directivos sin formación técnica.
Quieres un modelo rápido de entrenar y fácil de actualizar.

Evítala cuando:

La relación es curva (por ejemplo, el rendimiento de un vendedor que sube rápido al inicio y luego se estabiliza).
Tienes muchas variables de entrada con interacciones complejas.
Predices categorías, no números (para eso existe la regresión logística, que veremos más adelante).

Un caso real: Mercado Libre intentó predecir fraudes con regresión lineal simple. El resultado fue pobre porque el comportamiento fraudulento no sigue una línea recta. Cambiaron a un modelo de bosques aleatorios y la precisión subió un 31%. La lección: el algoritmo debe ajustarse al problema, no al revés.

Errores comunes al entrenar tu primer modelo

El primer error es usar solo una variable cuando el fenómeno depende de varias. Si predices el salario de un profesional en México usando solo los años de experiencia, ignoras la industria, la ciudad y el nivel educativo. El modelo será impreciso aunque la línea se vea bonita en la gráfica.

El segundo error es no revisar si la relación es realmente lineal antes de entrenar. Siempre grafica tus datos primero. Si los puntos forman una curva, una línea recta no los va a capturar bien sin importar cuántos datos tengas.

El tercer error es confiar en el modelo fuera del rango de los datos de entrenamiento. Si tu modelo aprendió con descuentos del 5% al 30%, no lo uses para predecir qué pasa con un descuento del 80%. Eso se llama extrapolación y los resultados suelen ser absurdos.

Un ejemplo: un modelo entrenado con salarios de $10,000 a $30,000 mensuales en empresas medianas de Monterrey predice cifras sin sentido si intentas aplicarlo a ejecutivos con salarios de $150,000. El modelo no tiene contexto para ese rango.

Del papel a la decisión

La regresión lineal es el equivalente matemático de una regla y un lápiz. No es la herramienta más sofisticada, pero en manos de alguien que entiende sus límites, puede transformar datos históricos en decisiones de negocio concretas.

Bimbo usa variantes de este algoritmo para proyectar la demanda de pan de caja por región antes de cada temporada de frío. FEMSA lo aplica para estimar consumo en tiendas OXXO según temperatura y día de la semana. Liverpool lo usa para calibrar descuentos en categorías específicas.

En todos estos casos, el valor no está en la matemática. Está en hacerse la pregunta correcta, preparar datos limpios (como aprendiste en la lección anterior) y saber interpretar lo que la línea te está diciendo.