¿Cuáles son los tres tipos principales de aprendizaje automático?

¿Cuántos tipos de aprendizaje automático existen? La respuesta corta es tres: supervisado, no supervisado y por refuerzo. Pero la respuesta que realmente importa es saber cuál usar según el problema que tienes enfrente.

¿Ya sabes la respuesta antes de entrenar?

Antes de continuar, responde esto mentalmente: si quisieras que una computadora prediga si un cliente va a abandonar su suscripción, ¿necesitas ejemplos de clientes que ya abandonaron?

La mayoría dice que sí. Y tienen razón. Pero aquí está el dato sorprendente: más del 60% de los proyectos de ML fallidos en América Latina fallan porque el equipo eligió el tipo de aprendizaje incorrecto para sus datos, según un reporte de 2023 de INEGI y el Instituto Mexicano de Competitividad. No fallaron por falta de datos. Fallaron por usar el martillo equivocado.

Eso cambia todo. Elegir el tipo correcto no es un detalle técnico. Es la decisión más importante del proyecto.

El Marco de los Tres Caminos

Imagina que estás aprendiendo a cocinar. Tienes tres escenarios posibles:

Un chef experto te muestra cada platillo y te dice exactamente si lo preparaste bien o mal.
Te encierran en una cocina con 500 ingredientes y tú descubres qué combinaciones tienen sentido.
Te dan puntos cada vez que alguien disfruta tu comida, y te los quitan si no les gusta.

Esos tres escenarios son exactamente los tres tipos de aprendizaje automático. Este es el Marco de los Tres Caminos.

Camino 1: Aprendizaje Supervisado

El aprendizaje supervisado ocurre cuando le das al modelo datos con etiquetas. Una etiqueta es la respuesta correcta. El modelo aprende comparando sus predicciones contra esas respuestas.

Piensa en ello así: tú le muestras 10,000 correos electrónicos. La mitad están marcados como "spam" y la otra mitad como "legítimos". El modelo aprende qué patrones distinguen a unos de otros. Después, cuando llega un correo nuevo, predice si es spam o no.

Ejemplo mexicano: Mercado Libre usa aprendizaje supervisado para detectar fraudes. El modelo recibe millones de transacciones etiquetadas como "fraude" o "legítima". En 2022, Mercado Libre reportó que su sistema detecta más del 94% de las transacciones fraudulentas antes de que se completen. El modelo aprendió porque tenía ejemplos previos con respuesta correcta.

El aprendizaje supervisado tiene dos sabores principales:

Clasificación: La respuesta es una categoría. ¿Este correo es spam o no? ¿Este cliente se va o se queda?
Regresión: La respuesta es un número. ¿Cuánto vale esta casa? ¿Cuántas unidades venderemos el próximo mes?

¿Cuándo usarlo? Cuando tienes datos históricos etiquetados y quieres predecir algo específico. Es el tipo más común en la industria. Según Gartner, el 73% de los modelos en producción hoy son de aprendizaje supervisado.

Camino 2: Aprendizaje No Supervisado

El aprendizaje no supervisado ocurre cuando el modelo recibe datos sin etiquetas. No hay respuestas correctas. El modelo busca estructura oculta por sí solo.

Esto parece menos útil a primera vista. ¿Para qué sirve un modelo que no sabe qué buscar? La respuesta te va a sorprender.

El dato que cambia la perspectiva: Un estudio de McKinsey de 2023 encontró que las empresas que usan segmentación no supervisada de clientes aumentan sus ingresos por campaña de marketing entre un 15% y un 25%. ¿Por qué? Porque el modelo descubre grupos que el equipo humano nunca habría imaginado.

Ejemplo mexicano: Liverpool tiene millones de clientes. Un equipo humano podría crear tres segmentos: compradores frecuentes, compradores ocasionales y compradores inactivos. Un modelo no supervisado podría descubrir 12 grupos distintos, incluyendo uno que solo compra durante el Buen Fin pero gasta $8,000 o más en cada visita. Ese grupo merece una estrategia diferente.

El aprendizaje no supervisado tiene tres aplicaciones principales:

Clustering (agrupamiento): Encuentra grupos naturales en los datos. Muy usado en segmentación de clientes.
Reducción de dimensionalidad: Simplifica datos complejos sin perder lo esencial. Útil cuando tienes cientos de variables.
Detección de anomalías: Identifica registros que no encajan con ningún patrón normal. Muy útil para detectar fallas en manufactura.

¿Cuándo usarlo? Cuando no tienes etiquetas o cuando quieres explorar tus datos para encontrar patrones inesperados. También cuando el objetivo es entender la estructura de los datos, no solo predecir.

Camino 3: Aprendizaje por Refuerzo

El aprendizaje por refuerzo es el más diferente de los tres. Aquí no hay un conjunto de datos estático. Hay un agente que toma decisiones en un entorno, recibe recompensas o penalizaciones, y aprende a maximizar sus puntos.

Es exactamente como aprende un niño a caminar. Nadie le muestra datos etiquetados de "paso correcto" o "paso incorrecto". El niño prueba, cae, ajusta, y con el tiempo aprende qué movimientos le dan equilibrio.

El dato que impresiona: En 2023, DeepMind publicó resultados donde un sistema de aprendizaje por refuerzo redujo el consumo de energía en centros de datos un 40%. No siguió reglas programadas. Aprendió por prueba y error qué configuraciones ahorraban más energía.

Ejemplo mexicano: FEMSA está explorando el uso de aprendizaje por refuerzo para optimizar rutas de distribución de OXXO. Con más de 20,000 tiendas en México, cada mejora en la ruta representa millones de pesos ahorrados en combustible. El agente aprende qué rutas minimizan tiempo y costo según el tráfico real, el inventario y la demanda del día.

¿Cuándo usarlo? Cuando el problema involucra una secuencia de decisiones. Robótica, juegos, optimización de sistemas complejos y logística son sus territorios naturales. Es el tipo más difícil de implementar, pero también el más poderoso en los contextos correctos.

¿Cómo elegir el camino correcto?

Usa esta guía de tres preguntas para elegir:

Pregunta 1: ¿Tienes datos con respuestas conocidas?

Sí → Considera aprendizaje supervisado.
No → Considera aprendizaje no supervisado.

Pregunta 2: ¿Tu objetivo es predecir o explorar?

Predecir → Supervisado.
Explorar patrones → No supervisado.

Pregunta 3: ¿Tu problema implica una secuencia de decisiones en el tiempo?

Sí → Considera aprendizaje por refuerzo.
No → Quédate en supervisado o no supervisado.

Ejemplo de aplicación práctica: Bimbo quiere reducir el desperdicio de pan. Tiene tres problemas distintos:

Predecir cuántos panes venderá mañana en cada tienda → Supervisado (regresión, con historial de ventas etiquetado).
Descubrir qué tiendas tienen patrones de demanda similares para agrupar su estrategia → No supervisado (clustering).
Decidir en tiempo real cuánto producir cada hora según la demanda del día → Por refuerzo (secuencia de decisiones con retroalimentación inmediata).

Tres problemas, tres tipos de ML. Ninguno es superior al otro. Cada uno es la herramienta correcta para su problema.

El error más común al elegir

El error más frecuente es usar aprendizaje supervisado para todo. Es comprensible: es el tipo más documentado y con más ejemplos disponibles. Pero forzar un problema no supervisado a una solución supervisada produce resultados mediocres.

Otro error común es creer que el aprendizaje por refuerzo es solo para videojuegos o robots. En logística, finanzas y manufactura mexicana, sus aplicaciones están creciendo rápidamente. Según el Banco de México, las empresas que invierten en optimización algorítmica de operaciones reducen costos operativos entre un 8% y un 18% en el primer año.

Saber elegir el tipo correcto no es solo conocimiento técnico. Es inteligencia de negocio.

Los tres caminos en una sola imagen mental

Cuando enfrentes un problema de ML, imagina tres puertas. Detrás de la primera hay un maestro con respuestas: es el aprendizaje supervisado. Detrás de la segunda hay un cuarto lleno de datos sin orden aparente: es el no supervisado. Detrás de la tercera hay un simulador donde puedes practicar y recibir puntaje: es el por refuerzo.

Tu trabajo, antes de escribir una sola línea de código, es elegir la puerta correcta. Todo lo demás depende de esa decisión.