¿Cómo usar redes neuronales para resolver problemas reales?

Las redes neuronales son sistemas de cómputo inspirados en el cerebro humano que pueden aprender patrones extremadamente complejos a partir de datos.

¿Qué pasaría si le pidieras a un algoritmo clásico detectar fraudes en Mercado Libre?

Piénsalo un momento. Mercado Libre procesa más de 10 millones de transacciones al día en México. Cada compra tiene docenas de señales: ubicación del comprador, historial de pagos, hora del día, dispositivo usado, velocidad de escritura. Un árbol de decisión puede manejar 5 o 10 variables con claridad. Pero, ¿qué pasa cuando tienes 200 variables que interactúan entre sí de formas no lineales?

La respuesta sorprende a muchos: los algoritmos clásicos colapsan. Su exactitud cae por debajo del 70% en problemas con alta interacción entre variables. Las redes neuronales, en cambio, alcanzan más del 95% de exactitud en los mismos escenarios. La diferencia no es magia. Es arquitectura.

El cerebro artificial: cómo está construida una red neuronal

Una red neuronal está formada por capas de nodos llamados neuronas artificiales. Cada neurona recibe información, la procesa y la pasa hacia adelante. La estructura básica tiene tres tipos de capas:

Capa de entrada: recibe los datos crudos. Si analizas transacciones, cada variable es un nodo de entrada.
Capas ocultas: aquí ocurre el aprendizaje real. Pueden ser 2, 10 o incluso 100 capas.
Capa de salida: entrega el resultado final. En un detector de fraude, puede ser "fraude" o "no fraude".

El número de capas ocultas determina la profundidad de la red. Cuando hay muchas capas ocultas, se habla de deep learning o aprendizaje profundo. Una red con 3 capas ocultas ya se considera profunda.

El Marco NEURONA: seis componentes que debes conocer

Para entender cómo aprende una red neuronal, usa el Marco NEURONA:

N – Nodos: las unidades individuales que procesan información. Una red simple puede tener 64 nodos por capa.

E – Entradas ponderadas: cada conexión entre nodos tiene un peso (un número). La red ajusta esos pesos durante el entrenamiento.

U – Umbral de activación: cada nodo aplica una función de activación. La más común es ReLU, que convierte cualquier número negativo en cero y deja los positivos intactos.

R – Retropropagación: el algoritmo que enseña a la red. Calcula el error, lo propaga hacia atrás y ajusta los pesos.

O – Optimizador: el motor que mueve los pesos. El más popular es Adam, que ajusta el tamaño de cada paso de aprendizaje automáticamente.

N – Número de épocas: cuántas veces la red revisa todos los datos de entrenamiento. Más épocas no siempre significa mejor modelo.

A – Arquitectura: la combinación de capas, nodos y funciones de activación. Es la decisión de diseño más importante.

¿Cuándo conviene usar una red neuronal?

Las redes neuronales no son la herramienta correcta para todo problema. Aquí está la regla práctica:

Usa una red neuronal cuando:

Tienes más de 10,000 ejemplos de entrenamiento.
Las variables tienen interacciones complejas que no puedes definir a mano.
El problema involucra imágenes, texto o audio.

Usa un algoritmo más simple cuando:

Tienes menos de 1,000 ejemplos (un árbol de decisión funcionará mejor).
Necesitas explicar por qué el modelo tomó una decisión (un banco que debe justificar por qué negó un crédito).
Tu equipo no tiene GPU ni tiempo de cómputo.

Bimbo, por ejemplo, usa redes neuronales para predecir la demanda de pan en más de 3,000 rutas de distribución en México. Tiene millones de datos históricos de ventas, clima y temporadas. Ahí las redes neuronales tienen sentido. Pero para predecir si un solo vendedor cumplirá su cuota mensual con solo 50 datos históricos, un modelo de regresión logística gana.

Ejemplo práctico: detector de productos falsos en Liverpool

Imagina que trabajas en el equipo de tecnología de Liverpool. Quieres detectar si las reseñas de productos son falsas antes de que aparezcan en la página. Tienes 80,000 reseñas etiquetadas como reales o falsas.

Así construirías una red neuronal básica con Python y Keras:

from tensorflow import keras
from tensorflow.keras import layers

# Definir la arquitectura
modelo = keras.Sequential([
    layers.Dense(128, activation='relu', input_shape=(50,)),
    layers.Dense(64, activation='relu'),
    layers.Dense(32, activation='relu'),
    layers.Dense(1, activation='sigmoid')
])

# Compilar el modelo
modelo.compile(
    optimizer='adam',
    loss='binary_crossentropy',
    metrics=['accuracy']
)

# Entrenar
historial = modelo.fit(
    X_entrenamiento, y_entrenamiento,
    epochs=30,
    batch_size=64,
    validation_split=0.2
)

# Evaluar
perdida, exactitud = modelo.evaluate(X_prueba, y_prueba)
print(f"Exactitud en prueba: {exactitud:.2%}")

La salida esperada sería algo así:

Exactitud en prueba: 93.40%

Esa arquitectura tiene tres capas ocultas (128, 64 y 32 nodos). La última capa usa sigmoid porque la salida es binaria: real o falsa. Si fuera una clasificación con 5 categorías de productos, usarías softmax en la última capa.

El costo de entrenar redes neuronales

Aquí viene un dato que muchos ignoran. Entrenar una red neuronal grande no es gratis. En México, alquilar una GPU en la nube (por ejemplo en Google Cloud) cuesta entre $150 y $600 por hora según la capacidad. Una red grande para visión por computadora puede tardar 48 horas en entrenarse. Eso son hasta $28,800 de cómputo en un solo experimento.

Por eso existe el transfer learning o aprendizaje por transferencia. En lugar de entrenar desde cero, tomas una red ya entrenada por Google o Meta con millones de imágenes y la adaptas a tu problema. El proceso puede tardar 2 horas en lugar de 48. Para la mayoría de empresas mexicanas medianas, el transfer learning es la estrategia correcta.

FEMSA usa transfer learning para analizar imágenes de anaqueles en tiendas OXXO. Una red pre-entrenada detecta productos y la empresa solo la afina con fotos de sus propios refrigeradores. El costo baja de $28,000 a menos de $2,000 por experimento.

Errores comunes al construir redes neuronales

Error 1: Hacer la red demasiado grande desde el inicio. Muchos principiantes crean redes con 10 capas cuando el problema solo necesita 2. Una red sobredimensionada sobreajusta más rápido. Empieza siempre con la red más pequeña que pueda resolver el problema.

Error 2: No normalizar los datos. Las redes neuronales son sensibles a la escala de los datos. Si una variable va de 0 a 1 y otra va de 0 a 1,000,000, la red tendrá problemas de convergencia. Siempre normaliza tus datos antes de entrenar. Usa StandardScaler de scikit-learn.

Error 3: Ignorar el validation loss. Muchos solo miran la exactitud de entrenamiento. Si el validation loss empieza a subir mientras el training loss baja, tienes sobreajuste. Aplica dropout o early stopping inmediatamente.

Error 4: Usar sigmoid en capas ocultas. En los años 90 era común. Hoy sabemos que ReLU entrena entre 3 y 6 veces más rápido en capas ocultas. Reserva sigmoid solo para la capa de salida en problemas binarios.

Error 5: No documentar experimentos. Si cambias la arquitectura sin registrarlo, pierdes el historial de qué funcionó. Usa herramientas como MLflow o simplemente un archivo de texto con fecha, arquitectura y resultado.

El equilibrio entre potencia y explicabilidad

Hay una tensión fundamental en machine learning: cuanto más poderoso es el modelo, menos explicable es. Una regresión lineal es perfectamente transparente. Una red neuronal con 500,000 parámetros es una caja negra.

En México, el SAT y el IMSS exigen que los sistemas automatizados que toman decisiones sobre personas puedan ser auditados. Si usas una red neuronal para decidir si alguien recibe un crédito de nómina, necesitarás herramientas como SHAP o LIME para explicar cada decisión. Esto no es opcional. Es una cuestión de cumplimiento regulatorio.

Elige redes neuronales cuando el objetivo es la predicción máxima y la explicabilidad no es crítica. Elige modelos más simples cuando cada decisión debe justificarse ante un auditor o ante el cliente.

Lo que aprendiste en esta lección

Las redes neuronales son herramientas extraordinariamente poderosas, pero no son la respuesta a todos los problemas. Su ventaja real aparece cuando los datos son abundantes, las relaciones son complejas y la exactitud importa más que la explicabilidad. Conocer cuándo usarlas y cuándo no es la diferencia entre un analista promedio y uno que agrega valor real.