¿Qué son las funciones de activación y para qué sirven?

Una función de activación decide si una neurona artificial debe "encenderse" o no, y con qué intensidad, controlando así el flujo de información dentro de una red neuronal.

¿Qué pasaría si no existieran las funciones de activación?

Imagina que tienes una red neuronal con 10 capas. Sin funciones de activación, ¿cuántas capas "reales" tendría esa red?

La respuesta sorprende a casi todos: una sola. Matemáticamente, apilar capas lineales sin activación es idéntico a tener una sola capa lineal. Todo el trabajo extra no sirve de nada.

Esto no es opinión. Es álgebra básica: la composición de funciones lineales siempre da otra función lineal. Diez capas sin activación equivalen exactamente a una multiplicación de matrices. Y una multiplicación de matrices no puede aprender a detectar si una imagen muestra un paquete de Gansito o una dona.

Aquí está el verdadero papel de las funciones de activación: introducen no linealidad. Esa no linealidad es lo que permite a una red aprender patrones complejos como el lenguaje, las imágenes o el comportamiento de compra en Mercado Libre.

El Principio de la Bisagra

Puedes pensar en cada función de activación como una bisagra matemática. Una línea recta no puede doblarse. Pero si introduces bisagras en puntos estratégicos, puedes crear cualquier forma que necesites.

Ese es el Principio de la Bisagra: cada neurona con activación agrega un punto de quiebre. Con suficientes neuronas y capas, la red puede aproximar cualquier función matemática que exista. Los matemáticos llaman a esto el Teorema de Aproximación Universal, y fue demostrado en 1989.

En la práctica, esto significa que una red bien diseñada puede aprender:

El patrón de fraude en transacciones del SAT
La probabilidad de que un cliente de Liverpool abandone su carrito
El precio justo de una propiedad en la CDMX

Todo gracias a las funciones de activación.

Las tres funciones que debes conocer

ReLU: la función más usada en el mundo

ReLU significa Rectified Linear Unit. Su regla es brutal en su simplicidad:

Si el valor de entrada es negativo, la salida es cero.
Si el valor de entrada es positivo, la salida es ese mismo valor.

Matemáticamente: f(x) = max(0, x)

Eso es todo. Sin curvas elegantes. Sin ecuaciones complicadas.

Entonces, ¿por qué ReLU domina el mundo del aprendizaje profundo? Porque funciona. Un estudio de 2011 del laboratorio de Yoshua Bengio demostró que ReLU supera a funciones más complejas en tareas de visión artificial. Hoy, más del 80% de las redes neuronales profundas usan ReLU o una de sus variantes.

ReLU también entrena mucho más rápido. Las operaciones max(0, x) son casi gratuitas en términos computacionales. Cuando FEMSA entrena modelos para optimizar rutas de distribución con millones de datos, ese ahorro de cómputo importa.

Ejemplo práctico con ReLU:

Supón que una neurona recibe estos valores antes de la activación: [-3.2, 0.8, -1.1, 4.5]

Después de aplicar ReLU: [0, 0.8, 0, 4.5]

Los valores negativos mueren. Los positivos pasan intactos. La red aprende a ignorar lo que no importa.

Sigmoid: cuando necesitas una probabilidad

Sigmoid comprime cualquier número real en un rango entre 0 y 1. Su fórmula es:

f(x) = 1 / (1 + e^(-x))

No memorices la fórmula. Memoriza el comportamiento: sigmoid convierte cualquier número en una probabilidad.

Un valor muy grande (como 100) da casi 1.0
Un valor muy pequeño (como -100) da casi 0.0
El valor 0 da exactamente 0.5

¿Cuándo usas sigmoid? Cuando la última pregunta de tu red es binaria: ¿sí o no?

Ejemplo del mundo real: El equipo de riesgos de Mercado Libre usa modelos que terminan en sigmoid. La salida final es un número entre 0 y 1. Si ese número supera 0.7, el sistema bloquea la transacción como posible fraude. Si es menor, la aprueba. Millones de decisiones así ocurren cada día.

El problema con sigmoid es uno: el gradiente que desaparece. Cuando los valores de entrada son muy grandes o muy pequeños, la curva se aplana. Un gradiente casi cero significa que backpropagation no puede ajustar los pesos de las capas anteriores. La red deja de aprender. Por eso sigmoid ya no se usa en capas intermedias, solo en la capa de salida para clasificación binaria.

Softmax: el árbitro de la clasificación múltiple

Softmax resuelve un problema diferente: cuando no son dos categorías, sino muchas.

Si sigmoid dice "¿es fraude o no?", softmax dice "¿cuál de estas 10 categorías es la correcta?"

Softmax toma un vector de números y los convierte en probabilidades que suman exactamente 1.0. Siempre.

Ejemplo con productos de Bimbo:

Una red de clasificación de imágenes recibe una foto. Antes de softmax, las puntuaciones brutas son:

Gansito: 3.2
Marinela: 1.1
Nito: 0.4

Después de softmax:

Gansito: 0.87 (87% de probabilidad)
Marinela: 0.10 (10%)
Nito: 0.03 (3%)

La suma es exactamente 1.0. El modelo elige Gansito con 87% de confianza. Así funciona cualquier clasificador de imágenes o texto que hayas visto.

Softmax siempre vive en la capa de salida. Nunca en capas intermedias.

La Regla de las Tres Capas

Ahora que conoces las tres funciones principales, existe un patrón que usan casi todas las redes modernas. Llámalo la Regla de las Tres Capas:

Capas ocultas → usa ReLU (o sus variantes como Leaky ReLU)
Capa de salida binaria → usa Sigmoid
Capa de salida multiclase → usa Softmax

Esta combinación no es arbitraria. ReLU entrena rápido y evita gradientes que desaparecen. Sigmoid y Softmax entregan la interpretación correcta según el tipo de problema.

Cuando un equipo de datos en Liverpool construye un modelo para predecir qué categoría de producto comprará un usuario, usa exactamente esta arquitectura: varias capas ReLU en el medio, y softmax al final para elegir entre Ropa, Electrónica, Hogar y otras categorías.

Errores comunes al elegir funciones de activación

Error 1: Usar sigmoid en capas ocultas. Esto mata el entrenamiento en redes profundas. Los gradientes se vuelven minúsculos y backpropagation no puede actualizar las primeras capas. El resultado es una red que no aprende, aunque el código no muestre ningún error.

Error 2: Olvidar la activación en la capa de salida. Sin softmax o sigmoid al final, la red puede devolver cualquier número, incluso negativos o mayores a 1. Eso no es una probabilidad. Es ruido matemático.

Error 3: Usar ReLU y obtener "neuronas muertas". Si la tasa de aprendizaje es demasiado alta (recuerda la lección anterior), muchas neuronas pueden quedar atrapadas en la zona negativa de ReLU y nunca volver a activarse. Se llama el problema de la neurona muerta. La solución: usar Leaky ReLU, que permite un pequeño gradiente negativo en lugar de cero absoluto.

Error 4: Aplicar softmax cuando el problema es binario. Softmax con dos clases funciona, pero sigmoid es más eficiente y directo. No uses una herramienta más compleja cuando la simple funciona mejor.

Lo que viene después

Ya entiendes que las funciones de activación no son un detalle técnico menor. Son la razón por la que las redes neuronales pueden aprender algo más complejo que una línea recta.

En la próxima lección verás cómo organizar estas piezas, capas, pesos y activaciones, en arquitecturas completas. Aprenderás a diseñar una red desde cero para un problema real, eligiendo el número correcto de capas y neuronas.

La arquitectura es donde las decisiones se vuelven estratégicas.