¿Qué son las redes neuronales convolucionales y cómo reconocen imágenes?

Las redes neuronales convolucionales (CNN) son un tipo especial de red diseñada para analizar imágenes, detectando patrones visuales como bordes, formas y texturas con una precisión que supera al ojo humano en tareas repetitivas.

¿Puede una red "ver" igual que tú?

Antes de continuar, responde esto mentalmente: ¿cuántos píxeles tiene una fotografía básica de $224 \times 224$ pixeles?

Son $50,176$ píxeles. Cada píxel tiene tres valores de color (rojo, verde, azul). Eso equivale a $150,528$ números por imagen. Si conectaras cada número a una red densa como las que aprendiste en la lección anterior, necesitarías millones de parámetros solo para la primera capa. El modelo colapsaría.

Aquí está la sorpresa: las CNN no leen todos los píxeles al mismo tiempo. Leen pequeñas ventanas de la imagen, una por una, buscando patrones locales. Ese truco cambia todo.

Un estudio de Stanford sobre visión computacional mostró que una CNN bien entrenada identifica defectos en productos industriales con $97%$ de precisión, mientras que un inspector humano promedio alcanza $87%$ después de varias horas de trabajo. La diferencia no es inteligencia: es escala y consistencia.

El Principio de la Ventana Móvil

Imagina que tienes una lupa pequeña. La mueves lentamente sobre toda la imagen, cuadro por cuadro. En cada posición, la lupa analiza solo esa pequeña área. Luego combina todo lo que vio para entender la imagen completa.

Eso hace una CNN. La "lupa" se llama filtro o kernel. Es una matriz pequeña, típicamente de $3 \times 3$ o $5 \times 5$ números. El filtro se desliza por toda la imagen aplicando una operación matemática llamada convolución. De ahí el nombre de la red.

Este proceso es el Marco de la Ventana Móvil: en lugar de ver todo a la vez, divide el problema en partes pequeñas y manejables. Es lo mismo que hace un inspector de control de calidad en Bimbo cuando revisa cada galleta en la banda transportadora: no analiza toda la planta al mismo tiempo, sino producto por producto.

La arquitectura de una CNN en tres niveles

Una CNN tiene tres tipos principales de capas. Cada una cumple una función específica.

Capa Convolucional: el detector de patrones

Esta capa aplica los filtros a la imagen. Cada filtro aprende a detectar un patrón diferente: uno detecta líneas horizontales, otro detecta curvas, otro detecta manchas oscuras. Una CNN típica tiene docenas de filtros por capa. En conjunto, crean un mapa de características que resume qué patrones existen y dónde están.

En código con Keras, una capa convolucional se escribe así:

from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Conv2D, MaxPooling2D, Flatten, Dense

modelo = Sequential([
    Conv2D(32, (3, 3), activation='relu', input_shape=(224, 224, 3)),
    MaxPooling2D(2, 2),
    Conv2D(64, (3, 3), activation='relu'),
    MaxPooling2D(2, 2),
    Flatten(),
    Dense(128, activation='relu'),
    Dense(1, activation='sigmoid')
])

El primer argumento de Conv2D es el número de filtros ($32$). El segundo es el tamaño del kernel ($3 \times 3$). El input_shape indica que la imagen tiene $224 \times 224$ píxeles y $3$ canales de color.

Capa de Pooling: el reductor de ruido

Después de cada capa convolucional viene una capa de MaxPooling. Su trabajo es reducir el tamaño del mapa de características conservando solo la información más importante. Toma ventanas de $2 \times 2$ píxeles y se queda con el valor máximo de cada una. Esto reduce el tamaño a la mitad y elimina detalles irrelevantes.

El resultado es una red más eficiente y menos propensa al sobreajuste. Sin pooling, el modelo memoriza ruido en lugar de aprender patrones reales.

Capa Flatten y capas Dense: la decisión final

Después de varias rondas de convolución y pooling, la capa Flatten convierte el mapa de características (que es tridimensional) en un vector plano de números. A partir de ahí, la red funciona igual que las redes densas de la lección anterior: capas Dense que combinan toda esa información para tomar una decisión final.

Caso real: control de calidad en manufactura mexicana

Supón que trabajas en una planta de manufactura en Monterrey que produce piezas metálicas para la industria automotriz. Cada día pasan $10,000$ piezas por la línea de producción. Detectar piezas defectuosas a mano cuesta $3$ inspectores a $$18,500$ al mes cada uno: un total de $$$55,500$ mensuales. Además, la tasa de error humano ronda el $13%$.

Una CNN entrenada con $5,000$ imágenes de piezas buenas y $5,000$ imágenes de piezas dañadas puede reemplazar ese proceso. El entrenamiento toma entre $2$ y $4$ horas en una computadora con GPU básica. El costo mensual de cómputo en la nube está alrededor de $$$3,200$.

Así se vería el flujo completo en código:

import tensorflow as tf
from tensorflow.keras.preprocessing.image import ImageDataGenerator

# Generador de datos con aumento de imágenes
generador = ImageDataGenerator(
    rescale=1.0/255,
    rotation_range=15,
    horizontal_flip=True,
    validation_split=0.2
)

train_data = generador.flow_from_directory(
    'piezas/',
    target_size=(224, 224),
    batch_size=32,
    class_mode='binary',
    subset='training'
)

val_data = generador.flow_from_directory(
    'piezas/',
    target_size=(224, 224),
    batch_size=32,
    class_mode='binary',
    subset='validation'
)

modelo.compile(
    optimizer='adam',
    loss='binary_crossentropy',
    metrics=['accuracy']
)

modelo.fit(train_data, epochs=10, validation_data=val_data)

El rescale=1.0/255 normaliza los valores de píxeles de $0$–$255$ a $0$–$1$. Recuerda: normalizar siempre es obligatorio, como viste en la lección anterior. Sin eso, el entrenamiento diverge.

Los parámetros rotation_range y horizontal_flip son técnicas de data augmentation: generan variaciones artificiales de las imágenes para que el modelo no memorice posiciones exactas sino patrones generales.

¿Cómo funciona en Mercado Libre y Liverpool?

Mercado Libre usa CNN para moderar imágenes de productos. Detectan automáticamente fotos inapropiadas, productos falsificados o imágenes de baja calidad antes de que lleguen al catálogo. Procesan millones de imágenes al día. Sin CNN, necesitarían miles de moderadores humanos.

Liverpool, por su parte, utiliza reconocimiento visual para búsqueda por imagen. El cliente fotografía un zapato que vio en la calle y la app encuentra productos similares en el catálogo. La CNN extrae las características visuales del zapato (forma, color, textura) y las compara contra la base de datos de productos.

Ambos casos siguen el mismo principio: la CNN no "entiende" la imagen como tú. Convierte la imagen en un vector numérico de características y compara vectores. La "comprensión" es matemática pura.

Errores comunes al implementar una CNN

El error más frecuente es no normalizar las imágenes. Los píxeles van de $0$ a $255$. Sin dividir entre $255$, el gradiente explota durante el entrenamiento y el modelo no converge. Siempre incluye rescale=1.0/255.

El segundo error es usar muy pocas imágenes de entrenamiento. Una CNN necesita al menos $500$ imágenes por categoría para generalizar bien. Con menos de eso, el modelo memoriza las fotos exactas y falla con imágenes nuevas. Si no tienes suficientes datos, el data augmentation es obligatorio, no opcional.

El tercer error es olvidar la capa Flatten entre las capas convolucionales y las capas densas. Sin ella, Keras lanza un error porque las dimensiones no son compatibles. La capa Flatten es el puente obligatorio entre los dos mundos.

El cuarto error es usar imágenes de tamaños diferentes sin estandarizarlas. El parámetro target_size=(224, 224) en el generador hace ese trabajo. Si lo omites, el modelo recibe tensores de formas inconsistentes y el entrenamiento falla.

Lo que acabas de aprender

Una CNN no lee imágenes como una red densa. Usa filtros que se deslizan por la imagen buscando patrones locales. Eso la hace eficiente y poderosa. La arquitectura tiene tres etapas: convolución para detectar patrones, pooling para reducir ruido, y capas densas para decidir. En México, empresas como Mercado Libre, Liverpool y plantas manufactureras en Monterrey ya usan estas redes para automatizar tareas visuales que antes requerían docenas de personas. El ahorro es real y la precisión supera al inspector humano en tareas repetitivas.