El análisis de datos con Python es el proceso de usar el lenguaje de programación Python para recopilar, limpiar, transformar y visualizar información con el fin de tomar mejores decisiones.
En este curso aprenderás a manejar las herramientas más usadas en la industria mexicana e internacional. Comenzarás desde los conceptos base y terminarás construyendo un análisis completo desde cero.
¿Qué significa analizar datos?
Analizar datos es responder preguntas de negocio usando información estructurada. Ejemplos de preguntas reales:
- ¿Cuál fue el producto más vendido en FEMSA el último trimestre?
- ¿Cuántos empleados de Bimbo recibieron bono en el año fiscal?
- ¿En qué región de México Liverpool tiene mayor ticket promedio?
Estas preguntas no se responden con intuición. Se responden con datos limpios, herramientas adecuadas y un proceso reproducible.
Un análisis de datos típico sigue estos pasos:
| Paso | Acción | Herramienta principal |
|---|---|---|
| 1 | Cargar los datos | pandas |
| 2 | Explorar la estructura | pandas |
| 3 | Limpiar errores y vacíos | pandas |
| 4 | Transformar y calcular | pandas / NumPy |
| 5 | Visualizar resultados | Matplotlib / Seaborn |
| 6 | Comunicar conclusiones | Jupyter Notebook |
¿Por qué Python y no Excel o SQL?
Excel y SQL son herramientas válidas. Pero Python tiene ventajas claras cuando el volumen de datos crece o los procesos se repiten.
Ventajas de Python frente a Excel:
- Puede procesar millones de filas sin lentitud.
- El código es reproducible: lo ejecutas hoy y mañana con el mismo resultado.
- Automatiza tareas que en Excel tomarían horas.
Ventajas de Python frente a SQL puro:
- Permite limpiar, transformar y visualizar en el mismo entorno.
- Se integra fácilmente con APIs, archivos CSV, bases de datos y servicios en la nube.
- Tiene una curva de aprendizaje más amigable para analistas sin perfil de DBA.
Empresarial: Mercado Libre usa Python en sus equipos de datos para analizar millones de transacciones diarias. No es un lenguaje académico; es una herramienta de producción.
Las bibliotecas clave de este curso
En Python, una biblioteca es un conjunto de funciones ya escritas que puedes importar y usar. No necesitas construirlas desde cero.
Estas son las cuatro bibliotecas que usarás en este curso:
pandas
pandas es la biblioteca principal para análisis de datos en Python. Trabaja con estructuras llamadas DataFrame, que son similares a una hoja de cálculo con filas y columnas.
import pandas as pd
df = pd.read_csv("ventas.csv")
print(df.head())
Con pandas puedes cargar, limpiar, filtrar, agrupar y transformar datos en pocas líneas de código.
NumPy
NumPy es la biblioteca de cómputo numérico. pandas está construido sobre NumPy. La usarás para operaciones matemáticas rápidas sobre grandes colecciones de números.
import numpy as np
salarios = np.array([18500, 22000, 15000, 27000])
print(np.mean(salarios))
# Resultado: 20625.0
Matplotlib
Matplotlib es la biblioteca base para crear gráficas en Python. Genera gráficas de barras, líneas, histogramas y más.
Seaborn
Seaborn está construido sobre Matplotlib y produce gráficas más estéticas con menos código. Es ideal para visualización exploratoria.
¿Qué tipo de datos vas a analizar?
En este curso trabajarás con datos del contexto mexicano. Los formatos más comunes son:
| Formato | Descripción | Ejemplo |
|---|---|---|
| CSV | Texto separado por comas | Exportación del SAT o IMSS |
| Excel (.xlsx) | Hojas de cálculo | Reportes de nómina |
| JSON | Formato de APIs web | Datos de Mercado Libre |
| SQL | Base de datos relacional | ERP de FEMSA |
Pandas puede leer todos estos formatos. Aprenderás a hacerlo desde la Lección 3.
Perfil profesional: ¿quién usa esto en México?
El analista de datos es uno de los perfiles más demandados en México actualmente. Las áreas que más contratan son:
- Retail y e-commerce: Liverpool, Mercado Libre, Amazon México.
- Alimentos y bebidas: Bimbo, FEMSA, Grupo Lala.
- Finanzas y seguros: BBVA México, GNP, HSBC.
- Gobierno y sector público: SAT, IMSS, dependencias estatales.
Rangos salariales aproximados en México (2024):
| Nivel | Puesto | Salario mensual |
|---|---|---|
| Junior | Analista de datos Jr. | $14,000 – $18,000 |
| Mid | Analista de datos | $20,000 – $26,000 |
| Senior | Data Analyst Senior | $28,000 – $35,000 |
Estos rangos varían según empresa, ciudad y si el puesto es remoto o presencial.
Requisitos previos para este curso
Este curso es de nivel intermedio. Necesitas tener lo siguiente antes de empezar:
- Conocimiento básico de Python (variables, listas, ciclos, funciones).
- Saber qué es un archivo CSV y cómo abrirlo.
- Tener Python 3.8 o superior instalado en tu computadora.
No necesitas experiencia previa con pandas ni con análisis de datos. Eso lo aprenderás aquí.
Errores comunes al comenzar
Error 1: Intentar memorizar la sintaxis desde el inicio. El análisis de datos se aprende practicando, no memorizando. Usa la documentación oficial de pandas cuando no recuerdes un método.
Error 2: Saltar la limpieza de datos. Muchos principiantes quieren llegar rápido a las gráficas. Sin datos limpios, las gráficas mienten. La limpieza es el paso más importante del proceso.
Error 3: Trabajar con archivos originales sin respaldar. Siempre carga los datos desde el archivo original y transforma en memoria. Nunca sobreescribas tu fuente de datos sin respaldo.
Lo que aprenderás en las próximas lecciones
Este curso cubre los siguientes temas en orden lógico:
- Configuración del entorno (Jupyter, pandas, NumPy).
- Carga y exploración de datos con pandas.
- Limpieza de datos sucios.
- Filtrado, agrupación y ordenamiento.
- Transformación y creación de columnas.
- Visualización con Matplotlib y Seaborn.
- Combinación de múltiples fuentes de datos.
- Proyecto final integrador.
Cada lección incluye código ejecutable que puedes copiar y adaptar a tus propios datos.
Puntos clave
- Python es la herramienta estándar para análisis de datos en empresas medianas y grandes de México.
- pandas es la biblioteca central del curso: permite cargar, limpiar, transformar y resumir datos.
- El proceso de análisis tiene seis pasos reproducibles: cargar, explorar, limpiar, transformar, visualizar y comunicar.
- Los analistas de datos en México pueden ganar entre $14,000 y $35,000 al mes según su nivel.
- Este curso es intermedio: necesitas bases de Python, pero no experiencia previa en análisis de datos.