¡Bienvenido a mi portafolio de proyectos de ingeniería de datos! Este repositorio contiene una colección de pipelines y sistemas de datos que demuestran mis habilidades en la construcción de soluciones de datos robustas, escalables y automatizadas.
- Directorio:
./unified_data_lake_project/
Este proyecto implementa una plataforma de datos completa que ingiere datos de dos fuentes distintas: un flujo de eventos en tiempo real (simulado desde una API de criptomonedas) y cargas batch de archivos CSV históricos. Ambos flujos de datos se procesan y se integran en una única tabla Delta Lake, creando una fuente de verdad unificada y permitiendo análisis completos.
La idempotencia se garantiza en el pipeline batch mediante operaciones MERGE, y todo el entorno es reproducible y se gestiona con Docker.
- Procesamiento: Apache Spark (Structured Streaming y Batch)
- Almacenamiento: Delta Lake sobre un Data Lake (simulado en disco local)
- Mensajería/Streaming: Apache Kafka
- Orquestación: Apache Airflow
- Contenerización: Docker & Docker Compose
- Directorio:
./youtube_trends_pipeline/
Este proyecto implementa un pipeline de datos siguiendo el paradigma ELT (Extract, Load, Transform). El sistema extrae datos sobre las tendencias de YouTube, los carga en un Data Warehouse (PostgreSQL) y luego utiliza dbt (Data Build Tool) para ejecutar transformaciones SQL modelando los datos crudos en tablas analíticas limpias y listas para el consumo (por ejemplo, para un dashboard de BI).
El pipeline está completamente orquestado con Apache Airflow.
- Transformación: dbt (Data Build Tool)
- Orquestación: Apache Airflow
- Data Warehouse: PostgreSQL
- Contenerización: Docker & Docker Compose
- CI/CD: GitHub Actions (para linting de Python)
- Directorio:
./social_sentiment_pipeline/
Sistema completo de ingeniería de datos que captura, procesa y analiza sentimientos de redes sociales en tiempo real. El pipeline ingesta tweets usando la API de Twitter, aplica modelos de Machine Learning para análisis de sentimientos, y proporciona dashboards en tiempo real con métricas y alertas automáticas.
Este proyecto demuestra competencias avanzadas en streaming de datos, ML en producción, y arquitecturas event-driven para casos de uso de monitoreo de marca y análisis de tendencias sociales.
- Ingesta: Twitter API v2 + Python Producer
- Streaming: Apache Kafka + Spark Structured Streaming
- ML: Transformers (BERT/RoBERTa) para análisis de sentimientos
- Almacenamiento: ClickHouse (OLAP optimizado)
- Orquestación: Apache Airflow
- Visualización: Grafana + Dashboards en tiempo real
- Contenerización: Docker & Docker Compose
- Tiempo Real: Procesamiento de tweets en ventanas de segundos
- ML Avanzado: Modelos pre-entrenados de última generación
- Analytics Rápidos: ClickHouse optimizado para consultas analíticas
- Monitoreo: Dashboards con métricas de sentimiento, engagement y trending topics
- Alertas: Notificaciones automáticas por anomalías de sentimiento
- Directorio:
./security_logs_pipeline/
Sistema completo de Security Information and Event Management (SIEM) que procesa logs de seguridad en tiempo real, detecta amenazas usando Machine Learning, y genera alertas automáticas para respuesta rápida a incidentes. El pipeline combina ingeniería de datos con ciberseguridad para crear una solución robusta de monitoreo de seguridad.
Este proyecto demuestra competencias críticas en detección de amenazas, análisis forense, y cumplimiento de normativas de seguridad (PCI-DSS, HIPAA, SOX, GDPR).
- Colección: Filebeat + Logstash (ELK Stack)
- Streaming: Apache Kafka + Apache Storm
- Machine Learning: Scikit-learn + Isolation Forest + LSTM
- SIEM: Elasticsearch + Kibana + Wazuh
- Alertas: ElastAlert + Slack/Email/PagerDuty
- Orquestación: Apache Airflow
- Infraestructura: Docker Compose + Kubernetes ready
- Detección en Tiempo Real: Procesamiento con latencia < 30 segundos
- ML para Seguridad: Isolation Forest y análisis de anomalías
- Alertas Inteligentes: Reducción de falsos positivos con correlación
- Compliance: Cumplimiento automático de normativas de seguridad
- Investigación Forense: Herramientas avanzadas para análisis de incidentes
- Escalabilidad: Arquitectura distribuida para alto volumen de logs
- Detección de Intrusiones: Análisis de logs de firewall y IDS/IPS
- Monitoreo Web: Detección de ataques SQL injection, XSS, CSRF
- Análisis de Autenticación: Detección de ataques de fuerza bruta
- Comportamiento Anómalo: Identificación de actividad sospechosa de usuarios
- Directorio:
./e2e_open_data_pipeline/
Este proyecto es una solución integral de ingeniería de datos que automatiza el ciclo de vida completo de los datos, desde la ingesta de fuentes públicas gubernamentales hasta la visualización analítica. Utiliza Apache Airflow para orquestar un pipeline ETL que extrae datos de incidentes viales de la API de Socrata (Datos Abiertos Colombia), realiza transformaciones y limpieza profunda con Python/Pandas, y almacena los resultados en un Data Warehouse basado en PostgreSQL. Finalmente, los datos se exponen a través de un dashboard interactivo moderno construido con Streamlit, permitiendo el análisis geoespacial y estadístico de la seguridad vial.
- Orquestación: Apache Airflow
- Almacenamiento: PostgreSQL (Data Warehouse)
- Transformación: Python & Pandas
- Visualización: Streamlit + Plotly
- Infraestructura: Docker & Docker Compose
- Ingesta: Socrata Open Data API
- Pipeline Automatizado: Programación periódica y manejo de dependencias.
- Idempotencia: Carga segura mediante estrategias de Upsert (ON CONFLICT DO NOTHING).
- Análisis Espacial: Mapeo interactivo de puntos críticos de accidentalidad.
- KPIs de Negocio: Reporte ejecutivo de gravedad, causas y horarios pico.