Arquitectura moderna de Data Engineering en Azure con separación de ambientes, procesamiento incremental, SCD Tipo 2 y CI/CD automatizado.
Este proyecto implementa una arquitectura completa de Azure Lakehouse empresarial, simulando un entorno real de Data Engineering con:
- Separación de ambientes (DEV / PROD)
- Arquitectura en capas (Bronze / Silver / Gold)
- Gobierno de datos con Unity Catalog
- Seguridad empresarial
- CI/CD automatizado
- Consumo analítico en Power BI
El objetivo es demostrar un flujo end-to-end, desde la ingesta hasta la visualización, siguiendo estándares modernos de ingeniería de datos.
- Azure Data Factory
- Azure Data Lake Storage Gen2
- Azure Databricks
- Unity Catalog
- Delta Lake
- GitHub Actions
- Azure Key Vault
- Power BI
- 🗄️ SQL Server On-Premise (simulado)
- ☁️ Azure SQL Database
Azure Data Factory
- Pipelines parametrizados
- Separación DEV / PROD
- Carga incremental
- Control dinámico por datasets
- Escritura en formato Delta
Azure Data Lake Storage Gen2
Capa Bronze (Tablas Delta)
- PySpark
- Delta Lake
- Unity Catalog
- MERGE incremental
- Limpieza y estandarización
- Validación de tipos
- Eliminación de duplicados
- Reglas de negocio
- Procesamiento incremental
Se implementó Slowly Changing Dimension Tipo 2 en la dimensión Product con:
- Conservación del historial de cambios
- Columnas
EffectiveFrom - Columnas
EffectiveTo - Indicador
IsCurrent - Versionado automático mediante MERGE
- Trazabilidad histórica completa
- Análisis temporal avanzado
- Diseño orientado a auditoría y reporting corporativo
En esta capa se construyen tablas optimizadas para consumo BI:
- Modelado analítico
- Optimización para consultas
- Preparación para Power BI
- Separación estricta de ambiente PROD
- Azure Key Vault (gestión de secretos)
- Managed Identity
- Access Connector
- RBAC
- Unity Catalog
- Separación DEV / PROD
- GitHub Repositories
- GitHub Actions
- Autenticación OIDC
- ARM Templates
- Databricks Repos
- Versionamiento de notebooks
- Promoción controlada DEV → PROD
- Infraestructura como código
- Automatización de despliegues
Power BI consume exclusivamente datos del entorno PROD.
- Modelo analítico optimizado
- Arquitectura enterprise-ready
- Separación estricta de ambientes
- Arquitectura Medallion
- Procesamiento incremental
- Diseño idempotente
- Parametrización avanzada
- Gobierno de datos
- Seguridad basada en identidad
- Automatización CI/CD
- Enfoque enterprise-ready
Este proyecto representa una implementación completa de una plataforma moderna de datos en Azure, aplicando estándares empresariales de:
- Escalabilidad
- Seguridad
- Gobierno
- Automatización
- Trazabilidad histórica
Simula cómo se construye una solución de Data Engineering lista para producción en un entorno corporativo real.
👤 Autor Yonathan Montenegro Martínez
📅 Fecha Febrero 2026