Skip to content

yomod290/End_to_End_Adventureworks

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

39 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

LinkedIn GitHub Notion Project Notion Portafolio Azure Databricks PySpark

🚀 Proyecto End-to-End AdventureWorks Lakehouse (DEV / PROD)

Arquitectura moderna de Data Engineering en Azure con separación de ambientes, procesamiento incremental, SCD Tipo 2 y CI/CD automatizado.


image

📌 1. Descripción General

Este proyecto implementa una arquitectura completa de Azure Lakehouse empresarial, simulando un entorno real de Data Engineering con:

  • Separación de ambientes (DEV / PROD)
  • Arquitectura en capas (Bronze / Silver / Gold)
  • Gobierno de datos con Unity Catalog
  • Seguridad empresarial
  • CI/CD automatizado
  • Consumo analítico en Power BI

El objetivo es demostrar un flujo end-to-end, desde la ingesta hasta la visualización, siguiendo estándares modernos de ingeniería de datos.


🏗️ 2. Arquitectura de la Solución

🔹 Componentes Utilizados

  • Azure Data Factory
  • Azure Data Lake Storage Gen2
  • Azure Databricks
  • Unity Catalog
  • Delta Lake
  • GitHub Actions
  • Azure Key Vault
  • Power BI

🗂️ 3. Fuentes de Datos

  • 🗄️ SQL Server On-Premise (simulado)
  • ☁️ Azure SQL Database

🥉 4. Ingesta de Datos – Capa Bronze

🔧 Servicio Utilizado

Azure Data Factory

✔ Características Implementadas

  • Pipelines parametrizados
  • Separación DEV / PROD
  • Carga incremental
  • Control dinámico por datasets
  • Escritura en formato Delta

📦 Almacenamiento

Azure Data Lake Storage Gen2
Capa Bronze (Tablas Delta)


🥈 5. Procesamiento y Transformación – Capa Silver

⚙️ Tecnología Utilizada

  • PySpark
  • Delta Lake
  • Unity Catalog
  • MERGE incremental

🧹 Procesos Aplicados

  • Limpieza y estandarización
  • Validación de tipos
  • Eliminación de duplicados
  • Reglas de negocio
  • Procesamiento incremental

🔁 Implementación SCD Tipo 2

Se implementó Slowly Changing Dimension Tipo 2 en la dimensión Product con:

  • Conservación del historial de cambios
  • Columnas EffectiveFrom
  • Columnas EffectiveTo
  • Indicador IsCurrent
  • Versionado automático mediante MERGE

🎯 Resultado

  • Trazabilidad histórica completa
  • Análisis temporal avanzado
  • Diseño orientado a auditoría y reporting corporativo

🥇 6. Capa Gold – Modelo Analítico

En esta capa se construyen tablas optimizadas para consumo BI:

  • Modelado analítico
  • Optimización para consultas
  • Preparación para Power BI
  • Separación estricta de ambiente PROD

🔐 7. Seguridad y Gobierno

🛡️ Implementaciones

  • Azure Key Vault (gestión de secretos)
  • Managed Identity
  • Access Connector
  • RBAC
  • Unity Catalog
  • Separación DEV / PROD

🔄 8. CI/CD y Automatización

🔧 Herramientas

  • GitHub Repositories
  • GitHub Actions
  • Autenticación OIDC
  • ARM Templates
  • Databricks Repos

🚀 Capacidades Logradas

  • Versionamiento de notebooks
  • Promoción controlada DEV → PROD
  • Infraestructura como código
  • Automatización de despliegues

📊 9. Consumo Analítico

Power BI consume exclusivamente datos del entorno PROD.

✔ Características

  • Modelo analítico optimizado
  • Arquitectura enterprise-ready
  • Separación estricta de ambientes

🧠 10. Buenas Prácticas Aplicadas

  • Arquitectura Medallion
  • Procesamiento incremental
  • Diseño idempotente
  • Parametrización avanzada
  • Gobierno de datos
  • Seguridad basada en identidad
  • Automatización CI/CD
  • Enfoque enterprise-ready

🏁 11. Conclusión

Este proyecto representa una implementación completa de una plataforma moderna de datos en Azure, aplicando estándares empresariales de:

  • Escalabilidad
  • Seguridad
  • Gobierno
  • Automatización
  • Trazabilidad histórica

Simula cómo se construye una solución de Data Engineering lista para producción en un entorno corporativo real.


👤 Autor Yonathan Montenegro Martínez


📅 Fecha Febrero 2026


Releases

No releases published

Packages

 
 
 

Contributors