Este repositório documenta minha jornada de estudos em Engenharia e Segurança de Dados, e Infraestrutura em Nuvem, com o objetivo de construir uma base de conhecimento sólida e aplicada. Os frutos dessas anotações e projetos incluem documentações, blogs, vídeos no YouTube e inteligências artificiais, todos unidos para que eu aprenda e desenvolva melhor os assuntos observados.
Este repositório consolida scripts, anotações de arquitetura e projetos práticos focados em Engenharia de Dados Moderna, Segurança da Informação e Infraestrutura em Nuvem. O objetivo técnico não é apenas movimentar dados, mas construir pipelines de extração, transformação e carga (ETL/ELT) que sejam performáticos, escaláveis na nuvem e, acima de tudo, seguros desde a ingestão.
- 📂
01-Fundamentos_de_Engenharia_e_Big_Data: Fundamentos da Engenharia de Dados e conceitos de Big Data. - 📂
02-Linguagens_SQL_e_Python: Domínio das linguagens base para Engenharia de Dados. - 📂
03-Integracao_de_Dados_e_Pipelines_Iniciais: Construção de pipelines ETL/ELT e integração de dados. - 📂
04-Arquitetura_Armazenamento_e_Modelagem_de_Dados: Modelagem de dados e arquiteturas de armazenamento. - 📂
05-Big_Data_Computacao_Distribuida_e_Nuvem: Processamento de Big Data e computação em nuvem. - 📂
06-Streaming_DataOps_Governanca_e_Arquitetura: Processamento em streaming, DataOps e governança.
- 📂
AWS_Cloud_Practitioner: Anotações de estudos para a certificação AWS Cloud Practitioner. - 📂
Data_Analysis_for_Google: Anotações de estudo do curso para Certificação de Análise de Dados do Google. - 📂
Oracle_Data_Platform_Foundations_Associate: Anotações de estudos para a certificação Oracle.
- O Ciclo de Vida da Engenharia de Dados: Geração, Armazenamento, Ingestão, Transformação e Disponibilização dos dados.
- Conceitos de Big Data: Estudo dos 5 V's fundamentais: Volume, Velocidade, Variedade, Veracidade e Valor.
- Diferenciação de Papéis: Engenharia de dados, ciência de dados e análise de dados (BI).
- Tipos de Dados e Bancos Base: Dados estruturados, semiestruturados e não estruturados; bancos relacionais e não relacionais.
- SQL: Comandos DDL, DML, DCL e TCL; filtros, funções de agregação, agrupamentos, JOINs, Views, Procedures e Triggers.
- Python: Lógica de programação, manipulação de arquivos locais (TXT, CSV, JSON) e automação de tarefas.
- ETL vs ELT: Diferenças e aplicações práticas.
- Construção de Pipelines Visuais: Ferramentas como Pentaho Data Integration.
- Integrações Práticas: Conexão com bancos, ingestão de dados e consumo de APIs.
- Paradigmas de Armazenamento: Data Warehouses, Data Lakes e Data Lakehouses.
- Formatos Otimizados: Parquet, ORC e Avro.
- Técnicas de Modelagem Analítica: Metodologias de Inmon, Kimball e Data Vault.
- Princípios de Boa Arquitetura: Planejamento para falhas, elasticidade e modularidade.
- Ecossistema Big Data: Computação distribuída e em memória.
- Apache Spark e PySpark: Processamento paralelo massivo.
- Cloud Computing e Databricks: Processamento em nuvem e Delta Lakes.
- Processamento em Streaming: Apache Kafka e plataformas de eventos.
- DataOps e Orquestração Avançada: CI/CD, observabilidade e Apache Airflow.
- Governança e Segurança: Qualidade de Dados, segurança zero trust e conformidade regulatória.
- Padrões Modernos: Data Mesh e ETL Reverso.