Skip to content

PArthur006/Estudos-Engenharia_de_Dados

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

52 Commits
 
 
 
 
 
 
 
 

Repository files navigation

🚀 Engenharia e Segurança de Dados | Estudos e Projetos

Este repositório documenta minha jornada de estudos em Engenharia e Segurança de Dados, e Infraestrutura em Nuvem, com o objetivo de construir uma base de conhecimento sólida e aplicada. Os frutos dessas anotações e projetos incluem documentações, blogs, vídeos no YouTube e inteligências artificiais, todos unidos para que eu aprenda e desenvolva melhor os assuntos observados.


🎯 Motivação e Objetivo Principal

Este repositório consolida scripts, anotações de arquitetura e projetos práticos focados em Engenharia de Dados Moderna, Segurança da Informação e Infraestrutura em Nuvem. O objetivo técnico não é apenas movimentar dados, mas construir pipelines de extração, transformação e carga (ETL/ELT) que sejam performáticos, escaláveis na nuvem e, acima de tudo, seguros desde a ingestão.


📂 Estrutura do Repositório

  • 📂 01-Fundamentos_de_Engenharia_e_Big_Data: Fundamentos da Engenharia de Dados e conceitos de Big Data.
  • 📂 02-Linguagens_SQL_e_Python: Domínio das linguagens base para Engenharia de Dados.
  • 📂 03-Integracao_de_Dados_e_Pipelines_Iniciais: Construção de pipelines ETL/ELT e integração de dados.
  • 📂 04-Arquitetura_Armazenamento_e_Modelagem_de_Dados: Modelagem de dados e arquiteturas de armazenamento.
  • 📂 05-Big_Data_Computacao_Distribuida_e_Nuvem: Processamento de Big Data e computação em nuvem.
  • 📂 06-Streaming_DataOps_Governanca_e_Arquitetura: Processamento em streaming, DataOps e governança.

📂Extras:

  • 📂 AWS_Cloud_Practitioner: Anotações de estudos para a certificação AWS Cloud Practitioner.
  • 📂 Data_Analysis_for_Google: Anotações de estudo do curso para Certificação de Análise de Dados do Google.
  • 📂 Oracle_Data_Platform_Foundations_Associate: Anotações de estudos para a certificação Oracle.

🗺️ Trilha de Aprendizado

Bloco 1: Fundamentos da Engenharia de Dados e Big Data (Iniciante)

  • O Ciclo de Vida da Engenharia de Dados: Geração, Armazenamento, Ingestão, Transformação e Disponibilização dos dados.
  • Conceitos de Big Data: Estudo dos 5 V's fundamentais: Volume, Velocidade, Variedade, Veracidade e Valor.
  • Diferenciação de Papéis: Engenharia de dados, ciência de dados e análise de dados (BI).
  • Tipos de Dados e Bancos Base: Dados estruturados, semiestruturados e não estruturados; bancos relacionais e não relacionais.

Bloco 2: Domínio das Linguagens Base - SQL e Python (Júnior)

  • SQL: Comandos DDL, DML, DCL e TCL; filtros, funções de agregação, agrupamentos, JOINs, Views, Procedures e Triggers.
  • Python: Lógica de programação, manipulação de arquivos locais (TXT, CSV, JSON) e automação de tarefas.

Bloco 3: Integração de Dados (ETL/ELT) e Pipelines Iniciais (Júnior a Pleno)

  • ETL vs ELT: Diferenças e aplicações práticas.
  • Construção de Pipelines Visuais: Ferramentas como Pentaho Data Integration.
  • Integrações Práticas: Conexão com bancos, ingestão de dados e consumo de APIs.

Bloco 4: Arquitetura, Armazenamento e Modelagem de Dados (Pleno)

  • Paradigmas de Armazenamento: Data Warehouses, Data Lakes e Data Lakehouses.
  • Formatos Otimizados: Parquet, ORC e Avro.
  • Técnicas de Modelagem Analítica: Metodologias de Inmon, Kimball e Data Vault.
  • Princípios de Boa Arquitetura: Planejamento para falhas, elasticidade e modularidade.

Bloco 5: Big Data, Computação Distribuída e Nuvem (Pleno a Sênior)

  • Ecossistema Big Data: Computação distribuída e em memória.
  • Apache Spark e PySpark: Processamento paralelo massivo.
  • Cloud Computing e Databricks: Processamento em nuvem e Delta Lakes.

Bloco 6: Streaming, DataOps, Governança e Tendências Arquiteturais (Sênior)

  • Processamento em Streaming: Apache Kafka e plataformas de eventos.
  • DataOps e Orquestração Avançada: CI/CD, observabilidade e Apache Airflow.
  • Governança e Segurança: Qualidade de Dados, segurança zero trust e conformidade regulatória.
  • Padrões Modernos: Data Mesh e ETL Reverso.

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors