Skip to content
View bssju's full-sized avatar

Block or report bssju

Block user

Prevent this user from interacting with your repositories and sending you notifications. Learn more about blocking users.

You must be logged in to block users.

Maximum 250 characters. Please don’t include any personal information such as legal names or email addresses. Markdown is supported. This note will only be visible to you.
Report abuse

Contact GitHub support about this user’s behavior. Learn more about reporting abuse.

Report abuse
bssju/README.md

Habilidades

Linguagens e Ferramentas
Python · SQL · Power BI · Excel · Git · Docker

Bibliotecas e Frameworks
Pandas · NumPy · Scikit-learn · Matplotlib · Seaborn · LightGBM · Keras · NLTK · Gensim · Optuna · pymoo · MLflow · FastAPI · Evidently · DoWhy · EconML · SciPy · PuLP

Métodos
Análise Exploratória de Dados · Engenharia de Features · Classificação · Regressão · Processamento de Linguagem Natural · Métodos Ensemble · Otimização Bayesiana · Otimização Multiobjetivo · Análise de Pareto · ML em Produção · Rastreamento de Experimentos · Monitoramento de Deriva de Dados · Visualização de Dados · ETL · DAX / Power Query · Inferência Causal · Modelagem de DAG Causal · Propensity Score Matching · Double Machine Learning · Efeitos Heterogêneos de Tratamento · Modelagem de Atribuição · Valores de Shapley · Otimização de Budget · Programação Linear Inteira · Quimiometria · Pré-processamento Espectral · Regressão PLS · Validação Cruzada K-Fold


Projetos

Projeto Descrição Ferramentas
Qual Canal Realmente Converte? — Modelagem de Atribuição e Otimização de Budget de Mídia Comparação de quatro modelos de atribuição em canais de mídia paga. O Last-Click supervalorizou o Google Search e ignorou o Display. Com atribuição correta e otimização de alocação, o retorno esperado aumenta 14,3% sem investimento adicional. Python, SciPy, PuLP, Scikit-learn, Valores de Shapley
Hora Extra Aumenta a Rotatividade? — Análise de Inferência Causal Análise para determinar se a hora extra causa diretamente a rotatividade de funcionários ou se outros fatores, como nível do cargo e salário, explicam a relação. Com três métodos independentes de estimação causal, o efeito direto da hora extra sobre a rotatividade foi de +21,1% — confirmado em testes de robustez. Python, DoWhy, EconML
   1. Modelo Base — Regressão com LightGBM Modelo para prever preços de venda de imóveis com base em 236 características. Inclui limpeza de dados, criação de novas variáveis (área total, idade do imóvel, histórico de reforma) e ajuste de hiperparâmetros. Resultado: RMSLE de 0,12949 no Kaggle. Python, LightGBM, Scikit-learn, Pandas, Engenharia de Features, GridSearchCV
   2. Otimização do Modelo — Busca de Hiperparâmetros e Seleção de Features Extensão do modelo base com busca inteligente de hiperparâmetros (80 tentativas) e seleção multiobjetivo de features. Redução de 65% das features com perda mínima de precisão. Melhoria de 3,96% no resultado. Python, LightGBM, Optuna, pymoo, Scikit-learn
   3. Modelo em Produção — API, Versionamento e Monitoramento Etapa final da série: modelo treinado, registrado com versionamento, servido via API REST e monitorado para deriva de dados ao longo do tempo. Toda a infraestrutura roda em contêineres Docker. RMSLE: 0,12436. Python, LightGBM, FastAPI, MLflow, Docker, Evidently
Dashboard de Vendas — Análise de 8.800 Oportunidades no Power BI Dashboard interativo construído a partir de dados reais de CRM com 8.800 oportunidades de vendas. Modelagem de 4 tabelas, criação de métricas e visualizações de receita, taxa de conversão (63%) e desempenho por vendedor, produto e região. Power BI, DAX, Power Query
Identificação de Tweets sobre Desastres — Modelo de Classificação com NLP Modelo para classificar automaticamente se um tweet relata um desastre real ou não. Inclui limpeza de texto, extração de features linguísticas e combinação de três algoritmos ensemble. Resultado: F1-Score de 0,80 no Kaggle. Python, NLTK, Gensim, Word2Vec, Scikit-learn
Reconhecimento de Dígitos Manuscritos — Rede Neural com 98% de Acurácia Rede neural treinada para identificar dígitos manuscritos (0–9) a partir de imagens. Inclui aumento de dados para melhorar a generalização e técnicas de regularização para evitar overfitting. Resultado: 98% de acurácia no Kaggle. Python, Keras, TensorFlow
Modelagem Preditiva de Espectros ATR-FTIR — Predição Quantitativa de Concentração Comparação de quatro modelos de regressão (Ridge, PLS, SVR, LightGBM) para prever a concentração de duas soluções a partir de espectros ATR-FTIR, substituindo métodos analíticos convencionais. Melhor resultado: R² de 0,85 (PROP_C) e 0,77 (PROP_G). Python, Scikit-learn, LightGBM, SciPy, NumPy

Formação

Grau Instituição Período
MBA — Ciência de Dados, Inteligência Artificial e Analytics USP/Esalq 2026 – 2027 (em andamento)
Especialização — Ciência de Dados Unicamp 2026 – 2027 (em andamento)
Pós-Doutorado — Química Analítica USP / IFSC 2022 – 2023
Doutorado — Ciências USP / IQSC 2018 – 2022
Bacharelado — Química USP / IQSC 2013 – 2017

Certificações

  • Certificado Profissional em Análise de Dados do Google (2026)
  • CDPO 3ª ed. Estatística e Otimização para Ciência de Dados e Pesquisa Operacional — ICMC/USP
  • Engenharia de Prompt para Engenheiros de Software — MBA USP/Esalq
  • Introdução ao Machine Learning com Python — MBA USP/Esalq
  • Python: Do Básico ao Avançado com Estudos de Caso — ICMC/USP
  • 9ª Escola Avançada de Big Data Analysis — ICMC/USP
  • Análise de Dados | Primeiros passos em Python — PrograMaria
  • Séries Temporais, Engenharia de Features, Introdução a Deep Learning, Machine Learning Intermediário, Introdução ao Machine Learning, Pandas, Python — Kaggle

Contato

LinkedIn · buratojuliana@gmail.com

Popular repositories Loading

  1. 1-construcao-do-modelo-base-regressao 1-construcao-do-modelo-base-regressao Public

    Modelo para prever o preço de venda de casas com base em 236 características do imóvel. Incluiu limpeza de dados, criação de novas variáveis (área total, idade da casa, histórico de reformas) e aju…

    Jupyter Notebook

  2. reconhecimento-de-digitos-manuscritos reconhecimento-de-digitos-manuscritos Public

    Rede neural treinada para identificar dígitos escritos à mão (0 a 9) a partir de imagens. Incluiu aumento de dados para melhorar a generalização e técnicas de regularização para evitar overfitting.…

    Jupyter Notebook

  3. titanic-kaggle titanic-kaggle Public

    Classificação binária com Random Forest para prever sobrevivência no Titanic. Acurácia de 78% no Kaggle. Técnicas: Feature Engineering, GridSearchCV, Cross-Validation.

    Jupyter Notebook

  4. dashboard-de-vendas dashboard-de-vendas Public

    Dashboard interativo construído a partir de dados reais de CRM com 8.800 oportunidades de venda. Modelagem de 4 tabelas, criação de métricas e visualizações de receita, taxa de conversão (63%) e pe…

  5. identificacao-de-tweets-sobre-desastres-reais identificacao-de-tweets-sobre-desastres-reais Public

    Modelo para classificar automaticamente se um tweet trata de um desastre real ou não. Incluiu limpeza de texto, extração de características linguísticas e combinação de três algoritmos em conjunto.…

    Jupyter Notebook

  6. bssju bssju Public