Este repositório contém a resolução da avaliação prática sobre análise de dados do WhatsApp utilizando Python, PostgreSQL e ferramentas de análise estatística e visualização de dados. Esta solução demonstra habilidades técnicas em banco de dados, manipulação de dados, análise estatística, visualização e machine learning, sendo uma excelente demonstração para recrutadores e profissionais da área.
analisys.ipynb: Jupyter Notebook com todo o código da análise solicitada na avaliação.
- Restaurar o arquivo dump
fd_whatsapp_0911_2023.dumpno PostgreSQL. - Remover trava-zaps.
- Eliminar duplicatas e textos com menos de 5 palavras.
- Para Atributos Numéricos:
- Medidas de tendência central, variabilidade, tabelas de frequência, histogramas, boxplots, QQ-plots e teste de normalidade.
- Melhor distribuição ajustada (best fit distribution).
- Para Pares de Atributos Numéricos:
- Coeficientes de correlação e gráficos de dispersão.
- Para Pares de Atributos Categóricos:
- Método V de Cramer para análise de correlação.
Foram criadas diversas visualizações para apresentar a relação entre diferentes métricas, incluindo:
- Quantidades de grupos, usuários e mensagens.
- Quantidade de mensagens de texto vs. com mídia.
- Análise de tipos de mídia e estado/country.
- Visualizações detalhadas de URLs, usuários ativos, domínios mais compartilhados e muito mais.
- Nuvem de palavras e análise de sentimentos (mensagens positivas/negativas).
- Proporções de desinformação e mensagens virais.
- Python: Para manipulação e análise dos dados (pandas, numpy, scipy).
- PostgreSQL: Banco de dados relacional para restaurar e manipular o dump.
- Seaborn/Matplotlib: Para visualização de dados.
- Scikit-learn: Para testes de normalidade e análises de correlação.
- Statmodels: Para ajustes de distribuição.
- NLTK: Processamento de linguagem natural (nuvem de palavras e trigramas).
- Jupyter Notebook: Para estruturação e execução do código.
- Identificação de mensagens mais compartilhadas e URLs mais frequentes.
- Análise dos sentimentos predominantes em diferentes regiões.
- Insights detalhados sobre padrões de compartilhamento de mídia vs. texto.
- Distribuições detalhadas por dia, hora, estado e país.
- Correlação entre mensagens e variáveis como número de palavras e desinformação.
- Python 3.x
- PostgreSQL (com a instalação do dump)
- Instalar dependências:
pip install -r requirements.txt
- Clone o repositório.
git clone https://github.com/Victhors/avaliacao-pescoco-grosso.git
- Restaure o dump no PostgreSQL.
pg_restore -U usuario -d database data/fd_whatsapp_0911_2023.dump
- Abra o Jupyter Notebook.
jupyter notebook analisys.ipynb
Para mais informações ou dúvidas entre em contato.