Skip to content

Projeto de análise de dados completo, utilizando Excel, SQL, Power BI e Python realizado para o processo seletivo da Comp Jr.

Notifications You must be signed in to change notification settings

Caquizeraa/projeto-analise-de-dados-comp-junior

Repository files navigation

Projeto de Análise de Dados Comp Júnior

Descrição

  • Esse projeto foi desenvolvido para o processo seletivo da Comp Júnior, com intuito de melhorar e demonstrar minhas habilidades na área de ánalise de dados.

Recursos

  • O projeto é composto por 4 etapas, sendo elas Excel, SQL, Power BI e Python.
  • Cada uma das etapas tinha perguntas de négocio individuais sobre alguns dados que nos foram enviados.

Etapas

Descrição de cada etapa do projeto:

1. Excel

Foram enviadas 10 perguntas de négocio ou formatação, juntamente com os dados, em uma planilha que você pode encontrar aqui.

  • Para as perguntas de formatação: foi utilizada a função substituir do excel.
  • Para as perguntas de negócio: foram utilizadas tabelas dinâmicas ou fórmulas simples de média e contagem.

Cada resposta está em uma página da planilha de respostas.

2. SQL

Recebi os dados em SqlLite e as seguintes perguntas:

1: Qual é a receita total gerada por categoria de produto? Resposta:

2: Qual é o tempo médio de entrega dos produtos, por estado? Resposta:

3: Quais são os top 10 clientes em termos de valor gasto (aqueles que gastaram mais)? Resposta:

4: Qual a variação percentual das vendas mensais, comparado ao mês anterior, por categoria? Resposta:

5: Quais os 5 vendedores que têm o maior número de pedidos cancelados? Resposta:

6: Quais os estados que tiveram a maior relação “Número de Pedidos”/”Tempo médio de entrega”? Resposta:

Para todas as perguntas foram criadas queries sql com seleções, uniões e agrupamentos básicos, buscando sempre uma tabela que respondesse às perguntas.

3. Power BI

Utilizando os mesmos dados, foi feito um dashboard em Power BI, com as seguintes exigências:

Gráficos

  • Gráfico de Barras com as vendas totais por mês.
  • Gráfico de Linhas com o valor do pedido médio (AOV - Average Order Value) ao longo do tempo.
  • Gráfico de Pizza com o valor total de pedidos por gênero.
  • Gráfico de linha com a performance de vendas por região ao longo do tempo.
  • Indicador com o total de vendas por ano.
  • Indicador com a taxa média de frete.
  • Indicador com o número total de produtos vendidos (quantidade de produtos vendidos).

Filtros

  • Por Data (Seleção de intervalo de datas (dia, mês, ano))
  • Por Categoria de Produto (lista dropdown)
  • Por vendedor (lista dropdown com o nome ou ID dos vendedores)
  • Por região (lista dropdown com as regiões de entrega)

O dashboard final ficou com 3 cartões fixos, correspondentes aos indicadores pedidos.
Ele também conta com 6 seletores fixos, para cada um dos filtros.
Os outros 4 gráficos, estão dividos em 3 páginas diferente do dashboard.

Vale ressaltar que nos dados recebidos, não havia informações sobre região, apenas estado. Portanto realizei um WebScrapping em um site com uma tabela de estados e regiões, que você pode acesssar aqui.

Lembrando também que não haviam informações sobre gênero (masulino, femenino, entre outros) nos dados. Portanto interpretei como gênero, a categoria de cada produto.

O link público de acesso ao dashboard é:
https://app.powerbi.com/view?r=eyJrIjoiNjljOTcyZDYtNWExYi00NDQ0LWI1NjItNjg0MzYyMGRhYzBjIiwidCI6IjkxZDViYjA2LTY5NzAtNDQ2OC1hZTRjLTZmZjRjYWY5OTQyMyJ9

4. Python

Foi enviado o seguinte Notebook, com vários exercícios, baseadas nos dados das seguintes tabelas.

Exercício 1:

Na sua primeira tarefa como analista de dados na Comp Júnior, você precisa combinar informações de diferentes fontes para uma visão holística.
Carregue os datasets de clientes, pedidos e produtos usando o Pandas e crie um único DataFrame unificando esses dados por suas chaves relevantes (customer_id, order_id).
Apresente as primeiras cinco linhas do DataFrame resultante para verificação e atribua os seguintes nomes às respectivas tabelas:

olist_customers_dataset: customer_df
olist_orders_dataset: orders_df
olist_order_items_dataset: items_df
Tabela única: df

Exercício 2:

Dados precisos são cruciais para uma análise eficaz. Identifique e trate valores ausentes ou duplicados nos datasets de clientes e pedidos.         
Explique sua abordagem e justifique as decisões tomadas para o tratamento desses dados.

Exercício 3:

Como parte do seu relatório mensal, você precisa fornecer um resumo estatístico dos preços dos produtos. 
Utilize o método describe() do Pandas para detalhar a distribuição dos preços, destacando possíveis outliers e sua possível influência no cálculo da média.

Exercício 4:

A eficiência logística é vital para a satisfação do cliente. 
Adicione uma coluna ao DataFrame de pedidos que calcule o número de dias entre a data de compra e a data de entrega. Discuta como variações nesse prazo podem impactar a percepção do cliente.

Exercício 5:

Visualizações claras podem revelar tendências que antes não eram possíveis de serem capturadas. Crie um gráfico de barras vertical que mostre o volume de vendas mensal por estado. 
Use essa visualização para identificar quais estados apresentaram maior crescimento no último ano.

Exercício 6:

Para incentivar uma competição saudável entre os vendedores, você decide analisar o desempenho individual. 
Calcule e visualize o total de vendas por vendedor usando um gráfico de barras horizontal no Matplotlib, destacando o vendedor com maior volume de vendas.

Exercício 7:

Entender a dinâmica de preços é crucial para estratégias de marketing. 
Utilize Numpy para calcular a média, mediana e desvio padrão dos preços dos produtos, discutindo como essas métricas podem ajudar na definição de estratégias de precificação.

Exercício 8:

A precisão nas previsões de entrega é um indicador chave de desempenho logístico. 
Desenvolva um método para comparar as datas estimadas e reais de entrega, identificando padrões de atrasos ou adiantamentos nas entregas. 
Faça um gráfico de linhas com o tempo médio de atraso por semana ao longo do tempo. O eixo y deve ser o tempo médio de atraso (em dias) e o eixo x as semanas do ano.

Exercício 9:

Investigue a relação entre o valor do frete e o preço dos produtos. 
Calcule a correlação entre esses dois fatores e crie um scatter plot para visualizar essa relação, discutindo como isso pode afetar as decisões de frete grátis.

Exercício 10:

Análises de feedback de clientes são essenciais para melhorias. 
Agrupe os dados de pedidos por avaliação média e calcule o volume de vendas para cada grupo, usando um gráfico de linha para mostrar a tendência de vendas em relação às avaliações.

Exercício 11:

Com o fim do mês se aproximando, você precisa preparar e exportar os dados analisados para um relatório em formato CSV. 
Exporte o DataFrame final que inclui todos os dados e cálculos realizados, garantindo que esteja pronto para uso em outros softwares de análise.

Para responder às perguntas utilizei as bibliotecas Pandas, Numpy, Matplotlib e Seaborn.

Observação: para o exercício 10, houve a necessidade de utilizar a tabela de reviews, envidada nas etaps de SQL e Power BI.

Conclusão

  • O projeto me auxiliou no desenvolvimento de habilidades na Ánalise de Dados. Por meio deste projeto, é visível a importância desta área na tomada de decisões, seja no âmbito pessoal ou profissional.

Desenvolvido por Isac Gonçalves Cunha

About

Projeto de análise de dados completo, utilizando Excel, SQL, Power BI e Python realizado para o processo seletivo da Comp Jr.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published