Apostila VIP - Aula 3 (Versão PDF

O que vamos aprender:
utilizar a bilioteca Pandas - a mais utilizada no mundo para análise de dados

carregar dados de um arquivo Excel
fazer análise exploratória nos dados
gerar estatísticas das colunas quantitativas
gerar gráficos interativos
Projeto da aula:
Realizar uma análise de dados sobre uma base de 70.000 linhas de uma rede de lojas de venda de
Açaí.
Carregando os dados do arquivo Excel
Importando a biblioteca
A biblioteca Pandas já vem pré-instalada no Anaconda, então só precisamos importá-la.
In [1]: import pandas as pd
In [2]: # lendo os dados (nesse código, o arquivo Excel precisa estar na mesma pasta)
dados = pd.read_excel("vendas.xlsx")
Análise Exploratória
Verificando se os dados foram carregados corretamente

Para verificar se os dados foram carregados corretamente, podemos utilizar dois métodos do Pandas:
head(): mostra as primeiras linhas do conjunto de dados

tail(): mostra as últimas linhas do conjunto de dados
In [3]: dados.head()
Out[3]: id_pedido data loja cidade estado regiao tamanho local_consumo preco forma_pagamento ano_m
2021- Loja São

0 PED1 Santos Sudeste 200ml Delivery 5 Crédito 2021-
06-21 4 Paulo
1 PED2 2021- Loja Niterói Rio de Sudeste 200ml Consumo no 5 Pix 2021-
04-17 2 Janeiro local
2022- Loja
2 PED3 Fortaleza Ceará Nordeste 500ml Delivery 9 Pix 2022-
12-12 1
2022- Loja Rio de Consumo no

3 PED4 Niterói Sudeste 300ml 7 Débito 2022-
2022- Loja São

4 PED5 Santos Sudeste 700ml Delivery 11 Débito 2022-
11-28 4 Paulo
In [4]: dados.tail()
Out[4]: id_pedido data loja cidade estado regiao tamanho local_consumo preco forma_pagamento
2020- Loja São Consumo no

69995 PED69996 São Paulo Sudeste 300ml 7 Dinheiro
12-03 5 Paulo local
2021- Loja Santa Consumo no

69996 PED69997 Florianópolis Sul 700ml 11 Pix
06-01 6 Catarina local
2022- Loja Santa

69997 PED69998 Florianópolis Sul 700ml Delivery 11 Dinheiro
07-14 6 Catarina
2021- Loja Santa Consumo no

69998 PED69999 Florianópolis Sul 500ml 9 Pix
06-01 6 Catarina local
2022- Loja Rio de Consumo no

69999 PED70000 Niterói Sudeste 700ml 11 Dinheiro
Quantidade de linhas e colunas

Podemos usar a propriedade shape para verificar a quantidade de linhas e colunas. O primeiro valor é a
quantidade de linhas e o segundo a de colunas.
In [5]: dados.shape
(70000, 11)
Out[5]:
Informações sobre as colunas

O Pandas tem um método muito poderoso para gerar informações importantes sobre o conjunto de
dados:info().
In [6]: dados.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 70000 entries, 0 to 69999
Data columns (total 11 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 id_pedido 70000 non-null object
1 data 70000 non-null datetime64[ns]
2 loja 70000 non-null object
3 cidade 70000 non-null object
4 estado 70000 non-null object
5 regiao 70000 non-null object
6 tamanho 70000 non-null object
7 local_consumo 70000 non-null object
8 preco 70000 non-null int64
9 forma_pagamento 70000 non-null object
10 ano_mes 70000 non-null object
dtypes: datetime64[ns](1), int64(1), object(9)
memory usage: 5.9+ MB
Gerando estatísticas
O método describe() gera estatísticas sobre todas as colunas quantitativas.
In [7]: dados.describe()
Out[7]: preco
count 70000.000000
mean 9.009571
std 2.831874
min 5.000000
25% 7.000000
50% 9.000000
75% 11.000000
max 13.000000
Acessando uma coluna

Para acessar uma coluna, podemos utilizar a notação de colchetes, passando o nome da coluna desejada.
Caso o nome da coluna não possua espaços em branco de nem caracteres especiais, podemos acessar
também com a notação de ponto.
In [8]: dados['loja']
0 Loja 4
Out[8]:
1 Loja 2
2 Loja 1
3 Loja 2
4 Loja 4
...
69995 Loja 5
69996 Loja 6
69997 Loja 6
69998 Loja 6
69999 Loja 2
Name: loja, Length: 70000, dtype: object
In [9]: dados.loja
0 Loja 4
Out[9]:
1 Loja 2
2 Loja 1
3 Loja 2
4 Loja 4
...
69995 Loja 5
69996 Loja 6
69997 Loja 6
69998 Loja 6
69999 Loja 2
Name: loja, Length: 70000, dtype: object
Obtendo os únicos de uma coluna

Para obter os valores únicos de uma coluna, utilizamos o método unique().
In [10]: dados['loja'].unique()
array(['Loja 4', 'Loja 2', 'Loja 1', 'Loja 6', 'Loja 3', 'Loja 5'],
Out[10]:
dtype=object)
Contagem de valores
Para fazer a contagem de valores de uma coluna, podemos utilizar o método value_counts().
Podemos obter também o valor relativo, utilizando o parâmetro normalize=True.
In [11]: dados['loja'].value_counts()
Loja 6 16648
Out[11]:
Loja 3 12367
Loja 1 12344
Loja 5 12177
Loja 2 8318
Loja 4 8146
Name: loja, dtype: int64
In [12]: dados['loja'].value_counts(normalize=True)
Loja 6 0.237829
Out[12]:
Loja 3 0.176671
Loja 1 0.176343
Loja 5 0.173957
Loja 2 0.118829
Loja 4 0.116371
Name: loja, dtype: float64
Agrupando dados
O método groupby() realiza o agrupamento de dados por determinada coluna.
Sempre que utilizarmos o groupby(), precisamos definir o método de agregação que será usado.
In [13]: # faturamento por loja

dados.groupby('loja').sum()
Out[13]: preco
loja
Loja 1 111042
Loja 2 74700
Loja 3 111709
Loja 4 73598
Loja 5 109393
Loja 6 150228
In [14]: # média de faturament por loja (ticket médio)
dados.groupby('loja').mean()
Out[14]: preco
loja
Loja 1 8.995625
Loja 2 8.980524
Loja 3 9.032829
Loja 4 9.034864
Loja 5 8.983576
Loja 6 9.023787
Gráficos
Instalando e importando a biblioteca de gráficos

Para gerar os gráficos vamos utilizar a biblioteca Plotly Express.
In [15]: !pip install plotly_express

Requirement already satisfied: plotly_express in c:\users\vinil\anaconda3\envs\datascien
ce\lib\site-packages (0.4.1)
Requirement already satisfied: numpy>=1.11 in c:\users\vinil\anaconda3\envs\datascience
\lib\site-packages (from plotly_express) (1.23.3)
Requirement already satisfied: pandas>=0.20.0 in c:\users\vinil\anaconda3\envs\datascien
ce\lib\site-packages (from plotly_express) (1.4.4)
Requirement already satisfied: scipy>=0.18 in c:\users\vinil\anaconda3\envs\datascience
\lib\site-packages (from plotly_express) (1.9.3)
Requirement already satisfied: statsmodels>=0.9.0 in c:\users\vinil\anaconda3\envs\datas
cience\lib\site-packages (from plotly_express) (0.13.5)
Requirement already satisfied: patsy>=0.5 in c:\users\vinil\anaconda3\envs\datascience\l
ib\site-packages (from plotly_express) (0.5.3)
Requirement already satisfied: plotly>=4.1.0 in c:\users\vinil\anaconda3\envs\datascienc
e\lib\site-packages (from plotly_express) (5.11.0)
Requirement already satisfied: python-dateutil>=2.8.1 in c:\users\vinil\anaconda3\envs\d
atascience\lib\site-packages (from pandas>=0.20.0->plotly_express) (2.8.2)
Requirement already satisfied: pytz>=2020.1 in c:\users\vinil\anaconda3\envs\datascience
\lib\site-packages (from pandas>=0.20.0->plotly_express) (2022.1)
Requirement already satisfied: six in c:\users\vinil\anaconda3\envs\datascience\lib\site
-packages (from patsy>=0.5->plotly_express) (1.16.0)
Requirement already satisfied: tenacity>=6.2.0 in c:\users\vinil\anaconda3\envs\datascie
nce\lib\site-packages (from plotly>=4.1.0->plotly_express) (8.1.0)
Requirement already satisfied: packaging>=21.3 in c:\users\vinil\anaconda3\envs\datascie
nce\lib\site-packages (from statsmodels>=0.9.0->plotly_express) (21.3)
Requirement already satisfied: pyparsing!=3.0.5,>=2.0.2 in c:\users\vinil\anaconda3\envs
\datascience\lib\site-packages (from packaging>=21.3->statsmodels>=0.9.0->plotly_expres
s) (3.0.9)
In [16]: import plotly_express as px
Contagem de pedidos por loja

In [17]: px.histogram(dados, x="loja", color="regiao", text_auto=True)
regiao
16k 16.648k Sudeste
Nordeste
Sul
14k
12k 12.367k 12.344k

12.177k
10k
count
8k 8318
8146
6k
4k
2k
0
Loja 4 Loja 2 Loja 3 Loja 5 Loja 1 Loja 6
loja
Criando múltiplos gráficos e gerando seus respectivos arquivos HTML

In [18]: colunas = ['loja', 'cidade', 'estado', 'tamanho', 'local_consumo']
for coluna in colunas:

fig = px.histogram(dados, x=coluna, y='preco', color='forma_pagamento', text_auto=Tru
fig.write_html(f"faturamento por {coluna}.html")
fig.show()
forma_pagamento
38.173k Crédito
140k
Pix
Débito
120k Dinheiro
38.778k 27.858k 27.895k

28.422k
100k
sum of preco
80k 28.321k 27.369k

26.612k
18.246k 36.785k 18.321k
60k
18.229k 27.669k 27.326k 19.121k 27.762k
40k
18.837k 36.492k 18.225k
27.861k 27.033k 28.016k
20k
18.286k 19.033k
0
Loja 4 Loja 6 Loja 3 Loja 5 Loja 2 Loja 1
loja
forma_pagamento
38.173k Crédito
140k
Pix
Débito
120k Dinheiro
38.778k 27.858k 27.895k

28.422k
100k
sum of preco
80k 28.321k 27.369k

26.612k
18.246k 36.785k 18.321k
60k
18.229k 27.669k 27.326k 19.121k 27.762k
40k
18.837k 36.492k 18.225k
27.861k 27.033k 28.016k
20k
18.286k 19.033k
0
Sa Flo Rio Sã Ni Fo
nt ria de oP ter rtal
os nó au ói ez
po Ja lo a
lis ne
iro
cidade
forma_pagamento
180k 46.179k Crédito
46.668k
Pix
160k Débito
Dinheiro
38.173k
140k
47.442k
44.841k
120k
sum of preco
38.778k 27.895k
100k
46.163k 45.894k
80k 27.369k
36.785k
60k
27.762k
40k 45.319k 46.894k
36.492k
20k 28.016k
0
São Paulo Santa Catarina Rio de Janeiro Ceará
estado
forma_pagamento
180k 45.279k Crédito
Pix
160k Débito
39.468k Dinheiro
140k
46.384k
120k 32.211k
sum of preco
38.83k
100k
24.367k
46.683k 31.527k
80k
37.048k 24.339k
17.59k
60k
31.455k
17.35k
24.388k
40k 45.396k
38.225k
17.03k
30.681k
20k 24.514k
17.905k
0
200ml 700ml 1000ml 500ml 300ml
tamanho
forma_pagamento
77.923k 80.992k Crédito
300k
Pix
Débito
250k Dinheiro
79.292k 79.138k
200k
sum of preco
150k 78.282k 78.322k

100k
79.036k 77.685k
50k
0
Delivery Consumo no local
local_consumo
Gráfico animado
In [19]: # agrupando os dados
agrupado = dados.groupby(['loja', 'ano_mes']).sum()
#resetando os índices
agrupado.reset_index(inplace=True)
# criando uma coluna com o valor acumulado

agrupado['acumulado'] = agrupado.groupby('loja').cumsum()
In [20]: # gerando o gráfico

fig = px.bar(agrupado,
x='acumulado',
y="loja",
color='loja',
text_auto=True,
range_x=[0,160000],
animation_frame='ano_mes')
fig.show()
loja
Loja 1 2337
Loja 1
Loja 2
Loja 3
Loja 2 1252
Loja 4
Loja 5
Loja 3 2216 Loja 6
loja
Loja 4 1499
Loja 5 2294
Loja 6 2851
0 50k 100k 150k
acumulado
ano_mes=2020-01
▶ ◼
2020-01 2020-07 2021-01 2021-07 2022-01 2022-07
In [21]: # exportando o gráfico para um arquivo

fig.write_html('grafico_animado.html')

Apostila VIP - Aula 3 (Versão PDF

Enviado por

Dados do documento

Descrição original:

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Apostila VIP - Aula 3 (Versão PDF

Enviado por

Direitos autorais:

Formatos disponíveis

O que vamos aprender:

utilizar a bilioteca Pandas - a mais utilizada no mundo para análise de dados

Carregando os dados do arquivo Excel

In [1]: import pandas as pd

Verificando se os dados foram carregados corretamente

head(): mostra as primeiras linhas do conjunto de dados

2021- Loja São

2022- Loja Rio de Consumo no

2022- Loja São

2020- Loja São Consumo no

2021- Loja Santa Consumo no

2022- Loja Santa

2021- Loja Santa Consumo no

2022- Loja Rio de Consumo no

Quantidade de linhas e colunas

Informações sobre as colunas

Acessando uma coluna

Obtendo os únicos de uma coluna

Podemos obter também o valor relativo, utilizando o parâmetro normalize=True.

In [13]: # faturamento por loja

Instalando e importando a biblioteca de gráficos

In [15]: !pip install plotly_express

In [16]: import plotly_express as px

Contagem de pedidos por loja

12k 12.367k 12.344k

Criando múltiplos gráficos e gerando seus respectivos arquivos HTML

for coluna in colunas:

38.778k 27.858k 27.895k

80k 28.321k 27.369k

38.778k 27.858k 27.895k

80k 28.321k 27.369k

150k 78.282k 78.322k

# criando uma coluna com o valor acumulado

In [20]: # gerando o gráfico

0 50k 100k 150k

In [21]: # exportando o gráfico para um arquivo

Você também pode gostar