Escolar Documentos
Profissional Documentos
Cultura Documentos
● Indexação
○ .loc
○ .iloc
○ ['C']
○ [['C1', 'C2']]
○ [0:2]
○ [[True, False]]
● Agrupamento
○ Groupby
○ sum
○ plot
2
Esta Aula
Visualização de Dados
3
Matplotlib
● https://toyplot.readthedocs.io
● http://bokeh.pydata.org
● http://geo.holoviews.org
● (Promissora) https://altair-viz.github.io/
4
Princípios de
Análise
de
Dados
Exploratória
(EDA em Inglês)
5
Ciclo de Trabalho do Cientista de Dados
Formular
Adquirir
uma
pergunta ? Dados
Predição e Análise
Inferência Exploratória
(próximos
módulos)
6
Boa parte do tempo….
7
8
Limpeza de Dados
Infelizmente
Felizmente
9
Limpeza de Dados
Passos
1. Padronizar dados
2. Estratégia para tratar dados que faltam
3. Padronização de conversão
4. Números como texto
...
10
Análise Exploratória de Dados
John Turkey
EDA equivale a um trabalho de detetive! (criador do FFT/Boxplot)
11
Estrutura
12
Atributos/Colunas
Dados Retangulares
Amostras/Linhas
Nosso maior foco em ICD
● Fáceis de manipular
● Podem representar tabelas e/ou matrizes
Tabelas
Matrizes
TSV
Tab separated values
CSV
Comma separated
values
JSON
Estrutura
15
Junção (merge) de dados
16
Merge
17
Chamada merge
18
Escopo
19
Escopo
■ pd.dropna
○ Ou imputar os mesmos
● E no caso do e-mail?
○ Não tem muito que que podemos fazer
○ pd.dropna
20
Preenchendo dados
21
Ou jogar tudo fora
22
Granularidade
23
Granularidade
24
Temporalidade
25
Temporalidade
26
Temporalidade
27
Corretude
● A amostra é representativa?
● Como podemos argumentar que sim?
��
Existe uma população de
onde extraímos
amostras.
Cada amostra é composta de
atributos.
Um DataFrame
(de https://arxiv.org/abs/2001.00888)
28
Referências e Leitura
29