Você está na página 1de 17

Data Science II

Prof. Marino Catarino


Análise Exploratória de Dados
O que é Mineração
de Dados?

» Explorar e extrair informações dos dados não é um processo simples. Para ajudar
nessa tarefa, existe o processo de mineração de dados.

» Minerar de dados consiste em analisar uma massa de dados utilizando técnicas e


algoritmos para extrair informações, padrões, associações e correlações.

» Existem diversas metodologias de mineração de dados. Dentre os frameworks de


mineração de dados, podemos citar os três mais famosos: CRISP-DM, KDD e
SEMM
A.
● CRISP-DM: Cross Industry Standard Process for Data Mining
● KDD: Knowledge Discovery in Databases
● SEMMA: Sample, Explore, Modify, Model e Assess
Mineração de
Dados – KDD

Knowledge Discovery in Databases

» Seleção
» Pré-processamento, limpeza e
transformação
» Mineração dos dados
» Interpretação e avaliação
Mineração de
Dados – CRISP DM

Cross Industry Standard Process for


Data Mining

» Entendimento do negócio
» Entendimento dos dados
» Preparação dos dados
» Modelagem
» Avaliação
» Produção
Mineração de
Dados – SEMMA

Sample, Explore, Modify, Model e


Assess

» Amostra
» Exploração
» Modificação
» Modelagem
» Avaliação
Mineração de Dados
Outros Frameworks

OSEMN
Dominos Data Lab Lifecycle

Harvard Data Science Process

tdsp microsoft Uber Machine Learning Workflow


Exploração de
dados

» Independente de qual seja o framework escolhido, um dos passos mais


importantes é a exploração dos dados (EDA, Exploration Data analysis).

» Iremos explorar os principais passos a serem realizados, bem como algumas


bibliotecas que nos permitem fazer boa exploração de dados.
EDA – Primeiros
passos

» Sempre que temos novos dados,


precisamos conhecê-los.

» Mesmo que haja um metadados, ou um


dicionário dos dados, crie uma
descrição sua para os dados. Ao fazê-lo
ganhamos mais familiaridade com os
dados.
» O Jupyter possibilita a criação
de notebooks com seções em Markdown,
use-os os para criar uma análise bem
documentada.
» Ou, se preferir, utilize em seu código
algumas anotações ao comentar algumas
linhas de código.
EDA

» Podemos usar algumas funções do pandas, como: head(), sample(n) e


tail() para ter uma visualização rápida dos dados.
EDA

» Podemos usar a função describe() para ter uma visualização rápida das
principais estatísticas dos dados.
Describe de variáveis
numéricas

Describe de variáveis
categóricas
EDA

» A função info() nos informa os tipos de variáveis que temos e já é possível saber
se há valores faltantes.

Dados faltantes.

Dados
categóricos,
inteiros e
float
EDA – Missing
Data

» Para visualizar um resumo das variáveis que possui dados faltantes, podemos
usar a função isnull() (ou a função isna() )e a função sum().
EDA – Missing
Data

» Caso sejam poucos dados e eles não afetem os demais dados, podemos fazer a
exclusão das linhas com dados faltantes com a função dropna() e o subconjunto
com as variáveis que queremos excluir.

Agora sem
dados faltantes.
EDA – Duplicidade

» Outro problema recorrente é a duplicidade dos dados. Para verificar a existência


de duplicidade, usamos a função duplicated().
EDA – Duplicidade

» Para eliminar os dados duplicados podemos utilizar a função drop_duplicated().


Dúvidas?

Você também pode gostar