Aula 2

Data Science II
Prof. Marino Catarino

Análise Exploratória de Dados
O que é Mineração
de Dados?
» Explorar e extrair informações dos dados não é um processo simples. Para ajudar
nessa tarefa, existe o processo de mineração de dados.
» Minerar de dados consiste em analisar uma massa de dados utilizando técnicas e

algoritmos para extrair informações, padrões, associações e correlações.
» Existem diversas metodologias de mineração de dados. Dentre os frameworks de

mineração de dados, podemos citar os três mais famosos: CRISP-DM, KDD e
SEMM
A.
● CRISP-DM: Cross Industry Standard Process for Data Mining
● KDD: Knowledge Discovery in Databases
● SEMMA: Sample, Explore, Modify, Model e Assess
Mineração de
Dados – KDD
Knowledge Discovery in Databases
» Seleção
» Pré-processamento, limpeza e
transformação
» Mineração dos dados
» Interpretação e avaliação
Mineração de
Dados – CRISP DM
Cross Industry Standard Process for

Data Mining
» Entendimento do negócio
» Entendimento dos dados
» Preparação dos dados
» Modelagem
» Avaliação
» Produção
Mineração de
Dados – SEMMA
Sample, Explore, Modify, Model e

Assess
» Amostra
» Exploração
» Modificação
» Modelagem
» Avaliação
Mineração de Dados
Outros Frameworks
OSEMN
Dominos Data Lab Lifecycle
Harvard Data Science Process
tdsp microsoft Uber Machine Learning Workflow

Exploração de
dados
» Independente de qual seja o framework escolhido, um dos passos mais

importantes é a exploração dos dados (EDA, Exploration Data analysis).
» Iremos explorar os principais passos a serem realizados, bem como algumas

bibliotecas que nos permitem fazer boa exploração de dados.
EDA – Primeiros
passos
» Sempre que temos novos dados,

precisamos conhecê-los.
» Mesmo que haja um metadados, ou um

dicionário dos dados, crie uma
descrição sua para os dados. Ao fazê-lo
ganhamos mais familiaridade com os
dados.
» O Jupyter possibilita a criação
de notebooks com seções em Markdown,
use-os os para criar uma análise bem
documentada.
» Ou, se preferir, utilize em seu código
algumas anotações ao comentar algumas
linhas de código.
EDA
» Podemos usar algumas funções do pandas, como: head(), sample(n) e

tail() para ter uma visualização rápida dos dados.
EDA
» Podemos usar a função describe() para ter uma visualização rápida das
principais estatísticas dos dados.
Describe de variáveis
numéricas
Describe de variáveis
categóricas
EDA
» A função info() nos informa os tipos de variáveis que temos e já é possível saber
se há valores faltantes.
Dados faltantes.
Dados
categóricos,
inteiros e
float
EDA – Missing
Data
» Para visualizar um resumo das variáveis que possui dados faltantes, podemos
usar a função isnull() (ou a função isna() )e a função sum().
EDA – Missing
Data
» Caso sejam poucos dados e eles não afetem os demais dados, podemos fazer a
exclusão das linhas com dados faltantes com a função dropna() e o subconjunto
com as variáveis que queremos excluir.
Agora sem
dados faltantes.
EDA – Duplicidade
» Outro problema recorrente é a duplicidade dos dados. Para verificar a existência

de duplicidade, usamos a função duplicated().
EDA – Duplicidade
» Para eliminar os dados duplicados podemos utilizar a função drop_duplicated().

Dúvidas?

Aula 2

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Aula 2

Enviado por

Direitos autorais:

Formatos disponíveis

Data Science II

Prof. Marino Catarino

» Minerar de dados consiste em analisar uma massa de dados utilizando técnicas e

» Existem diversas metodologias de mineração de dados. Dentre os frameworks de

Knowledge Discovery in Databases

Cross Industry Standard Process for

Sample, Explore, Modify, Model e

Harvard Data Science Process

tdsp microsoft Uber Machine Learning Workflow

» Independente de qual seja o framework escolhido, um dos passos mais

» Iremos explorar os principais passos a serem realizados, bem como algumas

» Sempre que temos novos dados,

» Mesmo que haja um metadados, ou um

» Podemos usar algumas funções do pandas, como: head(), sample(n) e

» Outro problema recorrente é a duplicidade dos dados. Para verificar a existência

» Para eliminar os dados duplicados podemos utilizar a função drop_duplicated().

Você também pode gostar