Escolar Documentos
Profissional Documentos
Cultura Documentos
» Explorar e extrair informações dos dados não é um processo simples. Para ajudar
nessa tarefa, existe o processo de mineração de dados.
» Seleção
» Pré-processamento, limpeza e
transformação
» Mineração dos dados
» Interpretação e avaliação
Mineração de
Dados – CRISP DM
» Entendimento do negócio
» Entendimento dos dados
» Preparação dos dados
» Modelagem
» Avaliação
» Produção
Mineração de
Dados – SEMMA
» Amostra
» Exploração
» Modificação
» Modelagem
» Avaliação
Mineração de Dados
Outros Frameworks
OSEMN
Dominos Data Lab Lifecycle
» Podemos usar a função describe() para ter uma visualização rápida das
principais estatísticas dos dados.
Describe de variáveis
numéricas
Describe de variáveis
categóricas
EDA
» A função info() nos informa os tipos de variáveis que temos e já é possível saber
se há valores faltantes.
Dados faltantes.
Dados
categóricos,
inteiros e
float
EDA – Missing
Data
» Para visualizar um resumo das variáveis que possui dados faltantes, podemos
usar a função isnull() (ou a função isna() )e a função sum().
EDA – Missing
Data
» Caso sejam poucos dados e eles não afetem os demais dados, podemos fazer a
exclusão das linhas com dados faltantes com a função dropna() e o subconjunto
com as variáveis que queremos excluir.
Agora sem
dados faltantes.
EDA – Duplicidade