Você está na página 1de 29

PÓS GRADUAÇÃO EM INTELIGÊNCIA DE NEGÓCIOS

MINERAÇÃO DE DADOS (DATA MINING)


PRÉ-PROCESSAMENTO
AGENDA
 Introdução;
 Principais problemas com os dados;

 Benefícios;

 Questões importantes;

 Definição;

 Etapas do processo de preparação da base de dados;

 Principais tarefas de pré-processamento de dados;

 Conclusão.
PRÉ-PROCESSAMENTO
INTRODUÇÃO

• Dados brutos (dados fonte ou dados atômicos)


• são aqueles que ainda não foram processados para uso;

• Dados do mundo real


• Valores errados;
• Ruídos;
• Dados ausentes;
• Inconsistências, devido ao seu enorme tamanho;
• Dados redundantes;
• Distribuídos em múltiplas fontes heterogêneas;
PRÉ-PROCESSAMENTO
INTRODUÇÃO
• É comum um usuário digitar um valor enquanto está preenchendo uma
tabela, um sensor falhar durante uma medição e até uma pessoa mentir, por
exemplo, a sua faixa salarial ou sua idade;

• Causas para o surgimento de dados ausentes, inconsistentes e ruídos


• indisponibilidade de dados para alguns objetos e atributos;
• erros de medição;
• entendimento e/ou entrada de dados;
• falhas no sistema;
• fraudes nos dados;
• erros de transmissão;
• diferenças de convenção (padronização);
• entre outras;
PRÉ-PROCESSAMENTO
PRINCIPAIS PROBLEMAS
Tipos de
COM OS DADOS problemas

Incompletude Ruído Inconsitência

Atributo Violação de
Valor ausente Objeto ausente Discrepância
ausente domínio
PRÉ-PROCESSAMENTO
BENEFÍCIOS
PRÉ-PROCESSAMENTO

BENEFÍCIOS

• Aumento da qualidade dos dados;

• Diminuição do tempo destinado à Mineração de Dados;

• Melhor entendimento da natureza dos dados;


PRÉ-PROCESSAMENTO
BENEFÍCIOS
PRÉ-PROCESSAMENTO

QUESTÕES IMPORTANTES

• É preciso pensar em algumas questões importantes antes de iniciar a análise;


• Se existem dados ausentes, inconsistentes ou ruidosos, como tratá-los?
• É possível resumir a base de dados de forma que sejam obtidos resultados
melhores no processo de mineração?
• Existem atributos que são mais relevantes que outros, ou até irrelevantes,
para uma dada análise?
• Quais são os tipos de atributos da base de dados? É preciso padronizá-los?
• Há atributos naturalmente inter-relacionados?
PRÉ-PROCESSAMENTO
DEFINIÇÃO
• Conhecer e preparar de forma adequada os dados para análise é uma etapa
chamada de pré-processamento de dados ou preparação da base de dados;

• Ela manipula e transforma os dados brutos de maneira que o conhecimento


neles contido possa ser mais fácil e corretamente obtido;

• Essa etapa pode tornar todo o processo de mineração muito mais eficiente e
eficaz;

• Dados mal ou não pré-processados podem inviabilizar uma análise ou


invalidar um resultado;
PRÉ-PROCESSAMENTO
ETAPAS DO PROCESSO DE
PREPARAÇÃO DA BASE
DE DADOS Definição de um ou mais
algoritmos de mineração
de dados
Definição do Seleção dos Aplicação do(s)
problema dados brutos algoritmo(s)
Pré-processamento da
base

Limpeza Integração Redução Transformação


PRÉ-PROCESSAMENTO
PRINCIPAIS TAREFAS DE PRÉ-PROCESSAMENTO
• Limpeza
• imputação de valores ausentes, remoção de ruídos e correção de
inconsistências;
• Integração
• Unir dados de múltiplas fontes em um único local;
• Redução
• Reduzir a dimensão da base de dados, por exemplo, agrupando ou
eliminando atributos redundantes;
• Reduzir a quantidade de objetos da base, sumarizando os dados;
• Transformação
• para padronizar e deixar os dados em um formato passível de aplicação
das diferentes técnicas de programação;
PRÉ-PROCESSAMENTO
PRINCIPAIS TAREFAS DE PRÉ-PROCESSAMENTO
PRÉ-PROCESSAMENTO
LIMPEZA DE DADOS
• Objetivo
• Corrigir a base de dados, eliminando consultas desnecessárias que
poderiam ser executadas futuramente pelos algoritmos de Mineração de
Dados, afetando o desempenho destes algoritmos;

• Um valor ausente costuma ser representado por um código de ausência:


• um valor específico, um espaço ou um símbolo (por exemplo, “?”);

• O valor a ser imputado não deve somar nem subtrair informações à base, ou
seja, ele não deve enviesar a base;
PRÉ-PROCESSAMENTO
LIMPEZA DE DADOS

• A Limpeza de Dados atua no sentido de:


• imputar valores ausentes;
• faltam valores de atributos;
• faltam certos atributos de interesse;
• suavizar ruídos;
• Dados errados;
• Dados que contenham valores divergentes (outliers);
• Exemplo: salário = -500 (um erro);
• identificar valores discrepantes (outliers);
PRÉ-PROCESSAMENTO
LIMPEZA DE DADOS
• A Limpeza de Dados atua no sentido de:
• corrigir inconsistências
• Discrepância em relação a outros dados ou a um atributo;
• Exemplo: atributo idade, sendo preenchido como: criança, infantil e
menor;
• Exemplo: o ranking era “1, 2, 3”; agora o ranking é “A, B, C”;
• Dados inconsistentes, assim como dados ruidosos, também podem ser mais
facilmente identificados utilizando-se gráficos;
• Pode-se gerar o gráfico de cada atributo separadamente;
• Importante a participação de especialistas do domínio;
PRÉ-PROCESSAMENTO
LIMPEZA DE DADOS - MÉTODOS
• Alguns métodos tradicionais de imputação de valores ausentes:
• Ignorar o objeto
• Remover da base (ignorar) todos aqueles objetos que possuem um ou
mais valores ausentes;
• Não é muito recomendado, pois descarta todo o restante das informações
contidas no objeto;
• Imputar manualmente os valores ausentes
• Escolher de forma empírica um valor a ser imputado para cada valor
ausente;
• Não é muito recomendado, pois, demanda grande trabalho manual ;
• Ignora as informações da base;
PRÉ-PROCESSAMENTO
INTEGRAÇÃO DOS DADOS

• Os dados podem estar distribuidos em departamentos, lojas, arquivos e


muitas outras estruturas distintas;

• todos os dados necessários à análise devem ser concatenados em uma


única base de dados, antes da aplicação de uma técnica de mineração de
dados;

• Integração cuidadosa dos dados de várias fontes pode ajudar a reduzir/evitar


redundâncias e inconsistências e melhorar a qualidade e velocidade da
mineração;
PRÉ-PROCESSAMENTO
Extração dos dados de diversas fontes e carga
INTEGRAÇÃO DOS DADOS
no conjunto de dados a ser analisado.

Base de dados
PRÉ-PROCESSAMENTO
INTEGRAÇÃO DOS DADOS
Escolha dentre os dados de um conjunto de dados, quais deverão
ser efetivamente considerados na análise, gerando uma base de
dados reduzida.

Base de dados Base de dados


reduzida
PRÉ-PROCESSAMENTO
INTEGRAÇÃO DOS DADOS – ASPECTOS
OBSERVADOS
PRÉ-PROCESSAMENTO

INTEGRAÇÃO DOS DADOS – ASPECTOS


OBSERVADOS
PRÉ-PROCESSAMENTO

REDUÇÃO DOS DADOS

• É intuitivo pensar que, quanto maior a quantidade de objetos e atributos, mais


informações estão disponíveis para o algoritmo de mineração de dados;

• O aumento do número de objetos e da dimensão do espaço (número de


atributos na base), pode fazer com que os dados se tornem esparsos;

• E uma quantidade muito grande de objetos e atributos pode tornar o


processamento dos algoritmos de mineração muito complexo;
PRÉ-PROCESSAMENTO

REDUÇÃO DOS DADOS

• As técnicas de redução podem ser aplicadas tanto para reduzir a quantidade


de dados na base quanto para reduzir a quantidade de atributos que os
descrevem (dimensionalidade);

• É importante que os métodos de redução mantenham a integridade dos


dados originais;
PRÉ-PROCESSAMENTO
REDUÇÃO DOS DADOS – MALDIÇÃO DA ALTA DIMENSIONALIDADE

Se dividirmos o espaço em células regulares, o número


• Maldição da (alta) dimensionalidade de células cresce exponencialmente com a dimensão do
espaço.
• expressão que se refere ao problema
causado pelo aumento exponencial Assim, o número de amostras deve crescer para garantir
que nenhuma célula fique vazia.
no volume associado com a adição
de dimensões extras a um espaço
matemático;
PRÉ-PROCESSAMENTO
REDUÇÃO DOS DADOS – MALDIÇÃO DA ALTA DIMENSIONALIDADE

Dado um tamanho de amostras, existe


um número máximo de características a
partir do qual o desempenho dos
algoritmos de mineração de dados irão
degradar ao invés de melhorar.

Solução: reduzir a dimensão do espaço


através de métodos de redução de
dimensionalidade (seleção ou projeção
de características).
PRÉ-PROCESSAMENTO
REDUÇÃO DOS DADOS - MÉTODOS
• Alguns métodos de redução de dados:

• Seleção de atributos
• redução de dimensionalidade;
• atributos irrelevantes, pouco relevantes ou redundantes são detectados e
removidos;
• Compressão de atributos
• também efetua uma redução de dimensionalidade, mas empregando
algoritmos de codificação ou transformação de dados (atributos);
• representação compacta dos dados ou atributos originais;
PRÉ-PROCESSAMENTO
TRANSFORMAÇÃO DOS DADOS

• Os métodos de transformação de dados visam modificar ou consolidar os


dados em formas apropriadas aos processos de mineração;
• As bases de dados brutas podem apresentar alguns problemas, como:
• Pode haver valores de um mesmo atributo escritos em maiúsculo e outros
em minúsculo;
• Os formatos e as unidades podem ser diferentes;
• Não uniformidade dos atributos, alguns podem ser numéricos, outros
categóricos;
• Os domínios de cada atributo podem ser muito diferentes.
CONCLUSÃO

• Conhecer cada uma das etapas do Pré-processamento de dados.

Você também pode gostar