Você está na página 1de 60

A Preparao dos Dados

Prof. Francisco de A. T. de Carvalho CIn / UFPE

Escolhas Bsicas

Objetos, casos, instncias


Objetos do mundo real: carros, arvores, etc

Ponto de vista da minerao: um objeto descrito por uma coleo de caractersticas sobre as quais podem ser realizadas medidas
Conceito A entidade a ser aprendida. Alguns algoritmos de aprendizagem fornecem uma descrio de um conceito

Medidas

O que possvel medir sobre as caractersticas: meu carro azul escuro, 2 portas, 6 cilindros, 5 passageiros

Variveis, descritores Uma varivel representa uma medida que toma um numero particular de valores, com a possibilidade de valores diferentes para cada observao.

Escalas

Escala Nominal
Nessa escala os valores so no numricos e so no ordenados. Duas instncias apresentam ou no o mesmo valor. Ex: Cor, Modelos de Carro, etc Escala Ordinal Nessa escala os so no numricos e ordenados. Uma instncia pode apresentar um valor comparativamente maior do que uma outra. Ex: Grau de Instruo

Escalas

Escala Intervalar
Nessa escala de valores numricos, existe no apenas uma ordem entre os valores, mas tambm existe diferena entre esses valores. O zero relativo. Ex: Temperatura em Graus Celsius Escala Proporcional Nessa escala de valores numricos, alm da diferena, tem sentido calcular a proporo entre valores (o zero absoluto). Ex: Peso, Altura, etc.

Cardinalidade dos atributos das variveis

Qualitativo / quantitativo

Variveis qualitativas: escalas nominais ou ordinais

Variveis quantitativas: escalas intervalares e proporcionais

Cardinalidade: Discreto versus Continuo

Variveis dicotmicas

Ex: Sexo (M, F)

Variveis binrias
Em geral so codificadas como 0, 1

0 em geral indica ausncia de propriedade


Ex: Possui antenas? (Sim , no)

Cardinalidade: Discreto versus Continuo

Variveis Discretas

Qualquer varivel que possui um conjunto finito de valores distintos. Ex: Departamentos do CIn
Variveis contnuas Podem, em principio, assumir qualquer valor dentro de um intervalo. Exemplo: Peso, altura

Valores ausentes e valores inaplicveis

Valores ausentes
Um valor ausente aquele ausente no conjunto de dados mas existente no contexto em que a medida foi realizada Numa base de dados eles so indicados por valores negativos ou nulos em atributos numricos. Em atributos no numricos por brancos ou traos. As vezes so indicados por uma mesma constante

Valores ausentes e valores inaplicveis

Valores inaplicveis

Um valor inaplicvel um valor ausente e inexistente no contexto em que a medida foi realizada. Ex: Sexo = Masculino e Nmero de Partos = null Sexo = Feminino e Nmero de Partos = 0

Valores ausentes e valores inaplicveis

Valores ausentes e vazios A diferenciao entre valores ausentes e valores inaplicveis importante mais ainda no se dispe de tcnicas automticas para fazer isso. Deve-se faze-lo manualmente Quase todas as ferramentas de modelizao dispem de tcnicas para tratar dados ausentes: ignora - los, atribuir um valor fixo aos valores ausentes ou estimar os valores ausentes partir de outras variveis Em algumas situaes os dados ausentes so altamente informativos e ao serem tratados perde-se essa informao

Mudana de Escala

Interesse Muitos modelos s se aplicam variveis de mesma escala


Intervalar Ordinal

Ex: Idade O = [0, 150] 0-20: jovem; 20-60: adulto; >60: idoso O={jovem, adulto, idoso} Trata-se de subdividir O em subintervalos contguos e associar a cada um deles uma modalidade

Mudana de Escala

Intervalar

Ordinal

Perda de informao Distino entre objetos de uma mesma categoria Amplitude da diferena entre objetos de categorias diferentes

Mudana de Escala

Ordinal

Nominal

Basta desconsiderar a ordem entre as modalidades

Ordinal ou Nominal

Binria

Cada modalidade transformada em uma varivel binria


Codificao disjuntiva Codificao aditiva

Mudana de Escala

Ordinal ou Nominal

Binria

Cor: 1(verde), 2(azul), 3(marrom) Idade: 1(0-20), 2(20-60), 3(> 60) w w Verde w 1 w 0 Cor 1 2 Azul 0 1 Idade 2 1 Marrom 0 0 0-20 1 1 0-60 1 0 >60 0 0

Representao de Dados para a Minerao

Representao dos Dados Tabelas de Dados (flat file): as colunas representam as variveis e as linhas representam as observaes
y1 i1 y2 ... yp

in

Necessidade do pr-processamento dos Dados


Os dados no mundo real esto sujos: Incompletos
ausncia de atributos de interesse apenas dados agregados ausncia de valores erros aleatrios valores aberrantes (outliers)

Ruidosos
-

Inconsistentes
discrepncias nas codificaes ou nos nomes

Sem dados de boa qualidade o resultado da minerao pobre

Pr-processamento dos dados


Principais etapas na preparao de dados Limpeza dos dados
preencher dados ausentes, alisar rudo, identificar e/ou remover valores aberrantes, resolver inconsistncias integrao de mltiplas bases de dados, cubos e arquivos Normalizao e agregao

Integrao e transformao de Dados Reduo de Dados


- reduo no volume de dados com resultados similares

Discretizao e Construo de Hierarquias Conceituais


- importante para dados numricos

Pr-processamento dos dados

Limpeza dos dados

Em que consiste a limpeza dos dados? preencher dados ausentes alisar o ruido identificar valores aberrantes Identificar inconsistncias etc

Valores ausentes
Dados no esto sempre disponveis

Ex., muitas tuplas no tem nenhum valor gravado para vrios atributos (renda do cliente em dados relativos a vendas

A ausncia de dados pode ser consequncia


mau funcionamento do equipamento


inconsistncia com outros dados gravados e conseqente supresso No entrada de dados devido a enganos determinados dados podem no ser considerados importantes no momento do registro etc.

Pode ser necessrio inferir os dados ausentes

Valores ausentes
Quais os tratamentos usuais para valores ausentes? Ignorar a descrio do indivduo ou mesmo eliminar o descritor; Preencher os valores ausentes manualmente; Usar uma constante global para representar os valores ausentes (no recomendado, pois o sistema pode identificar esse valor como um conceito); Usar a mdia (ou a moda); Usar a mdia (ou a moda) por classe Usar o valor mais provvel segundo um modelo (regresso, regra de Bayes, rvores de deciso)

Dados com rudo e/ou valores aberrantes


Rudo: erro aleatrio ou variabilidade presente em descritores
Algumas tcnicas para a remoo de rudo
Alisamento Regresso

Algumas tcnicas para a identificao de valores aberrantes


Clustering Inspeo

Dados com rudo e /ou valores aberrantes


Alisamento: consiste em distribuir dados ordenados em caixas tendo Como referncia os seus vizinhos
Ordenao: 1, 1, 2, 3, 3, 3, 4, 5, 5, 7 Particionamento em caixas Alisamento pela mediana

1,1,2 3,3,3 4,5,5,7


caixa 1 caixa 2 caixa 3

1,1,1 3,3,3 5,5,5,5


caixa 1 caixa 2 caixa 3

Outras alternativas: mdia, fronteiras

Dados com rudo e /ou valores aberrantes


Clustering: deteo e remo de valores aberrantes - os valores so organizados em grupos; os valores isolados podem ser considerados aberrantes;

Dados com rudo e /ou valores aberrantes


Regresso: - os dados podem ser alisados pelo ajustamento a uma funo (regresso linear, por exemplo); y
Y1

Y1

y=x+1

X1

Dados Inconsistentes

Erros no momento de introduo dos dados Erros oriundos da integrao de vrias bases de dados - mesmo atributo com diferentes codificaes; - duplicao de objetos etc

Integrao e Transformao de Dados

Integrao de dados - Fuso de dados partir de diferentes fontes em uma nica fonte coerente. As fontes podem ser bases de dados, cubos ou arquivos texto Transformao de Dados - necessrio para obter os mesmos em uma forma apropriada para a minerao

Integrao de Dados
Esquema em bases de dados relacionais
- identificao das mesmas entidades do mundo real a partir de mltiplas fontes de dados - Integrao dos metadados de diferentes fontes

Redundncia Dados redundantes ocorrem quando da integrao de bases de dados


- Diferentes nomes para um mesmo atributo; - Um atributo pode ser derivado diretamente de outro;

Anlise de correlao: instrumento para a deteco de redundncias Duplicao de objetos;

Integrao de Dados

Deteco e resoluo de conflitos Os valores de um mesmo atributo pode diferir segundo as diversas fontes Isso pode acontecer devido a diferenas na representao, Escala ou codificao Peso (em libras ou em quilos) Altura (valor numrico ou categrico (mdio, pequeno...) Preo (pode indicar servios diferentes)

Transformao de dados
Objetivo: obter os dados em uma forma mais apropriada para a minerao
Alisamento

Agregao: sumrios dos dados (soma, etc) quando da construo de cubos para OLAP Generalizao
Dados primitivos so substitudos por conceitos de ordem superior via uma hierarquia de conceitos.
Ex. valores do atributo numrico idade so mapeados em jovem, meia-idade, etc.

Construo de novos atributos

Transformao de dados

Normalizao A propsito da normalizao minimizar os problemas oriundos do uso de unidades e disperses distintas entre as variveis As variveis podem ser normalizadas segundo a amplitude ou segundo a distribuio Algumas ferramentas de modelizao so beneficiadas com a Normalizao (redes neurais, KNN, clustering)

Transformao de dados

Normalizao segundo a amplitude Justificativa: unidades diferentes ou disperses muito heterogneas

xm a) y s

x min b) y max min

x x c) y k , para o menor k tal que max( k ) 1 10 10

Transformao de dados
Normalizao distribucional A normalizao distribucional interessante em vrias situaes: remoo de distores de valores aberrantes, obteno de simetria etc. As transformaes mais comuns so:
1 x

log( x )

A mais suave a raiz e a mais forte a inversa negativa

Reduo de Dados
Razes para a reduo de dados:
ultrapassagem da capacidade de processamento dos programas de aprendizagem tempo muito longo para obter uma soluo

Reduo de dados:
Obtem uma respresentao reduzida da srie de dados de que muito menor no volume mas contudo produz os mesmos (ou quase os mesmos) resultados analticos

Outras vantagens da reduo de dados:


reduo do tempo de aprendizagem interpretao mais fcil dos conceitos aprendidos

Reduo de Dados

Estratgias para a reduo de dados


Agregao via cubo Reduo de dimenso Compresso de dados

Reduo de casos
Discretizao e construo de hierarquias conceituais

Reduo de Dados
Reduo de dimenso Em data mining a supresso de uma coluna (atributo) muito mais Delicada do que a supresso de uma linha (observao) Retirar atributos relevantes ou permanecer com atributos irrelevantes Pode implicar na descoberta de padres de baixa qualidade

Da a necessidade de um estgio de seleo de atributos


Uma abordagem para a seleo a manual, baseada em conhecimento especialista

Reduo de Dados
Algumas abordagens automticas de seleo de variveis
Seleo do menor conjunto de atributos
Selecionar o menor conjunto de atributos suficiente para dividir o espao das instancias de tal maneira que a distribuio das classes no novo espao to prxima quanto possvel daquela do espao original Problemas: busca exaustiva e overfitting

Algoritmo de construo de rvores de deciso


Aplicar esse algoritmo nos dados completos e ento selecionar apenas as variveis presentes na rvore de deciso

Reduo de Dados
Conjunto inicial de atributos: {A1, A2, A3, A4, A5, A6} A4 ? A1? A6?

Class 1
>

Class 2

Class 1

Class 2

Conjunto reduzido de atributos: {A1, A4, A6}

Reduo de Dados
Seleo por busca no espao de atributos Existem 2d possveis sub-conjuntos de a partir de d atributos Vrias heursticas para a seleo de variveis
seleo forward: a busca iniciada sem atributos e os mesmos so adicionados um a um. Cada atributo adicionado isoladamente e o conjunto resultante avaliado segundo um critrio. O atributo que produz o melhor critrio incorporado

eliminao backward: a busca iniciada com o conjunto completo de atributos e os mesmos so suprimidos um de cada vez. Cada atributo suprimido isoladamente e o conjunto resultante avaliado segundo um critrio. O atributo que produz o melhor critrio finalmente suprimido combinao da seleo forward com a eliminao backward

Compresso de Dados
Essas tcnicas comprimem os dados originais

Dados originais Sem perda

Dados Comprimidos

Aproximao dos dados originais

Compresso de Dados
Extrao de Variveis
Objetivo:
obter novas variveis partir dos atributos iniciais. Em geral as novas variveis so combinaes lineares das variveis iniciais Limitaes: modelo linear (no adequado especialmente para para os mtodos de data mining baseados em lgica)

As tcnicas de reduo de dimenses se propem a reduzir o nmero de variveis com a menor perda possvel de informaes Essas tcnicas so teis tambm para tratar a redundncia de informaes (correlao entre variveis) e rudo

Compresso de Dados
Extrao de Variveis
Famlias de Mtodos
Mtodos no supervisionados Mtodos supervisionados

Mtodos no supervisionados:
Anlise de Componentes Principais (variveis quantitativas) Anlise de Correspondncias (variveis qualitativas)

A primeira componente a combinao linear das variveis iniciais de maior varincia (maximiza a separao entre os indivduos). A segunda componente ortogonal a primeira (correlao nula), tambm combinao linear das variveis iniciais e apresenta a segunda maior varincia. E assim por diante.

Compresso de Dados
Extrao de Variveis
X2 Y1 Y2

X1

Compresso de Dados
Extrao de Variveis
Mtodos supervisionados
Anlise Fatorial Discriminante
A primeira componente a combinao linear das variveis iniciais que melhor separa os grupos entre si, isto , ela toma valores os mais prximos possveis para os indivduos de um mesmo grupo e os mais diferentes para indivduos de grupos distintos. A segunda componente a combinao linear das variveis iniciais ortogonal a primeira (correlao nula) que melhor separa os grupos entre si. E assim por diante.

Reduo de Casos
Reduo do volume de dados via representao econmica dos mesmos

Mtodos paramtricos

Supe que os dados ajustam um modelo, estimam os parmetros do modelo, armazena apenas os parmetros e descarrega os dados (exceto os aberrantes) Principais modelos: regresso (simples e multipla) e modelo log-linear No assume modelos Famlias principais: histogramas, clustering, amostragem

Mtodos no paramtricos

Reduo de Casos
Regresso e modelos log-linear
Regresso linear: os dados so modelados para se ajustarem a uma linha reta

Em geral usa o mtodo dos quadrados mnimos para ajustar a linha

Regresso mltipla: permite que uma varivel resposta seja modelada como uma funo linear de um vetor de atributos Modelo Log-linear : aproxima distribuies de probabilidade discretas multidimensionais

Reduo de Casos
Histogramas Particiona os dados em caixas e armazena a frequencia mdia dos valores Em uma dimenso pode ser construido pela otimizao de um critrio via programao dinmica
40 35 30 25 20 15 10 5
100000 10000 20000 30000 40000 50000 60000 70000 80000 90000

Reduo de Casos
Clustering
Os dados so particionados em clusters e armazena-se apenas a representao do mesmo Pode ser muito eficaz se os dados so agrupados mas no se esto apenas sujos Existem muitas opes de mtodos de e algoritmos de agrupamento

Reduo de Casos
Amostragem
Permite que os algoritmos de minerao tratem enormes bases de dados pela reduo dos casos Tipos de Amostragem:

Amostragem aleatria simples com reposio Amostragem aleatria simples sem reposio Amostragem estratificada Amostragem por conglomerado

Reduo de Casos
Amostragem

Duas formas bsicas de amostragem so interessantes no contexto da minerao de dados: Amostragens incrementais

Amostragens seguida de voto

Reduo de Casos
Amostragem incremental
O treinamento realizado em amostras aleatrias cada vez maiores de casos, observar a tendncia e parar quando no h mais progresso
Um padro tpico de tamanhos de amostras pode ser 10%, 20%, 33%, 50%, 67% e 100%

Critrios para passar para uma outra amostra


O erro diminuiu? A complexidade do tratamento aumentou mais do que a queda da taxa de erro? A complexidade da soluo atual aceitvel para a interpretao?

Reduo de Casos
Amostragem seguida de voto
Interesse: quando o mtodo de minerao suporta apenas N casos O mesmo mtodo de minerao aplicado para diferentes amostras de mesmo tamanho resultando em uma soluo para cada amostra

Quando um novo caso aparece, cada soluo fornece uma resposta.


A reposta final obtida por votao (classificao) ou pela mdia (regresso)

Discretizao e Construo de Hierarquias


Interesse: reduo do numero de valores.
Muito interessante em rvores de deciso

Discretizao

reduz o nmero de valores de um dado atributo contnuo pela diviso da amplitude do atributo em intervalos. Os rtulos dos intevalos substituem os valores.

Hierarquias Conceituais

reduz os dados pela substituio de rtulos de nvel inferior (como os valores numricos do atributo idade) por rtulos de nvel superior (tais como jovem, meia-idade, etc)

Discretizao e Construo de Hierarquias


Ferramentas
Alisamento

Histograma
Clustering

Discretizao baseada em entropia


Segmentao via particionamento natural

Discretizao e Construo de Hierarquias


Abordagens para a discretizao de intervalos:
discretizao no supervisionada discretizao supervisionada

Discretizao no supervisionada
a discretizao realizada sem levar em conta os grupos a que pertencem as instncias no conjunto de treinamento

Discretizao supervisionada
a discretizao realizada levando em conta os grupos a que pertencem as instncias no conjunto de treinamento

Discretizao e Construo de Hierarquias


Tcnicas de Discretizao no supervisionada
Partio em intervalos iguais
riscos: escolher fronteiras que colocam juntas muitas instancias de diferentes classes; intervalos sem nenhuma instancia outras com muitas

Partio por efetivos iguais


riscos: escolher fronteiras que colocam juntas muitas instancias de diferentes classes

Partio em intervalos arbitrrios


Partio por minimizao da varincia

Discretizao e Construo de Hierarquias

Tcnicas de Discretizao supervisionada Discretizao divisiva (top-down) Exemplo: procura recursiva da partio binria que minimiza o ganho de entropia

Discretizao aglomerativa (bottom-up)


Exemplo: isolar cada instancia em um intervalo e em seguida fusionar intervalos segundo um critrio estatstico

Hierarquias de conceitos para dados categricos


Especificao explcita de uma ordem parcial dos atributos ao nvel do esquema pelos usurios e/ou especialistas
Especificao de uma poro de hierarquia via agrupamento de dados Especificao do conjunto de atributos, mas no da ordem parcial

Especificao de de um conjunto de atributos parcialmente

Hierarquias de conceitos para dados categricos


Hierarquia conceitual pode ser gerada automaticamente com base no nmero de valores distintos por atributo. O atributo com o maior nmero de valores distintos colocado no nvel mais baixo da hierarquia.
Pais Estado Cidade Rua 15 valores distintos 65 volores distintos 3567 valores distintos 674,339 valores distintos

Você também pode gostar