Você está na página 1de 60

A Preparao dos Dados

Escolhas Bsicas

Objetos, casos, instncias


Objetos do mundo real: carros, arvores, etc
Ponto de vista da minerao: um objeto descrito por uma coleo
de caractersticas sobre as quais podem ser realizadas medidas
Conceito
A entidade a ser aprendida. Alguns algoritmos de
aprendizagem fornecem uma descrio de um conceito

Medidas

O que possvel medir sobre as caractersticas: meu carro azul


escuro, 2 portas, 6 cilindros, 5 passageiros

Variveis, descritores
Uma varivel representa uma medida que toma um numero
particular de valores, com a possibilidade de valores diferentes
para cada observao.

Escalas

Escala Nominal
Nessa escala os valores so no numricos e so no ordenados.
Duas instncias apresentam ou no o mesmo valor.
Ex: Cor, Modelos de Carro, etc
Escala Ordinal
Nessa escala os so no numricos e ordenados. Uma instncia
pode apresentar um valor comparativamente maior do que uma
outra. Ex: Grau de Instruo

Escalas

Escala Intervalar
Nessa escala de valores numricos, existe no apenas uma ordem
entre os valores, mas tambm existe diferena entre esses valores.
O zero relativo.
Ex: Temperatura em Graus Celsius
Escala Proporcional
Nessa escala de valores numricos, alm da diferena, tem sentido
calcular a proporo entre valores (o zero absoluto).
Ex: Peso, Altura, etc.

Cardinalidade dos atributos das variveis

Qualitativo / quantitativo

Variveis qualitativas: escalas nominais ou ordinais

Variveis quantitativas: escalas intervalares e proporcionais

Cardinalidade: Discreto versus Continuo

Variveis dicotmicas

Ex: Sexo (M, F)

Variveis binrias
Em geral so codificadas como 0, 1
0 em geral indica ausncia de propriedade
Ex: Possui antenas? (Sim , no)

Cardinalidade: Discreto versus Continuo

Variveis Discretas
Qualquer varivel que possui um conjunto finito de valores distintos.
Ex: Departamentos do CIn
Variveis contnuas
Podem, em principio, assumir qualquer valor dentro de um
intervalo.
Exemplo: Peso, altura

Valores ausentes e valores inaplicveis

Valores ausentes
Um valor ausente aquele ausente no conjunto de dados mas
existente no contexto em que a medida foi realizada
Numa base de dados eles so indicados por valores negativos ou
nulos em atributos numricos.
Em atributos no numricos por brancos ou traos.
As vezes so indicados por uma mesma constante

Valores ausentes e valores inaplicveis

Valores inaplicveis

Um valor inaplicvel um valor ausente e inexistente no


contexto em que a medida foi realizada.
Ex: Sexo = Masculino e Nmero de Partos = null
Sexo = Feminino e Nmero de Partos = 0

Valores ausentes e valores inaplicveis

Valores ausentes e vazios


A diferenciao entre valores ausentes e valores inaplicveis importante
mais ainda no se dispe de tcnicas automticas para fazer isso. Deve-se
faze-lo manualmente
Quase todas as ferramentas de modelizao dispem de tcnicas para
tratar dados ausentes: ignora - los, atribuir um valor fixo aos valores
ausentes ou estimar os valores ausentes partir de outras variveis
Em algumas situaes os dados ausentes so altamente informativos e ao
serem tratados perde-se essa informao

Mudana de Escala

Interesse Muitos modelos s se aplicam variveis de mesma escala


Intervalar

Ordinal

Ex: Idade O = [0, 150]


0-20: jovem; 20-60: adulto; >60: idoso
O={jovem, adulto, idoso}
Trata-se de subdividir O em subintervalos contguos e
associar a cada um deles uma modalidade

Mudana de Escala

Intervalar

Ordinal

Perda de informao
Distino entre objetos de uma mesma categoria
Amplitude da diferena entre objetos de categorias diferentes

Mudana de Escala

Ordinal

Nominal

Basta desconsiderar a ordem entre as modalidades


Ordinal ou Nominal

Binria

Cada modalidade transformada em uma varivel binria


Codificao disjuntiva

Codificao aditiva

Mudana de Escala

Ordinal ou Nominal

Binria

Cor: 1(verde), 2(azul), 3(marrom)


Idade: 1(0-20), 2(20-60), 3(> 60)
Cor
w 1
w 2
Verde
w 1 0
w 0 1

Idade
2
1

Azul
0
0

Marrom
1
1

0-20
1
0

0-60
0
0

>60

Representao de Dados para a Minerao

Representao dos Dados


Tabelas de Dados (flat file): as colunas representam as variveis
e as linhas representam as observaes
y1
i1

in

y2

...

yp

Necessidade do pr-processamento dos Dados


Os dados no mundo real esto sujos:
Incompletos
-
-
-

Ruidosos
-
-

ausncia de atributos de interesse


apenas dados agregados
ausncia de valores
erros aleatrios
valores aberrantes (outliers)

Inconsistentes
-

discrepncias nas codificaes ou nos nomes

Sem dados de boa qualidade o resultado da minerao pobre

Pr-processamento dos dados


Principais etapas na preparao de dados

Limpeza dos dados


-
-

Integrao e transformao de Dados


-
-

preencher dados ausentes, alisar rudo, identificar e/ou remover


valores aberrantes, resolver inconsistncias
integrao de mltiplas bases de dados, cubos e arquivos
Normalizao e agregao

Reduo de Dados
- reduo no volume de dados com resultados similares

Discretizao e Construo de Hierarquias Conceituais


- importante para dados numricos

Pr-processamento dos dados

Limpeza dos dados

Em que consiste a limpeza dos dados?

preencher dados ausentes

alisar o ruido

identificar valores aberrantes

Identificar inconsistncias

etc

Valores ausentes
" Dados no esto sempre disponveis

Ex., muitas tuplas no tem nenhum valor gravado para vrios


atributos (renda do cliente em dados relativos a vendas

" A ausncia de dados pode ser consequncia

mau funcionamento do equipamento

inconsistncia com outros dados gravados e conseqente supresso

No entrada de dados devido a enganos

determinados dados podem no ser considerados importantes no


momento do registro

etc.

" Pode ser necessrio inferir os dados ausentes

Valores ausentes
Quais os tratamentos usuais para valores ausentes?

Ignorar a descrio do indivduo ou mesmo eliminar


o descritor;
Preencher os valores ausentes manualmente;
Usar uma constante global para representar os
valores ausentes (no recomendado, pois o sistema
pode identificar esse valor como um conceito);
Usar a mdia (ou a moda);
Usar a mdia (ou a moda) por classe
Usar o valor mais provvel segundo um modelo
(regresso, regra de Bayes, rvores de deciso)

Dados com rudo e/ou valores aberrantes


Rudo: erro aleatrio ou variabilidade presente em descritores
Algumas tcnicas para a remoo de rudo

Alisamento

Regresso

Algumas tcnicas para a identificao de valores aberrantes

Clustering

Inspeo

Dados com rudo e /ou valores aberrantes


Alisamento: consiste em distribuir dados ordenados em caixas tendo
Como referncia os seus vizinhos
Ordenao: 1, 1, 2, 3, 3, 3, 4, 5, 5, 7
Particionamento em caixas
Alisamento pela mediana

Outras alternativas: mdia, fronteiras

Dados com rudo e /ou valores aberrantes


Clustering: deteo e remo de valores aberrantes
- os valores so organizados em grupos; os valores isolados
podem ser considerados aberrantes;

Dados com rudo e /ou valores aberrantes


Regresso:
- os dados podem ser alisados pelo ajustamento a uma funo
(regresso linear, por exemplo);
y
Y1

y=x+1

Y1

X1

Dados Inconsistentes

Erros no momento de introduo dos dados


Erros oriundos da integrao de vrias bases de dados
- mesmo atributo com diferentes codificaes;
- duplicao de objetos
etc

Integrao e Transformao de Dados

Integrao de dados
- Fuso de dados partir de diferentes fontes em uma nica
fonte coerente. As fontes podem ser bases de dados, cubos
ou arquivos texto
Transformao de Dados
- necessrio para obter os mesmos em uma forma apropriada
para a minerao

Integrao de Dados
Esquema em bases de dados relacionais
- identificao das mesmas entidades do mundo real a partir de mltiplas fontes de dados
- Integrao dos metadados de diferentes fontes

Redundncia
Dados redundantes ocorrem quando da integrao de bases de dados
- Diferentes nomes para um mesmo atributo;
- Um atributo pode ser derivado diretamente de outro;

Anlise de correlao: instrumento para a deteco de redundncias


Duplicao de objetos;

Integrao de Dados
Deteco e resoluo de conflitos
Os valores de um mesmo atributo pode diferir segundo as
diversas fontes
Isso pode acontecer devido a diferenas na representao,
Escala ou codificao
Peso (em libras ou em quilos)
Altura (valor numrico ou categrico (mdio, pequeno...)
Preo (pode indicar servios diferentes)

Transformao de dados
Objetivo:
obter os dados em uma forma mais apropriada para a minerao
Alisamento
Agregao: sumrios dos dados (soma, etc) quando da construo de
cubos para OLAP
Generalizao
Dados primitivos so substitudos por conceitos de ordem superior
via uma hierarquia de conceitos.
Ex. valores do atributo numrico idade so mapeados em jovem, meia-idade, etc.

Construo de novos atributos

Transformao de dados
Normalizao
A propsito da normalizao minimizar os problemas oriundos do
uso de unidades e disperses distintas entre as variveis
As variveis podem ser normalizadas segundo a amplitude ou segundo
a distribuio
Algumas ferramentas de modelizao so beneficiadas com a
Normalizao (redes neurais, KNN, clustering)

Transformao de dados
Normalizao segundo a amplitude
Justificativa: unidades diferentes ou disperses muito heterogneas

Transformao de dados
Normalizao distribucional
A normalizao distribucional interessante em vrias situaes:
remoo de distores de valores aberrantes, obteno de simetria etc.
As transformaes mais comuns so:

A mais suave a raiz e a mais forte a inversa negativa

Reduo de Dados
Razes para a reduo de dados:
ultrapassagem da capacidade de processamento dos programas de aprendizagem
tempo muito longo para obter uma soluo

Reduo de dados:
Obtem uma respresentao reduzida da srie de dados de que muito
menor no volume mas contudo produz os mesmos (ou quase os mesmos)
resultados analticos

Outras vantagens da reduo de dados:


reduo do tempo de aprendizagem
interpretao mais fcil dos conceitos aprendidos

Reduo de Dados

Estratgias para a reduo de dados


Agregao via cubo
Reduo de dimenso
Compresso de dados
Reduo de casos
Discretizao e construo de hierarquias conceituais

Reduo de Dados
Reduo de dimenso
Em data mining a supresso de uma coluna (atributo) muito mais
Delicada do que a supresso de uma linha (observao)
Retirar atributos relevantes ou permanecer com atributos irrelevantes
Pode implicar na descoberta de padres de baixa qualidade
Da a necessidade de um estgio de seleo de atributos
Uma abordagem para a seleo a manual, baseada em
conhecimento especialista

Reduo de Dados
Algumas abordagens automticas de seleo de variveis
Seleo do menor conjunto de atributos
Selecionar o menor conjunto de atributos suficiente para dividir o espao
das instancias de tal maneira que a distribuio das classes no novo espao
to prxima quanto possvel daquela do espao original
Problemas: busca exaustiva e overfitting

Algoritmo de construo de rvores de deciso


Aplicar esse algoritmo nos dados completos e ento selecionar apenas as
variveis presentes na rvore de deciso

Reduo de Dados
Conjunto inicial de atributos:
{A1, A2, A3, A4, A5, A6}
A4 ?
A6?

A1?

Class 1
>

Class 2

Class 1

Class 2

Conjunto reduzido de atributos: {A1, A4, A6}

Reduo de Dados
Seleo por busca no espao de atributos
Existem 2d possveis sub-conjuntos de a partir de d atributos
Vrias heursticas para a seleo de variveis
seleo forward: a busca iniciada sem atributos e os mesmos so adicionados um
a um. Cada atributo adicionado isoladamente e o conjunto resultante avaliado
segundo um critrio. O atributo que produz o melhor critrio incorporado

eliminao backward: a busca iniciada com o conjunto completo de atributos e os


mesmos so suprimidos um de cada vez. Cada atributo suprimido isoladamente e
o conjunto resultante avaliado segundo um critrio. O atributo que produz o
melhor critrio finalmente suprimido
combinao da seleo forward com a eliminao backward

Compresso de Dados
Essas tcnicas comprimem os dados originais

Dados
Comprimidos

Dados originais
Sem perda

Aproximao dos
dados originais

Compresso de Dados
Extrao de Variveis
Objetivo:
obter novas variveis partir dos atributos iniciais. Em geral as novas variveis so
combinaes lineares das variveis iniciais
Limitaes: modelo linear (no adequado especialmente para para os mtodos de
data mining baseados em lgica)

As tcnicas de reduo de dimenses se propem a reduzir o nmero


de variveis com a menor perda possvel de informaes
Essas tcnicas so teis tambm para tratar a redundncia de informaes
(correlao entre variveis) e rudo

Compresso de Dados
Extrao de Variveis
Famlias de Mtodos
Mtodos no supervisionados
Mtodos supervisionados

Mtodos no supervisionados:
Anlise de Componentes Principais (variveis quantitativas)
Anlise de Correspondncias (variveis qualitativas)
A primeira componente a combinao linear das variveis iniciais de maior
varincia (maximiza a separao entre os indivduos). A segunda componente
ortogonal a primeira (correlao nula), tambm combinao linear das variveis
iniciais e apresenta a segunda maior varincia. E assim por diante.

Compresso de Dados
Extrao de Variveis
X2
Y1
Y2

X1

Compresso de Dados
Extrao de Variveis
Mtodos supervisionados
Anlise Fatorial Discriminante
A primeira componente a combinao linear das variveis iniciais que melhor
separa os grupos entre si, isto , ela toma valores os mais prximos possveis
para os indivduos de um mesmo grupo e os mais diferentes para indivduos de
grupos distintos.
A segunda componente a combinao linear das variveis
iniciais ortogonal a primeira (correlao nula) que melhor separa os grupos
entre si. E assim por diante.

Reduo de Casos
Reduo do volume de dados via representao econmica dos mesmos
" Mtodos paramtricos

Supe que os dados ajustam um modelo, estimam os


parmetros do modelo, armazena apenas os parmetros e
descarrega os dados (exceto os aberrantes)

Principais modelos: regresso (simples e multipla) e


modelo log-linear

" Mtodos no paramtricos

No assume modelos

Famlias principais: histogramas, clustering, amostragem

Reduo de Casos
Regresso e modelos log-linear
" Regresso linear: os dados so modelados para se ajustarem a uma

linha reta

Em geral usa o mtodo dos quadrados mnimos para ajustar a linha

" Regresso mltipla: permite que uma varivel resposta seja

modelada como uma funo linear de um vetor de atributos


" Modelo Log-linear : aproxima distribuies de probabilidade

discretas multidimensionais

Reduo de Casos
Histogramas
" Particiona os dados em

caixas e armazena a
frequencia mdia dos
valores
" Em uma dimenso pode ser
construido pela otimizao
de um critrio via
programao dinmica

Reduo de Casos
Clustering
" Os dados so particionados em clusters e armazena-se apenas

a representao do mesmo
" Pode ser muito eficaz se os dados so agrupados mas no se

esto apenas sujos


" Existem muitas opes de mtodos de e algoritmos de

agrupamento

Reduo de Casos
Amostragem
" Permite que os algoritmos de minerao tratem enormes bases

de dados pela reduo dos casos


" Tipos de Amostragem:

Amostragem aleatria simples com reposio

Amostragem aleatria simples sem reposio

Amostragem estratificada

Amostragem por conglomerado

Reduo de Casos
Amostragem
Duas formas bsicas de amostragem so interessantes no
contexto da minerao de dados:
Amostragens incrementais
Amostragens seguida de voto

Reduo de Casos
Amostragem incremental
O treinamento realizado em amostras aleatrias cada vez maiores de
casos, observar a tendncia e parar quando no h mais progresso
Um padro tpico de tamanhos de amostras pode ser 10%, 20%, 33%, 50%, 67% e
100%

Critrios para passar para uma outra amostra


O erro diminuiu?
A complexidade do tratamento aumentou mais do que a queda da taxa de erro?
A complexidade da soluo atual aceitvel para a interpretao?

Reduo de Casos
Amostragem seguida de voto
Interesse: quando o mtodo de minerao suporta apenas N casos
O mesmo mtodo de minerao aplicado para diferentes amostras
de mesmo tamanho resultando em uma soluo para cada amostra
Quando um novo caso aparece, cada soluo fornece uma resposta.
A reposta final obtida por votao (classificao) ou pela mdia
(regresso)

Discretizao e Construo de Hierarquias


Interesse: reduo do numero de valores.
Muito interessante em rvores de deciso

" Discretizao

reduz o nmero de valores de um dado atributo contnuo pela diviso


da amplitude do atributo em intervalos. Os rtulos dos intevalos
substituem os valores.

" Hierarquias Conceituais

reduz os dados pela substituio de rtulos de nvel inferior (como os


valores numricos do atributo idade) por rtulos de nvel superior
(tais como jovem, meia-idade, etc)

Discretizao e Construo de Hierarquias


Ferramentas
" Alisamento
" Histograma
" Clustering
" Discretizao baseada em entropia
" Segmentao via particionamento natural

Discretizao e Construo de Hierarquias


Abordagens para a discretizao de intervalos:
discretizao no supervisionada
discretizao supervisionada

Discretizao no supervisionada
a discretizao realizada sem levar em conta os grupos a que pertencem as
instncias no conjunto de treinamento

Discretizao supervisionada
a discretizao realizada levando em conta os grupos a que pertencem as
instncias no conjunto de treinamento

Discretizao e Construo de Hierarquias


Tcnicas de Discretizao no supervisionada
Partio em intervalos iguais
riscos: escolher fronteiras que colocam juntas muitas instancias de diferentes
classes; intervalos sem nenhuma instancia outras com muitas

Partio por efetivos iguais


riscos: escolher fronteiras que colocam juntas muitas instancias de diferentes
classes

Partio em intervalos arbitrrios


Partio por minimizao da varincia

Discretizao e Construo de Hierarquias


Tcnicas de Discretizao supervisionada
Discretizao divisiva (top-down)
Exemplo: procura recursiva da partio binria que minimiza
o ganho de entropia
Discretizao aglomerativa (bottom-up)
Exemplo: isolar cada instancia em um intervalo e em seguida
fusionar intervalos segundo um critrio estatstico

Hierarquias de conceitos para dados categricos


" Especificao explcita de uma ordem parcial dos atributos ao

nvel do esquema pelos usurios e/ou especialistas


" Especificao de uma poro de hierarquia via agrupamento

de dados
" Especificao do conjunto de atributos, mas no da ordem

parcial
" Especificao de de um conjunto de atributos parcialmente

Hierarquias de conceitos para dados categricos


Hierarquia conceitual pode ser gerada automaticamente
com base no nmero de valores distintos por atributo.
O atributo com o maior nmero de valores distintos
colocado no nvel mais baixo da hierarquia.
Pais
Estado
Cidade
Rua

15 valores distintos
65 volores distintos
3567 valores distintos
674,339 valores distintos

Você também pode gostar