Escolar Documentos
Profissional Documentos
Cultura Documentos
Data Preparation
Data Preparation
Escolhas Bsicas
Medidas
Variveis, descritores
Uma varivel representa uma medida que toma um numero
particular de valores, com a possibilidade de valores diferentes
para cada observao.
Escalas
Escala Nominal
Nessa escala os valores so no numricos e so no ordenados.
Duas instncias apresentam ou no o mesmo valor.
Ex: Cor, Modelos de Carro, etc
Escala Ordinal
Nessa escala os so no numricos e ordenados. Uma instncia
pode apresentar um valor comparativamente maior do que uma
outra. Ex: Grau de Instruo
Escalas
Escala Intervalar
Nessa escala de valores numricos, existe no apenas uma ordem
entre os valores, mas tambm existe diferena entre esses valores.
O zero relativo.
Ex: Temperatura em Graus Celsius
Escala Proporcional
Nessa escala de valores numricos, alm da diferena, tem sentido
calcular a proporo entre valores (o zero absoluto).
Ex: Peso, Altura, etc.
Qualitativo / quantitativo
Variveis dicotmicas
Variveis binrias
Em geral so codificadas como 0, 1
0 em geral indica ausncia de propriedade
Ex: Possui antenas? (Sim , no)
Variveis Discretas
Qualquer varivel que possui um conjunto finito de valores distintos.
Ex: Departamentos do CIn
Variveis contnuas
Podem, em principio, assumir qualquer valor dentro de um
intervalo.
Exemplo: Peso, altura
Valores ausentes
Um valor ausente aquele ausente no conjunto de dados mas
existente no contexto em que a medida foi realizada
Numa base de dados eles so indicados por valores negativos ou
nulos em atributos numricos.
Em atributos no numricos por brancos ou traos.
As vezes so indicados por uma mesma constante
Valores inaplicveis
Mudana de Escala
Ordinal
Mudana de Escala
Intervalar
Ordinal
Perda de informao
Distino entre objetos de uma mesma categoria
Amplitude da diferena entre objetos de categorias diferentes
Mudana de Escala
Ordinal
Nominal
Binria
Codificao aditiva
Mudana de Escala
Ordinal ou Nominal
Binria
Idade
2
1
Azul
0
0
Marrom
1
1
0-20
1
0
0-60
0
0
>60
in
y2
...
yp
Ruidosos
-
-
Inconsistentes
-
Reduo de Dados
- reduo no volume de dados com resultados similares
alisar o ruido
Identificar inconsistncias
etc
Valores ausentes
" Dados no esto sempre disponveis
etc.
Valores ausentes
Quais os tratamentos usuais para valores ausentes?
Alisamento
Regresso
Clustering
Inspeo
y=x+1
Y1
X1
Dados Inconsistentes
Integrao de dados
- Fuso de dados partir de diferentes fontes em uma nica
fonte coerente. As fontes podem ser bases de dados, cubos
ou arquivos texto
Transformao de Dados
- necessrio para obter os mesmos em uma forma apropriada
para a minerao
Integrao de Dados
Esquema em bases de dados relacionais
- identificao das mesmas entidades do mundo real a partir de mltiplas fontes de dados
- Integrao dos metadados de diferentes fontes
Redundncia
Dados redundantes ocorrem quando da integrao de bases de dados
- Diferentes nomes para um mesmo atributo;
- Um atributo pode ser derivado diretamente de outro;
Integrao de Dados
Deteco e resoluo de conflitos
Os valores de um mesmo atributo pode diferir segundo as
diversas fontes
Isso pode acontecer devido a diferenas na representao,
Escala ou codificao
Peso (em libras ou em quilos)
Altura (valor numrico ou categrico (mdio, pequeno...)
Preo (pode indicar servios diferentes)
Transformao de dados
Objetivo:
obter os dados em uma forma mais apropriada para a minerao
Alisamento
Agregao: sumrios dos dados (soma, etc) quando da construo de
cubos para OLAP
Generalizao
Dados primitivos so substitudos por conceitos de ordem superior
via uma hierarquia de conceitos.
Ex. valores do atributo numrico idade so mapeados em jovem, meia-idade, etc.
Transformao de dados
Normalizao
A propsito da normalizao minimizar os problemas oriundos do
uso de unidades e disperses distintas entre as variveis
As variveis podem ser normalizadas segundo a amplitude ou segundo
a distribuio
Algumas ferramentas de modelizao so beneficiadas com a
Normalizao (redes neurais, KNN, clustering)
Transformao de dados
Normalizao segundo a amplitude
Justificativa: unidades diferentes ou disperses muito heterogneas
Transformao de dados
Normalizao distribucional
A normalizao distribucional interessante em vrias situaes:
remoo de distores de valores aberrantes, obteno de simetria etc.
As transformaes mais comuns so:
Reduo de Dados
Razes para a reduo de dados:
ultrapassagem da capacidade de processamento dos programas de aprendizagem
tempo muito longo para obter uma soluo
Reduo de dados:
Obtem uma respresentao reduzida da srie de dados de que muito
menor no volume mas contudo produz os mesmos (ou quase os mesmos)
resultados analticos
Reduo de Dados
Reduo de Dados
Reduo de dimenso
Em data mining a supresso de uma coluna (atributo) muito mais
Delicada do que a supresso de uma linha (observao)
Retirar atributos relevantes ou permanecer com atributos irrelevantes
Pode implicar na descoberta de padres de baixa qualidade
Da a necessidade de um estgio de seleo de atributos
Uma abordagem para a seleo a manual, baseada em
conhecimento especialista
Reduo de Dados
Algumas abordagens automticas de seleo de variveis
Seleo do menor conjunto de atributos
Selecionar o menor conjunto de atributos suficiente para dividir o espao
das instancias de tal maneira que a distribuio das classes no novo espao
to prxima quanto possvel daquela do espao original
Problemas: busca exaustiva e overfitting
Reduo de Dados
Conjunto inicial de atributos:
{A1, A2, A3, A4, A5, A6}
A4 ?
A6?
A1?
Class 1
>
Class 2
Class 1
Class 2
Reduo de Dados
Seleo por busca no espao de atributos
Existem 2d possveis sub-conjuntos de a partir de d atributos
Vrias heursticas para a seleo de variveis
seleo forward: a busca iniciada sem atributos e os mesmos so adicionados um
a um. Cada atributo adicionado isoladamente e o conjunto resultante avaliado
segundo um critrio. O atributo que produz o melhor critrio incorporado
Compresso de Dados
Essas tcnicas comprimem os dados originais
Dados
Comprimidos
Dados originais
Sem perda
Aproximao dos
dados originais
Compresso de Dados
Extrao de Variveis
Objetivo:
obter novas variveis partir dos atributos iniciais. Em geral as novas variveis so
combinaes lineares das variveis iniciais
Limitaes: modelo linear (no adequado especialmente para para os mtodos de
data mining baseados em lgica)
Compresso de Dados
Extrao de Variveis
Famlias de Mtodos
Mtodos no supervisionados
Mtodos supervisionados
Mtodos no supervisionados:
Anlise de Componentes Principais (variveis quantitativas)
Anlise de Correspondncias (variveis qualitativas)
A primeira componente a combinao linear das variveis iniciais de maior
varincia (maximiza a separao entre os indivduos). A segunda componente
ortogonal a primeira (correlao nula), tambm combinao linear das variveis
iniciais e apresenta a segunda maior varincia. E assim por diante.
Compresso de Dados
Extrao de Variveis
X2
Y1
Y2
X1
Compresso de Dados
Extrao de Variveis
Mtodos supervisionados
Anlise Fatorial Discriminante
A primeira componente a combinao linear das variveis iniciais que melhor
separa os grupos entre si, isto , ela toma valores os mais prximos possveis
para os indivduos de um mesmo grupo e os mais diferentes para indivduos de
grupos distintos.
A segunda componente a combinao linear das variveis
iniciais ortogonal a primeira (correlao nula) que melhor separa os grupos
entre si. E assim por diante.
Reduo de Casos
Reduo do volume de dados via representao econmica dos mesmos
" Mtodos paramtricos
No assume modelos
Reduo de Casos
Regresso e modelos log-linear
" Regresso linear: os dados so modelados para se ajustarem a uma
linha reta
discretas multidimensionais
Reduo de Casos
Histogramas
" Particiona os dados em
caixas e armazena a
frequencia mdia dos
valores
" Em uma dimenso pode ser
construido pela otimizao
de um critrio via
programao dinmica
Reduo de Casos
Clustering
" Os dados so particionados em clusters e armazena-se apenas
a representao do mesmo
" Pode ser muito eficaz se os dados so agrupados mas no se
agrupamento
Reduo de Casos
Amostragem
" Permite que os algoritmos de minerao tratem enormes bases
Amostragem estratificada
Reduo de Casos
Amostragem
Duas formas bsicas de amostragem so interessantes no
contexto da minerao de dados:
Amostragens incrementais
Amostragens seguida de voto
Reduo de Casos
Amostragem incremental
O treinamento realizado em amostras aleatrias cada vez maiores de
casos, observar a tendncia e parar quando no h mais progresso
Um padro tpico de tamanhos de amostras pode ser 10%, 20%, 33%, 50%, 67% e
100%
Reduo de Casos
Amostragem seguida de voto
Interesse: quando o mtodo de minerao suporta apenas N casos
O mesmo mtodo de minerao aplicado para diferentes amostras
de mesmo tamanho resultando em uma soluo para cada amostra
Quando um novo caso aparece, cada soluo fornece uma resposta.
A reposta final obtida por votao (classificao) ou pela mdia
(regresso)
" Discretizao
Discretizao no supervisionada
a discretizao realizada sem levar em conta os grupos a que pertencem as
instncias no conjunto de treinamento
Discretizao supervisionada
a discretizao realizada levando em conta os grupos a que pertencem as
instncias no conjunto de treinamento
de dados
" Especificao do conjunto de atributos, mas no da ordem
parcial
" Especificao de de um conjunto de atributos parcialmente
15 valores distintos
65 volores distintos
3567 valores distintos
674,339 valores distintos