Escolar Documentos
Profissional Documentos
Cultura Documentos
Escolhas Bsicas
Ponto de vista da minerao: um objeto descrito por uma coleo de caractersticas sobre as quais podem ser realizadas medidas
Conceito A entidade a ser aprendida. Alguns algoritmos de aprendizagem fornecem uma descrio de um conceito
Medidas
O que possvel medir sobre as caractersticas: meu carro azul escuro, 2 portas, 6 cilindros, 5 passageiros
Variveis, descritores Uma varivel representa uma medida que toma um numero particular de valores, com a possibilidade de valores diferentes para cada observao.
Escalas
Escala Nominal
Nessa escala os valores so no numricos e so no ordenados. Duas instncias apresentam ou no o mesmo valor. Ex: Cor, Modelos de Carro, etc Escala Ordinal Nessa escala os so no numricos e ordenados. Uma instncia pode apresentar um valor comparativamente maior do que uma outra. Ex: Grau de Instruo
Escalas
Escala Intervalar
Nessa escala de valores numricos, existe no apenas uma ordem entre os valores, mas tambm existe diferena entre esses valores. O zero relativo. Ex: Temperatura em Graus Celsius Escala Proporcional Nessa escala de valores numricos, alm da diferena, tem sentido calcular a proporo entre valores (o zero absoluto). Ex: Peso, Altura, etc.
Qualitativo / quantitativo
Variveis dicotmicas
Variveis binrias
Em geral so codificadas como 0, 1
Variveis Discretas
Qualquer varivel que possui um conjunto finito de valores distintos. Ex: Departamentos do CIn
Variveis contnuas Podem, em principio, assumir qualquer valor dentro de um intervalo. Exemplo: Peso, altura
Valores ausentes
Um valor ausente aquele ausente no conjunto de dados mas existente no contexto em que a medida foi realizada Numa base de dados eles so indicados por valores negativos ou nulos em atributos numricos. Em atributos no numricos por brancos ou traos. As vezes so indicados por uma mesma constante
Valores inaplicveis
Um valor inaplicvel um valor ausente e inexistente no contexto em que a medida foi realizada. Ex: Sexo = Masculino e Nmero de Partos = null Sexo = Feminino e Nmero de Partos = 0
Valores ausentes e vazios A diferenciao entre valores ausentes e valores inaplicveis importante mais ainda no se dispe de tcnicas automticas para fazer isso. Deve-se faze-lo manualmente Quase todas as ferramentas de modelizao dispem de tcnicas para tratar dados ausentes: ignora - los, atribuir um valor fixo aos valores ausentes ou estimar os valores ausentes partir de outras variveis Em algumas situaes os dados ausentes so altamente informativos e ao serem tratados perde-se essa informao
Mudana de Escala
Ex: Idade O = [0, 150] 0-20: jovem; 20-60: adulto; >60: idoso O={jovem, adulto, idoso} Trata-se de subdividir O em subintervalos contguos e associar a cada um deles uma modalidade
Mudana de Escala
Intervalar
Ordinal
Perda de informao Distino entre objetos de uma mesma categoria Amplitude da diferena entre objetos de categorias diferentes
Mudana de Escala
Ordinal
Nominal
Ordinal ou Nominal
Binria
Mudana de Escala
Ordinal ou Nominal
Binria
Cor: 1(verde), 2(azul), 3(marrom) Idade: 1(0-20), 2(20-60), 3(> 60) w w Verde w 1 w 0 Cor 1 2 Azul 0 1 Idade 2 1 Marrom 0 0 0-20 1 1 0-60 1 0 >60 0 0
Representao dos Dados Tabelas de Dados (flat file): as colunas representam as variveis e as linhas representam as observaes
y1 i1 y2 ... yp
in
Ruidosos
-
Inconsistentes
discrepncias nas codificaes ou nos nomes
Em que consiste a limpeza dos dados? preencher dados ausentes alisar o ruido identificar valores aberrantes Identificar inconsistncias etc
Valores ausentes
Dados no esto sempre disponveis
Ex., muitas tuplas no tem nenhum valor gravado para vrios atributos (renda do cliente em dados relativos a vendas
Valores ausentes
Quais os tratamentos usuais para valores ausentes? Ignorar a descrio do indivduo ou mesmo eliminar o descritor; Preencher os valores ausentes manualmente; Usar uma constante global para representar os valores ausentes (no recomendado, pois o sistema pode identificar esse valor como um conceito); Usar a mdia (ou a moda); Usar a mdia (ou a moda) por classe Usar o valor mais provvel segundo um modelo (regresso, regra de Bayes, rvores de deciso)
Y1
y=x+1
X1
Dados Inconsistentes
Erros no momento de introduo dos dados Erros oriundos da integrao de vrias bases de dados - mesmo atributo com diferentes codificaes; - duplicao de objetos etc
Integrao de dados - Fuso de dados partir de diferentes fontes em uma nica fonte coerente. As fontes podem ser bases de dados, cubos ou arquivos texto Transformao de Dados - necessrio para obter os mesmos em uma forma apropriada para a minerao
Integrao de Dados
Esquema em bases de dados relacionais
- identificao das mesmas entidades do mundo real a partir de mltiplas fontes de dados - Integrao dos metadados de diferentes fontes
Integrao de Dados
Deteco e resoluo de conflitos Os valores de um mesmo atributo pode diferir segundo as diversas fontes Isso pode acontecer devido a diferenas na representao, Escala ou codificao Peso (em libras ou em quilos) Altura (valor numrico ou categrico (mdio, pequeno...) Preo (pode indicar servios diferentes)
Transformao de dados
Objetivo: obter os dados em uma forma mais apropriada para a minerao
Alisamento
Agregao: sumrios dos dados (soma, etc) quando da construo de cubos para OLAP Generalizao
Dados primitivos so substitudos por conceitos de ordem superior via uma hierarquia de conceitos.
Ex. valores do atributo numrico idade so mapeados em jovem, meia-idade, etc.
Transformao de dados
Normalizao A propsito da normalizao minimizar os problemas oriundos do uso de unidades e disperses distintas entre as variveis As variveis podem ser normalizadas segundo a amplitude ou segundo a distribuio Algumas ferramentas de modelizao so beneficiadas com a Normalizao (redes neurais, KNN, clustering)
Transformao de dados
xm a) y s
Transformao de dados
Normalizao distribucional A normalizao distribucional interessante em vrias situaes: remoo de distores de valores aberrantes, obteno de simetria etc. As transformaes mais comuns so:
1 x
log( x )
Reduo de Dados
Razes para a reduo de dados:
ultrapassagem da capacidade de processamento dos programas de aprendizagem tempo muito longo para obter uma soluo
Reduo de dados:
Obtem uma respresentao reduzida da srie de dados de que muito menor no volume mas contudo produz os mesmos (ou quase os mesmos) resultados analticos
Reduo de Dados
Reduo de casos
Discretizao e construo de hierarquias conceituais
Reduo de Dados
Reduo de dimenso Em data mining a supresso de uma coluna (atributo) muito mais Delicada do que a supresso de uma linha (observao) Retirar atributos relevantes ou permanecer com atributos irrelevantes Pode implicar na descoberta de padres de baixa qualidade
Reduo de Dados
Algumas abordagens automticas de seleo de variveis
Seleo do menor conjunto de atributos
Selecionar o menor conjunto de atributos suficiente para dividir o espao das instancias de tal maneira que a distribuio das classes no novo espao to prxima quanto possvel daquela do espao original Problemas: busca exaustiva e overfitting
Reduo de Dados
Conjunto inicial de atributos: {A1, A2, A3, A4, A5, A6} A4 ? A1? A6?
Class 1
>
Class 2
Class 1
Class 2
Reduo de Dados
Seleo por busca no espao de atributos Existem 2d possveis sub-conjuntos de a partir de d atributos Vrias heursticas para a seleo de variveis
seleo forward: a busca iniciada sem atributos e os mesmos so adicionados um a um. Cada atributo adicionado isoladamente e o conjunto resultante avaliado segundo um critrio. O atributo que produz o melhor critrio incorporado
eliminao backward: a busca iniciada com o conjunto completo de atributos e os mesmos so suprimidos um de cada vez. Cada atributo suprimido isoladamente e o conjunto resultante avaliado segundo um critrio. O atributo que produz o melhor critrio finalmente suprimido combinao da seleo forward com a eliminao backward
Compresso de Dados
Essas tcnicas comprimem os dados originais
Dados Comprimidos
Compresso de Dados
Extrao de Variveis
Objetivo:
obter novas variveis partir dos atributos iniciais. Em geral as novas variveis so combinaes lineares das variveis iniciais Limitaes: modelo linear (no adequado especialmente para para os mtodos de data mining baseados em lgica)
As tcnicas de reduo de dimenses se propem a reduzir o nmero de variveis com a menor perda possvel de informaes Essas tcnicas so teis tambm para tratar a redundncia de informaes (correlao entre variveis) e rudo
Compresso de Dados
Extrao de Variveis
Famlias de Mtodos
Mtodos no supervisionados Mtodos supervisionados
Mtodos no supervisionados:
Anlise de Componentes Principais (variveis quantitativas) Anlise de Correspondncias (variveis qualitativas)
A primeira componente a combinao linear das variveis iniciais de maior varincia (maximiza a separao entre os indivduos). A segunda componente ortogonal a primeira (correlao nula), tambm combinao linear das variveis iniciais e apresenta a segunda maior varincia. E assim por diante.
Compresso de Dados
Extrao de Variveis
X2 Y1 Y2
X1
Compresso de Dados
Extrao de Variveis
Mtodos supervisionados
Anlise Fatorial Discriminante
A primeira componente a combinao linear das variveis iniciais que melhor separa os grupos entre si, isto , ela toma valores os mais prximos possveis para os indivduos de um mesmo grupo e os mais diferentes para indivduos de grupos distintos. A segunda componente a combinao linear das variveis iniciais ortogonal a primeira (correlao nula) que melhor separa os grupos entre si. E assim por diante.
Reduo de Casos
Reduo do volume de dados via representao econmica dos mesmos
Mtodos paramtricos
Supe que os dados ajustam um modelo, estimam os parmetros do modelo, armazena apenas os parmetros e descarrega os dados (exceto os aberrantes) Principais modelos: regresso (simples e multipla) e modelo log-linear No assume modelos Famlias principais: histogramas, clustering, amostragem
Mtodos no paramtricos
Reduo de Casos
Regresso e modelos log-linear
Regresso linear: os dados so modelados para se ajustarem a uma linha reta
Regresso mltipla: permite que uma varivel resposta seja modelada como uma funo linear de um vetor de atributos Modelo Log-linear : aproxima distribuies de probabilidade discretas multidimensionais
Reduo de Casos
Histogramas Particiona os dados em caixas e armazena a frequencia mdia dos valores Em uma dimenso pode ser construido pela otimizao de um critrio via programao dinmica
40 35 30 25 20 15 10 5
100000 10000 20000 30000 40000 50000 60000 70000 80000 90000
Reduo de Casos
Clustering
Os dados so particionados em clusters e armazena-se apenas a representao do mesmo Pode ser muito eficaz se os dados so agrupados mas no se esto apenas sujos Existem muitas opes de mtodos de e algoritmos de agrupamento
Reduo de Casos
Amostragem
Permite que os algoritmos de minerao tratem enormes bases de dados pela reduo dos casos Tipos de Amostragem:
Amostragem aleatria simples com reposio Amostragem aleatria simples sem reposio Amostragem estratificada Amostragem por conglomerado
Reduo de Casos
Amostragem
Duas formas bsicas de amostragem so interessantes no contexto da minerao de dados: Amostragens incrementais
Reduo de Casos
Amostragem incremental
O treinamento realizado em amostras aleatrias cada vez maiores de casos, observar a tendncia e parar quando no h mais progresso
Um padro tpico de tamanhos de amostras pode ser 10%, 20%, 33%, 50%, 67% e 100%
Reduo de Casos
Amostragem seguida de voto
Interesse: quando o mtodo de minerao suporta apenas N casos O mesmo mtodo de minerao aplicado para diferentes amostras de mesmo tamanho resultando em uma soluo para cada amostra
Discretizao
reduz o nmero de valores de um dado atributo contnuo pela diviso da amplitude do atributo em intervalos. Os rtulos dos intevalos substituem os valores.
Hierarquias Conceituais
reduz os dados pela substituio de rtulos de nvel inferior (como os valores numricos do atributo idade) por rtulos de nvel superior (tais como jovem, meia-idade, etc)
Histograma
Clustering
Discretizao no supervisionada
a discretizao realizada sem levar em conta os grupos a que pertencem as instncias no conjunto de treinamento
Discretizao supervisionada
a discretizao realizada levando em conta os grupos a que pertencem as instncias no conjunto de treinamento
Tcnicas de Discretizao supervisionada Discretizao divisiva (top-down) Exemplo: procura recursiva da partio binria que minimiza o ganho de entropia