Você está na página 1de 107

PATRICK MARQUES CIARELLI

patrick.ciarelli@ufes.br
 A cada dia, uma enorme quantidade de dados,
de diferentes formatos, é gerada:
 Séries temporais;
 Redes sociais;
 Textos;
 Imagens;
 Vídeos;
 Áudios.
 Com o aumento na quantidade de dados, é cada
vez maior o abismo entre a quantidade de dados
existente e a porção analisada.
 Conjunto de dados são formados por objetos
(exemplos, padrões, amostras) que podem
representar um objeto físico ou uma noção
abstrata. Ex.:
 Descrição de uma cadeira;
 Sintomas de um paciente.

 Cada objeto é representado por um vetor de


características (ou atributos);
 Cada atributo está associado a uma propriedade
do objeto. Ex.:
 Material do que é feito a cadeira;
 Peso da cadeira.
 Os dados podem ser representados por uma
matriz Xnd, em que n é o número de amostras e
d o número de atributos;
 Cada elemento xi,j corresponde ao j-ésimo
atributo da i-ésima amostra.
 Ex.:
 matriz de 5 amostras e 6 atributos. x2,4 = 2.
carro (acessibilidade) preço porta malas portas segurança lugares
inacessível alto pequeno 2 baixa 2
inacessível alto pequeno 2 média 2
inacessível médio médio 2 baixa 4
aceitável baixo pequeno 3 média 4
bom baixo pequeno 3 alta 4
 Os d atributos podem ser vistos como um
conjunto de eixos ortogonais, e as amostras
como pontos no espaço.
 Considere os dados abaixo. Cada objeto
corresponde a um paciente formado pelos seus
atributos: ID, nome, sexo, ...

ID. Nome Idade Sexo Peso Manchas Temp. Estado Diagnóstico


4201 João 28 M 79 Concentradas 38,0 SP Doente
3217 Maria 18 F 67 Inexistentes 39,5 MG Doente
4039 Luiz 49 M 92 Espalhadas 38,0 RS Saudável
1920 José 18 M 43 Inexistentes 38,5 MG Doente
4340 Cláudia 21 F 52 Uniformes 37,6 PE Saudável
2301 Ana 22 F 72 Inexistentes 38,0 RJ Doente

1322 Marta 19 F 87 Espalhadas 39,0 AM Doente


 Além desses atributos, existe um atributo alvo
ou meta, que é o fenômeno que se deseja fazer
previsões: diagnóstico;
 Este atributo é somente presente em tarefas de
aprendizado supervisionado;
 Em muitos casos, existe somente um atributo
alvo. Mas podem haver mais de um atributo alvo
(classificação multirrotulada).
 Problema de classificação:
 Quando um atributo alvo (denominado classe) contém
rótulos para identificar categorias ou classes. Ele
assume valores discretos 1, ..., k;
 Pode ser classificação binária (2 classes) ou
multiclasses (mais de 2 classes).
 Problema de regressão:
 O atributo alvo contém valores numéricos contínuos.
 Os valores dos atributos podem ser definidos de
duas formas:
 Tipo;
 Escala.
 O tipo define se o atributo representa
quantidades ou qualidades:
 Quantitativo: são valores numéricos. Podem ser
contínuos ou discretos. Podem ser ordenados e usados
em operações aritméticas. Ex.: {4,5,12};
 Qualitativo: são simbólicos ou categóricos. Alguns
podem ser ordenados, mas não podem ser usados em
operações aritméticas. Ex.: {pequeno, médio,
grande}.
 A escala define as operações que podem ser
realizadas sobre os atributos;
 Do tipo qualitativo:
 Nominais: os valores são não numéricos e não existe
relação de ordem entre eles. Ex.: cores, marca de
carro;
 Ordinais: os valores são não numéricos, mas podem
ser ordenados. Ex.: {frio, morno, quente}.
 Do tipo quantitativo:
 Intervalares: os valores são numéricos. Existe não
apenas uma ordem entre os valores, mas também
existe diferença em magnitude entre os valores. O
zero é relativo. Ex.: temperatura em graus Celsius;
 Racionais: os valores são numéricos. Além da
diferença, tem sentido calcular a proporção entre
valores (o zero é absoluto). Ex.: peso, altura,
temperatura em Kelvin.
 Variáveis discretas:
 Qualquer variável que possui um conjunto finito de
valores distintos;
 Ex.: Departamentos na UFES.

 Variáveis contínuas:
 Podem, em princípio, assumir qualquer valor dentro
de um intervalo;
 Ex.: Peso, altura.
 Valores ausentes:
 Valores ausentes acontecem quando estão faltando
valores de um ou mais atributos em um conjunto de
amostras;
 Numa base de dados, eles são indicados por valores
negativos ou nulos em atributos numéricos;
 Em atributos não numéricos por brancos ou traços;
 As vezes são indicados por uma mesma constante.
 Ex.:
Nome Sexo Idade Peso Altura
João Masculino 37 78 1,76
Pedro Masculino 45 71 1,65
Maria Feminino ? 50 1,58
 Valores inaplicáveis:
 Um valor inaplicável é um valor ausente e inexistente
no contexto em que os dados foram coletados.
 Ex.:

Sexo Idade Número de partos Cidade


Feminino 35 2 Curitiba
Masculino 27 nulo Porto Alegre
Feminino 29 1 Rio de Janeiro
 Muitas informações podem ser obtidas analisando
um conjunto de dados:
 Localização ou tendência central;
 Dispersão;
 Distribuição ou formato.

 Elas são úteis para:


 Entendimento do problema;
 Seleção de técnicas para pré-processamento;
 Seleção de técnicas para aprendizado.
 Em um conjunto univariado, cada objeto xi
possui um único atributo;
 Supondo um conjunto de n objetos, temos x =
{x1, x2, ..., xn}.
 Ex.:
 Vendas de paletós em cada mês: x = {13,15,17,25,20}.
 Medidas de localidade: definem tendência dos
dados;
 Para dados simbólicos: utiliza-se geralmente a moda
(valor encontrado com maior frequência para um
atributo);
 Para atributos numéricos:
 Média:
1 n
x   xi
n i 1
 Mediana: menos sensível a outliers. Ordenar os n valores de
forma crescente. Selecionar o termo xr+1, se n for ímpar (n =
2r + 1), ou a média de xr e xr+1, se n for par (n = 2r).
 Medidas de localidade: definem tendência dos
dados;
 Para atributos numéricos:
 Média truncada: descarta os exemplos extremos de uma
sequência ordenada de valores antes de calcular a média.

 Ponto médio: ordena os valores e calcula a média dos dois


valores extremos.

 Quartis e percentis: essas medidas são usadas após os


valores serem ordenados.
 Os quartis dividem os valores ordenados em quartos. Assim, o
primeiro quartil de uma sequência tem 25% dos valores abaixo dele.
 O p-ésimo percentil é um valor xi do conjunto de valores tal que p%
dos valores observados são menores que xi. O valor do 25º percentil é
igual ao primeiro quartil.
 Medidas de localidade: definem tendência dos
dados;
 Para atributos numéricos:
 Quartis e percentis: cálculo do percentil (quartil)
 Ordene n valores em ordem crescente e escolha um valor de percentil
p entre 0,0 e 1,0 (0% a 100%);
 Calcule o produto entre n e p;
 Se np não for inteiro: arredondar para o próximo inteiro e retornar o
valor dessa posição na sequência;
 Caso contrário: considerar np = k e retonar a média entre os valores
nas posições k e k+1.

 Exemplo: calcular o 25º percentil da sequência: 72, 74, 75, 77, 78, 79,
82, 85, 86, 90, 93, 94.
 Solução: n = 12 e p = 0,25  np = 3
 Logo, o 25º percentil é (75+77)/2 = 76
 Medidas de localidade: definem tendência dos
dados;
 Uma forma simples de visualizar a distribuição dos
dados é através de boxplots.
 O boxplot da figura ilustra os valores para o 1º, 2º
(mediana) e 3º quartis, além dos limites inferior e
superior dos dados.
 Medidas de espalhamento: mede a dispersão de
um conjunto de valores;
 Intervalo: é mais efetivo se os dados estiverem
próximos de uma mesma região;
intervalo x   max xi   min xi 
i 1,...,n i 1,...n

 Variância:
1 n
var x    i   2
x x
n  1 i 1
 Desvio Padrão:

stdx   var x 
 Medidas de distribuição: fornece informação da
distribuição dos dados;
 Momento:
n

 ix  x k

momento k x   i 1
n 1
 k= 1: resulta em zero. Primeiro momento central;
 k= 2: resulta na variância. Segundo momento central;
 k= 3: resulta na obliquidade. Terceiro momento;
 k= 4: resulta na curtose. Quarto momento.
 Obliquidade: mede a assimetria da distribuição
dos dados em torno da média.

momento 3 x 
obliquidad e_normaliz adax  
stdx 
3

 Obliquidade = 0  simetria;
 Obliquidade > 0  dados concentram-se à direita;
 Obliquidade < 0  dados concentram-se à esquerda;
 Curtose: mede o achatamento da distribuição.
momento 4 x 
curtose_normalizada x  
stdx 
4

 Curtose = 3  mesmo achatamento que uma


distribuição normal;
 Curtose > 3  distribuição mais alta e concentrada
que a normal;
 Curtose < 3  distribuição mais achatada que a
normal.
 Costuma-se utilizar a distribuição normal como
referência:
momento 4 x 
curtose_normalizada x   3
stdx 
4
 Exemplos de curtose e obliquidade:
 Histograma: uma forma simples de visualizar a
distribuição dos dados;
 Histograma: pode ser usado tanto para valores
numéricos e simbólicos;
 Os valores são divididos em partes, e a altura de
cada uma é proporcional ao número de
elementos em cada parte.
 Ex.:
 x = {1;1;3;5;6;2;2;8;7;2;9}
 1-3: 6 valores {1;1;3;2;2;2}
 4-6: 2 valores {5;6}
 7-9: 3 valores {8;7;9}
 Dados multivariados: os objetos possuem mais de
um atributo de entrada;
 Supondo um conjunto de n objetos (X = {x1, x2,
..., xn}), na qual cada objeto possui d atributos
(xi = {xi,1, xi,2, ..., xi,d}).
 Ex.:
1 20 3,5
0,5 15 4 
 
X  0,5 25 3,6
1,2 17 3 
 
2,2 22 5 
 Localidade: podem ser calculadas as medidas de
localidade (média, mediana) para cada atributo
separadamente;
 Espalhamento: podem ser calculadas para cada
atributo independentemente;
 Pode ser calculada a relação entre os atributos por
uma matriz de covariância. O valor de cada elemento
é:
 
cov x i , x j 
1 n
  
xi,k  xi  x j ,k  x j
n  1 k 1
1 n
xi   xi ,m
n m 1
 Análise da covariância:
 Valor próximo de zero: atributos não tem uma relação
linear (não implica em independência);
 Valor positivo: atributos diretamente relacionados.
Se um aumenta o outro aumenta;
 Valor negativo: atributos inversamente relacionados.
Se um aumenta o outro diminui.
 Desvantagem: influenciado pela magnitude dos
atributos;
 Solução: correlação.

covx i , x j   corrx i , x j   1 se i  j
corrx i , x j  
stdx i stdx j  - 1  corrx i , x j   1 se i  j

 Gráficos:
Gráficos entre pares de atributos Rostos de
Chernoff
Heat maps Projeção em uma
dimensionalidade menor

Coordenadas paralelas

Grinstein, G., Trutschl, M., Cvek, U.. High-Dimensional Visualizations. Knowledge


Discovery and Data Mining – Workshop on Visual Data Mining., 2001
Gráfico de linhas múltiplas

Grinstein, G., Trutschl, M., Cvek, U.. High-Dimensional Visualizations. Knowledge


Discovery and Data Mining – Workshop on Visual Data Mining., 2001
RadViz PolyViz

Grinstein, G., Trutschl, M., Cvek, U.. High-Dimensional Visualizations. Knowledge


Discovery and Data Mining – Workshop on Visual Data Mining., 2001
Orange – Ferramenta para visualização, data mining e aprendizado
de máquina. http://orange.biolab.si/
 O desempenho dos algoritmos de AM é afetado
pela qualidade dos dados usados para
treinamento;
 Os dados podem conter ruídos, valores
incorretos, inconsistentes, duplicados ou
ausentes;
 Também podem ser independentes ou
relacionados, possuir poucas ou muitas amostras
e ter um número pequeno ou elevado de
atributos.
 Técnicas de pré-processamento de dados são
úteis para:
 minimizar ou eliminar os problemas citados;
 tornar os dados mais adequados para a utilização;
 facilitar a tarefa de AM, obtendo modelos mais
simples e fiéis à distribuição dos dados;
 facilitar a interpretação dos padrões extraídos pelos
modelos de AM.
 As principais técnicas de pré-processamento
podem ser agrupadas nos seguintes grupos:
 Eliminação manual de atributos;
 Integração de dados;
 Amostragem de dados;
 Balanceamento de dados;
 Limpeza de dados;
 Transformação de dados;
 Redução de dimensionalidade.
 Consiste na eliminação de atributos que
claramente são irrelevantes para o problema.
Ex.:
 Nome e RG de um paciente para diagnóstico de
câncer;
 Atributos que possuem o mesmo valor para todas as
amostras.
 Essa etapa costuma ser feita por um especialista
que conhece as particularidades do problema.
 Dados em diferentes conjuntos de dados
precisam ser unidos (integrados). Pode haver:
 Atributos de cada amostra distribuídos em diferentes
conjuntos de dados;
 Amostras distribuídas em diferentes conjuntos de
dados;
 Atributos e amostras em diferentes conjuntos.

 Deve-se tomar cuidado para identificar os


atributos corretos associados a cada amostra;
 Os dados podem estar codificados de forma
diferente em cada conjunto de dados.
 Em certas ocasiões, a quantidade de dados pode
ser muito elevada e comprometer a eficiência de
um algoritmo de AM;
 Dilema: eficiência versus eficácia;
 Solução: usar um subconjunto dos dados;
 Se bem selecionado, um subconjunto fornece um
desempenho semelhante a um conjunto
completo, porém mais eficiente.
 As amostras selecionadas devem ser
representativas do conjunto original;
 O ideal é que o subconjunto:
 Seja pequeno em relação ao conjunto original;
 Possua a mesma distribuição estatística do conjunto
original;
 Apresente as mesmas características e padrões do
conjunto original.
 Há três abordagens comuns para amostragem:
 Amostragem aleatória simples;
 Amostragem estratificada;
 Amostragem progressiva.
 Amostragem aleatória simples:
 Cada amostra tem a mesma probabilidade de ser
escolhida;
 Ela pode ser sem reposição: amostra selecionada
apenas uma vez;
 Com reposição: cada amostra pode ser selecionada
mais de uma vez.
 Amostragem aleatória simples:
 Dimensionamento de amostra aleatória simples:
 Para cada amostragem de dados existe um erro de
estimativa atribuído;
 Esse erro é considerado nulo para o espaço amostral;
 Ex.: distintas amostragens têm valores diferentes de média e
variância dos obtidos no espaço amostral completo.
 Amostragem aleatória simples:
 Dimensionamento de amostra aleatória simples:
 O número n de amostras selecionadas é em função do erro e
admitido:
2
 t s 
n 2 
 e 
 
 Onde:
 s  desvio padrão de uma amostra piloto

de tamanho n0;
 t/2  valor de t que deixa uma

probabilidade de /2 na extremidade de


cada cauda de acordo com o nível de
significância  e n0-1 graus de liberdade (gl).
 Amostragem aleatória simples:
 Dimensionamento de amostra aleatória simples:
 Ex.: Calcular o número n de medidas necessárias para
estimar o peso médio dos alunos de uma universidade com
um erro e de, no máximo, 3 kg;
 A amostra piloto n0 é composta de dez medidas X =
{75;82;94;66;81;77;68;98;84;80};
 Para  = 5% (nível de significância: probabilidade da média
real não estar no intervalo definido pelo erro);
 Solução:
 Olhando a tabela de distribuição t de Student,  = 0,05
bilateral e gl = 9: t/2 = 2,262;
 s = 10,069; 2
 t s   2,262 10,069 
2

n 2  n  n  58
 e   3 
 
 Amostragem aleatória simples:
 Dimensionamento de amostra aleatória simples:
 Amostragem estratificada:
 Usada quando os dados são desbalanceados;
 Pode manter a proporção de distribuição entre os
dados. Ex.: se no conjunto original há 80% de
amostras para classe 1 e 20% para classe 2, no
subconjunto é mantida essa proporção;
 Pode equalizar a distribuição, selecionando o mesmo
número de amostras para cada classe.
 Amostragem progressiva:
 Método supervisionado;
 Começa com um subconjunto pequeno e aumenta
progressivamente o tamanho do subconjunto
enquanto a eficácia continuar a melhorar ou ser
atingido um critério de parada;
 Geralmente fornece boa estimativa de tamanho de
amostra.
 Amostragem progressiva:
 O treinamento é realizado em amostras aleatórias
cada vez maiores;
 Um padrão típico de tamanhos de amostras pode ser
10%, 20%, 33%, 50%, 67% e 100%;
 Critérios para passar para uma outra quantidade de
amostras:
 O erro diminuiu?
 A complexidade do tratamento aumentou mais do que a
queda da taxa de erro?
 A complexidade da solução atual é aceitável para a
interpretação?
 Em problemas de classificação é comum haver
mais dados de uma classe do que de outras,
embora ás vezes não reflita a realidade;
 Ex.: 80% dos dados de um hospital são de pacientes
com uma doença grave contra 20% de pessoas
saudáveis. Mas no mundo real não é essa proporção.
 Alguns algoritmos são influenciados por este
desbalanceamento e tendem a classificar na
classe majoritária.
 Técnicas de balanceamento:
 Redefinir o tamanho do conjunto de dados;
 Custos diferentes para classificação das classes;
 Induzir um modelo para uma classe.
 Redefinir o tamanho do conjunto de dados:
 Podem ser adicionadas amostras à classe minoritária
ou eliminados da classe majoritária;
 Adicionar amostras  amostras irreais que nunca
ocorrerão. Pode haver overfitting no treinamento
para as classes;
 Ex.: uma amostra que diz que uma criança pesa 80 kg.
 Método simples de gerar novas amostras: interpolação.
Exemplo:
 x1 = {1;2,5} e x2 = {0,5;1,5}
 x3,1 =0,4x1 + 0,6x0,5 = 0,7
 x3,2 = 0,55x2,5 + 0,45x1,5 = 2,05
 Eliminar amostras  amostras importantes podem ser
eliminadas. Pode ocasionar underfitting no
treinamento.
 Custos diferentes para classificação das classes:
 Associa custos diferentes para cada classe. Ex.: se a
classe majoritária tem o dobro de exemplos da
minoritária, um erro na minoritária equivale ao dobro
da majoritária;
 A dificuldade está em estabelecer esses custos, que
podem distorcer a distribuição real dos dados;
 Nem todos os algoritmos de AM permitem incorporar
fácil esse conceito.
 Custos diferentes para classificação das classes:
 Pode apresentar um baixo desempenho se amostras
da classe majoritária forem próximas entre si e
sobrepostas da classe minoritária;
 Pode privilegiar a classe minoritária.
 Induzir um modelo para uma classe:
 É utilizado um algoritmo de classificação para uma
classe, pode ser a minoritária ou a majoritária (ou
ambas), que é aprendida separadamente;
 Exemplo de algoritmo: one-class Support Vector Machine
(SVM)
 Esse algoritmo é treinado apenas com as amostras da
classe positiva (no caso, a classe
minoritária/majoritária);
 A desvantagem é o aumento no número de
classificadores para realizar uma tarefa.
 Os dados coletados de um determinado evento
podem ser de baixa qualidade:
 Dados ruidosos;
 Dados inconsistentes;
 Dados redundantes;
 Dados incompletos.
 Dados inconsistentes, redundantes ou
incompletos são mais fáceis de detectar
daqueles que são ruidosos.
 Dados incompletos: ausência de valores para
alguns objetos;
 Motivos:
 Atributo não relevante no início da coleta;
 Valor desconhecido;
 Falha no procedimento de coleta ou armazenamento dos
dados;
 Erro de preenchimento;
 Inexistência de um valor para alguns objetos.

Nome Sexo Idade Peso Altura


João Masculino 37 78 -
Pedro - 45 71 1,65
Maria Feminino - 50 1,58
 Dados incompletos. Soluções:
 Eliminar objetos com valores ausentes: não indicada
quando existem poucos objetos;
 Usar algoritmos de AM que lidam com valores
ausentes. Ex.: árvores de decisão.
 Definir e preencher os valores para os atributos com
valores ausentes:
 Criar um valor para indicar que o atributo é desconhecido. O
valor pode ser comum a todos os atributos ou diferente para
cada um. Problema: o algoritmo pode associar um conceito
importante ao valor;
 Utilizar a média, a moda ou a mediana dos valores
conhecidos;
 Utilizar um algoritmo de AM para estimar o valor.
Geralmente utiliza objetos semelhantes para predizer o
valor.
 Dados inconsistentes: dados com valores
conflitantes nos atributos que podem produzir
outliers;
 Ex.:
 Uma pessoa com peso 120 kg e idade 3 anos;
 Objetos com os mesmos valores nos atributos, mas de classes
diferentes;
 Inconsistências podem ocorrer durante a integração
dos dados, coleta ou armazenamento;
 Inconsistências podem ser identificadas quando
relações conhecidas entre atributos são violadas ou
quando valores desviam significantemente do padrão.
Ex: atributos que são inversamente proporcionais.
 Dados inconsistentes. Soluções:
 Gráficos de um atributo versus um outro, ou versus
uma classe;
 Valores que distanciam mais de duas vezes o desvio
padrão da média costumam ser considerados outliers.
 Dados inconsistentes. Soluções:
 Usar informações conhecidas sobre os atributos
(requisitado um especialista). Ex.: relação entre
atributos, tipos de atributos, escala dos valores, etc;
 Análise de histogramas para eliminar outliers;
 Análise de boxplots para eliminar outliers;
 http://openrefine.org/
 http://www.cs.waikato.ac.nz/ml/weka/
 Dados redundantes:
 Dados podem possuir tanto objetos como atributos
redundantes;
 Um objeto é redundante quando seus atributos são
muito semelhantes aos valores dos atributos de outro
objeto;
 Um atributo é redundante quando seu valor para
todos os objetos pode ser deduzido a partir do valor
de um ou mais atributos;
 Dados redundantes interferem nos algoritmos de AM.
 Dados redundantes. Solução:
 Identificar objetos redundantes;
 Eliminar as redundâncias encontradas;
 Quanto mais correlacionados os atributos, maior o
grau de redundância.

Nome Sexo Idade Peso Altura


João Masculino 37 78 1,75
Pedro Masculino 45 71 1,65
João Masculino 37 78 1,75
Maria Feminino 35 50 1,58
 Dados com ruídos:
 Dados que, aparentemente, não pertencem à
distribuição que gerou os dados;
 Geralmente provocados por um erro aleatório no
valor gerado ou medido para um atributo;
 Não é possível ter certeza se um dado foi
contaminado por um ruído ou não.
 Dados com ruídos. Estratégias:
 Identificar as observações que diferem da distribuição
dos dados. Problema: normalmente não é conhecida a
real distribuição dos dados;
 Técnicas de encestamento: Ordenar todos os valores
de um atributo. Dividir esses valores em faixas ou
cestas, cada um com o mesmo número de valores. Os
valores em cada cesta são substituídos pela média ou
mediana;
 Técnicas de agrupamento: Valores de atributos que
não formam grupos com outros valores são
considerados outliers. Amostras que caem em grupos
de outras classes também podem ser consideradas
outliers.
 Dados com ruídos. Técnica de encestamento:
 Ordernar dados: 4, 9, 9, 15, 21, 21, 23, 25, 26, 28,
30, 34
 Particionar em cestas (bins):
 Bin 1: 4, 9, 9, 15
 Bin 2: 21, 21, 23, 25
 Bin 3: 26, 28, 30, 34
 Suavizar pela mediana
 Bin 1: 9, 9, 9, 9
 Bin 2: 22, 22, 22, 22
 Bin 3: 29, 29, 29, 29
 Suavizar pela média
 Bin 1: 9, 9, 9, 9
 Bin 2: 23, 23, 23, 23
 Bin 3: 30, 30, 30, 30
 Dados com ruídos: Técnica de agrupamento.
 Detecção e remoção de valores outliers:
 Os valores são organizados em grupos. Valores
isolados são considerados outliers.
 Dados com ruídos. Estratégias:
 Técnicas baseadas em distância: se uma amostra está
mais próxima de amostras de outras classes, ela pode
ser um outlier. Mas também pode ser uma amostra de
fronteira ou as classes podem ser muito sobrepostas;

 Técnicas baseadas em regressão ou classificação:


usam técnicas de AM para estimar o valor real de um
atributo, seja real (regressão) ou simbólica
(classificação).
 Dados com ruídos: Regressão:
 Os dados podem ser suavizados pelo ajustamento a
uma função (p.ex. regressão linear);
 Ou eliminados (ex.: RANSAC).

Y1

Y1’ y=x+1

X1 x
 Várias técnicas de AM estão limitados a
manipular somente um determinado tipo de
dados:
 Apenas valores numéricos (redes neurais e SVM);
 Apenas valores simbólicos (árvores de decisão).

 Para conseguir usar certos conjuntos de dados


em uma determinada técnica é necessário às
vezes converter os dados.
 Conversão simbólico-numérico:
 Quando atributo é simbólico e binário: pode ser
representado por apenas um bit;
 Ex.:
 ausência (0) e presença (1);
 doente (0) e sadio (1);
 baixo (0) e alto (1).
 Conversão simbólico-numérico:
 Atributo nominal com mais de dois valores:
 Se não houver relação de ordem entre os dados, essa falta
de ordem deve ser mantida;
 A diferença entre quaisquer dois valores deve ser a mesma;
 Solução: usar uma sequência de c bits (c é o número de
valores simbólicos);
 Desvantagem: sequência pode ser longa.

Atributo nominal Código 1 – de – c


Azul 100000
Amarelo 010000
Verde 001000
Preto 000100
Marrom 000010
Branco 000001
 Conversão simbólico-numérico:
 Atributo ordinal com mais de dois valores:
 A conversão deve preservar a relação de ordem;
 Valor numérico (inteiro ou real): os valores devem ser
ordenados de mesma forma que os dados simbólicos;
 Valores binários: pode ser utilizado o código cinza ou código
termômetro para representar os valores.

Atributo ordinal Código cinza Código termômetro


Atributo ordinal Valor inteiro
Primeiro 000 00000
Péssimo 0
Segundo 001 00001
Ruim 1
Terceiro 011 00011
Regular 2
Quarto 010 00111
Bom 3
Quinto 110 01111
Excelente 4
Sexto 100 11111
 Conversão numérico-simbólico: algumas técnicas
trabalham com valores qualitativos;
 Atributo quantitativo discreto e binário: associa um
nome a cada valor;
 Ex.:
 0 (ausente) e 1 (presente);
 Atributo formado por sequência binária sem uma
relação de ordem: cada sequência pode ser
substituída por um nome;
 Conversão numérico-simbólico:
 Outros casos: discretizar os valores através de
intervalos de valores;
 Cada intervalo de valor é convertido em um valor
qualitativo;
 Ex.:
 Idade A = [0, 150]
 0-20: jovem; 20-60: adulto; >60: idoso
 A’= {jovem, adulto, idoso}
 Desvantagem: perda de informação.
 Conversão numérico-simbólico:
 Existem diferentes métodos, e a escolha do método
depende do problema:
 Métodos paramétricos: informado o número de intervalos;
 Métodos não paramétricos: a informação do número de
intervalos é extraído dos próprios dados;
 Métodos supervisionados e não supervisionados.
 Conversão numérico-simbólico:
 Estratégias de conversão:
 Larguras iguais dos intervalos: pode ser afetado por outliers;
 Número de objetos iguais a cada intervalo: Intervalos de
tamanhos muito diferentes;
 Algoritmo de agrupamento;
 Inspeção visual.
 Ex.: x = {1;2;10;11;13;14;15;17;17;19;20;21;22,22,35}
 Larguras iguais: 9 valores
 1...9  2; 10...18  7; 19...27 5; 28...36  1
 Número de objetos iguais em cada intervalo: 5 objetos
 1...13; 14...19; 20...35
 Algumas vezes o valor numérico de um atributo
precisa ser transformado em outro valor
numérico para ser tratado adequadamente;
 Esse procedimento é importante porque:
 Os limites inferiores e superiores de diferentes
atributos são muito diferentes;
 A escala de valores de vários atributos podem ser
diferentes;
 Evitar que um atributo predomine sobre os demais;
 Algumas técnicas tem o desempenho prejudicado
(kNN, redes neurais, clustering).
 Ex.:
temp. fusão (°C) massa (kg) Volume (cm3) Dureza material
0 10 10000 3 subst. 1
-200 0,05 500 1 subst. 2
100 0,5 2000 4 subst. 3
-150 1 43000 1 subst. 4
 Transformação por magnitude dos valores: as
vezes só a informação da magnitude é
importante, não o sinal. Solução: converter os
valores do atributo para o seu valor absoluto ou
usar um offset. Ex.: converter °C para K;
 Transformação por normalização: usada quando
os limites dos atributos são distintos. Pode
ocorrer de duas formas:
 Amplitude;
 Distribuição.
 Amplitude: esta normalização pode ser por
reescala ou padronização. Ela define uma nova
escala de valores para os atributos:
 Normalização min-max: para cada atributo j é obtido
seu valor mínimo (a) e máximo (b). Depois são
estabelecidos o seu novo valor mínimo (c) e seu novo
valor máximo (d). Este procedimento reescala os
valores da faixa [a;b]  [c;d]:
xi , j  a
xˆi , j  c  d  c 
ba
 Para a nova escala com c = 0 e d = 1:
xi , j  a
xˆi , j 
ba
 Este procedimento não muda a proporção dos valores de um
determinado atributo, mas muda dentro de cada amostra.
 Amplitude:
 Normalização por amostras: para cada amostra xi com
d atributos é realizada uma normalização. A
proporção dos valores dos atributos dentro da
amostra é preservada.
xi , j d j  1,2,..., d
xˆi , j  x
k
xi k
xi k
k
j 1
i, j
1 k  

Casos especiais: d

 xˆ

 k = 1 (norma L1)  i, j 1

 xˆ 
j 1 d
1
2
 k = 2 (norma euclidiana ou L2)  i, j

 
j 1
 k   (norma infinita ou L)  xi 
 max xi , j
j 1,..,d
 Amplitude:
 Normalização por amostras. Ex.:
 xi = {1;2;3;10;0}
 k = 1  xi 1  16  {1/16;2/16;3/16;10/16;0}

 k = 2  xi 2
 10,68  {1/10,68;2/10,68;3/10,68;10/10,68;0}

 k    xi 
 10  {1/10;2/10;3/10;10/10;0}
 Amplitude:
 Normalização por padronização: embora esse
procedimento imponha diferentes limites inferiores e
superiores diferentes para cada atributo, a escala e
espalhamento são iguais;
 O mais comum é fazer que os valores dos atributos
tenham média zero e variância um. Para o caso de n
amostras com d atributos:
xi , j   j
xˆi , j  j  1,2,..., d
j
1 n
 j   xi , j j
 
1 n
 x   2


i, j j
n i 1 n 1 i 1
 Amplitude:
 Normalização por padronização: embora esse
procedimento imponha diferentes limites inferiores e
superiores diferentes para cada atributo, a escala e
espalhamento são iguais;
 Outra forma de normalização é pela mediana do
desvio absoluto (MAD), que é menos afetada por
outliers do que o desvio padrão.
xi , j   j
xˆi , j  j  1,2,..., d
MAD j
1 n
 j   xi , j
n i 1

MAD j  mediana xi , j  medianax j  
 Distribuição: muda a escala de valores de um
atributo;
 A normalização distribucional é interessante para
remoção de distorções, de valores aberrantes,
obtenção de simetria, etc;
 É útil para obter uma relação mais linear entre os
valores de um determinado atributo.
 Para um atributo j presente em n amostras:

xˆi , j  xi , j xˆi , j  logxi , j  xˆ  1 i  1,2,..., n


i, j
xi , j

 Ex.: x = {1;4;9;16}  xnovo = {1;2;3;4}


 Distribuição:
 Ordenar os valores de um atributo e substituir estes
valores pela posição que eles ocupam no ranking;
 Se todos os valores originais forem distintos, o
resultado é uma distribuição uniforme;
 Ex.: x = {1;5;9;3;8}
 Ordenado  1 3 5 8 9
 Novos valores xnovo= {1;3;5;2;4}
 Transformação por tradução: o valor do atributo
é traduzido para um valor mais facilmente
manipulado. Ex.:
 Conversão de data de nascimento para idade;
 Conversão de grandezas físicas: metros cúbicos para
litros, Celsius para Kelvin, etc;
 Localização dada por um GPS para código postal;
 Uso de relações físicas ou matemáticas: substituir
massa e volume por densidade.
temp. fusão (°C) massa (kg) Volume (cm3) dureza material
0 10 10000 3 subst. 1
-200 0,05 500 1 subst. 2
100 0,5 2000 4 subst. 3
-150 1 43000 1 subst. 4
 Razões para a redução de dados:
 Ultrapassagem da capacidade de processamento dos
computadores, sobretudo memória;
 Tempo muito longo para obter uma solução;
 Maldição da dimensionalidade: espaço de busca
exponencial;
 Objetivo da redução de dimensionalidade:
 Obter uma representação reduzida do conjunto de
dados, mas que produza os mesmos (ou quase os
mesmos) resultados do que usando o conjunto
completo de dados;
 Outras vantagens da redução de dados:
 Redução do tempo de aprendizagem;
 Interpretação mais fácil dos conceitos aprendidos.
 Abordagens para a redução de dimensionalidade:
 Agregação;
 Seleção de atributos (características).
 Agregação:
 As principais técnicas para redução de dimensão por
agregação combinam os atributos originais por meio
de funções lineares ou não lineares;
 Ex.: Análise de Componentes Principais (PCA);
 Pelo fato de combinarem os atributos originais, as
técnicas de agregação levam à perda dos valores
originais e tornam mais difícil a interpretação dos
resultados a partir dos atributos originais;
 Neste caso é preferível usar uma técnica de seleção
de atributos.
 Seleção de atributos: as técnicas de seleção de
atributos apresentam uma série de vantagens:
 Identificar atributos importantes;
 Descartar atributos irrelevantes, redundantes ou
contaminados por ruídos;
 Reduzir a necessidade de memória e tempo de
processamento;
 Simplificar o modelo gerado e tornar mais fácil sua
compreensão;
 Facilitar a visualização dos dados;
 Reduzir o custo de coleta e armazenamento de dados.
 Seleção de atributos:
 Três abordagens para avaliação do conjunto de
atributos podem ser avaliados:
 Embutida;
 Baseada em filtro;
 Baseada em wrapper.
 Seleção de atributos:
 Embutida: a seleção de atributos é embutida no
próprio algoritmo de aprendizado. Ex.: árvores de
decisão;
 Ex.: conjunto inicial de atributos: {A1, A2, A3, A4, A5, A6}

A4 ?

A1? A6?

Class 1 Class 2 Class 1 Class 2

 Conjunto reduzido de atributos: {A1, A4, A6}


 Seleção de atributos:
 Baseada em filtro: nessa abordagem é aplicado um
filtro sobre o conjunto de atributos original que gera
um subconjunto de atributos;
 Essa abordagem é usada em uma etapa de pré-
processamento e é independente do algoritmo de
aprendizado;
 As principais vantagens dessas técnicas são:
 As heurísticas utilizadas para avaliar um subconjunto são
computacionalmente pouco custosas (os filtros podem ser
bem rápidos);
 Os filtros conseguem lidar eficientemente com uma grande
quantidade de dados.
 Seleção de atributos:
 Baseada em wrapper: essa abordagem utiliza o
próprio algoritmo de AM com uma ferramenta para
seleção dos atributos;
 Para cada subconjunto de atributos o algoritmo de AM
é testado e, em geral, o subconjunto que combina a
menor taxa de erro e a maior redução de atributos é
selecionado;
 Técnicas baseadas nesta abordagem costumam ter um
custo computacional elevado e se aproximarem a
técnicas de força bruta (busca exaustiva).
 Seleção de atributos:
 Formas de seleção de atributos:
 Técnicas de ordenação;
 Técnicas de seleção de subconjuntos.
 Seleção de atributos:
 Técnicas de ordenação: os atributos são ordenados
conforme a sua relevância para um determinado
critério, como, por exemplo, representar o conjunto
de dados com mínima perda de informação ou separar
objetos em classes distintas;
 Ex.: Determinar a substância de que é feito um
material.
Atributo Score
Densidade 10,23
Ponto de fusão 7,34
Estado em condições normais 5,87
Peso 3,67
Brilho 1,90
 Seleção de atributos:
 Técnicas de seleção de subconjuntos: essa técnica
seleciona o subconjunto de atributos que melhor
conseguem atender um critério, normalmente
minimizar a taxa de erro;
 Ela simplesmente seleciona, sem ordenar os atributos
pela sua ordem de importância;
 São computacionalmente mais custosas do que os
métodos baseados em ordenação, e podem ser
intratáveis para dados com um grande número de
atributos;
 São usadas em conjunto com um algoritmo de AM.
 Seleção de atributos:
 Técnicas de seleção de subconjuntos. Ponto de
partida e direção da busca:
 Geração para trás: começa com todos os atributos e remove
um por vez;
 Geração para a frente: começa com nenhum atributo e
inclui um por vez;
 Geração bidirecional: a busca começa em qualquer ponto e
atributos podem ser adicionados ou removidos;
 Geração aleatória: os atributos a serem adicionados ou
removidos são selecionados aleatoriamente.
 Seleção de atributos:
 Técnicas de seleção de subconjuntos. Estratégia de
busca:
 Busca completa (exponencial ou exaustiva): que avalia todos
os possíveis subconjuntos. Encontra o subconjunto ótimo,
mas a busca pode ser muito lenta;
 Busca heurística: que utiliza regras e métodos para conduzir
a busca. Não garante a melhor solução, mas em geral é mais
rápida que a busca exaustiva;
 Busca aleatória: não existe um conjunto de regras
conduzindo a busca e nem tão pouco é realizada a busca
exaustiva. Não garante a melhor solução.
 Técnicas para redução de dimensionalidade
 http://homepage.tudelft.nl/19j49/Matlab_Toolbox_for_Dimen
sionality_Reduction.html
 http://featureselection.asu.edu

Você também pode gostar