Escolar Documentos
Profissional Documentos
Cultura Documentos
patrick.ciarelli@ufes.br
A cada dia, uma enorme quantidade de dados,
de diferentes formatos, é gerada:
Séries temporais;
Redes sociais;
Textos;
Imagens;
Vídeos;
Áudios.
Com o aumento na quantidade de dados, é cada
vez maior o abismo entre a quantidade de dados
existente e a porção analisada.
Conjunto de dados são formados por objetos
(exemplos, padrões, amostras) que podem
representar um objeto físico ou uma noção
abstrata. Ex.:
Descrição de uma cadeira;
Sintomas de um paciente.
Variáveis contínuas:
Podem, em princípio, assumir qualquer valor dentro
de um intervalo;
Ex.: Peso, altura.
Valores ausentes:
Valores ausentes acontecem quando estão faltando
valores de um ou mais atributos em um conjunto de
amostras;
Numa base de dados, eles são indicados por valores
negativos ou nulos em atributos numéricos;
Em atributos não numéricos por brancos ou traços;
As vezes são indicados por uma mesma constante.
Ex.:
Nome Sexo Idade Peso Altura
João Masculino 37 78 1,76
Pedro Masculino 45 71 1,65
Maria Feminino ? 50 1,58
Valores inaplicáveis:
Um valor inaplicável é um valor ausente e inexistente
no contexto em que os dados foram coletados.
Ex.:
Exemplo: calcular o 25º percentil da sequência: 72, 74, 75, 77, 78, 79,
82, 85, 86, 90, 93, 94.
Solução: n = 12 e p = 0,25 np = 3
Logo, o 25º percentil é (75+77)/2 = 76
Medidas de localidade: definem tendência dos
dados;
Uma forma simples de visualizar a distribuição dos
dados é através de boxplots.
O boxplot da figura ilustra os valores para o 1º, 2º
(mediana) e 3º quartis, além dos limites inferior e
superior dos dados.
Medidas de espalhamento: mede a dispersão de
um conjunto de valores;
Intervalo: é mais efetivo se os dados estiverem
próximos de uma mesma região;
intervalo x max xi min xi
i 1,...,n i 1,...n
Variância:
1 n
var x i 2
x x
n 1 i 1
Desvio Padrão:
stdx var x
Medidas de distribuição: fornece informação da
distribuição dos dados;
Momento:
n
ix x k
momento k x i 1
n 1
k= 1: resulta em zero. Primeiro momento central;
k= 2: resulta na variância. Segundo momento central;
k= 3: resulta na obliquidade. Terceiro momento;
k= 4: resulta na curtose. Quarto momento.
Obliquidade: mede a assimetria da distribuição
dos dados em torno da média.
momento 3 x
obliquidad e_normaliz adax
stdx
3
Obliquidade = 0 simetria;
Obliquidade > 0 dados concentram-se à direita;
Obliquidade < 0 dados concentram-se à esquerda;
Curtose: mede o achatamento da distribuição.
momento 4 x
curtose_normalizada x
stdx
4
covx i , x j corrx i , x j 1 se i j
corrx i , x j
stdx i stdx j - 1 corrx i , x j 1 se i j
Gráficos:
Gráficos entre pares de atributos Rostos de
Chernoff
Heat maps Projeção em uma
dimensionalidade menor
Coordenadas paralelas
de tamanho n0;
t/2 valor de t que deixa uma
n 2 n n 58
e 3
Amostragem aleatória simples:
Dimensionamento de amostra aleatória simples:
Amostragem estratificada:
Usada quando os dados são desbalanceados;
Pode manter a proporção de distribuição entre os
dados. Ex.: se no conjunto original há 80% de
amostras para classe 1 e 20% para classe 2, no
subconjunto é mantida essa proporção;
Pode equalizar a distribuição, selecionando o mesmo
número de amostras para cada classe.
Amostragem progressiva:
Método supervisionado;
Começa com um subconjunto pequeno e aumenta
progressivamente o tamanho do subconjunto
enquanto a eficácia continuar a melhorar ou ser
atingido um critério de parada;
Geralmente fornece boa estimativa de tamanho de
amostra.
Amostragem progressiva:
O treinamento é realizado em amostras aleatórias
cada vez maiores;
Um padrão típico de tamanhos de amostras pode ser
10%, 20%, 33%, 50%, 67% e 100%;
Critérios para passar para uma outra quantidade de
amostras:
O erro diminuiu?
A complexidade do tratamento aumentou mais do que a
queda da taxa de erro?
A complexidade da solução atual é aceitável para a
interpretação?
Em problemas de classificação é comum haver
mais dados de uma classe do que de outras,
embora ás vezes não reflita a realidade;
Ex.: 80% dos dados de um hospital são de pacientes
com uma doença grave contra 20% de pessoas
saudáveis. Mas no mundo real não é essa proporção.
Alguns algoritmos são influenciados por este
desbalanceamento e tendem a classificar na
classe majoritária.
Técnicas de balanceamento:
Redefinir o tamanho do conjunto de dados;
Custos diferentes para classificação das classes;
Induzir um modelo para uma classe.
Redefinir o tamanho do conjunto de dados:
Podem ser adicionadas amostras à classe minoritária
ou eliminados da classe majoritária;
Adicionar amostras amostras irreais que nunca
ocorrerão. Pode haver overfitting no treinamento
para as classes;
Ex.: uma amostra que diz que uma criança pesa 80 kg.
Método simples de gerar novas amostras: interpolação.
Exemplo:
x1 = {1;2,5} e x2 = {0,5;1,5}
x3,1 =0,4x1 + 0,6x0,5 = 0,7
x3,2 = 0,55x2,5 + 0,45x1,5 = 2,05
Eliminar amostras amostras importantes podem ser
eliminadas. Pode ocasionar underfitting no
treinamento.
Custos diferentes para classificação das classes:
Associa custos diferentes para cada classe. Ex.: se a
classe majoritária tem o dobro de exemplos da
minoritária, um erro na minoritária equivale ao dobro
da majoritária;
A dificuldade está em estabelecer esses custos, que
podem distorcer a distribuição real dos dados;
Nem todos os algoritmos de AM permitem incorporar
fácil esse conceito.
Custos diferentes para classificação das classes:
Pode apresentar um baixo desempenho se amostras
da classe majoritária forem próximas entre si e
sobrepostas da classe minoritária;
Pode privilegiar a classe minoritária.
Induzir um modelo para uma classe:
É utilizado um algoritmo de classificação para uma
classe, pode ser a minoritária ou a majoritária (ou
ambas), que é aprendida separadamente;
Exemplo de algoritmo: one-class Support Vector Machine
(SVM)
Esse algoritmo é treinado apenas com as amostras da
classe positiva (no caso, a classe
minoritária/majoritária);
A desvantagem é o aumento no número de
classificadores para realizar uma tarefa.
Os dados coletados de um determinado evento
podem ser de baixa qualidade:
Dados ruidosos;
Dados inconsistentes;
Dados redundantes;
Dados incompletos.
Dados inconsistentes, redundantes ou
incompletos são mais fáceis de detectar
daqueles que são ruidosos.
Dados incompletos: ausência de valores para
alguns objetos;
Motivos:
Atributo não relevante no início da coleta;
Valor desconhecido;
Falha no procedimento de coleta ou armazenamento dos
dados;
Erro de preenchimento;
Inexistência de um valor para alguns objetos.
Y1
Y1’ y=x+1
X1 x
Várias técnicas de AM estão limitados a
manipular somente um determinado tipo de
dados:
Apenas valores numéricos (redes neurais e SVM);
Apenas valores simbólicos (árvores de decisão).
Casos especiais: d
xˆ
k = 1 (norma L1) i, j 1
xˆ
j 1 d
1
2
k = 2 (norma euclidiana ou L2) i, j
j 1
k (norma infinita ou L) xi
max xi , j
j 1,..,d
Amplitude:
Normalização por amostras. Ex.:
xi = {1;2;3;10;0}
k = 1 xi 1 16 {1/16;2/16;3/16;10/16;0}
k = 2 xi 2
10,68 {1/10,68;2/10,68;3/10,68;10/10,68;0}
k xi
10 {1/10;2/10;3/10;10/10;0}
Amplitude:
Normalização por padronização: embora esse
procedimento imponha diferentes limites inferiores e
superiores diferentes para cada atributo, a escala e
espalhamento são iguais;
O mais comum é fazer que os valores dos atributos
tenham média zero e variância um. Para o caso de n
amostras com d atributos:
xi , j j
xˆi , j j 1,2,..., d
j
1 n
j xi , j j
1 n
x 2
i, j j
n i 1 n 1 i 1
Amplitude:
Normalização por padronização: embora esse
procedimento imponha diferentes limites inferiores e
superiores diferentes para cada atributo, a escala e
espalhamento são iguais;
Outra forma de normalização é pela mediana do
desvio absoluto (MAD), que é menos afetada por
outliers do que o desvio padrão.
xi , j j
xˆi , j j 1,2,..., d
MAD j
1 n
j xi , j
n i 1
MAD j mediana xi , j medianax j
Distribuição: muda a escala de valores de um
atributo;
A normalização distribucional é interessante para
remoção de distorções, de valores aberrantes,
obtenção de simetria, etc;
É útil para obter uma relação mais linear entre os
valores de um determinado atributo.
Para um atributo j presente em n amostras:
A4 ?
A1? A6?