Escolar Documentos
Profissional Documentos
Cultura Documentos
Anal Expl2008
Anal Expl2008
no espaço bi ou tri-dimensional.
EXEMPLOS DE PROBLEMAS DE RECONHECIMENTO DE PADRÕES Vamos ver aqui dois destes métodos. Eles são totalmente diferentes em suas
♣ É possível distinguir a origem de amostras de café ou a diferença entre vinhos concepções e geralmente usados para a análise exploratória dos dados.
usando dados gerados por um cromatógrafo? Em caso positivo, é possível identificar
quais os picos do cromatograma são os responsáveis? Análise de Componentes Principais; PCA
e
♣Pode-se determinar que parte de uma planta e em que época do ano as suas folhas Análise de Agrupamentos Hierárquicos; HCA
devem ser colhidas, para se obter um rendimento maior na extração do princípio ativo?
ANÁLISE DE COMPONENTES PRINCIPAIS
♣É possível usar parâmetros estruturais para estimar se um derivado de um fármaco
será mais ativo ou menos tóxico do que o composto original, antes de sintetizá-lo? Introduzida por Karl Pearson em 1901. [3]
♣É possível usar técnicas instrumentais para fins forenses?
♦microscopia para identificar o estilo de vida de uma pessoa com base na análise O tratamento formal do método é devido ao trabalho de Hotteling, [4] da década de 30.
de seu cabelo?
♦ICP-EOS para determinar se um embutido a base de peru foi feito com carne de PCA é um método de projeção: → que projeta os dados multivariados num espaço de
peito (como indica o rótulo) ou com carne da coxa? dimensão menor reduzindo a dimensionalidade do espaço do conjunto dos dados e
♦espectroscopia para detectar possíveis fraudes em destilados? por isto é um método de “compressão”. Como resultado, as informações mais
importantes e relevantes se tornam mais óbvias
A análise exploratória de dados é uma ferramenta útil para a identificação de padrões e
nos auxilia a encontrar respostas para perguntas como estas acima. Esta análise também pode ser usada para detectar amostras com comportamento
atípico, diferenciado do restante do conjunto (anômalas).
______________________________________________________________________________________________
Vamos nos restringir aqui ao estudo do reconhecimento de padrões não
[3] Pearson, K. ‘On Lines and Planes of Closest Fit to Systems of Points in Space’, Phil. Mag. 2 (1901)
supervisionado. ‘Não Supervisionado’ porque durante a análise dos dados, não 559-572. [4] Hotteling, H. ‘Analysis of a Complex Statistical Variables into Principal Components’,
se faz uso de informação a respeito das classes existentes entre as amostras. J. Edu. Psychol. 24 (1933) 417-441, 498-520.
Uma das amostras está ligeiramente afastada da reta ideal. Como justificar, se
Todos os espectros têm a mesma forma e que a única variação que ocorre é nas apenas a concentração está variando?
intensidades de emissão, que aumentam regularmente com o aumento da
Havendo correlações significativas entre as variáveis do conjunto de dados, é
concentração.
possível encontrar novas variáveis em quantidade menor que a inicial, que
Se tivessem sido medidas apenas as intensidades para estes dois comprimentos descrevem aproximadamente toda a informação contida nos dados originais.
de onda, os espectros teriam apenas duas variáveis.
Cada espectro é representado por um ponto no espaço R2 das variáveis.
Estas novas variáveis (FATORES, COMPONENTES PRINCIPAIS, AUTOVETORES FUNDAMENTOS MATEMÁTICOS
VARIÁVEIS LATENTES) são definidas como combinações lineares das variáveis O ponto de partida para a análise exploratória é a MATRIZ PRÉ-TRATADA dos
originais. dados,
NOTA: As relações entre as amostras não são alteradas por esta transformação.
⎡x1T ⎤ ⎡ x11 x12 L L x1J ⎤
PROPRIEDADES IMPORTANTES DAS NOVAS VARIÁVEIS (novos eixos) ⎢ T ⎥ ⎢x L L x2 J ⎥
⎢x 2 ⎥ ⎢ 21 x22
⎥
♦São ortogonais entre si (i. e., são completamente NÃO-correlacionadas)
X=⎢ M ⎥=⎢ M
⎢ ⎥ ⎢
M O M ⎥ = x1
⎥
[ x2 L L xJ ]
♦São construídas em ordem decrescente da quantidade de variância que ⎢ M ⎥ ⎢ M M O M ⎥
⎢x T ⎥ ⎢ x I 1 xI 2 L L x IJ ⎥⎦
descrevem (o primeiro fator descreve maior variância dos dados que o segundo, etc.) ⎣ I⎦ ⎣
RESULTADO: pode-se visualizar a informação relevante dos dados em um espaço de
baixa dimensionalidade. Cada amostra é representada por um vetor linha e cada variável por um vetor
Através da ANÁLISE DE COMPONENTES PRINCIPAIS determina-se a coluna, ⎡ x1 j ⎤
dimensionalidade intrínseca do conjunto de dados, A. ⎢x ⎥
x iT = [x x x ⋅⋅⋅ x ] ⎢ 2 j⎥
i1 i2 i3 iJ xj = ⎢ M ⎥
⎢ ⎥
⎢ M ⎥
⎢ xIj ⎥
⎣ ⎦
A matriz X(IxJ) é decomposta em duas matrizes, uma de escores T e uma de
pesos “loadings“ L de tal maneira que,
⎡ ⎤ ⎡ ⎤ ⎡ ⎤ ⎡ ⎤ ⎡ ⎤ Quadrados
⎢
⎢ X ⎥ = ⎢t ⎥
⎥ ⎢ 1⎥ [ l 1T ]+ ⎢⎢t ⎥⎥ [
2 l T2 ]+ L + ⎢⎢t ⎥⎥ [
A l TA ]+ ⎢⎢ E ⎥
⎥ mínimos
⎣⎢ ⎦⎥ ⎣⎢ ⎦⎥ ⎣⎢ ⎦⎥ ⎣⎢ ⎦⎥ ⎣⎢ ⎦⎥
A matriz de correlação C
♣ é quadrada (JxJ) ♣ Fazendo uma rotação para facilitar a
♣ Note a diferença entre as
visualização, obtém-se a representação
♣ é simétrica c12 = c21 escalas nos eixos PC1 e PC2.
gráfica dos ESCORES.
♣ tem os elementos da diagonal iguais a 1,0
♣ tem traço igual ao número de variáveis J.
O coeficiente de correlação entre as variáveis [Mg2+] e [Cl-] é igual ao coeficiente de
correlação entre [Cl-] e [Mg2+] = 0,998. ♣ Os dados estão dispersos ao longo do eixo PC1, que descreve a maior
quantidade de informação dos dados originais.
Este valor é bastante alto confirmando a alta correlação, já detectada anteriormente.
♣ Os dados apresentam uma pequena variação ao longo de PC2.
O que PCA faz??
Agrupa aquelas variáveis que são altamente correlacionadas numa nova variável ♣ A amostra 3 que nos dados centrados na média tinha coordenadas iguais à -
chamada COMPONENTE PRINCIPAL, direcionada ao longo do eixo de maior 0,519 e -1,072, agora tem escores próximos de -1,0 e 0,0 em PC1 e PC2
espalhamento dos dados. respectivamente.
Há várias maneiras de calcular os escores os pesos. Relação existente entre as matrizes obtidas pela decomposição SVD e a matriz de
correlação:
1- Decomposição de Valores Singulares, SVD
2- Diagonalização da Matriz de correlação e As colunas da matriz V contém os autovetores da matriz XT X e as colunas da
3- Algoritmo NIPALS. matriz U contém os autovetores da matriz X XT
Escores T = U S
⎡- 0,6007 0,1906 - 0,0897 - 0,1416 0,5892 0,4770 ⎤ t1 t2
⎢ ⎥
⎢ - 0,3447 - 0,3429 - 0,1135 0,6062 - 0,4534 0,4215 ⎥
⎡- 5,6297 0,0408 ⎤
⎢ ⎥ O quanto de variância é descrito em cada componente
- 0,1270 - 0,0770 0,9866 0,0326 0,0059 0,0588 ⎥ ⎢- 3,2306 - 0,0734⎥
U = ⎢⎢ ⎢ ⎥ principal?
⎢ 0,1113 0,6223 0,0481 0,7174 0,2315 - 0,1725⎥⎥ ⎢ - 1,1905 - 0,0165⎥
⎢ 0,3581 - 0,6299 - 0,0177 0,2959 0,6219 0,0190 ⎥ T=⎢ ⎥ Esta informação está contida na matriz S (elementos da
⎢
⎢⎣ 0,6030
⎥ ⎢ 1,0435 0,1333 ⎥ diagonal iguais a saa)
0,2368 0,0552 - 0,0958 - 0,0831 0,7492 ⎥⎦ ⎢ 3,3565 - 0,1349⎥
⎢ ⎥
2
ou na matriz Λ em que λa = s aa ⎡87,8344⎤
⎣ 5,6509 0,0507 ⎦
Λ= ⎢ 0,0459 ⎥
⎣ ⎦
⎡9,3720 0 ⎤
⎢ ⎥ A variância total do conjunto: soma das variâncias de cada componente principal.
⎢ 0 0,2142⎥
⎢ ⎥ PC1 PC2 2
S = ⎢⎢
0 0 ⎥
V = L = ⎡0,4485 − 0,8938⎤ Variância Total = ∑ λ k = 87,8344+ 0,0459 = 87,8803
⎥ k =1
⎢ 0 0 ⎥ ⎢ 0,8938 0,4485 ⎥
⎢ 0 ⎥ ⎣ ⎦
0 ⎧ 87,8344
⎢
⎢ 0
⎥
⎥ λa ⎪ 87,8803 × 100 = 99,95% em PC1
⎣ 0 ⎦ ⎪
%Vara = 2 =⎨
A primeira componente principal é definida como: PC1 = 0,449[Mg2+] + 0,894[Cl-] ∑ λk ⎪ 0,0459 × 100 = 0,05% em PC2
k =1 ⎪⎩ 87,8803
e a segunda componente principal como: PC2 = -0,894[Mg2+] + 0,449 [Cl-].
99.95% da informação original esta contida na primeira componente principal e
apenas 0,05% na segunda. Este conjunto de dados tem posto químico A = 1.
Os resultados mostram que estes elementos químicos estão na proporção de 1:2,
De onde é fácil concluir que as soluções envolvidas no experimento são de MgCl2. 2a Componente Principal representa somente ruído Por que não removê-la??
T = [t1 t 2 ] L = [l1 l 2 ] ˆ = t lT
X 1 E = t 2 l T2 “Quantas componentes principais, A, devem ser utilizadas para se ter uma boa
1
descrição do conjunto de dados?”
⎡
⎢
⎤ ⎡ t1
⎥ ⎢
t2 ⎤
⎥
⎡lT
⎢ 1
→ ⎤
⎥ ⎡ ⎤ [ l T1 ] ⎡ ⎤[
T
l2 ]
⎢ ⎥ ⎢↓ ↓⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ A determinação do posto matemático (número de linhas ou colunas independentes
⎢ ⎥ =⎢ ⎥ × ⎢ T ⎥
= ⎢ ⎥ + ⎢t 2 ⎥
⎢ X ⎥ ⎢ T ⎥ ⎢ L ⎥ t1
⎢ ⎥ ⎢ ⎥
na matriz de dados) em uma matriz livre de erro é trivial e coincide com o posto
⎢ ⎥ ⎢ ⎥ ⎢ ⎥
⎢ ⎥ ⎢ ⎥ ⎢ T ⎥ ⎢ ⎥ ⎢ ⎥ químico deveriam ser os mesmos.
⎣⎢ ⎦⎥ ⎣⎢ ⎦⎥ ⎢⎣ l 2 → ⎥
⎦ ⎣
14 ⎦ 44
424444 3 ⎣14⎦444244443
ˆ
X E
ˆ cm + E
X cm = X No geral a determinação do posto químico é uma tarefa difícil.
SUGESTÕES:
⎡ - 2,561 - 5,014⎤ ⎡- 2,525
⎢
- 5,032 ⎤
⎥
⎡- 0,037 0,018 ⎤
⎢ - 1,383 - 2,921⎥ ⎢ - 1,449 - 2,888⎥⎥ ⎢ 0,066 - 0,033⎥ ♣ Inspecionar o gráfico dos autovalores ou da % de variância versus número de
⎢ ⎥ ⎢ ⎢ ⎥
⎢
⎢- 0,519 - 1,072 ⎥
ˆ cm = ⎢- 0,534 - 1,064 ⎥⎥ ⎢ 0,015 - 0,007 ⎥ PCs, onde A deve corresponder ao número de PCs em que a curva começa a
X cm =⎢ ⎥ X ⎢ ⎥ E=⎢ ⎥
⎢ 0,349 0,993 ⎥ ⎢ 0,468
⎢
0,933 ⎥
⎥ ⎢- 0,119 0,060 ⎥ decrescer assintoticamente para zero.
⎢ 1,626 2,940 ⎥ ⎢ 1,505 3,000 ⎥ ⎢ 0,121 - 0,061⎥ ♣ Considerar todas as componentes principais necessárias para descrever cerca
⎢ ⎥ ⎢
⎢
⎥ ⎢ ⎥
⎣ 2,489 5,074 ⎦ ⎣ 2,534 5,051 ⎦⎥ ⎣- 0,045 0,023 ⎦ de 95% da informação original dos dados.
ˆ +E ♣ Desprezar as PCs com autovalores menores que 1,0 se os dados estiverem
X=X
autoescalados uma vez que elas contêm menos informação que uma única
variável.
⎡0,975 2,034 ⎤ ⎡ 1,012 2,016 ⎤ ⎡- 0,037 0,018 ⎤
⎢ 2,153 4,127 ⎥ ⎢ 2,087 4,160 ⎥ ⎢ 0,066 - 0,033⎥ ♣ O método mais eficaz é a validação cruzada, que será introduzida mais adiante.
⎢ ⎥ ⎢ ⎥ ⎢ ⎥
⎢3,017 5,976 ⎥ ⎢ ⎥ ⎢ 0,015 - 0,007 ⎥
X=⎢ ⎥ ˆ = ⎢3,002 5,983 ⎥
X E=⎢ ⎥
Uma vez definida a quantidade de componentes principais (fatores) significativas,
⎢3,885 8,040 ⎥ ⎢ 4,004 7,980 ⎥ ⎢- 0,119 0,060 ⎥ A, pode-se calcular a porcentagem de variância acumulada pelas A componentes
⎢5,162 9,987 ⎥ ⎢ 5,041 10,048⎥ ⎢ 0,121 - 0,061⎥ (%Varacumulada)
⎢ ⎥ ⎢ ⎥ ⎢ ⎥ A
⎣6,025 12,121⎦ ⎣ 6,070 12,098⎦ ⎣- 0,045 0,023 ⎦
A matriz de erros é a mesma em ambos os casos (para os dados centrados na
%Varacumulada = ∑ %Vara .
a =1
média e os dados originais).
3- Algoritmo NIPALS para análise de componentes principais 1- OS DADOS SÃO PRÉ-PROCESSADOS. Neste caso, serão centrados na média
[I,J] = size(X);
Os vetores dos pesos e dos escores são calculados iterativamente, um de cada
X = X-ones(I,1)*mean(X);
vez.
2- ESCOLHE-SE UMA DAS COLUNAS DE X COMO ESCORES PARA INICIAR A
O processo iterativo é inicializado com uma primeira estimativa de escores, que
ITERAÇÃO. (A coluna de X que tem maior variância)
pode ser a coluna de X que tem maior variância.
[x,a] = sort(std(X));
Usando estes escores, calcula-se o autovalor da componente principal. t = X(:,a(J))
Os autovalores são calculados fazendo t Ta t a = λa 4- SE CONVERGIU: Subtrai a contribuição desta PC, dos dados originais.
X = X - t*l’;
Usando os escores, pode-se calcular os pesos que são usados para estimar
novos escores e o processo continua até à convergência dos autovalores. 5- REPETE OS CÁLCULOS COM A NOVA MATRIZ X PARA CALCULAR A
PRÓXIMA COMPONENTE PRINCIPAL.
Calcula os autovalores
Exemplo
autovalor = t0'*t0 autovalor = 7,3709
⎡ 10,65 12,67 16,45 14,19 ⎤ Estima e normaliza os pesos (loadings) l1.
⎢ 10,82 12,93 15,28 10,60 ⎥
X=⎢ ⎥ p1 = inv(t'*t)*t'*X p1T = [ -0,1282 -0,0053 0,1238 1,0000 ]
⎢ 11,55 12,09 17,35 11,32 ⎥ ⎡ - 0,1262⎤
⎢ ⎥ ⎢
⎣ 11,17 12,80 16,72 11,58⎦ - 0,0052⎥
l1 = p'/norm(p') ⎢ ⎥
l1 = ⎢ 0,1219 ⎥
⎢ 0,9845 ⎥⎦
⎡- 0,40 0,048 0,00 2,27 ⎤ ⎣
⎢- 0,23 0,31 - 1,17 - 1,32⎥
=⎢ ⎥ ⎡ 2,2822 ⎤
Estima novos escores t1.
X cm ⎢ - 1,4174 ⎥
⎢ 0,50 - 0,53 0,90 - 0,60⎥ t1=X*l1 ⎢ ⎥
⎢ ⎥ t1 =
⎢ - 0,5441⎥
⎣ 0,12 0,17 0,27 - 0,34 ⎦ ⎢ - 0,3207⎥
⎣ ⎦
Cálculo da primeira componente principal usando a matriz pré-processada. Calcula delta e testa a convergência. Se não convergiu, repete-se o processo.
delta = -0,2457 delta = autovalor – t1'*t1
O processo iterativo termina quando delta for menor que um valor pré fixado: 10-8.
Está terminada a primeira iteração, onde a partir de t0, calculou-se:
A quarta coluna da matriz tem o maior desvio padrão e será usada como escores t0
para iniciar o processo iterativo. ⎡ 2,2675 ⎤ ⎡ - 0,1262⎤ ⎡ 2,2822 ⎤
t 0 = ⎢ - 1,3225 ⎥, l1 = ⎢ - 0,0052⎥, t1 = ⎢ - 1,4174 ⎥ e delta = −0,2457
⎢ - 0,6025⎥ ⎢ 0,1219 ⎥ ⎢ - 0,5441⎥
⎢⎣ - 0,3425⎥⎦ ⎣⎢ 0,9845 ⎦⎥ ⎣⎢ - 0,3207⎥⎦
O autovalor para a primeira PC é dado por = 7,6229. Este autovalor será usado para
delta é maior que 10-8→ o processo deve calcular a % Variância que ela descreve.
ser repetido, iniciando com t1 para calcular
novos l1 e t1 até que delta seja menor do Foi calculada a primeira componente principal.
que 10-8. A informação contida na PC1 deverá ser subtraída da matriz original para iniciar o
cálculo da PC2. ⎡ 2,2697⎤
Abaixo estão os valores dos pesos, dos ⎢ - 1,4571 ⎥
escores e dos valores de delta referentes às X cm nova = X cm - t 1 l 1T X cm nova = X cm − ⎢ ⎥ * [- 0,1129; - 0,0169; 0,1535; 0,9815]
9 iterações que foram necessárias para a ⎢ - 0,5010 ⎥
⎢ ⎥
convergência. ⎣ - 0,3116 ⎦
Esta é a nova matriz que será usada para calcular a segunda componente principal.
⎡- 0,1412 0,0858 - 0,3483 0,0397 ⎤
ESTIMATIVA DOS ESCORES NAS 9 ITERAÇÕES X cm nova = ⎢- 0,3920 0,2829 - 0,9464 0,1077 ⎥
⎢ 0,4459 - 0,5410 0,9769 - 0,1107 ⎥
ITER 1 ITER 2 ITER 3 ITER 4 ITER 5 ITER 6 ITER 7 ITER 8 ITER 9 ⎢⎣ 0,0873 0,1722 0,3178 - 0,0367 ⎦⎥
2,2822 2,2746 2,2715 2,2704 2,2700 2,2698 2,2697 2,2697 2,2697
-1,4174 -1,4429 -1,4520 -1,4553 -1,4565 -1,4569 -1,4571 -1,4571 -1,4571 SOBRE A “AMBIGÜIDADE ROTACIONAL” OU LIBERDADE DE ROTAÇÃO
-0,5441 0,5168 -0,5068 -0,5031 -0,5018 -0,5013 -0,5011 -0,5010 -0,5010 X = TLT = TA LTA + E
-0,3207 -0,3149 -0,3128 -0,3120 -0,3117 -0,3116 -0,3116 -0,3116 -0,3116
aplicando uma rotação R A a TA LTA , E permanece inalterado se
0,9845 0,9827 0,9820 0,9817 0,9816 0,9816 0,9815 0,9815 0,9815 As componentes principais podem ser rodadas produzindo novos eixos sem que
haja perda de ajuste devido à rotação.
ROTAÇÃO VARIMAX
A rotação varimax: transformação ortogonal feita nas componentes principais. ♣ O processo inicia com o cálculo da simplicidade.
♣ As PCs são rodadas aos pares, iniciando com a 1a e 2a componentes principais,
OBJETIVO: auxiliar na interpretação dos pesos. então a 1a e a 3a e assim por diante.
Esta rotação deve satisfazer a algum critério: maximizar a variância dos pesos em cada ♣ Para cada par de PCs a e b, calcula-se o ângulo φ de rotação. Se o angulo é grande
componente principal. o suficiente (> 0,000025 radianos), a rotação é feita, caso contrário, passa-se para o
Aquelas variáveis que mais (menos) contribuem em módulo para uma dada componente par seguinte, até que todos os pares sejam testados.
principal vão ter a sua contribuição acentuada (diminuída respectivamente).
A transformação acentua os pesos mais altos e minimiza os menores:
L*R = L* R ⎢
( ) (PC*b )R ⎤⎥
⎡ PC*a ⎡PC a PCb ⎤
⎥ ⎡cos φ − senφ ⎤
“Aos que tem mais será dado e aos que não tem, o pouco lhes será tirado”. R
⎢
⎢ ⎥=⎢ ⎥ ⎢ senφ cos φ ⎥⎦
⎥⎦ ⎣
RESULTADO: os eixos rodados ficam mais fáceis de serem interpretados pois os pesos
⎢ ⎥ ⎢
se concentram em algumas poucas variáveis, resultando em um novo sistema de eixos ⎣⎢ ⎦⎥ ⎣
que são mais puros em suas influências.
Nova simplicidade é calculada e comparada com a anterior e o processo continua até
Para ilustrar como funciona a rotação varimax, é necessário encontrar a matriz de rotação,
que o acréscimo na simplicidade seja, por exemplo, menor que 0,1%.
R, tal que a matriz de pesos rodada, L*R = L* R , tenha a máxima “SIMPLICIDADE”.
− ⎞ 2 Existem vários algoritmos de rotação varimax. Eles diferem na maneira como os
⎛
1⎡ A J 2⎞ ⎤
2
1 J ⎜ 2 2⎟
simpa = ∑ ⎜ l *ja − la* ⎟ ; simp = ⎢ ∑ ∑ l *ja
J j =1 ⎜ ⎟ J ⎢a =1 j =1
( ) 4 1 A⎛ J
( )
− ∑ ⎜ ∑ l *ja ⎟ ⎥
pesos são modificados antes da rotação, L → L*.
⎣
J a =1 ⎝ j =1 ⎠ ⎦⎥
− ⎝ ⎠ 1- Simples
* 2 2- Pesos normalizados
l ja e l a* são os pesos e valor médio da a-ésima componente principal
3- Pesos ponderados pelos autovalores
A simplicidade é alta quando algumas variáveis tem pesos altos e outras tem pesos baixos. 4- Pesos normalizados e ponderados
A maximização da simplicidade é um processo iterativo onde a matriz R é modificada 1- Na rotação simples, os pesos não modificados.
até à convergência da simplicidade.
colunas diferente de 1.
ANÁLISE DE AGRUPAMENTOS HIERÁRQUICOS (“CLUSTERS”)
O quadro abaixo, apresenta um sumário da sequência de etapas de uma análise
de componentes principais. A análise de agrupamentos hierárquicos, HCA é outro método não supervisionado de
reconhecimento de padrões e que teve a sua origem na taxonomia numérica.
SUMÁRIO DO MÉTODO PCA
Ele não requer o conhecimento a priori sobre a classificação ou informações sobre a
VISUALIZE OS DADOS ORIGINAIS existência de agrupamentos entre as amostras ou variáveis.
Visualizar amostras (objetos) utilizando uma variável de cada vez, ou duas a duas,
ESCOLHA AS OPÇÕES DE TRANSFORMAÇÃO
não é eficiente para extrair informações de dados multidimensionais.
ESCOLHA O MÉTODO DE PRÉ-PROCESSAMENTO HCA é uma técnica interessante, porque representa graficamente os dados
multidimensionais em um esquema bidimensional.
METODOLOGIA A distância Euclideana entre os dois pontos A = (a1, a2) e B = (b1, b2) pode ser
expressa usando o teorema de Pitágoras
O objetivo é formar grupos contendo objetos semelhantes.
O conceito matemático de distância entre dois pontos A e B de um conjunto exige 3 dA_ B = (xa1 − xb1 )2 + (xa 2 − xb 2 )2 + L + (xaJ − xbJ )2 ,
propriedades simples e intuitivas:
1- As distâncias não podem ser negativas. A distância entre A e B, dA_B, deve ser ≥ 0.
A distância Euclideana também é chamada de distância da norma l2.
A distância de um ponto com ele mesmo é zero, e o contrário também vale, i. e., se a
É escrita na forma matricial como:
distância dA_B = 0, então A = B.
3- A distância entre A e C deve ser menor do que a soma das distâncias entre B e A, e xA é um vetor com as respostas da amostra A
entre B e C. dA_C ≤ dA_B + dB_C.
O problema com a distância Euclideana é que ela varia com a mudança de escala.
Distâncias
A distância de Manhattan, também conhecida como distância retilínea ou de distância Euclideana e de Mahalanobis: ♦ A distância Euclideana dA_B = dA_C. Todos os pontos
“táxi” ou de distância da norma l1 equidistantes de A de uma distância “d” estão no
círculo de raio d.
No espaço bidimensional ela corresponde à distância entre A e B em um eixo + a
distância entre eles no segundo eixo ♦ Na distância de Mahalanobis, as amostras
equidistantes de A estão ao longo de uma elipse.
É escrita na forma matricial (no espaço RJ) como
♦ A elipse é alongada na direção de maior dispersão
J
d A _ B = ∑ xaj − xbj = x A − x B 1
dos dados.
j =1 ♦ A elipse vermelha contém os pontos distantes de A
dA _B .
A elipse azul contém os pontos com distância dA_C de
A. Portanto, a distância de Mahalanobis dA_B < dA_C.
A distância de Mahalanobis é uma distância estatística que considera a variância de ♣ Definido o espaço métrico, o passo seguinte é identificar e agrupar as duas
cada variável e o coeficiente de correlação entre elas. No caso de uma única variável amostras que estão mais próximas: → primeira iteração do processo de agrupamento.
é a distância Euclideana usual ponderada pela variância.
♣ Os objetos são agrupados sucessivamente até que haja apenas um único grande
M
A distância de Mahalanobis, d A _ B , é definida no espaço de dimensão J, RJ como grupo contendo todos eles.
♣ Depois que as amostras foram todas agrupadas, o índice de similaridade entre os
[
d A _ B = (x A − x B )T V −1 (x A − x B ) ]1/ 2
= d AM_ B grupos, SA_B, é calculado.
S A _ B = 1,0 −
dA_ B
,
dmax é a distância máxima entre
d dois grupos do conjunto de dados.
V é a matriz de variância-covariância (XTX). O produto V-1(xA-xB) é um vetor coluna. max
EXEMPLO Na iteração seguinte temos três opções. Forma-se o grupo ABCEF, restando a
Este exemplo utiliza a menor distância entre grupos como critério para agrupar as amostra D.
amostras. Cada uma das 6 amostras, A, B, C, D, E e F, são consideradas inicialmente
como um grupo
4,0
Cálculo dos índices de similaridade são usados para construir o dendrograma
4,7
3,0 d ij
6,0 As duas amostras mais semelhantes, são agrupadas: S ij = 1,0 −
6,0 5,3
forma-se o grupo AB. 4,0
5,5
C
As distâncias entre o novo grupo AB e todos os outros
4,9
são calculadas.
2,0
2,0
A 1,0 4,0 D
B
Em termos algébricos dA_B é dada pela expressão seguinte Se, ao invés do grupo C tivéssemos o grupo C’ mais próximo
d ab1 + d ab2 d ab1 − d ab2 do grupo A do que do grupo B, a distância dAB_C’ seria dada por
dA_ B = −
Como d ab1 > d ab2 , dA_B = d ab2 . 2 2 dA_C’ = dac’.
Usando o mesmo raciocínio, obtém-se d B _ C = d b1c Este método de agrupar objetos tende a formar agrupamentos que são mais espalhados,
uma vez que o agrupamento é baseado na dissimilaridade mínima entre membros
x+ y x− y
[*] É fácil verificar a fórmula min( x , y ) = − analisando os casos x > y e x < y. de cada grupo e, como consequência, o método não é sensível a amostras atípicas.
2 2
EXEMPLO
Uma nova tabela de distâncias deve ser construída e os valores ‘?’ deverão ser
HCA aplicada à matriz de dados X (5x8). calculados segundo algum critério.
Obj./Var. var1 var2 var3 var4 var5 var6 var7 var8 B C E
A 7,0 9,0 10,0 17,0 25,0 10,0 13,0 1,0
5,0 12,0 14,0 12,0 40,0 12,0 15,0 0,0
AD ? ? ?
B B 4,40 4,33
C 3,0 8,0 20,0 18,0 38,0 13,0 18,0 1,0
C 2,46
D 8,0 9,0 8,0 16,0 23,0 10,0 14,0 1,0
E 2,0 11,0 18,0 20,0 34,0 16,0 17,0 1,0 HCA usando o método simples de agrupamento:
Para construir o dendrograma, primeiro calcularemos as distâncias entre as dAD_B = min(dA_B, dD_B) = min(4.22, 4.33) Uma vez encontrados os valores
amostras. Os dados foram autoescalados. dAD_C = min(dA_C, dD_C) = min(4.12, 4.39) ‘?’, novo grupo é formado.
dAD_E = min(dA_E, dD_E) = min(4.44, 4.76)
%Os dados foram autoescalados B C E
Os comandos do Xa=(X-ones(5,1)*mean(X))./(ones(5,1)*std(X)) AD 4,22 4,12 4,44
software MATLAB %A matriz Xa foi usada para fazer o agrupamento B 4,40 4,33
%Cálculo da distância entre as amostras A e B. Novas distâncias são calculadas: C 2,46
dA_B = sqrt(sum((Xa(1,:) – Xa(2,:)).^2))
dAD_CE = min(dAD_C, dAD_E) = min(4.12, 4.44)
dB_CE = min(dB_C, dB_E) = min(4.40, 4.33)
B C D E
A 4,22 4,12 0,85 4,44
A menor distância é entre as amostras B 4,40 4,33 4,33
A e D. Forma-se o grupo AD.
B CE A última iteração une os dois grupos restantes: B e ADCE.
C 4,39 2,46 AD 4,22 4,12
D 4,76 B 4,33
dADCE_B = min(dAD_B, dCE_B) = min(4.22, 4.33)
Esta terminada a primeira iteração
HCA usando o método completo de agrupamento:
As 5 amostras foram agrupadas formando um único grupo e a distância máxima entre Os valores ‘?’ são calculados usando um critério diferente (o vizinho mais
elas é dmax = dADCE_B = 4,22. distantes).
dAD_B = max(dA_B, dD_B) = max(4.22, 4.33)
Cálculo dos índices de similaridade. dAD_C = max(dA_C, dD_C) = max(4.12, 4.39)
dAD_E = max(dA_E, dD_E) = max(4.44, 4.76)
D E CE
A 0,80 B C E B CE
C 0,42 AD 4,33 4,39 4,76 AD 4,33 4,76
AD 0,03 B 0 4,40 4,33 B 0 4,40
C 0 2,46
D E B
A 0,85
C 0,58
AD 0,17
A distância máxima é bem maior que nos casos anteriores e isto fará com que
os índices de similaridade sejam maiores.
Os grupos têm ramos menores e tendem a ser mais são mais compactos.
CONCLUSÕES
A análise exploratória preliminar utilizando os métodos PCA e HCA pode ser vista
como uma etapa da análise onde se explora de maneira ampla os dados.
Resumindo, nesta análise, pode-se:
♦ identificar agrupamentos e tendências entre as amostras;
♦ identificar aquelas variáveis que contém as informações de interesse;
♦ investigar as correlações entre as variáveis, evitando muitas variáveis
colineares construção de modelos de regressão ou de classificação;
♦ Fazer a compressão dos dados e
♦ Detectar amostras anômalas.