Você está na página 1de 13

ANÁLISE EXPLORATÓRIA DE DADOS Existem métodos matemáticos que possibilitam a visualização de dados multivariados

no espaço bi ou tri-dimensional.
EXEMPLOS DE PROBLEMAS DE RECONHECIMENTO DE PADRÕES Vamos ver aqui dois destes métodos. Eles são totalmente diferentes em suas
♣ É possível distinguir a origem de amostras de café ou a diferença entre vinhos concepções e geralmente usados para a análise exploratória dos dados.
usando dados gerados por um cromatógrafo? Em caso positivo, é possível identificar
quais os picos do cromatograma são os responsáveis? Análise de Componentes Principais; PCA
e
♣Pode-se determinar que parte de uma planta e em que época do ano as suas folhas Análise de Agrupamentos Hierárquicos; HCA
devem ser colhidas, para se obter um rendimento maior na extração do princípio ativo?
ANÁLISE DE COMPONENTES PRINCIPAIS
♣É possível usar parâmetros estruturais para estimar se um derivado de um fármaco
será mais ativo ou menos tóxico do que o composto original, antes de sintetizá-lo? Introduzida por Karl Pearson em 1901. [3]
♣É possível usar técnicas instrumentais para fins forenses?
♦microscopia para identificar o estilo de vida de uma pessoa com base na análise O tratamento formal do método é devido ao trabalho de Hotteling, [4] da década de 30.
de seu cabelo?
♦ICP-EOS para determinar se um embutido a base de peru foi feito com carne de PCA é um método de projeção: → que projeta os dados multivariados num espaço de
peito (como indica o rótulo) ou com carne da coxa? dimensão menor reduzindo a dimensionalidade do espaço do conjunto dos dados e
♦espectroscopia para detectar possíveis fraudes em destilados? por isto é um método de “compressão”. Como resultado, as informações mais
importantes e relevantes se tornam mais óbvias
A análise exploratória de dados é uma ferramenta útil para a identificação de padrões e
nos auxilia a encontrar respostas para perguntas como estas acima. Esta análise também pode ser usada para detectar amostras com comportamento
atípico, diferenciado do restante do conjunto (anômalas).
______________________________________________________________________________________________
Vamos nos restringir aqui ao estudo do reconhecimento de padrões não
[3] Pearson, K. ‘On Lines and Planes of Closest Fit to Systems of Points in Space’, Phil. Mag. 2 (1901)
supervisionado. ‘Não Supervisionado’ porque durante a análise dos dados, não 559-572. [4] Hotteling, H. ‘Analysis of a Complex Statistical Variables into Principal Components’,
se faz uso de informação a respeito das classes existentes entre as amostras. J. Edu. Psychol. 24 (1933) 417-441, 498-520.

O método PCA está fundamentado no conceito de CORRELAÇÃO entre as


variáveis 0,16

Comprimento de onda (663 nm)


Intensidades nestes dois comprimentos de
As correlações existem no dia a dia com mais freqüência que imaginamos.
onda são altamente correlacionadas.
0,12
Espectros de emissão de uma espécie porfirínica em diferentes concentrações na Cada ponto no gráfico corresponde a um
região de 585 a 710 nm, vetor que vai da origem ao ponto.
0,08
Aumentando a concentração, o que se faz
é esticar ou encurtar este vetor.
0,04
0,1 0,2 0,3
Comprimento de onda (619 nm)

CONCLUSÃO: A “dimensionalidade intrínseca” ou o “posto químico” deste sistema


é UM e não DOIS, porque ele depende apenas de um único fator latente, que é a
concentração.

Uma das amostras está ligeiramente afastada da reta ideal. Como justificar, se
Todos os espectros têm a mesma forma e que a única variação que ocorre é nas apenas a concentração está variando?
intensidades de emissão, que aumentam regularmente com o aumento da
Havendo correlações significativas entre as variáveis do conjunto de dados, é
concentração.
possível encontrar novas variáveis em quantidade menor que a inicial, que
Se tivessem sido medidas apenas as intensidades para estes dois comprimentos descrevem aproximadamente toda a informação contida nos dados originais.
de onda, os espectros teriam apenas duas variáveis.
Cada espectro é representado por um ponto no espaço R2 das variáveis.
Estas novas variáveis (FATORES, COMPONENTES PRINCIPAIS, AUTOVETORES FUNDAMENTOS MATEMÁTICOS
VARIÁVEIS LATENTES) são definidas como combinações lineares das variáveis O ponto de partida para a análise exploratória é a MATRIZ PRÉ-TRATADA dos
originais. dados,
NOTA: As relações entre as amostras não são alteradas por esta transformação.
⎡x1T ⎤ ⎡ x11 x12 L L x1J ⎤
PROPRIEDADES IMPORTANTES DAS NOVAS VARIÁVEIS (novos eixos) ⎢ T ⎥ ⎢x L L x2 J ⎥
⎢x 2 ⎥ ⎢ 21 x22

♦São ortogonais entre si (i. e., são completamente NÃO-correlacionadas)
X=⎢ M ⎥=⎢ M
⎢ ⎥ ⎢
M O M ⎥ = x1

[ x2 L L xJ ]
♦São construídas em ordem decrescente da quantidade de variância que ⎢ M ⎥ ⎢ M M O M ⎥
⎢x T ⎥ ⎢ x I 1 xI 2 L L x IJ ⎥⎦
descrevem (o primeiro fator descreve maior variância dos dados que o segundo, etc.) ⎣ I⎦ ⎣
RESULTADO: pode-se visualizar a informação relevante dos dados em um espaço de
baixa dimensionalidade. Cada amostra é representada por um vetor linha e cada variável por um vetor
Através da ANÁLISE DE COMPONENTES PRINCIPAIS determina-se a coluna, ⎡ x1 j ⎤
dimensionalidade intrínseca do conjunto de dados, A. ⎢x ⎥
x iT = [x x x ⋅⋅⋅ x ] ⎢ 2 j⎥
i1 i2 i3 iJ xj = ⎢ M ⎥
⎢ ⎥
⎢ M ⎥
⎢ xIj ⎥
⎣ ⎦
A matriz X(IxJ) é decomposta em duas matrizes, uma de escores T e uma de
pesos “loadings“ L de tal maneira que,

X = TLT = TA LTA + E onde TA = [t1 L t A ] L A = [l1 L l A ]


PC1: eixo coincidente com a direção de maior variabilidade da lapiseira.
PC2: perpendicular a PC1. Pode-se reconhecer o clipe e ter informação sobre
as extremidades. Esta é a projeção da lapiseira no espaço R2. A é a dimensão intrínseca ou o posto químico do conjunto de dados: o número
Com duas PCs é redonda ou quadrada? Esta informação é dada por PC3. de PCs necessário para descrever as informações relevantes dos dados.

⎡ ⎤ ⎡ ⎤ ⎡ ⎤ ⎡ ⎤ ⎡ ⎤ Quadrados

⎢ X ⎥ = ⎢t ⎥
⎥ ⎢ 1⎥ [ l 1T ]+ ⎢⎢t ⎥⎥ [
2 l T2 ]+ L + ⎢⎢t ⎥⎥ [
A l TA ]+ ⎢⎢ E ⎥
⎥ mínimos
⎣⎢ ⎦⎥ ⎣⎢ ⎦⎥ ⎣⎢ ⎦⎥ ⎣⎢ ⎦⎥ ⎣⎢ ⎦⎥

T = Matriz de ESCORES → coordenadas das amostras no novo sistema de eixos.

L = Matriz de PESOS → colunas de L contêm informação do peso de cada variável


original na formação dos novos eixos.
Componentes
Os ESCORES expressam as relações entre as amostras principais
Os PESOS mostram as relações entre as variáveis.

Efeito de centrar os dados na média.

Os pesos variam entre +1 e –1 e são os


cosenos dos ângulos entre PCa (a-ésimo
novo eixo) e os eixos das variáveis
originais.

Altos pesos indicam altas correlações


(altos coeficientes) onde o ângulo entre
PCa e a variável original é pequeno.
(a) (b)
(a): Os dados não foram pré-processados.
(b): Os dados foram centrados na médias
Exemplo O pré-processamento utilizado aqui é a centragem dos dados na média, resultando na
A matriz de dados contém as respostas de eletrodos seletivos para Mg2+ e matriz centrada na média Xcm.
Cl- (J = 2) de seis amostras líquidas transformadas em milimolar (I = 6).
x = [3,536 7,048]
[Mg2+] [Cl-]
⎡ 0,975 2,034 ⎤
⎢ 2,153 4,127 ⎥ ⎡ - 2,561 - 5,014⎤
⎢ ⎥ ⎢ - 1,383 - 2,921⎥
⎢3,017 5,976 ⎥ ⎢ ⎥
X=⎢ ⎥ ⎢- 0,519 - 1,072 ⎥
⎢3,885 8,040 ⎥ X cm =⎢ ⎥
⎢5,162 9,987 ⎥ ⎢ 0,349 0,993 ⎥
⎢ ⎥ ⎢ 1,626 2,940 ⎥
⎣6,025 12,121⎦
⎢ ⎥
⎣ 2,489 5,074 ⎦ Gráfico dos dados centrados na média

A representação gráfica dos dados


originais mostra que as amostras A matriz dos dados autoescalados será calculada a seguir, apenas para mostrar a
apresentam uma relação linear alta correlação existente entre as duas variáveis.
quase que perfeita.
A matriz de correlação das colunas de X, que contém os coeficientes de correlação
entre as variáveis, é obtida da matriz de dados autoescalada Xas.

Gráfico dos dados originais

⎡ - 1,361 - 1,338 ⎤ X Tas X as


⎢ - 0,735 - 0,780⎥ C=
I −1
⎢ ⎥
⎢ - 0,276 - 0,286⎥
X as =⎢ ⎥
⎢ 0,185 0,265 ⎥
⎢ 0,864 0,785 ⎥ ⎡1,000 0,998⎤
⎢ ⎥ C=⎢ ⎥
⎣ 1,323 1,354 ⎦ ⎣0,998 1,000 ⎦

A matriz de correlação C
♣ é quadrada (JxJ) ♣ Fazendo uma rotação para facilitar a
♣ Note a diferença entre as
visualização, obtém-se a representação
♣ é simétrica c12 = c21 escalas nos eixos PC1 e PC2.
gráfica dos ESCORES.
♣ tem os elementos da diagonal iguais a 1,0
♣ tem traço igual ao número de variáveis J.
O coeficiente de correlação entre as variáveis [Mg2+] e [Cl-] é igual ao coeficiente de
correlação entre [Cl-] e [Mg2+] = 0,998. ♣ Os dados estão dispersos ao longo do eixo PC1, que descreve a maior
quantidade de informação dos dados originais.
Este valor é bastante alto confirmando a alta correlação, já detectada anteriormente.
♣ Os dados apresentam uma pequena variação ao longo de PC2.
O que PCA faz??
Agrupa aquelas variáveis que são altamente correlacionadas numa nova variável ♣ A amostra 3 que nos dados centrados na média tinha coordenadas iguais à -
chamada COMPONENTE PRINCIPAL, direcionada ao longo do eixo de maior 0,519 e -1,072, agora tem escores próximos de -1,0 e 0,0 em PC1 e PC2
espalhamento dos dados. respectivamente.
Há várias maneiras de calcular os escores os pesos. Relação existente entre as matrizes obtidas pela decomposição SVD e a matriz de
correlação:
1- Decomposição de Valores Singulares, SVD
2- Diagonalização da Matriz de correlação e As colunas da matriz V contém os autovetores da matriz XT X e as colunas da
3- Algoritmo NIPALS. matriz U contém os autovetores da matriz X XT

1- Método de Decomposição de Valores Singulares, SVD 2- Método de diagonalização da matriz de correlação.


A matriz de dados X é decomposta nas três matrizes: U, S e V, Os autovetores V e os autovalores Λ são calculados resolvendo a equação secular
XT X V = Λ V ou [XT X - Λ] V = 0,
⎡ ⎤ ⎡ ⎤ ⎡ ⎤
⎢ ⎥ ⎢ ⎥ ⎢ ⎥⎡ ⎤ A matriz de autovalores Λ é diagonal e seus elementos são iguais aos quadrados
X = US VT ⎢ X ⎥ =⎢ U ⎥ ⎢ S ⎥⎢ VT ⎥ dos respectivos valores singulares, λa = (saa)2 .
⎢ I×J ⎥ ⎢ I ×I ⎥ ⎢ I ×J ⎥ ⎣⎢ J ×J ⎦⎥
⎢⎣ ⎥⎦ ⎢⎣ ⎥⎦ ⎢⎣ ⎥⎦ Cada elemento λa da diagonal é igual à variância dos dados originais descrita pela
a-ésima componente principal.
As matrizes U e V são quadradas (IxI e JxJ respectivamente) e ortonormais, i. e., A quantidade de informação contida numa única componente principal pode ser
as colunas de U e de V são ortogonais entre si e normalizadas (U UT = I (IxI) e V VT dada pela porcentagem de variância explicada, %Vara,
= I (JxJ)).
A matriz S é retangular diagonal, (IxJ), contendo os valores singulares na λa
%Vara = × 100, onde K = min{I,J} é o menor dentre os valores de I e J.
diagonal e todos os elementos fora da diagonal iguais a zero. K
∑ λk
Esta decomposição é única, a menos dos sinais algébricos das colunas de U e k =1
de V. Se uma coluna de U tem o sinal invertido, a respectiva coluna de V também Vamos retornar ao exemplo dos eletrodos seletivos para calcular os escores e os
estará com o sinal invertido. pesos usando o método de decomposição SVD.
O produto U S é a matriz de escores T
e [U,S, V] = svd(Xcm)
V corresponde à matriz de pesos L.

Escores T = U S
⎡- 0,6007 0,1906 - 0,0897 - 0,1416 0,5892 0,4770 ⎤ t1 t2
⎢ ⎥
⎢ - 0,3447 - 0,3429 - 0,1135 0,6062 - 0,4534 0,4215 ⎥
⎡- 5,6297 0,0408 ⎤
⎢ ⎥ O quanto de variância é descrito em cada componente
- 0,1270 - 0,0770 0,9866 0,0326 0,0059 0,0588 ⎥ ⎢- 3,2306 - 0,0734⎥
U = ⎢⎢ ⎢ ⎥ principal?
⎢ 0,1113 0,6223 0,0481 0,7174 0,2315 - 0,1725⎥⎥ ⎢ - 1,1905 - 0,0165⎥
⎢ 0,3581 - 0,6299 - 0,0177 0,2959 0,6219 0,0190 ⎥ T=⎢ ⎥ Esta informação está contida na matriz S (elementos da

⎢⎣ 0,6030
⎥ ⎢ 1,0435 0,1333 ⎥ diagonal iguais a saa)
0,2368 0,0552 - 0,0958 - 0,0831 0,7492 ⎥⎦ ⎢ 3,3565 - 0,1349⎥
⎢ ⎥
2
ou na matriz Λ em que λa = s aa ⎡87,8344⎤
⎣ 5,6509 0,0507 ⎦
Λ= ⎢ 0,0459 ⎥
⎣ ⎦
⎡9,3720 0 ⎤
⎢ ⎥ A variância total do conjunto: soma das variâncias de cada componente principal.
⎢ 0 0,2142⎥
⎢ ⎥ PC1 PC2 2

S = ⎢⎢
0 0 ⎥
V = L = ⎡0,4485 − 0,8938⎤ Variância Total = ∑ λ k = 87,8344+ 0,0459 = 87,8803
⎥ k =1
⎢ 0 0 ⎥ ⎢ 0,8938 0,4485 ⎥
⎢ 0 ⎥ ⎣ ⎦
0 ⎧ 87,8344

⎢ 0

⎥ λa ⎪ 87,8803 × 100 = 99,95% em PC1
⎣ 0 ⎦ ⎪
%Vara = 2 =⎨
A primeira componente principal é definida como: PC1 = 0,449[Mg2+] + 0,894[Cl-] ∑ λk ⎪ 0,0459 × 100 = 0,05% em PC2
k =1 ⎪⎩ 87,8803
e a segunda componente principal como: PC2 = -0,894[Mg2+] + 0,449 [Cl-].
99.95% da informação original esta contida na primeira componente principal e
apenas 0,05% na segunda. Este conjunto de dados tem posto químico A = 1.
Os resultados mostram que estes elementos químicos estão na proporção de 1:2,
De onde é fácil concluir que as soluções envolvidas no experimento são de MgCl2. 2a Componente Principal representa somente ruído Por que não removê-la??
T = [t1 t 2 ] L = [l1 l 2 ] ˆ = t lT
X 1 E = t 2 l T2 “Quantas componentes principais, A, devem ser utilizadas para se ter uma boa
1
descrição do conjunto de dados?”


⎤ ⎡ t1
⎥ ⎢
t2 ⎤

⎡lT
⎢ 1
→ ⎤
⎥ ⎡ ⎤ [ l T1 ] ⎡ ⎤[
T
l2 ]
⎢ ⎥ ⎢↓ ↓⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥ A determinação do posto matemático (número de linhas ou colunas independentes
⎢ ⎥ =⎢ ⎥ × ⎢ T ⎥
= ⎢ ⎥ + ⎢t 2 ⎥
⎢ X ⎥ ⎢ T ⎥ ⎢ L ⎥ t1
⎢ ⎥ ⎢ ⎥
na matriz de dados) em uma matriz livre de erro é trivial e coincide com o posto
⎢ ⎥ ⎢ ⎥ ⎢ ⎥
⎢ ⎥ ⎢ ⎥ ⎢ T ⎥ ⎢ ⎥ ⎢ ⎥ químico deveriam ser os mesmos.
⎣⎢ ⎦⎥ ⎣⎢ ⎦⎥ ⎢⎣ l 2 → ⎥
⎦ ⎣
14 ⎦ 44
424444 3 ⎣14⎦444244443
ˆ
X E
ˆ cm + E
X cm = X No geral a determinação do posto químico é uma tarefa difícil.
SUGESTÕES:
⎡ - 2,561 - 5,014⎤ ⎡- 2,525

- 5,032 ⎤

⎡- 0,037 0,018 ⎤
⎢ - 1,383 - 2,921⎥ ⎢ - 1,449 - 2,888⎥⎥ ⎢ 0,066 - 0,033⎥ ♣ Inspecionar o gráfico dos autovalores ou da % de variância versus número de
⎢ ⎥ ⎢ ⎢ ⎥

⎢- 0,519 - 1,072 ⎥
ˆ cm = ⎢- 0,534 - 1,064 ⎥⎥ ⎢ 0,015 - 0,007 ⎥ PCs, onde A deve corresponder ao número de PCs em que a curva começa a
X cm =⎢ ⎥ X ⎢ ⎥ E=⎢ ⎥
⎢ 0,349 0,993 ⎥ ⎢ 0,468

0,933 ⎥
⎥ ⎢- 0,119 0,060 ⎥ decrescer assintoticamente para zero.
⎢ 1,626 2,940 ⎥ ⎢ 1,505 3,000 ⎥ ⎢ 0,121 - 0,061⎥ ♣ Considerar todas as componentes principais necessárias para descrever cerca
⎢ ⎥ ⎢

⎥ ⎢ ⎥
⎣ 2,489 5,074 ⎦ ⎣ 2,534 5,051 ⎦⎥ ⎣- 0,045 0,023 ⎦ de 95% da informação original dos dados.
ˆ +E ♣ Desprezar as PCs com autovalores menores que 1,0 se os dados estiverem
X=X
autoescalados uma vez que elas contêm menos informação que uma única
variável.
⎡0,975 2,034 ⎤ ⎡ 1,012 2,016 ⎤ ⎡- 0,037 0,018 ⎤
⎢ 2,153 4,127 ⎥ ⎢ 2,087 4,160 ⎥ ⎢ 0,066 - 0,033⎥ ♣ O método mais eficaz é a validação cruzada, que será introduzida mais adiante.
⎢ ⎥ ⎢ ⎥ ⎢ ⎥
⎢3,017 5,976 ⎥ ⎢ ⎥ ⎢ 0,015 - 0,007 ⎥
X=⎢ ⎥ ˆ = ⎢3,002 5,983 ⎥
X E=⎢ ⎥
Uma vez definida a quantidade de componentes principais (fatores) significativas,
⎢3,885 8,040 ⎥ ⎢ 4,004 7,980 ⎥ ⎢- 0,119 0,060 ⎥ A, pode-se calcular a porcentagem de variância acumulada pelas A componentes
⎢5,162 9,987 ⎥ ⎢ 5,041 10,048⎥ ⎢ 0,121 - 0,061⎥ (%Varacumulada)
⎢ ⎥ ⎢ ⎥ ⎢ ⎥ A
⎣6,025 12,121⎦ ⎣ 6,070 12,098⎦ ⎣- 0,045 0,023 ⎦
A matriz de erros é a mesma em ambos os casos (para os dados centrados na
%Varacumulada = ∑ %Vara .
a =1
média e os dados originais).

3- Algoritmo NIPALS para análise de componentes principais 1- OS DADOS SÃO PRÉ-PROCESSADOS. Neste caso, serão centrados na média
[I,J] = size(X);
Os vetores dos pesos e dos escores são calculados iterativamente, um de cada
X = X-ones(I,1)*mean(X);
vez.
2- ESCOLHE-SE UMA DAS COLUNAS DE X COMO ESCORES PARA INICIAR A
O processo iterativo é inicializado com uma primeira estimativa de escores, que
ITERAÇÃO. (A coluna de X que tem maior variância)
pode ser a coluna de X que tem maior variância.
[x,a] = sort(std(X));
Usando estes escores, calcula-se o autovalor da componente principal. t = X(:,a(J))

T=US autovalor = t ' * t %Calcula autovalores


U é ortogonal ' '
S é diagonal p = inv(t * t) * t * X %Estima os pesos
3- LOOP l = p ' /norm(p ' ) %Normaliza os pesos
tomando o produto TT T
t = X * l * inv(l' * l) %Estima novos escores
TT T = (U S)T (U S) = ST UT U S = ST S = L delta = autovalor - (t ' * t) %Teste de convergencia

Os autovalores são calculados fazendo t Ta t a = λa 4- SE CONVERGIU: Subtrai a contribuição desta PC, dos dados originais.
X = X - t*l’;
Usando os escores, pode-se calcular os pesos que são usados para estimar
novos escores e o processo continua até à convergência dos autovalores. 5- REPETE OS CÁLCULOS COM A NOVA MATRIZ X PARA CALCULAR A
PRÓXIMA COMPONENTE PRINCIPAL.
Calcula os autovalores
Exemplo
autovalor = t0'*t0 autovalor = 7,3709
⎡ 10,65 12,67 16,45 14,19 ⎤ Estima e normaliza os pesos (loadings) l1.
⎢ 10,82 12,93 15,28 10,60 ⎥
X=⎢ ⎥ p1 = inv(t'*t)*t'*X p1T = [ -0,1282 -0,0053 0,1238 1,0000 ]
⎢ 11,55 12,09 17,35 11,32 ⎥ ⎡ - 0,1262⎤
⎢ ⎥ ⎢
⎣ 11,17 12,80 16,72 11,58⎦ - 0,0052⎥
l1 = p'/norm(p') ⎢ ⎥
l1 = ⎢ 0,1219 ⎥
⎢ 0,9845 ⎥⎦
⎡- 0,40 0,048 0,00 2,27 ⎤ ⎣
⎢- 0,23 0,31 - 1,17 - 1,32⎥
=⎢ ⎥ ⎡ 2,2822 ⎤
Estima novos escores t1.
X cm ⎢ - 1,4174 ⎥
⎢ 0,50 - 0,53 0,90 - 0,60⎥ t1=X*l1 ⎢ ⎥
⎢ ⎥ t1 =
⎢ - 0,5441⎥
⎣ 0,12 0,17 0,27 - 0,34 ⎦ ⎢ - 0,3207⎥
⎣ ⎦
Cálculo da primeira componente principal usando a matriz pré-processada. Calcula delta e testa a convergência. Se não convergiu, repete-se o processo.
delta = -0,2457 delta = autovalor – t1'*t1
O processo iterativo termina quando delta for menor que um valor pré fixado: 10-8.
Está terminada a primeira iteração, onde a partir de t0, calculou-se:
A quarta coluna da matriz tem o maior desvio padrão e será usada como escores t0
para iniciar o processo iterativo. ⎡ 2,2675 ⎤ ⎡ - 0,1262⎤ ⎡ 2,2822 ⎤
t 0 = ⎢ - 1,3225 ⎥, l1 = ⎢ - 0,0052⎥, t1 = ⎢ - 1,4174 ⎥ e delta = −0,2457
⎢ - 0,6025⎥ ⎢ 0,1219 ⎥ ⎢ - 0,5441⎥
⎢⎣ - 0,3425⎥⎦ ⎣⎢ 0,9845 ⎦⎥ ⎣⎢ - 0,3207⎥⎦

O autovalor para a primeira PC é dado por = 7,6229. Este autovalor será usado para
delta é maior que 10-8→ o processo deve calcular a % Variância que ela descreve.
ser repetido, iniciando com t1 para calcular
novos l1 e t1 até que delta seja menor do Foi calculada a primeira componente principal.
que 10-8. A informação contida na PC1 deverá ser subtraída da matriz original para iniciar o
cálculo da PC2. ⎡ 2,2697⎤
Abaixo estão os valores dos pesos, dos ⎢ - 1,4571 ⎥
escores e dos valores de delta referentes às X cm nova = X cm - t 1 l 1T X cm nova = X cm − ⎢ ⎥ * [- 0,1129; - 0,0169; 0,1535; 0,9815]
9 iterações que foram necessárias para a ⎢ - 0,5010 ⎥
⎢ ⎥
convergência. ⎣ - 0,3116 ⎦
Esta é a nova matriz que será usada para calcular a segunda componente principal.
⎡- 0,1412 0,0858 - 0,3483 0,0397 ⎤
ESTIMATIVA DOS ESCORES NAS 9 ITERAÇÕES X cm nova = ⎢- 0,3920 0,2829 - 0,9464 0,1077 ⎥
⎢ 0,4459 - 0,5410 0,9769 - 0,1107 ⎥
ITER 1 ITER 2 ITER 3 ITER 4 ITER 5 ITER 6 ITER 7 ITER 8 ITER 9 ⎢⎣ 0,0873 0,1722 0,3178 - 0,0367 ⎦⎥
2,2822 2,2746 2,2715 2,2704 2,2700 2,2698 2,2697 2,2697 2,2697
-1,4174 -1,4429 -1,4520 -1,4553 -1,4565 -1,4569 -1,4571 -1,4571 -1,4571 SOBRE A “AMBIGÜIDADE ROTACIONAL” OU LIBERDADE DE ROTAÇÃO
-0,5441 0,5168 -0,5068 -0,5031 -0,5018 -0,5013 -0,5011 -0,5010 -0,5010 X = TLT = TA LTA + E
-0,3207 -0,3149 -0,3128 -0,3120 -0,3117 -0,3116 -0,3116 -0,3116 -0,3116
aplicando uma rotação R A a TA LTA , E permanece inalterado se

ESTIMATIVA DOS PESOS NAS 9 ITERAÇÕES


R A for uma matriz ortogonal (AxA) R −1 = R T A A
ITER 1 ITER 2 ITER 3 ITER 4 ITER 5 ITER 6 ITER 7 ITER 8 ITER 9 X = TLT = T A LTA + E = TA R A R −A1 LTA + E = TA R A R TA LTA + E
-0,1262 -0,1178 -0,1147 -0,1136 -0,1131 -0,1130 -0,1129 -0,1129 -0,1129
-0,0052 -0,0124 -0,0153 -0,0163 -0,0167
0,1219 0,1420 0,1493 0,1519 0,1529
-0,0168 -0,0169 -0,0169 -0,0169
0,1533 0,1534 0,1534 0,1534
(
X = (TA R A ) L A R A ) +E
T

0,9845 0,9827 0,9820 0,9817 0,9816 0,9816 0,9815 0,9815 0,9815 As componentes principais podem ser rodadas produzindo novos eixos sem que
haja perda de ajuste devido à rotação.
ROTAÇÃO VARIMAX
A rotação varimax: transformação ortogonal feita nas componentes principais. ♣ O processo inicia com o cálculo da simplicidade.
♣ As PCs são rodadas aos pares, iniciando com a 1a e 2a componentes principais,
OBJETIVO: auxiliar na interpretação dos pesos. então a 1a e a 3a e assim por diante.
Esta rotação deve satisfazer a algum critério: maximizar a variância dos pesos em cada ♣ Para cada par de PCs a e b, calcula-se o ângulo φ de rotação. Se o angulo é grande
componente principal. o suficiente (> 0,000025 radianos), a rotação é feita, caso contrário, passa-se para o
Aquelas variáveis que mais (menos) contribuem em módulo para uma dada componente par seguinte, até que todos os pares sejam testados.
principal vão ter a sua contribuição acentuada (diminuída respectivamente).
A transformação acentua os pesos mais altos e minimiza os menores:
L*R = L* R ⎢
( ) (PC*b )R ⎤⎥
⎡ PC*a ⎡PC a PCb ⎤
⎥ ⎡cos φ − senφ ⎤
“Aos que tem mais será dado e aos que não tem, o pouco lhes será tirado”. R

⎢ ⎥=⎢ ⎥ ⎢ senφ cos φ ⎥⎦
⎥⎦ ⎣
RESULTADO: os eixos rodados ficam mais fáceis de serem interpretados pois os pesos
⎢ ⎥ ⎢
se concentram em algumas poucas variáveis, resultando em um novo sistema de eixos ⎣⎢ ⎦⎥ ⎣
que são mais puros em suas influências.
Nova simplicidade é calculada e comparada com a anterior e o processo continua até
Para ilustrar como funciona a rotação varimax, é necessário encontrar a matriz de rotação,
que o acréscimo na simplicidade seja, por exemplo, menor que 0,1%.
R, tal que a matriz de pesos rodada, L*R = L* R , tenha a máxima “SIMPLICIDADE”.
− ⎞ 2 Existem vários algoritmos de rotação varimax. Eles diferem na maneira como os

1⎡ A J 2⎞ ⎤
2
1 J ⎜ 2 2⎟
simpa = ∑ ⎜ l *ja − la* ⎟ ; simp = ⎢ ∑ ∑ l *ja
J j =1 ⎜ ⎟ J ⎢a =1 j =1
( ) 4 1 A⎛ J
( )
− ∑ ⎜ ∑ l *ja ⎟ ⎥
pesos são modificados antes da rotação, L → L*.


J a =1 ⎝ j =1 ⎠ ⎦⎥
− ⎝ ⎠ 1- Simples
* 2 2- Pesos normalizados
l ja e l a* são os pesos e valor médio da a-ésima componente principal
3- Pesos ponderados pelos autovalores
A simplicidade é alta quando algumas variáveis tem pesos altos e outras tem pesos baixos. 4- Pesos normalizados e ponderados
A maximização da simplicidade é um processo iterativo onde a matriz R é modificada 1- Na rotação simples, os pesos não modificados.
até à convergência da simplicidade.

2- Os pesos são normalizados antes da rotação. 4- Pesos normalizados e ponderados


O fator de normalização é a raiz quadrada da comunalidade h(2j ) ⎡ s11 ⎤ ⎡ h1 h1 L h1 ⎤
A ⎢ ⎥ ⎢h M h2 ⎥ λa
h = sqrt(sum(v(:,1:A)'.^2)') h(2j ) = ∑ l 2ja s22
⎢ 2
h2

a =1 L = L⎢
∗ ⎥ ./ onde l *ja =
⎢ O ⎥ ⎢M M M⎥ hj
A comunalidade dá a fração da variância de cada variável “j” do conjunto original ⎢ ⎥ ⎢ ⎥
⎣ s AA ⎦ ⎣hJ hJ L hJ ⎦
dos dados que é explicada pelas “A” componentes principais (A<J).
Com esta normalização, cada uma das J variáveis tem a mesma importância na Novamente aqui, os fatores modificados não são ortogonais.
maximização da simplicidade. 1 A As modificações feitas nos pesos antes da rotação devem ser removidas.
1 ⎡ h1 h1 L h1 ⎤
Na normalização, os fatores rodados deverão ser multiplicados pela raiz quadrada da
L* = v(:,1:A) ./ h*ones(1,A) ⎢h h2 M h2 ⎥ comunalidade da variável correspondente, L* → L para que a contribuição de cada
L∗ = L . / ⎢ 2 ⎥ R R
⎢M M M⎥ variável seja restaurada ao valor original.
⎢ ⎥
J ⎣ hJ hJ L hJ ⎦ Obtida a matriz dos fatores rodados, calcula-se a matriz dos escores rodados, TR,
3- Os pesos são ponderados antes da rotação.
Os pesos são multiplicados pela raiz quadrada dos autovalores λa = saa Para os métodos de rotação simples e normalizado, a matriz dos pesos rodados é
tal que L∗ = L S ⎡ s11 ⎤ . ortogonal
⎢ ⎥ ˆ = TA LTA = TR LTR
X ⇒ TR = Xˆ LTR
s
L* = v(:,1:A)*S(1:A,1:A) L∗ = L ⎢ 22 ⎥
⎢ O ⎥
⎢ ⎥ Para os métodos de rotação ponderado e, ponderado e normalizado, a matriz LR
⎣ s AA ⎦ não é mais ortogonal e os escores devem ser obtidos tomando a pseudo-inversa
As colunas da matriz a ser rodada, L*, não têm comunalidades iguais a 1 (é “oblíqua”).
A matriz de fatores rodados L*R não é ortogonal e tem as comunalidades de suas
ˆ = TA LTA = TR LTR
X ˆ L LTR L
⇒ TR = X R R( )
−1

colunas diferente de 1.
ANÁLISE DE AGRUPAMENTOS HIERÁRQUICOS (“CLUSTERS”)
O quadro abaixo, apresenta um sumário da sequência de etapas de uma análise
de componentes principais. A análise de agrupamentos hierárquicos, HCA é outro método não supervisionado de
reconhecimento de padrões e que teve a sua origem na taxonomia numérica.
SUMÁRIO DO MÉTODO PCA
Ele não requer o conhecimento a priori sobre a classificação ou informações sobre a
VISUALIZE OS DADOS ORIGINAIS existência de agrupamentos entre as amostras ou variáveis.

Visualizar amostras (objetos) utilizando uma variável de cada vez, ou duas a duas,
ESCOLHA AS OPÇÕES DE TRANSFORMAÇÃO
não é eficiente para extrair informações de dados multidimensionais.
ESCOLHA O MÉTODO DE PRÉ-PROCESSAMENTO HCA é uma técnica interessante, porque representa graficamente os dados
multidimensionais em um esquema bidimensional.

Os resultados são apresentados na forma de uma árvore hierárquica,


DENDROGRAMA, onde o comprimento dos ramos da árvore representa o grau de
EM CASO DE HAVER ROTAÇÃO VARIMAX similaridade entre os objetos.
(Quantos fatores serão rodados?)
Há duas maneiras de agrupar hierarquicamente os objetos:
1- aglomerativa → considera inicialmente cada objeto como um grupo unitário e
⎧⎪ ESCORES segue agrupando-os sistematicamente por ordem de similaridade até que todos eles
CALCULE NOVOS ⎨ PESOS 2- divisiva → considera inicialmente um único grupo de objetos e divide-o em dois ou
⎪⎩ AUTOVALORES mais grupos começando pelos objetos que são mais dissimilares.
HCA É UMA TÉCNICA AGLOMERATIVA

METODOLOGIA A distância Euclideana entre os dois pontos A = (a1, a2) e B = (b1, b2) pode ser
expressa usando o teorema de Pitágoras
O objetivo é formar grupos contendo objetos semelhantes.

As mesmas considerações e a mesma metodologia se aplica ao agrupamento de


amostras e de variáveis. dA_ B = (a1 − b1 )2 + (a2 − b2 )2
ASSUME-SE que amostras próximas entre si no espaço multidimensional, RJ, sejam
semelhantes em relação às variáveis consideradas.
No espaço multidimensional RJ
Cada amostra é considerada inicialmente como um grupo separado. 1/ 2
⎡ J ⎤
O primeiro passo é definir um índice numérico para medir a proximidade entre pares (
d A _ B = ⎢⎢ ∑ xaj − xbj 2 ⎥⎥ )
de amostras. ⎣ j =1 ⎦

O conceito matemático de distância entre dois pontos A e B de um conjunto exige 3 dA_ B = (xa1 − xb1 )2 + (xa 2 − xb 2 )2 + L + (xaJ − xbJ )2 ,
propriedades simples e intuitivas:

1- As distâncias não podem ser negativas. A distância entre A e B, dA_B, deve ser ≥ 0.
A distância Euclideana também é chamada de distância da norma l2.
A distância de um ponto com ele mesmo é zero, e o contrário também vale, i. e., se a
É escrita na forma matricial como:
distância dA_B = 0, então A = B.

2- A distância entre A e B é igual à distância entre B e A,. dA_B = dB_A.


[
d A _ B = (x A − x B )T (x A − x B )] 1/ 2
= x A − x B 2.

3- A distância entre A e C deve ser menor do que a soma das distâncias entre B e A, e xA é um vetor com as respostas da amostra A
entre B e C. dA_C ≤ dA_B + dB_C.
O problema com a distância Euclideana é que ela varia com a mudança de escala.
Distâncias
A distância de Manhattan, também conhecida como distância retilínea ou de distância Euclideana e de Mahalanobis: ♦ A distância Euclideana dA_B = dA_C. Todos os pontos
“táxi” ou de distância da norma l1 equidistantes de A de uma distância “d” estão no
círculo de raio d.
No espaço bidimensional ela corresponde à distância entre A e B em um eixo + a
distância entre eles no segundo eixo ♦ Na distância de Mahalanobis, as amostras
equidistantes de A estão ao longo de uma elipse.
É escrita na forma matricial (no espaço RJ) como
♦ A elipse é alongada na direção de maior dispersão
J
d A _ B = ∑ xaj − xbj = x A − x B 1
dos dados.
j =1 ♦ A elipse vermelha contém os pontos distantes de A
dA _B .
A elipse azul contém os pontos com distância dA_C de
A. Portanto, a distância de Mahalanobis dA_B < dA_C.

A distância de Mahalanobis é uma distância estatística que considera a variância de ♣ Definido o espaço métrico, o passo seguinte é identificar e agrupar as duas
cada variável e o coeficiente de correlação entre elas. No caso de uma única variável amostras que estão mais próximas: → primeira iteração do processo de agrupamento.
é a distância Euclideana usual ponderada pela variância.
♣ Os objetos são agrupados sucessivamente até que haja apenas um único grande
M
A distância de Mahalanobis, d A _ B , é definida no espaço de dimensão J, RJ como grupo contendo todos eles.
♣ Depois que as amostras foram todas agrupadas, o índice de similaridade entre os
[
d A _ B = (x A − x B )T V −1 (x A − x B ) ]1/ 2
= d AM_ B grupos, SA_B, é calculado.
S A _ B = 1,0 −
dA_ B
,
dmax é a distância máxima entre
d dois grupos do conjunto de dados.
V é a matriz de variância-covariância (XTX). O produto V-1(xA-xB) é um vetor coluna. max

O índice de similaridade varia sempre entre zero e 1,0.


Ao considerar a correlação entre a variáveis, a distância em algumas direções pode
Quando dA_B é igual a dmax, a similaridade entre A e B é zero.
ser mais importante do que a distância em outras direções.
Quando as duas amostras são idênticas, dA_-B = zero e a similaridade é 1,0.

EXEMPLO Na iteração seguinte temos três opções. Forma-se o grupo ABCEF, restando a
Este exemplo utiliza a menor distância entre grupos como critério para agrupar as amostra D.
amostras. Cada uma das 6 amostras, A, B, C, D, E e F, são consideradas inicialmente
como um grupo

A distância máxima neste conjunto de dados é dABCEF_D = dmax = 4,0.


F
2,0
E

4,0
Cálculo dos índices de similaridade são usados para construir o dendrograma
4,7
3,0 d ij
6,0 As duas amostras mais semelhantes, são agrupadas: S ij = 1,0 −
6,0 5,3
forma-se o grupo AB. 4,0
5,5
C
As distâncias entre o novo grupo AB e todos os outros
4,9
são calculadas.
2,0
2,0

A 1,0 4,0 D
B

♦ Com um índice de similaridade = 0,49 temos três grupos: ABC, EF e D,


Há dois grupos equidistantes entre si. São formados os grupos ABC e EF. ♦ Com um índice = 0,24 temos apenas dois grupos ABCEF e D.
♦ A amostra D é diferenciada das outras, com índice de similaridade nulo.
Há várias maneiras de agrupar as amostras ou agrupamentos que diferem entre si na
maneira pela qual as distâncias entre grupos são calculadas.
RESUMINDO, d ab2 < d b1c < d ac e o grupo AB é formado.
ALGUNS MÉTODOS DE AGRUPAMENTO MAIS UTILIZADOS
1- Método simples, ou método do vizinho mais próximo.
A distância entre dois grupos é dada pela distância mínima entre dois objetos
quaisquer dos dois grupos.
A seguir, é calculada a distância do grupo C ao grupo AB
Os grupos A e C contêm, cada um deles,
apenas uma amostra a e c.
dAB_C = min(dA_C , dB_C) = min( d ac, d b c , d b c )
1 2
O grupo B contém duas amostras b1 e b2.
d A_ C + dB _ C d A _ C − dB _ C
d AB _ C = − = d b1c
2 2
A distância dA_C = dac (os grupos A e C contêm apenas uma amostra) No cálculo das distâncias entre os grupos sempre se chega a
uma expressão que é função das distâncias entre os objetos
A distância dA_B será a menor dentre as duas distâncias d ab1 e d ab2 originais destes grupos.
d _ = min(d ab1, d ab2 ). [*]
A B

Em termos algébricos dA_B é dada pela expressão seguinte Se, ao invés do grupo C tivéssemos o grupo C’ mais próximo
d ab1 + d ab2 d ab1 − d ab2 do grupo A do que do grupo B, a distância dAB_C’ seria dada por
dA_ B = −
Como d ab1 > d ab2 , dA_B = d ab2 . 2 2 dA_C’ = dac’.

Usando o mesmo raciocínio, obtém-se d B _ C = d b1c Este método de agrupar objetos tende a formar agrupamentos que são mais espalhados,
uma vez que o agrupamento é baseado na dissimilaridade mínima entre membros
x+ y x− y
[*] É fácil verificar a fórmula min( x , y ) = − analisando os casos x > y e x < y. de cada grupo e, como consequência, o método não é sensível a amostras atípicas.
2 2

2- Método completo, ou método do vizinho mais distante. 3- Método da média.


A distância entre os grupos é dada pela distância máxima entre quaisquer dois Define-se a distância entre dois grupos como uma média entre os objetos de ambos
objetos dos grupos. os grupos. d b1c + d b2 c
d ab1 + d ab2 d ac +
dA_B = max( d ab , d ab )
dA_ B = d AC + d BC 2 d ac d b1c + d b2 c
2 1 d AB _ C = = = + +
2 2 2 2 4 4
d ab1 + d ab2 d ab1 − d ab2
d A_B = + Foi usada uma ponderação uniforme, uma simples média aritmética para o cálculo
2 2 das distâncias entre os grupos.
dA_C = dac; O tamanho do grupo B não foi levado em consideração. Ambos foram tratados
dA_B = max( d ab1, d ab2) igualmente.
dB_C = max( d b c, d b c) 2 2
Existem algumas variações deste método: usar a mediana ao invés da média
ponderada.
Comparando as distâncias máximas, dac < d ab1 < d b2c O método da média pode utilizar ponderações não uniformes atribuindo pesos
diferentes para grupos de tamanhos diferentes,
Um novo grupo é formado agrupando os dois que sejam ⎛ d + d b 2c ⎞
mais semelhantes entre si: o grupo AC. d ac + 2⎜ b1c ⎟
n d + n B d BC 1d AC + 2d BC ⎝ 2 ⎠
d AB_C = A AC = =
A seguir, os dois grupos são conectados formando o n A + nB 3 3
grupo ABC.
d d d
d AB_C = ac + b1c + b2c
♣ Este método tende a formar agrupamentos mais compactos pois o cálculo da 3 3 3
distância entre os grupos é baseado na maior dissimilaridade entre os objetos.
É sempre importante argumentar sobre a ponderação utilizada ao aplicar um
♣ Ele é mais sensível às amostras anômalas pelo fato de usar a maior algoritmo de agrupamento que faz o uso do método da média.
distância entre objetos para definir a distância entre grupos.
4- Método do Centróide A interpretação dos resultados é outra etapa importante na análise
utiliza o “centro” de cada grupo no espaço (centróide) para representá-lo como Um dendrograma que realmente diferencia os grupos tem ramos pequenos nos
um todo. galhos mais distantes da árvore.
2
n A d AC n d2 n n d2
d2 = + B BC − A B AB
AB _ C n A + nB n A + nB n A + nB
A cada iteração calcula-se uma nova posição para o grupo como um todo.
Como no método da média, o centróide também pode usar ponderações não
uniformes.
Vantagem do método: as propriedades de cada grupo são representadas por um
único objeto, o “centróide”.
Desvantagem: a posição e distâncias dos centróides são recalculadas a cada Os ramos dos galhos mais distantes são
iteração. Este método pode causar intercruzamentos no dendrograma. longos: o agrupamento não é tão efetivo.

5- Método de Ward ou método incremental. LIMITAÇÕES DO MÉTODO HCA


A distância é obtida calculando a soma dos quadrados das distâncias do
centróide médio de cada grupo. Este método favorece grupos pequenos, de Pode haver alguns objetos finais a serem agrupados que não são similares com os
grupos formados, mas são agrupados porque o processo termina com um único
tamanhos iguais, com uma dispersão mínima dentro do grupo; no entanto é
grupo. Cada grupo é construído com base nos grupos obtidos em iterações
computacionalmente mais caro.
anteriores, sem a possibilidade de reavaliar os grupos já formados.
(n A + nC )d AC
2
(nB + nC )d BC
2 2
nC d AB OUTRAS REGRAS PRÁTICAS
d AB _ C = + −
n A + n B + nC n A + n B + nC n A + n B + nC 1- Usar o valor absoluto do coeficiente de correlação ao aplicar HCA às variáveis.
2- Usar a distância de Mahalanobis quando algumas variáveis são altamente
Estes são os métodos mais comuns de agrupamento. correlacionadas.

EXEMPLO
Uma nova tabela de distâncias deve ser construída e os valores ‘?’ deverão ser
HCA aplicada à matriz de dados X (5x8). calculados segundo algum critério.
Obj./Var. var1 var2 var3 var4 var5 var6 var7 var8 B C E
A 7,0 9,0 10,0 17,0 25,0 10,0 13,0 1,0
5,0 12,0 14,0 12,0 40,0 12,0 15,0 0,0
AD ? ? ?
B B 4,40 4,33
C 3,0 8,0 20,0 18,0 38,0 13,0 18,0 1,0
C 2,46
D 8,0 9,0 8,0 16,0 23,0 10,0 14,0 1,0
E 2,0 11,0 18,0 20,0 34,0 16,0 17,0 1,0 HCA usando o método simples de agrupamento:
Para construir o dendrograma, primeiro calcularemos as distâncias entre as dAD_B = min(dA_B, dD_B) = min(4.22, 4.33) Uma vez encontrados os valores
amostras. Os dados foram autoescalados. dAD_C = min(dA_C, dD_C) = min(4.12, 4.39) ‘?’, novo grupo é formado.
dAD_E = min(dA_E, dD_E) = min(4.44, 4.76)
%Os dados foram autoescalados B C E
Os comandos do Xa=(X-ones(5,1)*mean(X))./(ones(5,1)*std(X)) AD 4,22 4,12 4,44
software MATLAB %A matriz Xa foi usada para fazer o agrupamento B 4,40 4,33
%Cálculo da distância entre as amostras A e B. Novas distâncias são calculadas: C 2,46
dA_B = sqrt(sum((Xa(1,:) – Xa(2,:)).^2))
dAD_CE = min(dAD_C, dAD_E) = min(4.12, 4.44)
dB_CE = min(dB_C, dB_E) = min(4.40, 4.33)
B C D E
A 4,22 4,12 0,85 4,44
A menor distância é entre as amostras B 4,40 4,33 4,33
A e D. Forma-se o grupo AD.
B CE A última iteração une os dois grupos restantes: B e ADCE.
C 4,39 2,46 AD 4,22 4,12
D 4,76 B 4,33
dADCE_B = min(dAD_B, dCE_B) = min(4.22, 4.33)
Esta terminada a primeira iteração
HCA usando o método completo de agrupamento:
As 5 amostras foram agrupadas formando um único grupo e a distância máxima entre Os valores ‘?’ são calculados usando um critério diferente (o vizinho mais
elas é dmax = dADCE_B = 4,22. distantes).
dAD_B = max(dA_B, dD_B) = max(4.22, 4.33)
Cálculo dos índices de similaridade. dAD_C = max(dA_C, dD_C) = max(4.12, 4.39)
dAD_E = max(dA_E, dD_E) = max(4.44, 4.76)
D E CE
A 0,80 B C E B CE
C 0,42 AD 4,33 4,39 4,76 AD 4,33 4,76
AD 0,03 B 0 4,40 4,33 B 0 4,40
C 0 2,46

dAD_CE = max(dAD_C, dAD_E) = max(4.39, 4.76)


dB_CE = max(dB_C, dB_E) = max(4.40, 4.33)
♦ As amostras A e D são as mais semelhantes, seguidas das amostras C e E, que
forma outro grupo à parte. dmax = dADB_CE = 4,76
dADB_CE = max(dAD_CE, dB_CE) = max(4.76, 4.40) = 4.76
♦ A seguir, os dois grupos são unidos formando um grande grupo com similaridade
quase nula. A distância máxima obtida é maior que a do método anterior
♦ Com um grau de similaridade igual a 0,4 podemos distinguir três grupos: AD; CE, e isto fará com que os índices de similaridade sejam
e a amostra B. ligeiramente maiores
Índices de similaridade
♦ Este método tende a formar grupos mais espalhados e com menores índices de D E B
similaridade quando comparado aos outros métodos de agrupamento. A 0,82
C 0 0,48
AD 0 0,09

HCA usando o método da média para o agrupamento:


Os valores ‘?’ são calculados usando a média não ponderada (não será considerado HCA usando o método de Ward para o agrupamento:
o tamanho do grupo). Os quadros seguintes seguem os mesmos procedimentos anteriores.

B C E dAD_B = sqrt((2*dA_B^2 + 2*dD_B^2 - 1*dAD^2)/3)


dAD_B = (dA_B + dD_B)/2 = (4.22 + 4.33)/2 AD 4,28 4,26 4,60 dAD_B = sqrt((2*4.22^2 + 2*4.33 ^2 - 1*0.85^2)/3)
dAD_C = (dA_C + dD_C)/2 = (4.12 + 4.39) /2 B C E
B 4,40 4,33 AD 4,91 4,89 5,29
dAD_E = (dA_E + dD_E)/2 = (4.44 + 4.76) /2 dAD_C = sqrt((2*dA_C ^2 + 2*dD_C ^2 - 1*dAD^2)/3)
C 2,46 B 4,40 4,33
dAD_C = sqrt((2*4.12^2 + 2*4.39^2 - 1*0.85^2)/3)
C 2,46
B CE dAD_E = sqrt((2*dA_E ^2 + 2*dD_E ^2 - 1*dAD^2)/3)
dAD_CE = (dAD_C + dAD_E)/2 = (4.26 + 4.60)/2 AD 4,28 4,43 dAD_E = sqrt((2*4.44^2 + 2*4.76^2 - 1*0.85^2)/3)
dB_CE = (dB_C + dB_E)/2 = (4.40 + 4.33)/2 B 4,37

dCE_B = sqrt((2*dC_B^2 + 2*dE_B^2 - 1*dCE^2)/3)


dCE_B = sqrt((2*4.40^2 + 2*4.33^2 - 1*2.46^2)/3) B CE
dADB_CE = (dAD_CE + dB_CE)/2 (4.43 + 4.37)/2
dCE_AD = sqrt((3*dAD_C^2 + 3*dAD_E^2 - 2*dCE^2)/4)
AD 4,91 5.99
dmax = dADB_CE = 4,40 dCE_AD = sqrt((3*4.89^2 + 3*5.29^2 - 2*2.46^2)/4) B 4,84
Índices de similaridade
D E B dCEB_AD = sqrt((4*dAD_CE^2 + 3*dAD_B^2 - 2*dCE_B^2)/5)
A 0,81 dCEB_AD = sqrt((4*5.99^2 + 3*4.91^2 - 2*4.84^2)/5)
C 0,44
AD 0,03
dmax = dCEB_AD = 5,81
Índices de similaridade

D E B
A 0,85
C 0,58
AD 0,17

A distância máxima é bem maior que nos casos anteriores e isto fará com que
os índices de similaridade sejam maiores.
Os grupos têm ramos menores e tendem a ser mais são mais compactos.

CONCLUSÕES
A análise exploratória preliminar utilizando os métodos PCA e HCA pode ser vista
como uma etapa da análise onde se explora de maneira ampla os dados.
Resumindo, nesta análise, pode-se:
♦ identificar agrupamentos e tendências entre as amostras;
♦ identificar aquelas variáveis que contém as informações de interesse;
♦ investigar as correlações entre as variáveis, evitando muitas variáveis
colineares construção de modelos de regressão ou de classificação;
♦ Fazer a compressão dos dados e
♦ Detectar amostras anômalas.

Você também pode gostar