Você está na página 1de 17

Universidade de So Paulo

Escola Superior de Agricultura Luiz de Queiroz


LCE

Anlise Multivariada

Anlise de Correspondncia

Seminrio apresentado na disciplina


Anlise Multivariada sob orientao
do Prof. Dr. Carlos Tadeu dos S. Dias
Aluna: Ana Beatriz Costa Czermainski

Piracicaba-SP
Julho, 2004

Anlise de Correspondncia
1. Introduo
O objetivo deste trabalho transmitir o conceito e idia inicial sobre anlise de
correspondncia e sua interpretao geomtrica, com base nos trabalhos de Greenacre &
Hastie (1987) e Barioni Jnior (1995).
1.1 Conceito e Objetivos da Anlise de Correspondncia
Anlise de correspondncia (AC) uma tcnica de anlise exploratria de dados
adequada para analisar tabelas de duas entradas ou tabelas de mltiplas entradas, levando
em conta algumas medidas de correspondncia entre linhas e colunas. A AC, basicamente,
converte uma matriz de dados no negativos em um tipo particular de representao grfica
em que as linhas e colunas da matriz so simultaneamente representadas em dimenso
reduzida, isto , por pontos no grfico. Este mtodo permite estudar as relaes e
semelhanas existentes entre:
a) as categorias de linhas e entre as categorias de colunas de uma tabela de
contingncia,
b) o conjunto de categorias de linhas e o conjunto categorias de colunas.
A AC mostra como as variveis dispostas em linhas e colunas esto relacionadas e
no somente se a relao existe. Embora seja considerada uma tcnica descritiva e
exploratria, a AC simplifica dados complexos e produz anlises exaustivas de informaes
que suportam concluses a respeito das mesmas.
A AC possui diversos aspectos que a distingue de outras tcnicas de anlise de
dados. A sua natureza multivariada permite revelar relaes que no seriam detectadas em
comparaes aos pares das variveis. altamente flexvel quanto a pressuposies sobre os
dados: o nico requisito o de uma matriz retangular com entradas no negativas. Observese que possvel transformar qualquer caracterstica quantitativa em qualitativa,
realizando-se uma partio de seu domnio de variao em classes. A AC mais efetiva se
a matriz de dados bastante grande, de modo que a inspeo visual ou anlise estatstica
simples no consegue revelar sua estrutura.

A anlise de correspondncia pode ser considerada como um caso especial da


anlise de componentes principais (CP), porm dirigida a dados categricos organizados
em tabelas de contingncia e no a dados contnuos. O problema anlogo a encontrar o
maior componente principal de um conjunto de I observaes e J variveis, com
modificaes devido ponderao das observaes e mtrica ponderada.
1.2 Nota histrica
As primeiras consideraes matemticas a respeito de AC foram feitas por
Hirschfeld (1935). A partir da, os procedimentos numricos e algbricos foram aplicados
em diferentes contextos, notadamente em ecologia e psicologia. O mtodo foi redescoberto
na Frana no incio da dcada de 60 e tem sido extensivamente usado naquele pas como
um mtodo grfico de anlise de dados. A partir de 1975, a tcnica vem sendo utilizada em
diversas reas do conhecimento, em publicaes em diversos idiomas.
2. A tabela de contingncia e a matriz de correspondncia
A forma mais simples de AC sua aplicao a uma tabela de contingncia de
dupla entrada que denominada anlise de correspondncia simples.
O quadro 1 representa uma tabela de contingncia com I categorias de linhas e J
categorias de colunas, das variveis A e B, respectivamente.
Quadro 1. Representao de uma tabela de contingncia.
B
A

...

...

Total linha

n11

n12

...

n1j

...

n1J

n1+

n21

n22

...

n2j

...

n2J

n2+

...

...

...

...

...

...

...

ni1

ni2

...

nij

...

niJ

...

...

...

...

...

...

...

nI1

nI2

...

nIj

...

nIJ

nI+

Total coluna

n+1

n+2

...

N+j

...

n+J

ni+

onde:
nij a freqncia observada pela interseco da i-sima categoria da varivel A
com a j-sima categoria da varivel B;
ni+ freqncia total observada na i-sima categoria de A;
n+j freqncia total observada na j-sima categoria de B;
n total geral de freqncias observadas.
Seja N a matriz de freqncias absolutas, ou seja, N=[ nij ]IxJ . A matriz de
freqncias relativas ser P=(1/n) N e chamada de matriz de correspondncia. Cada
linha ou coluna de P pode ser considerada um vetor de propores (Quadro 2).
Quadro 2. Matriz de correspondncias.
B
A

...

...

Total linha

p11

p12

...

p1j

...

p1J

p1+

p21

p22

...

p2j

...

p2J

p2+

...

...

...

...

...

...

...

pi1

pi2

...

pij

...

piJ

...

...

...

...

...

...

...

pI1

pI2

...

pIj

...

pIJ

pI+

Total coluna

p+1

p+2

...

P+j

...

p+J

pi+

Onde: pij = nij /n ; pi+ = ni+ /n ; p+j = n+j /n .


Do quadro 2 definem-se os vetores de freqncias relativas marginais (em
relao ao total geral n) denominados massas. A massa da i-sima linha ni+ /n e a
massa da j-sima coluna n+j /n. O vetor de massas de linhas r =[ p1+ p2+. ... pi+ ...
pI+] e c = [p+1 p+2 ... p+j ... p+J] o vetor de massas de colunas.
O vetor ai = [ni1/ni+ ni2/ni. ... niJ/ni+] chamado de perfil linha. Em funo da
matriz de correspondncia P, o i-simo perfil linha ser ai = [pi1/pi+ pi2/pi+ ... piJ/pi+],
i=1,,I. Cada vetor ai representa uma realizao da distribuio multinomial,
condicionada i-sima categoria da varivel A.

Analogamente, o vetor bj =[ n1j/n+j n2j/n+j ... nIj/n+j] =[ p1j/p+j p2j/p+j ... pIj/p+j],
j=1,...,J, chamado de perfil coluna.
Definem-se as distncias entre perfis linha no pela mtrica Euclidiana usual,
mas pela mtrica Euclidiana ponderada, chamada mtrica ou distncia qui-quadrado:
dc(ai ,ai) = (ai - ai)Dc-1(ai - ai)

(n ij /n i + - n i'j /n i'+ ) 2

j =1

(n + j /n)

ou seja, dc(ai ,ai) a distncia euclidiana entre ai e ai na mtrica Dc (ponderada por Dc),
onde Dc a matriz diagonal de elementos cj =n+j /n (j=1, ... ,J). O vetor c = [c1 c2 ... cJ ]
,

propores marginais de colunas ou massas de colunas, tambm chamado de perfil

linha mdio ou centride dos perfis linha. Analogamente, as distncias entre perfis
colunas so obtidas na mtrica Dr (ponderada por Dr), que a matriz diagonal das
propores marginais de linhas ri = ni+/n (i=1,...,I), que compem o vetor r, o centride
dos perfis coluna ou vetor de massa de linhas.
3. A interpretao geomtrica da anlise de correspondncia simples
Para a abordagem de fundamentos tericos da AC e sua interpretao
geomtrica, ser considerado o exemplo apresentado por Greenacre & Hastie (1987)
que consiste em uma tabela de contingncia 5 x 3, representando a tabulao de 312
pessoas identificadas como leitores de um jornal, de acordo com cinco grupos
educacionais e trs categorias de leitura do jornal. Oportunamente, todas as definies
necessrias sero apresentadas com base neste exemplo numrico. Este exemplo tem a
vantagem de que sua geometria tri-dimensional, de modo que possvel observar
visualmente os conceitos e mecanismos da tcnica de AC sem abstraes.

Quadro 3. Tabela de contingncia freqncias observadas resultante da classificao


de n=312 pessoas segundo grupo educacional e categoria de leitura
preferencial.
Grupo

Categoria de leitura

Totais

educacional

C1

C2

C3

E1

14

E2

18

46

20

84

E3

19

29

39

87

E4

12

40

49

101

E5

16

26

Totais

57

129

126

312

A tabela de freqncias relativas (ou matriz de correspondncia, P) obtida pela


diviso de todas as clulas da tabela de contingncia pelo total geral n=312 (Quadro 4).
a proporo de cada combinao das categorias de variveis e do total das categorias
em relao ao total de unidades classificadas.
Quadro 4. Freqncias relativas correspondentes ao Quadro 3.
Grupo
Categoria de leitura
educacional
C1
C2
C3
E1
0,016
0,022
0,006
E2
0,058
0,147
0,064
E3
0,061
0,093
0,125
E4
0,038
0,128
0,157
E5
0,010
0,022
0,051
Totais

0,183

0,413

0,404

Totais
0,045
0,269
0,279
0,324
0,083
1

Suponha-se, inicialmente, que h interesse em comparar as linhas da tabela de


dados. As propores de tipos de leitores em cada grupo educacional so dadas pelos
vetores de perfil linha, representados por ai , i=1,...,5. Ento, os perfis linha sero:
a1 =[0,357
a2 =[0,214
a3 =[0,218
a4 =[0,119
a5 =[0,115

0,500
0,548
0,333
0,396
0,269

0,143]
0,238]
0,448]
0,485]
0,615]

e pode, cada um, ser representado como um vetor-ponto no espao Euclidiano tridimensional. O fato de existir dependncia linear entre as coordenadas dos vetores de
perfil (a soma igual a 1) significa, geometricamente, que os cinco pontos esto
contidos em um espao regular bi-dimensional denominado simplex, formado por um
tringulo com vrtices na unidade dos trs eixos de coordenadas. Os pontos podem ser
plotados diretamente neste tringulo conhecido como sistema de coordenadas
triangulares ou sistema de coordenadas baricntricas (Fig. 1).

a5
a3

a4
c
a2
a1

Fig. 1. Representao geomtrica dos cinco pontos-vetor (perfis linha) e do centride


(c) no espao Euclidiano tri-dimensional.
Cada perfil linha est associado a uma massa de linha, ri = ni+/n (ou cj = n+j/n,
para perfil coluna). Para o exemplo, r=[0,045 0,269 0,279 0,324 0,083].
A mdia ponderada dos perfis linha ou perfil mdio de linhas ou centride, ser
dado por
c=

I
i=1

ri ai ou c = A r com A = Dr-1 P (matriz de perfis linha)

O centride linha de uma tabela de contingncia indica geometricamente a


posio mdia dos perfis linha, como se fosse o centro de gravidade ou o ponto de
equilbrio da matriz de dados. Para o exemplo em questo, o centride dos perfis linha
que o vetor de massa das colunas c=[0,183 0,413 0,404], ou seja, vetor de
propores de leitores nas categorias de leitura.
A hiptese nula de independncia de linha-coluna, nij = ni+ n+j /n , (i=1 ...I, j=1
...J), equivalente hiptese de homogeneidade das linhas: n1j /n1+ = n2j /n2+ =...= nIj /nI+
(j=1,...,J). Cada linha da matriz de dados pode ser vista como a realizao de uma
distribuio multinomial condicional ao respectivo total da linha. A estatstica quiquadrado usual,

, que testa a hiptese nula de independncia entre linhas e colunas,

expressa como segue:


2

(nij ni + n + j / n) 2
( ni + n + j / n )

i =1 j =1

Sob a hiptese de homogeneidade, a estatstica

pode ser interpretada

geometricamente como a diferena dos perfis linha (ou coluna) aos seus respectivos
centrides (c ou r). A significncia de

indica desvios significativos dos perfis linha em

relao a seu centride ou hiptese de homogeneidade.


Cada perfil linha est ponderado por um peso proporcional ao respectivo total da
linha nos dados originais, correspondente aos ri , a massa da linha. Assim, a distncia
entre pontos que representam os perfis ao centride no definida pela mtrica
euclidiana clssica, mas sim pela mtrica euclidiana ponderada por Dc . A distncia quiquadrado entre os perfis linha e o centride fica:
dc(ai , c) = n

ri (ai - c)Dc-1(ai - c).

i=1

Ento, os perfis linha podem ser recalculados por i = Dc-1/2 ai , assim como os
eixos coordenados podem ser estendidos na proporo dos valores cj-1/2 tal que cada eixo
tem uma escala diferente. Na Figura 2 tem-se uma viso geomtrica dos perfis de linha
dos cinco grupos educacionais transformados i (i=1,...,5) no sistema de coordenadas
estendido.

A mdia ponderada dos quadrados das distncias entre os perfis linha e seu
centride c igual a estatstica
pelo total geral n. A quantidade
Para o exemplo obtm-se

, que testa a independncia de linhas e colunas, dividida


2

/n denominada de inrcia total da matriz de dados.

= 25,977 (com 8 gl) e a inrcia total de

/n = 25,977/312

= 0,0833.
Uma maneira de olhar a anlise de correspondncia consider-la como um
mtodo de decomposio da inrcia total, identificando um nmero reduzido de
dimenses que melhor representem uma nuvem de pontos. Levando esta idia para o
caso unidimensional abordado na Figura 2, o problema se resume em encontrar a linha
que melhor se ajusta aos cinco pontos (perfis). A melhor linha passa pelo centride c que
um resumo adimensional (um ponto). Se a origem do grfico transferida para c, ento
a linha que melhor se ajusta o autovetor principal da matriz assimtrica
Q=

ri (ai - c) (ai - c) Dc-1 = (A 1c) Dr (A 1c) Dc-1

i=1

onde Dr

e Dc so as matrizes diagonais de massas de linha e de coluna,

respectivamente, e A matriz cujas linhas so os perfis de linha. A Figura 3 traz o


simplex triangular e o eixo que minimiza a soma ponderada dos quadrados das distncias
dos pontos ao eixo para o exemplo abordado.
O trao da matriz Q igual a

/n, e seu conjunto de autovalores

,..., ou

inrcias principais, uma decomposio da inrcia total. No exemplo, o primeiro eixo


principal corresponde a um autovalor

= 0,0704 que equivale a 84,5% da inrcia total.

Fig. 2. Representao geomtrica dos perfis dos cinco grupos educacionais no


sistema de coordenadas estendidas. Cada eixo tem uma escala diferente,
cuja unidade 1/c11/2 = 2,36,
1/c21/2 = 1,56 e 1/c31/2 = 1,58,
respectivamente. As linhas ligando os perfis transformados i ao centride
c indicam os desvios do ponto de independncia.

Fig 3. O simplex triangular com os perfis transformados e o eixo principal de melhor


ajuste (linha tracejada passando pelo centride c) que minimiza soma ponderada
de quadrados das distncias dos pontos ao eixo.

Fig. 4. Representao unidimensional dos perfis linha, perfazendo 84,5% da inrcia


total. Os pontos esto conectados sua estimativa unidimensional, que so as
projees sobre esta linha.

4. A interpretao do grfico final da AC


Para o exemplo abordado at aqui, foi adaptado um programa SAS, utilizandose o proc corresp que efetua a anlise de correspondncia.
Programa SAS para o exemplo:
Title ' Dados Greenacre & Hastie, 1987 ';
data colors;
input catlin $ col1 col2 col3 ;
cards;
E1
5 7 2
E2
18 46 20
E3
19 29 39
E4
12 40 49
E5
3 7 16
;
proc corresp data=colors out=coord short;
var col1 col2 col3 ;
id catlin;
proc print data=coord;
run;
proc plot vtoh=2;
plot dim2 * dim1 = '*' $ catlin / box haxis=by .1 vaxis=by .1;
run;
data label;
set coord;
xsys='2'; ysys='2';
x = dim1; y = dim2;
text = catlin;
size = 1.0; *1.3;
function='LABEL';
if _type_='VAR' then color='RED '; else color='BLUE';
proc gplot data=coord;
plot dim2 * dim1
/ anno=label frame
href=0 vref=0 lvref=3 lhref=3
vaxis=axis2 haxis=axis1
vminor=1 hminor=1;
axis1 length=6 in order=(-0.75 to 0.75 by .25)
label=(h=1.2
'Dimension 1');
axis2 length=3 in order=(-.25 to .25 by .1)
label=(h=1.2 a=90 r=0 'Dimension 2');
symbol v=none;
run;

Sada SAS:
Dados Greenacre & Hastie, 1987
The CORRESP Procedure
Inertia and Chi-Square Decomposition
Singular
Value

Principal
Inertia

ChiSquare

Percent

Cumulative
Percent

0.26527
0.11354

0.07037
0.01289

21.9550
4.0222

84.52
15.48

84.52
100.00

Total

0.08326

25.9772

100.00

17
34
51
68
85
----+----+----+----+----+--*************************
*****

Degrees of Freedom = 8
Row Coordinates

E1
E2
E3
E4
E5

Dim1

Dim2

0.5493
0.3331
-0.0805
-0.1730
-0.4305

0.2271
-0.0777
0.1446
-0.0975
0.0235

Column Coordinates

col1
col2
col3

Dim1

Dim2

0.2543
0.2016
-0.3215

0.2141
-0.1041
0.0098

_
T
Y
O P
b E
s _

c
a
t
l
i
n

Q
u
a
l
i
t
y

M
a
s
s

I
n
e
r
t
i
a

1
2
3
4
5
6
7
8
9

E1
E2
E3
E4
E5
col1
col2
col3

.
1
1
1
1
1
1
1
1

.
0.04487
0.26923
0.27885
0.32372
0.08333
0.18269
0.41346
0.40385

0.08326
0.19044
0.37841
0.09174
0.15334
0.18608
0.24247
0.25574
0.50179

INERTIA
OBS
OBS
OBS
OBS
OBS
VAR
VAR
VAR

C
o
n
t
r
2

S
q
C
o
s
1

S
q
C
o
s
2

B
e
s
t
2

B
e
s
t

.
.
0.07037 0.01289 .
.
. .
0.54934 0.22714 0.19243 0.17957 0.85400 0.14600 1 1
0.33315 -0.07768 0.42464 0.12603 0.94843 0.05157 1 0
-0.08053 0.14459 0.02570 0.45222 0.23675 0.76325 0 2
-0.17302 -0.09748 0.13772 0.23861 0.75906 0.24094 0 2
-0.43054 0.02352 0.21951 0.00358 0.99702 0.00298 1 0
0.25432 0.21407 0.16792 0.64939 0.58531 0.41469 0 2
0.20164 -0.10411 0.23891 0.34763 0.78953 0.21047 2 2
-0.32149 0.00975 0.59318 0.00298 0.99908 0.00092 1 0

.
1
1
2
2
1
2
2
1

D
i
m
1

D
i
m
2

Plot of Dim2*Dim1$catlin.

(O grfico foi omitido)

C
o
n
t
r
1

Symbol used is '*'.

B
e
s
t
1

Fig. 5. Representao das categorias de grupos educacionais e de tipos de leitores no plano


bidimensional.
Na Figura 5, a proximidade dos dois pontos representando col1 e col2 comparada
com sua distncia de col3 indica que os eixos refletem um contraste entre as duas primeiras
categorias de tipo de leitura e a terceira. Em outras palavras, existe uma heterogeneidade
entre as categorias de colunas, sendo que col1 e col2 so relativamente homogneas.
Os grupos educacionais no lado direito do eixo, particularmente E1, tm propores
relativamente altas das categorias de leitores col1 e col2, enquanto aqueles do lado
esquerdo, particularmente E5, tm propores altas de col3. Os grupos educacionais esto
bem distribudos ao longo do eixo principal, refletindo suas diferenas sobre o aspecto
especfico caracterizado pelos vrtices colunas projetados.
5. Referncias bibliogrficas
GREENACRE, M; HASTIE, T. The geometric interpretation of correspondence analysis.
Journal of the American Statistical Association, v. 82:437-447. 1987.
BARIONI JNIOR, W. Anlise de correspondncia na identificao dos fatores de risco
associados diarria e performance de leites na fase de lactao. Piracicaba,
Escola Superior de Agricultura Luiz de Queiroz, 97p., 1995 (Dissertao de
Mestrado).

ANEXO
Utilizando-se o proc iml do SAS, apresenta-se o clculo das coordenadas dos pontos
que representam os perfis linha e os perfis coluna. Primeiramente, efetuada a anlise de
linhas (obteno das coordenadas para os perfis linha). As coordenadas correspondentes aos
perfis coluna sero obtidas repetindo-se o processo para a transposta da matriz de
freqncias absolutas F.
Programa SAS:
options nocenter nonumber nodate ps=200;
Title 'Dados Greenacre & Hastie, 1987';
proc iml;
/* matriz de frequencias absolutas */
F={ 5 7 2,
/*matriz F para a anlise de linhas*/
18 46 20,
19 29 39,
12 40 49,
3 7 16};
* F=t(F); /*matriz F para a anlise de colunas*/
y=nrow(F);
x=ncol(F);
NI=F[,+];
NJ=F[+,];
N=sum(NJ);
/* matriz de correspondncias */
P=j(y,x,0);
do i=1 to y;
do j=1 to x;
P[i,j]=F[i,j]/N;
end;
end;
R=P[,+]; DR=diag(R);
C=P[+,]; DC=diag(C);
A=j(y,x,0);
do i=1 to y;
do j=1 to x;
A[i,j]=P[i,j]*inv(root(DR[i,i])* root(DC[j,j]));
end;
end;
Q=A*t(A);
U=eigval(Q);
V=eigvec(Q);
print F NI; print NJ N; print P DR;
print DC; print A Q; print U V;
/* Obteno das dimenses de linhas ou de colunas */
G=j(y,y,0);
do j=1 to y;
do i=1 to y;
G[i,j]=sqrt(abs(U[j])/DR[i,i])*V[i,j];
end;
end;
print G;
quit;
run;

Sada SAS para dimenses linha:

!
!
!
!
!

!
!
!
!
!

!
!

!
!
!

!
!

!
!

"
!
!
!

#
!
!
!
!
!

$
!
!
!
!
!

!
!
!
!
!

!
!
!
!
!

!
!
!
!
!

!
!
!
!
!

!
!
!
!
!

!
!
' !
' !
' !

!
' !
!
' !
!

!
' !
' !
!
!

' !
!
' !
' !
!

!
!
' !
' !
' !

!
' !
!
' !
!

!
' !
' !
!
!

!
!
' !
' !

('
('

&

('
('
('
('
('

' !
!
' !
' !
!

('
('
('
('
('

!
!
!
!
!

!
!
!
!
!

Sada SAS para dimenses colunas:

!
!
!

!
!
!

!
!
!

!
!
!

!
!
!

!
!
!

"
!
!
!
!
!

#
!
!
!

$
!
!
!

!
!
!

!
!
!

!
!
!

!
!
' !

!
' !
!

!
!
' !

!
' !
!

!
!

&

!
!
!

!
!
!

!
!
!

!
!
!