Você está na página 1de 14

QUESTES METODOLGICAS METHODOLOGICAL ISSUES

473

Anlise de Correspondncia: bases tericas na


interpretao de dados categricos em Cincias
da Sade
Correspondence Analysis: a theoretical basis for
categorical data interpretation in Health Sciences
Anlisis de Correspondencia: bases tericas para la
interpretacin de datos categricos en Ciencias
de Salud
Antonio Fernando Catelli Infantosi 1
Joo Carlos da Gama Dias Costa 1
Renan Moritz Varnier Rodrigues de Almeida

Instituto Alberto Luiz


Coimbra de Ps-graduao
e Pesquisa de Engenharia,
Universidade Federal do
Rio de Janeiro, Rio de Janeiro,
Brasil.

Correspondncia
A. F. C. Infantosi
Programa de Engenharia
Biomdica, Instituto Alberto
Luiz Coimbra de Psgraduao e Pesquisa de
Engenharia, Universidade
Federal do Rio de Janeiro.
C. P. 68510, Cidade
Universitria, Rio de Janeiro,
RJ 21941-972, Brasil.
afci@peb.ufrj.br

Abstract

Resumo

Categorical variables are common in the biomedical field, and many descriptive methods
have been proposed for revealing intrinsic patterns in data. Correspondence Analysis is an
especially useful method for categorical data
analysis of large contingency tables. Although
numerous studies have been published on this
method, most Portuguese-language articles have
failed to explore its full potential, focusing only
on graphical interpretation. The current paper reviews the method, showing that graphical
analysis can be enriched by the right statistics.
The article presents the mathematical basis for
correspondence analysis and its most frequently
used statistics. The procedure has shown that
such statistics enrich symmetric map evaluation,
that a low relative frequency category can be represented by supplementary category points, and
that inertia contributions are highly related to
residual analysis of contingency tables, not easily visualized by symmetric maps. Correspondence Analysis has proven advantageous when
compared to principal components analysis.

Na rea biomdica, a ocorrncia de dados categricos comum, e mtodos de anlise especficos para este tipo de dado so usados para
revelar padres existentes. A Anlise de Correspondncia uma dessas tcnicas, utilizada na
anlise de tabelas de contingncia de grande
porte. A maioria dos trabalhos publicados em
peridicos brasileiros foca apenas na sua interpretao grfica, no abordando outras potencialidades da tcnica. O objetivo do trabalho
mostrar a tcnica no limitada anlise grfica,
mas tambm utilizar estatsticas que permitem
sua anlise quantitativa. Exemplo mostra que
a anlise grfica enriquecida com a utilizao
dessas estatsticas, e que a incluso de uma categoria com baixa ocorrncia pode ser considerada como categoria suplementar devido sua
baixa contribuio inrcia. Assim, diminui-se
a subjetividade na anlise, sendo possvel revelar a relao entre as categorias com a anlise
de resduos, aspecto este no facilmente observado graficamente. Comparao com a Anlise
de Componentes Principais mostrou a vantagem
da tcnica.

Multivariate Analysis; Health Care Quality


Indicators; Statistical Data Interpretation

http://dx.doi.org/10.1590/0102-311X00128513

Anlise Multivariada; Indicadores de Qualidade


em Assistncia Sade; Interpretao Estatstica
de Dados

Cad. Sade Pblica, Rio de Janeiro, 30(3):473-486, mar, 2014

474

Infantosi AFC et al.

Introduo
Na rea de sade, a ocorrncia de variveis qualitativas comum, o que torna importante a
aplicao de tcnicas estatsticas prprias para
a anlise deste tipo de dado. Por exemplo, variveis como gnero ou a ocorrncia ou no de
determinado atributo, ou, ainda, variveis que
possuem mais de um estado, tais como aquelas
que indicam a severidade de uma doena (leve,
moderado ou grave), so denominadas categricas 1. Dada a grande quantidade de informao
armazenada nos bancos de dados atuais, mtodos multivariados tm sido propostos para a
obteno de informao relevante, de maneira
rpida e confivel.
Um desses mtodos a Anlise de Correspondncia (AC). A AC permite a visualizao
grfica das categorias das variveis em uma tabela de contingncia e, assim, verificar o grau
de interao entre as mesmas. Os conceitos
principais da AC so os perfis de linha ou coluna e a distncia qui-quadrado 2,3. Em breves
palavras, a AC um mtodo de anlise grfica
de tabelas de contingncia, e seus conceitos
principais foram descritos em 1940 por Fisher 4,
que os exemplificou com uma anlise de associao entre cor dos olhos e tipos de cabelo de
habitantes da cidade escocesa de Caithness 4,5,6.
Posteriormente, j na dcada de 1960, Benzcri
e seu grupo de colaboradores iniciaram a divulgao da AC e suas variantes sob a alcunha de
LAnalyse des Donnes, levando ao desenvolvimento da tcnica na Frana 2,6,7. De modo independente e em paralelo, o desenvolvimento da
AC teve incio nos Pases Baixos e no Japo, sob
ttulos diferentes, como Anlise de Homogeneidade e Escalonamento Dual 8. A partir de Lebart
et al. 3, no incio da dcada de 1980, a AC e sua
variante, a Anlise de Correspondncia Mltipla
(ACM), foram difundidas mais fortemente em
pases anglfonos.
No Brasil, a tcnica mais utilizada nos estudos de ecologia e, em menor escala, na rea da
sade. Pesquisa realizada pelos autores na base
de dados SciELO, utilizando-se o termo anlise
de correspondncia, identificou que 156 artigos
redigidos em lngua portuguesa foram publicados at 2012. Desses, 52,6% foram publicados em
peridicos pertencentes s Cincias Exatas e da
Terra, 20,5% s Cincias Agrrias e 13,5% s Cincias da Sade. Outros 7,7% e 5,8% foram publicados em Cincias Sociais Aplicadas e Cincias Humanas, respectivamente. O resultado da pesquisa mostrou que a AC no muito utilizada, sendo
a aplicao da tcnica maior nas Cincias Exatas
e da Terra havendo, porm, um crescimento evidente de seu emprego nas Cincias da Sade no

Cad. Sade Pblica, Rio de Janeiro, 30(3):473-486, mar, 2014

ltimo trinio (10 artigos, de um total de 21). O


primeiro trabalho publicado em peridico brasileiro na rea da sade (1992) pode ser creditado a
Carvalho & Struchiner 9, que abordam a associao entre unidades de vacinao constantes do
Plano Nacional de Imunizao (PNI).
O objetivo deste trabalho mostrar a AC como uma ferramenta de anlise de dados categricos no apenas limitada anlise grfica, mas
abordando tambm estatsticas que podem ser
utilizadas na interpretao. Para isso, a teoria da
AC apresentada na seo Teoria, bem como as
expresses algbricas do mtodo, a discusso
sobre a dualidade existente entre a anlise dos
perfis de linha e dos perfis de coluna, enquanto a
seo Estatsticas contempla as estatsticas mais
comumente usadas para a interpretao da AC.
O artigo concludo com um exemplo ilustrativo
e a discusso sobre a contribuio que as estatsticas fornecem para a anlise dos dados, sendo
tambm realizada uma comparao do mtodo
com outra tcnica, a Anlise de Componentes
Principais (ACP). Alguns livros-textos 2,3,5,6,10 que
abordam aspectos algbricos e geomtricos da
AC serviram de base para este trabalho, mas que,
a menos de alguma citao especfica, no mais
sero citados.

Teoria
Considerando-se uma tabela de contingncia N
de dimenses I x J, cuja soma de todas as suas clulas seja n++, define-se cada elemento do perfil
de linha i em relao s categorias dispostas nas
colunas j como:

em que nij o elemento da clula i, j, e ni+ a


soma total da i-sima linha, ou seja,

A menos que definido em contrrio, entende-se


que 1 i I e 1 j J, I, J N para todo o texto.
Assim, o perfil da i-sima linha pode ser considerado um vetor no espao J - dimensional, cujas
coordenadas so dadas por cada elemento rij, ou
seja, pelo vetor ri = [ri1; ri2; ...;riJ]. Analogamente,
para os perfis de coluna, tem-se:

em que

ANLISE DE CORRESPONDNCIA

e, assim, pode-se construir a matriz A(i,:) = [ri]


composta de perfis de linha e a matriz B(:,j) =
[cj] composta de perfis de coluna. Os vetores c =
[n+1;n+2;...n+J]t e r = [n1+;n2+;...nI+] so os vetores
de totais de coluna e linha, respectivamente. Na
nomenclatura da AC, os centroides de linha (ou
perfil mdio de linha) e de coluna (perfil mdio
de coluna) podem ser expressos respectivamente por:

resultando que a distncia qui-quadrado entre perfis de linha a distncia Euclidiana em


um espao Euclidiano com novas coordenadas.
Denotando

tem-se

Sendo Dc = diag(c0) e Dr = diag(r0) as matrizes


diagonais dos centroides de coluna (I x I) e linha
(J x J), respectivamente, tem-se:

Os elementos de um centroide refletem a importncia relativa de uma determinada categoria


em relao s demais e, uma vez que so calculados em relao ao total da tabela, so chamados
de massas. A Tabela 1 ilustra os perfis de linha de
uma AC simples.
Pode-se verificar que o centroide de linha a
mdia ponderada entre os perfis de linha e suas
respectivas massas, ou seja:

em que Sl a nova matriz com a padronizao


da matriz de perfis de linha (I x J), e P a matriz
com elementos pij. Similarmente, utilizando-se a
distncia qui-quadrado entre os perfis de coluna,
obtm-se

Em relao ao centroide, a distncia quiquadrado do perfil de linha i pode ser representada por uma distncia Euclidiana com as
coordenadas:

Similarmente, para os perfis de coluna:

Define-se a distncia qui-quadrado entre os


perfis das linhas i e i como:

em que
Utilizando-se (1), a distncia qui-quadrado
entre quaisquer dois perfis de linha pode ser reescrita como:

Com base nas definies de perfil de linha e


coluna, possvel verificar o princpio distributivo, no qual dois perfis semelhantes podem ser
unidos em um perfil nico com massa igual
soma das massas individuais relativas aos perfis
considerados 2,3,11. De fato, sejam os perfis de linha ri e ri, com massas ni+/n++ e ni+/n++, respectivamente, tal que ri ri e, consequentemente,
ni+ ni+ e nij nij. Somando-se os elementos
dos perfis de linha, coluna a coluna, tem-se um
novo perfil de linha, com elementos [(ri1+ri1);
(ri2 + ri2);...;(riJ + riJ)] e massa (ni+ + ni+)/n++.

Cad. Sade Pblica, Rio de Janeiro, 30(3):473-486, mar, 2014

475

476

Infantosi AFC et al.

Tabela 1
Perfis de linha em uma Anlise de Correspondncia simples (matriz A). A ltima linha representa o centroide de linha.
col1

col2

...

colJ

Total

r1

n11/n1+

n12/n1+

...

n1J/n1+

r2

n21/n2+

n22/n2+

...

n2J/n2+

...

...

...

...

...

rI

nI1/nI+

nI2/nI+

...

nIJ/nI+

r0

r01

r02

...

r0J

Como so semelhantes (ou seja, suas posies


no espao so iguais ou aproximadamente
iguais), a nova linha da tabela de contingncia
dada por 2[ni1;ni2;...;niJ] e massa 2ni+/n++, ento
a soma total de cada coluna, n+j no se altera,
resultando em um mesmo centroide de linha
r0j (equao (3)). Assim, as distncias dos perfis
ao centroide de linha, dadas pela equao (11),
e entre quaisquer perfis (equao (7)), no se
modificam.
Os grficos utilizando os perfis de linha, em
relao s categorias da outra varivel, localizadas nas colunas, ensejam uma interpretao geomtrica peculiar devido ao formato da Tabela
1 (todas as linhas somam uma unidade e uma
matriz no negativa). Tal formato gera uma figura
geomtrica regular (ou um simplex regular) em
(J - 1) dimenses para os perfis de linha 1,12,13,14.
Uma vez que a soma dos elementos de um perfil de linha totaliza a unidade, pode-se imaginar
que, se para determinado perfil de linha somente
existisse uma nica categoria de coluna, a massa
deste perfil estaria localizada nesta categoria [ver
equao (1)]. Assim, um perfil de linha fictcio,
com toda sua massa concentrada na J-sima coluna, teria elementos [0;0;...;1]. Tal ponto seria
um dos vrtices do simplex 15,16. Tal sistema de
representao denominado de sistema de coordenadas baricntricas 13.
O mais comum na disposio grfica de vetores multivariados utilizar a origem das prprias
variveis ou determinar uma nova origem por
meio do mtodo de mnimos quadrados, no qual
a soma dos quadrados das distncias dos pontos
at os eixos minimizada. O mtodo computacional mais utilizado para tal minimizao o
algoritmo de Decomposio por Valores Singulares (DVS), em que a matriz de perfis fatorada
em trs matrizes, uma das quais diagonal com
os valores singulares 17. Adicionalmente, a quantidade de valores singulares positivos indica o
posto da matriz. Entretanto, na AC, a DVS aplicada aos perfis de forma ponderada, usando-se

Cad. Sade Pblica, Rio de Janeiro, 30(3):473-486, mar, 2014

os elementos do centroide correspondente de


maneira a ressaltar a importncia que cada perfil
tem, e permitir que o ponto correspondente ao
centroide seja a origem dos eixos cartesianos 13.
A forma de padronizao na AC pode ser expressa por:

sendo que, fatorando S pela DVS, tem-se:

em que U e V so as matrizes de vetores singulares esquerda e direita, VtV = UtU = Id respectivamente, D a matriz diagonal com os valores
singulares em ordem decrescente l0 > l1 ...
lK > lK + 1 = ... = 0, em que K o posto da matriz S,
K min {I,J} Id a matriz identidade 17. O valores singulares elevados ao quadrado so os autovalores da matriz quadrada StS, que traduzem
a disperso das categorias-ponto (CP) sobre a
dimenso correspondente.
Define-se como coordenadas padronizadas
das CPs de linha a matriz

e para as CPs de coluna a matriz

Entretanto, a apresentao mais comum na


AC utilizar as coordenadas principais das CPs
de linhas e colunas no mesmo grfico, dadas por:

para as linhas e

para as colunas.
A padronizao de S conforme a equao (12)
resulta que o primeiro valor singular (l0) seja unitrio (e mximo) e seus correspondentes vetores
singulares tenham todos os elementos positivos
ou negativos 4,18. Representam, portanto, a soluo trivial, que descartada da anlise, resultan-

ANLISE DE CORRESPONDNCIA

do na desconsiderao da primeira coluna das


matrizes F e G. Como resultado, a dimensionalidade da matriz S dada por K = min{(I-1,(J-1))}.
Assim, a AC , simplificadamente, a anlise de
duas nuvens de pontos, a nuvem de CPs de linhas
e a nuvem de CPs de colunas.
Anlise dual
Desenvolvendo a equao (16) que rege as coordenadas principais das CPs de linhas, e utilizando (13) e (14), obtm-se:

e, por consequncia, sabendo-se ainda que


, e substituindo-se V por
(equaes (15) e (17)), tem-se:

em que

e, portanto:

Similarmente,

As equaes (20) e (21) so denominadas de


equaes de transio e permitem a transio do
espao Euclidiano das CPs de linha para o das
CPs de coluna, e vice-versa. Alm disso, possvel
verificar que as coordenadas principais das CPs
de linha possuem relao com as coordenadas
padronizadas das CPs de coluna, pois, substituindo (17) em (20), tem-se:

Uma vez que,

Similarmente, para as colunas tem-se:

As equaes (23) e (24) mostram que as coordenadas principais de linhas (colunas) so o


resultado da mdia ponderada das coordenadas
padronizadas de colunas (linhas).
As equaes de transio possibilitam a incluso de CPs suplementares, ou ilustrativas, em
coordenadas principais. As CPs suplementares
podem ser includas na anlise sempre que seu
uso enriquecer a interpretao dos dados ou por
razes de influncia, como por exemplo, nos casos em que a massa de determinada CP muito
pequena, esta pode ser considerada um outlier.
As CPs que foram utilizadas para gerar a soluo

so chamadas de CPs ativas. Para linhas suplementares, tem-se:

em que fsup o vetor de coordenadas principais e


asup o vetor de perfil de linha suplementar, calculado segundo equao (1). Similarmente, para
colunas suplementares:

Diversos grficos utilizando as coordenadas


dadas pelas matrizes , , F e G podem ser usados, sendo os mais comuns o mapa simtrico e
os mapas assimtricos. O mapa simtrico apresenta as CPs de linhas e colunas em coordenadas
principais e, neste caso, as equaes (16) e (17)
so utilizadas. Os mapas assimtricos podem
mostrar as CPs de coluna em coordenadas principais e as CPs de linha em coordenadas padronizadas, ou vice-versa.
Na AC, as distncias euclidianas entre CPs
dispostas em coordenadas principais somente podem ser matematicamente determinadas
dentre os seus respectivos espaos Euclidianos.
Entretanto, Gabriel 19 e Greenacre 2 sugerem que
a utilizao dos mapas simtricos representa
razoavelmente a relao entre as CPs de linha e
coluna.

Estatsticas
A estatstica de teste mais comum para inferir sobre a hiptese de independncia (ou homogeneidade) de duas variveis categricas, dispostas em
uma tabela de contingncia a qui-quadrado:

em que nij e Eij so os valores observados e esperados de cada clula, respectivamente. O valor
esperado, pressupondo a independncia entre as
variveis, o produto da probabilidade de ocorrncia de cada uma delas na populao,

Dividindo-se a estatstica qui-quadrado pelo total da tabela de contingncia, tem-se:

em que L2 o coeficiente de contingncia de


Pearson. Quanto maior for L2, maior a soma das
diferenas entre nij e Eij, ou seja, maior a disperso entre os valores esperados e observados
por clula, e menos confiana se tem na inde-

Cad. Sade Pblica, Rio de Janeiro, 30(3):473-486, mar, 2014

477

478

Infantosi AFC et al.

pendncia entre as variveis. A partir de (27),


tem-se:

Dividindo-se o numerador e denominador


de cada um dos termos pelos correspondentes
quadrados dos totais de linha, obtm-se os perfis
de linha observados e esperados,

lao ao centroide e tambm estatstica quiquadrado, representando, portanto, a variabilidade dos dados da tabela de contingncia. Uma
vez que o centroide est localizado na origem
dos eixos, relativos s coordenadas principais, a
equao (32) torna-se:

em que fik a projeo da CP de linha i (em coordenadas principais) relativa dimenso k.


Por sua vez, a inrcia total pode ser decomposta por cada uma das dimenses, ento

respectivamente:
e a contribuio de cada dimenso inrcia total :

Lembrando que em (3) definiu-se

ento, dividindo-se ambos os lados por n++, e


utilizando (1), (4) e (28) obtm-se:

Assim, o coeficiente de contingncia de Pearson a soma do produto da massa de cada perfil


de linha multiplicado pelo quadrado da sua distncia qui-quadrado ao centroide. Por analogia
Fsica Clssica, essa grandeza denominada na
AC de inrcia total. Como j citado, a distncia
qui-quadrado entre perfis a distncia Euclidiana com novas coordenadas, ento a inrcia para
as CP da linha i, relativa s coordenadas principais, pode ser reescrita como:

em referncia origem. Cada CP contribui para a inrcia total de acordo com a sua massa e a
sua distncia origem, dada pela equao (32).
A anlise dos perfis de coluna leva mesma concluso e, portanto, o desenvolvimento algbrico
a seguir somente levar em considerao as CPs
de linha. Assim, a inrcia total proporcional ao
quadrado de uma mtrica de distncia em re-

Cad. Sade Pblica, Rio de Janeiro, 30(3):473-486, mar, 2014

em que Ctrk tambm um indicador de importncia da dimenso. A definio emprica do


nmero de dimenses consideradas importantes na soluo (k*) similar definio na ACP
e compreende, por exemplo, ou o grfico de
Scree 20 ou reter os autovalores maiores que a
, similarmente ao mtodo de
inrcia mdia
Kaiser 2,6, ou, ainda, considerar as dimenses
que, somadas, possuam um porcentual mnimo
determinado de inrcia. O grfico de Scree considera o ltimo autovalor como rudo, e os autovalores que possuem pequena diferena entre
estes e aquele so desconsiderados.
A inrcia de cada dimenso igual a:

Portanto, a inrcia total dada tambm por

A contribuio absoluta da CP da linha i (CPi)


para todas as dimenses :

A Ctai, representa a disperso que determinada CP possui em relao ao centroide, ponderada pela sua massa. uma medida da soma
dos afastamentos dos valores observados das
clulas de uma determina categoria da tabela de
contingncia em relao aos valores esperados
correspondentes 2. De fato, utilizando a equao
(30), a contribuio de cada clula estatstica
qui-quadrado o resduo (quadrtico) absoluto

ANLISE DE CORRESPONDNCIA

relativo a esta clula da tabela de contingncia,


e dado por 1,2:

Outras estatsticas podem ser calculadas,


uma das quais a correlao quadrada, que dada pelo quadrado do cosseno do ngulo formado
pela distncia da CPi ao centroide e fij:

A estatstica COR2i,k traduz a proximidade


desta CP com a dimenso e, portanto, a qualidade de representao desta CP na mesma. A correlao quadrada total, referente a cada CP de linha
no subespao considerado, dada por:
A contribuio estatstica qui-quadrado da
i-sima categoria (de linha) , portanto:

Comparao com a ACP

Cada CPi contribui para a inrcia da dimenso k por meio de:

Um dos mtodos de anlise de dados multivariados mais utilizados a ACP. O assunto exaustivamente abordado em textos de anlise multivariada 3,6, mas uma breve introduo oferecida
a seguir.
A partir de uma matriz X (n x p), na qual n
sujeitos so descritos por p variveis, a ACP gera novas variveis, no correlacionadas entre si,
formadas por combinaes lineares das variveis originais, que so os componentes principais (CPs).
Assim como na AC, a fatorao da matriz X
resulta em:

que chamada de contribuio absoluta da CPi


relativa dimenso k.
A contribuio relativa para a mesma dimenso ento:

em que U e V so as matrizes com vetores singulares respectivamente esquerda e direita, e


D a matriz diagonal com os valores singulares.
A matriz

Como a distncia qui-quadrado entre um


perfil de linha e o centroide de linha a distncia
euclidiana do CP origem em coordenadas principais, ento a equao (39) torna-se:

E, consequentemente, a contribuio relativa


total da CPi para as dimenses consideradas :

As contribuies das CPs inrcia total so


teis, portanto, para avaliar os resduos da tabela
de contingncia. A Ctri importante na determinao de qual CP contribui mais para a estatstica qui-quadrado, enquanto a Ctai auxilia na composio absoluta da inrcia de cada dimenso,
alm de ser a base do clculo da Ctri.

a matriz dos escores dos componentes principais (CPs), e a matriz de coeficientes dos CPs
a matriz V.
Na maioria dos casos, as p variveis so quantitativas e cada uma delas representa um atributo
distinto. A aplicao da ACP a uma tabela de contingncia N de dimenso I x J no direta, pois a
tabela N possui 2 variveis qualitativas. Para contornar essa limitao transforma-se a tabela N
em uma matriz binria, X*, em que nas colunas
esto dispostas as categorias das duas variveis e,
nas linhas, os sujeitos. Assim, para cada categoria
atribudo o valor unitrio caso o sujeito possua
este atributo, e zero, caso contrrio. Como ca-

Cad. Sade Pblica, Rio de Janeiro, 30(3):473-486, mar, 2014

479

480

Infantosi AFC et al.

da sujeito possui uma categoria por varivel, a


matriz X* tem n = n++ linhas e p = I + J colunas.
Portanto, toda informao contida na tabela N
preservada na matriz X* e a ACP pode ser aplicada de modo tradicional. A matriz X* tambm
conhecida como matriz indicadora 2.
Com base nos grficos da AC e ACP para as
dimenses escolhidas pelo mtodo de Kaiser ou
pelo grfico de Scree, as duas solues podem ser
comparadas.

ce-versa), mais comum o uso do agrupamento


dos perfis de linha e coluna em um mapa simtrico (Figura 1a). A comparao com as solues
pela ACP pode ser feita usando-se as Figuras 1b
e 1c. Pelo grfico de Scree e pela inrcia mdia
verificou-se que k* = 2. Ainda, o primeiro plano
principal possui 99,8% da inrcia total, mostrando que no h necessidade de analisar mais dimenses. As Tabelas 3 e 4 mostram um resumo
das estatsticas.
Anlise geral

Exemplo de aplicao: AC entre Clnicas


Mdicas e Indicadores Hospitalares
Para ilustrar o mtodo foram analisados os dados discutidos em Bayer & Souza 21, referentes ao
Hospital Universitrio de Santa Maria (Rio Grande do Sul), para os atendimentos entre os anos
2000 a 2005. Para os clculos e grficos foi utilizado o software estatstico R, livremente disponvel
pela web (http://www.r-project.org). A comparao dos resultados foi realizada usando-se a ACP.
Cada Clnica Mdica (CMED) foi dividida em
17 clnicas especializadas: Obstetrcia (o); Ginecologia (g); Clnica Cirrgica Geral (c); Hematologia (m4); Hemodilise-Dilise Peritoneal (d);
Clnica Mdica Geral (m5); CTI adultos (ctia); Pediatria (p); UTI Peditrica (uti1); UTI de Recmnascidos (uti2); Unidade de Cuidados Intermedirios Neonatal (uci); Centro de Tratamento de
Crianas com Cncer (cc); Centro de Tratamento
de Medula ssea (co); Pronto Atendimento de
Adultos (pa) e Pronto Atendimento Peditrico
(pp); Servio de Tratamento de Dependentes
Qumicos (se) e Clnica Paulo Guedes, para pacientes psiquitricos (pg). Os Indicadores Hospitalares (IND) so Internao (I), Transferncias
Recebidas (TR), Altas (AL), Transferncias Enviadas e bitos (O). Para verificar a associao entre
essas duas variveis (CMED e IND), podemos
dispor os dados em uma tabela de contingncia
de dimenso 17x5 (Tabela 2). As categorias da
varivel de indicadores hospitalares sero representadas no mapa de correspondncia em letras
maisculas e as categorias da varivel de clnicas
mdicas sero representadas por minsculas.
A coluna referente a bitos foi considerada
como suplementar para ilustrao, tendo em vista a sua participao reduzida na representao
dos dados (massa menor que 2,5%).
A inrcia total dos dados 0,399, e as contribuies das inrcias por dimenso so 65,7%,
34,1% e 0,2%. possvel verificar que a magnitude da associao entre as variveis alta, pois
2 = 53945, com 48 graus de liberdade (p < 0,001).
Apesar de ser possvel a anlise dos perfis de
linha em relao s categorias das colunas (e vi-

Cad. Sade Pblica, Rio de Janeiro, 30(3):473-486, mar, 2014

Analisando-se as Tabelas 3 e 4, verifica-se que


todas as CPs tm excelente qualidade de representao nos dois eixos (a menor a CP suplementar, bitos = 75,9%). Nenhuma das CPs
contribui exageradamente para a inrcia total,
no existindo ento CPs influentes. Para Clnicas Mdicas, aquelas que possuem as maiores
Ctri so CTI adultos, Clnica Cirrgica Geral
e Pronto Atendimento de Adultos, com 10,1%,
13% e 28,4%, respectivamente, apesar de CTI
adultos possuir baixa massa (0,0021). Sua alta
contribuio devida distncia do centroide
em relao segunda dimenso, implicando a
maior contribuio absoluta para essa dimenso (0,038). Claramente, as categorias Servio de
Tratamento de Dependentes Qumicos e Clnica
Paulo Guedes podem ser reunidas em uma nica
categoria (propriedade distributiva), tanto pela
anlise grfica quanto pela anlise das estatsticas de interesse, pois a alterao na inrcia total
com a integrao das duas CPs foi desprezvel
(0,3994696 vs. 0,3994699). A menor Ctri dada
por Centro de Tratamento de Medula ssea, seguida por Hemodilise-Dilise Peritoneal, esta
apresentando menor distncia ao centroide que
aquela. Embora Hemodilise-Dilise Peritoneal
esteja mais prxima do centroide, Centro de Tratamento de Medula ssea possui a menor massa
entre as CPs (0,005), da a sua menor Ctri. Para
Indicadores Hospitalares, a maior contribuio
Transferncias Recebidas (39,9%), e a menor
Altas (12,5%). A soma da coluna representativa
das contribuies absolutas totais de ambas as
variveis igual inrcia total (0,399), servindo
tambm como verificao dos clculos de contribuio inrcia pelas CPs ativas, j que a CP suplementar, por definio, no possui massa, no
contribuindo, portanto, para a inrcia. A anlise
das duas CPs de maior Ctri (pa e c; TR e TE), sugere estar nas clulas pa-TR, pa-TE, c-TR e c-TE
a maior contribuio ao resduo quadrtico da
tabela de contingncia. De fato, os dois maiores
resduos esto nas clulas pa-TR e pa-TE (-68,6 e
-81,2, respectivamente).

ANLISE DE CORRESPONDNCIA

Tabela 2
Tabela de Contingncia relativa CMED (Clnica Mdica) e IND (Indicadores Hospitalares) em um hospital universitrio,
2000-2005 21.
I

TR

AL

8968

3289

11933

2881

464

3187

3033

5468

7919

m4

2415

1646

1042

277

m5

522

2496

ctia

258

1483

952

uti1
uti2
uci
cc

TE

Total

228

24420

109

63

6704

367

264

17051

3328

380

350

8119

1061

198

57

2635

2250

382

421

6071

77

1016

655

3489

2112

2200

305

13

5582

479

613

186

764

149

2191

1541

280

230

1369

228

3648

169

1355

1214

290

3033

2300

256

2357

125

25

5063

co

328

40

305

65

745

pp

4049

94

2515

1660

20

8338

pa

16524

45

6791

8986

824

33170

se

2031

41

2024

40

4136

pg

1834

41

1818

38

3732

Total

49326

20000

49395

16322

3084

138127

Figura 1
Mapa de correspondncia, com as categorias de Indicadores Hospitalares em maisculas e as categorias de Clnicas Mdicas
em minsculas (1a); em (1b) e (1c) os grficos das duas primeiras categorias ponto (CPs), para Indicadores Hospitalares e
Clnicas Mdicas.

1a)

(continua)

Cad. Sade Pblica, Rio de Janeiro, 30(3):473-486, mar, 2014

481

482

Infantosi AFC et al.

Figura 1 (continuao)

1b)

1c)

Anlise da dimenso 1
Entre as contribuies relativas das CPs da varivel Clnicas Mdicas para a inrcia da dimenso
1, sobressaem (acima da mdia 1/17 = 0,059) Clnica Cirrgica Geral, Clnica Mdica, Pediatria e
Pronto Atendimento de Adultos. Dessas, Clnica
Cirrgica Geral, Clnica Mdica Geral e Pediatria (total de 36,4%) esto em oposio a Pronto
Atendimento de Adultos (total de 41,4%). Assim,
para a varivel Clnicas Mdicas, retendo-se

Cad. Sade Pblica, Rio de Janeiro, 30(3):473-486, mar, 2014

as maiores contribuies, a dimenso 1 regida pelo contraste entre Pronto Atendimento de


Adultos (0,414) e Clnica Cirrgica Geral (0,195),
ou seja, contraste entre atendimentos que demandem cirurgia eletiva e Pronto Atendimento.
Em relao a Indicadores Hospitalares, h contraste entre Transferncias Recebidas (0,454) e
Transferncias Enviadas (0,284), sugerindo que a
dimenso 1 seja referente a transferncias entre
pacientes, para esta varivel.

ANLISE DE CORRESPONDNCIA

Tabela 3
Estatsticas para a varivel Clnica Mdica. As duas colunas direita so as coordenadas principais das dimenses 1 e 2.
Massa

Ctai

Ctai,1

Ctai,2

Ctri,1

Ctri,2

Ctri

COR2i

DIM1

DIM2

(4)

(36)

(41)

(41)

(42)

(42)

(43)

(45)

(16)

(16)

0,181

0,026

0,008

0,019

0,029

0,137

0,066

1,000

-0,206

0,321

0,049

0,009

0,000

0,009

0,000

0,064

0,022

0,999

-0,031

0,423

0,124

0,052

0,051

0,001

0,195

0,004

0,130

0,998

-0,642

-0,070

m4

0,058

0,005

0,005

0,000

0,018

0,002

0,013

0,995

-0,290

0,067

0,019

0,001

0,000

0,001

0,000

0,005

0,002

0,996

0,008

0,192

m5

0,042

0,034

0,027

0,007

0,102

0,053

0,085

1,000

-0,800

-0,415

ctia

0,021

0,040

0,002

0,038

0,008

0,282

0,101

0,996

-0,317

-1,352

0,041

0,021

0,018

0,003

0,067

0,022

0,052

0,996

-0,655

-0,268

uti1

0,015

0,014

0,000

0,014

0,002

0,101

0,036

0,999

0,166

-0,955

uti2

0,025

0,024

0,014

0,010

0,054

0,070

0,060

1,000

0,749

-0,615

uci

0,022

0,020

0,014

0,005

0,054

0,040

0,049

0,995

-0,794

-0,491

cc

0,037

0,007

0,000

0,007

0,000

0,052

0,018

0,997

0,036

0,436

co

0,005

0,001

0,000

0,000

0,000

0,003

0,001

1,000

0,146

0,265

pp

0,062

0,014

0,014

0,000

0,053

0,001

0,035

0,998

0,475

0,053

pa

0,240

0,113

0,109

0,005

0,414

0,033

0,284

1,000

0,674

-0,138

se

0,031

0,010

0,000

0,009

0,001

0,069

0,024

0,999

0,098

0,553

pg

0,028

0,009

0,000

0,008

0,001

0,061

0,022

0,998

0,098

0,550

Total

1,000

0,399

0,263

0,136

1,000

1,000

1,000

* No aplicvel.
Nota: entre parnteses esto as equaes correspondentes.

Tabela 4
Estatsticas para a varivel Indicadores Hospitalares. As duas colunas direita so as coordenadas principais das dimenses
1 e 2.
Massa

Ctai

Ctai,1

Ctai,2

Ctri,1

Ctri,2

Ctri

COR2i

DIM1

DIM2

(4)

(36)

(41)

(41)

(42)

(42)

(43)

(45)

(17)

(17)

0,365

0,057

0,046

0,011

0,175

0,078

0,142

0,996

0,355

0,170
-0,519

TR

0,148

0,159

0,119

0,040

0,454

0,293

0,399

1,000

-0,897

AL

0,366

0,050

0,023

0,027

0,087

0,197

0,125

0,996

-0,251

0,271

TE

0,121

0,133

0,075

0,059

0,284

0,432

0,334

0,999

0,785

-0,698

O
Total

0,759

-0,043

-1,234

1,000

0,399

0,263

0,136

1,000

1,000

1,000

* No aplicvel.
Nota: entre parnteses esto as equaes correspondentes.

Anlise da dimenso 2
Para Clnicas Mdicas, verifica-se que so sete
as CPs cujas contribuies ultrapassam a mdia
(Clnica Obsttrica, Ginecologia, CTI adultos,
UTI Peditrica, UTI de Recm-nascidos, Servio de Tratamento de Dependentes Qumicos

e Clnica Paulo Guedes), totalizando 78,5% da


inrcia da dimenso. A dimenso apresenta
contraste entre um grupo formado pelas CPs
CTI adultos, UTI Peditrica, UTI Recm-nascidos e um grupo composto pelas CPs Clnica
Obsttrica, Ginecologia, Servio de Tratamento
de Dependentes Qumicos, Clnica Paulo Gue-

Cad. Sade Pblica, Rio de Janeiro, 30(3):473-486, mar, 2014

483

484

Infantosi AFC et al.

des, sugerindo oposio entre internao em


unidades e centros de atendimento intensivo e
servios ambulatoriais. Para Indicadores Hospitalares, a dimenso 2 apresenta contraste entre
transferncias com internao e altas, embora
estas no possuam contribuies acima da mdia (25%).
Anlise conjunta
Como todas as CPs so bem representadas no
plano (COR2 > 0,995), e levando-se em conta o
discutido na seo Teoria sobre a anlise de espaos Euclidianos distintos, as distncias entre
as CPs podem ser interpretadas quanto sua
proximidade, principalmente quanto aos respectivos quadrantes (Figura 1a). Assim, as CPs
Servio de Tratamento de Dependentes Qumicos e Clnica Paulo Guedes podem ser reunidas
em uma nica CP, enquanto Transferncias Recebidas apresenta maior proximidade com Clnica Mdica Geral e Unidade de Cuidados Intermedirios Neonatal, porm menos com Pediatria e Clnica Cirrgica Geral (agrupamento 1).
O mesmo comportamento existe para Transferncias Enviadas, que est mais prximo da UTI
de Recm-nascidos e no mesmo quadrante que
Pronto Atendimento de Adultos e UTI Peditrica
(agrupamento 2).
Verifica-se que a CP Internaes est mais
relacionada tambm a clnicas de Pronto Atendimento Adultos e Pronto Atendimento Peditrico e, em menor grau de associao, a Centro de
Transplantes de Medula ssea (agrupamento 3).
Por outro lado, a CP Altas mais fortemente relacionada com Obstetrcia, Ginecologia e Hematologia (agrupamento 4). A CP bitos est mais
relacionada a CTI adultos (agrupamento 5).
Assim, o agrupamento 1 pode ser associado
a pacientes transferidos de outras unidades do
hospital, como pacientes provenientes de unidades cirrgicas e peditricas de tratamento intensivo. O agrupamento 2, por outro lado, representa os pacientes enviados a outras unidades,
aps pronto atendimento de adultos e pacientes
peditricos transferidos das UTIs de recm-nascidos e peditricas. Para o agrupamento 3, uma
sobreposio de pacientes adultos com o agrupamento 2 pode ser explicada pela internao de
doentes mais graves aps pronto atendimento e
para tratamento de doenas relacionadas medula ssea. Atendimento ambulatorial e partos
sem complicaes parecem descrever o agrupamento 4. O agrupamento 5 caracterizado pela
probabilidade de bitos maior em CTI, em oposio clara ao agrupamento 4.

Cad. Sade Pblica, Rio de Janeiro, 30(3):473-486, mar, 2014

Comparao com ACP


O grfico de escores foi subdividido por cada
varivel, assim, cada escore foi duplamente representado pelas categorias s quais pertence.
Portanto, a anlise deve ser realizada com a sobreposio das Figuras 1b e 1c. As varincias dos
dois primeiros CPs (8,7 e 7,4%) so menores do
que as das duas primeiras dimenses da AC, tendo em vista a menor dimensionalidade desta soluo em relao quela (3x20). Sem prejuzo da
anlise, a categoria bitos no foi considerada
como suplementar, por sua baixa contribuio
inrcia. A dimensionalidade da soluo pelo
grfico de Scree 4 e pelo critrio de Kaiser 17.
A anlise da Figura 1b sugere contraste em
relao ao CP1, entre Altas vs. Internao e entre
Transferncias Enviadas vs. Transferncias Recebidas, enquanto que em relao ao CP2 o contraste entre Internao/Altas e Transferncias
Enviadas/Recebidas. A projeo de bitos sobre
o primeiro CP est situada prxima ao centroide,
entretanto, para o segundo, h sugesto de contraste entre bitos vs. Internao/Altas.
Para a varivel Clnicas Mdicas, verifica-se
um espalhamento generalizado entre os sujeitos, exceto para pa que situa-se no terceiro quadrante; e dois grupos similares, no primeiro e
segundo quadrantes, formados pelas categorias
m4-d-co-c-g-o-pg-pp. A anlise da sobreposio das Figuras 1b e 1c no sugere associao
relevante entre as categorias das duas variveis,
principalmente pela baixa varincia associada a
estes dois CPs.

Discusso
O objetivo deste trabalho foi mostrar a AC como
uma tcnica de anlise de dados categricos, dispostos em tabelas de contingncia. Embora introduzida mais formalmente na dcada de 1960,
a AC ainda no muito utilizada na literatura
biomdica brasileira e espera-se, com este estudo, que a mesma seja mais conhecida e incorporada ao arsenal de tcnicas estatsticas mais
difundidas na rea da sade.
At o momento, no existe consenso quanto ao melhor mtodo para determinar o nmero de dimenses relevantes na AC, ou na ACP.
Assim, as abordagens aqui apresentadas so as
mais utilizadas na literatura referenciada. Jackson 22 props um mtodo computacionalmente
intensivo e o teste Broken-Stick para a determinao de k*, entretanto, estes mtodos possuem
complexidade maior do que a AC ou ACP per
se. Logo, o scree plot e o teste da inrcia mdia
(que similar ao teste de Kaiser) foram utiliza-

ANLISE DE CORRESPONDNCIA

dos. Outro ponto de subjetividade diz respeito


definio de proximidade na interpretao
grfica das associaes, pois a definio de prximo ou distante depende da escala do grfico
e da definio formal de um ndice de similaridade. No contexto da AC, Carvalho & Struchiner 9
propuseram o uso conjunto de um algoritmo de
classificao hierrquica (ACH) ascendente, enquanto que, para a ACM, Costa et al. 23 sugeriram
um ndice baseado na razo entre as inrcias das
dimenses. A anlise de proximidade entre categorias na AC deve levar em conta esses aspectos,
sendo melhor caracterizar a proximidade relativa
entre as categorias e entre estas e o centroide.
Alm de dispensar a pressuposio de distribuio de probabilidade, outra vantagem da AC
que a mesma no somente aplicvel a tabelas
de contingncia 2.
Como mencionado, a AC encontra sua principal aplicao em tabelas de contingncia com
grande nmero de categorias, de forma a permitir uma visualizao da atrao ou repulso
entre as categorias das variveis. O exemplo de
aplicao da AC utilizado neste trabalho mos-

trou que a anlise do mapa simtrico pode ser


enriquecida com a utilizao das estatsticas
descritas no texto, e que a incluso de uma categoria com baixa ocorrncia pode ser considerada na anlise como categoria suplementar devido sua baixa contribuio inrcia. Ainda, as
CPs suplementares tm aplicao quando se deseja verificar proximidade/relao com as CPs
explicativas 3 ou na anlise de influncia 24. As
estatsticas quantitativas utilizadas diminuem a
subjetividade na anlise, pois mostram, de maneira inequvoca, as relaes entre as CPs e os
eixos, a relao de cada CP com a inrcia, sugerindo ainda a relao entre as estatsticas de
contribuies absolutas e relativas com a anlise de resduos 1,2, o que no pde ser visualizado
pelo mapa de correspondncia. Para a ACP foi
necessrio construir uma matriz indicadora, de
modo a comparar o resultado desta com o da
AC. Essa comparao mostra a vantagem da AC
na anlise das relaes entre as categorias em
uma tabela de contingncia, principalmente
devido diferena na informao contida nas
dimenses correspondentes.

Resumen

Colaboradores

En el campo biomdico, los datos categricos son frecuentemente utilizados y los mtodos de anlisis especficos son empleados para revelar patrones intrnsecamente existentes en los mismos. El Anlisis de Correspondencias es una de estas tcnicas, siendo til en el
anlisis de tablas de contingencia con un gran nmero
de clases. A pesar de que muchos artculos han explorado esta tcnica, la mayora de trabajos en revistas
brasileas se centra slo en su interpretacin grfica.
El objetivo de este trabajo es incluir estadsticas que
permitan la interpretacin cuantitativa de la tcnica.
Como ejemplo, tenemos el anlisis de un mapa simtrico enriquecido con el uso de estadsticas, en el cual
la inclusin de una clase de baja ocurrencia puede ser
considerada como una categora suplementaria, debido a su baja contribucin a la inercia de datos. Por lo
tanto, disminuye la subjetividad en el anlisis, siendo
posible ahora revelar la relacin entre las categoras
con el anlisis residual, lo que no es fcil observar en los
grficos. La comparacin con el anlisis de componentes principales mostr sus ventajas.

A. F. C. Infantosi, J. C. G. D. Costa e R. M. V. R. Almeida


participaram da pesquisa bibliogrfica, anlise e interpretao dos dados, redao e reviso do texto.

Agradecimentos
Os autores agradecem ao CNPq, Capes e Faperj pelo apoio financeiro, a Fbio Mariano Bayer e Adriano
Mendona Souza, autores do artigo utilizado no exemplo de aplicao da Anlise de Correspondncia, por
permitirem a utilizao dos dados, e aos revisores pelas
valiosas sugestes e comentrios que contriburam para a melhoria do manuscrito.

Anlisis Multivariante; Indicadores de Calidad de la


Atencin de Salud; Interpretacin Estadstica de Datos

Cad. Sade Pblica, Rio de Janeiro, 30(3):473-486, mar, 2014

485

486

Infantosi AFC et al.

Referncias
1. Pereira JCR. Anlise de dados qualitativos estratgias metodolgicas para as cincias da sade,
humanas e sociais. 3a Ed. So Paulo: Edusp; 2004.
2. Greenacre M. Correspondence analysis in practice. 2nd Ed. Barcelona: Chapman & Hall/CRC
Press; 2007.
3. Lebart L, Morineau A, Warwick KM. Multivariate
descriptive statistical analysis: correspondence
analysis and related techniques for large matrices.
Hoboken: John Wiley and Sons; 1984.
4. Fisher RA. The precision of discriminant functions. Ann Eugen 1940; 10:422-9.
5. Gower JC, Hand DJ. Biplots. London: Chapman &
Hall; 1996.
6. Le Roux B, Rouanet H. Geometric data analysis:
from correspondence analysis to structured data
analysis. Dordrecht: Kluwer Academic Publishers;
2004.
7. Benzcri JP. Histoire et prhistoire de lanalyse des
donnes. Partie V: lanalyse des correspondances.
Cah Anal Donnees 1977; 2:9-40.
8. Michailidis G, de Leeuw J. The GIFI system of
descriptive multivariate analysis. Stat Sci 1998;
13:307-36.
9. Carvalho MS, Struchiner CJ. Anlise de Correspondncia: uma aplicao do mtodo avaliao de
servios de vacinao. Cad Sade Pblica 1992;
8:287-301.
10. Hair Jr. JF, Black WC, Babin BJ, Anderson RE, Tatham RL. Anlise multivariada de dados. 6a Ed.
Porto Alegre: Bookman; 2009.
11. Benzcri JP. El anlisis de correspondencias. Cah
Anal Donnes 1977; 2:125-42.
12. Fienberg SE. The geometry of an rxc contingency table. Annals of Mathematics Statistics 1968;
39:1186-90.
13. Greenacre M, Hastie T. The geometric interpretation of correspondence analysis. J Am Stat Assoc
1987; 82:437-47.
14. Heiser WJ. Geometric representation of association between categories. Psychometrika 2004;
69:513-45.

Cad. Sade Pblica, Rio de Janeiro, 30(3):473-486, mar, 2014

15. Coxeter HSM. Regular polytopes. 2nd Ed. New York:


Dover Publications; 1973.
16. McMullen C. The visual guide to extra dimensions:
visualizing the fourth dimension, higher-dimensional polytopes, and curved hypersurfaces. v. 1.
Lexington: Custom Books; 2008.
17. Golub GH, Van Loan CF. Matrix computations.
3rd Ed. Baltimore: John Hopkins University Press;
1996.
18. van de Velden M, Neudecker H. On an eigenvalue
property relevant in correspondence analysis and
related methods. Linear Algebra and its Applications 2000; 321:347-64.
19. Gabriel KR. Goodness of fit of biplots and correspondence analysis. Biometrika 2002; 89:423-36.
20. Cattell RB. The scree test for the number of factors.
Multivariate Behav Res 1966; 1:245-76.
21. Bayer FM, Souza AM. Anlise de Correspondncia
entre clnicas mdicas e indicadores hospitalares:
o caso do Hospital Universitrio de Santa Maria.
In: IV Simpsio de Excelncia em Gesto e Tecnologia. http://www.aedb.br/seget/historico_se
get2007.html (acessado em 10/Jun/2011).
22. Jackson DA. Stopping rules in Principal Components Analysis: a comparison of heuristical and
statistical approaches. Ecology 1993; 74:2204-14.
23. Costa JCGD, Almeida RMVR, Infantosi AFC. A
heuristic index for selecting similar categories in
multiple correspondence analysis applied to living
donor kidney transplantation. Comput Methods
Programs Biomed 2008; 90:217-29.
24. Pack P, Jolliffe IT. Influence in correspondence
analysis. Appl Stat 1992; 41:365-80.
Recebido em 14/Jul/2013
Verso final reapresentada em 16/Out/2013
Aprovado em 06/Nov/2013

Você também pode gostar