Analise Fatorial de Correnpondencia Simples e Multipla

Universidade Federal de São Carlos
Centro de Ciências Exatas e de Tecnologia

Departamento de Estatística
ESTATÍSTICA MULTIVARIADA 2
CAPÍTULO # 3
ANÁLISE FATORIAL DE CORRESPONDÊNCIAS

SIMPLES E MÚLTIPLAS
PROF. PEDRO FERREIRA FILHO
2º SEMESTRE DE 2013
Cápítulo 3 – Análise Fatorial de Correspondências Simples e Múltiplas
3. ANALISE FATORIAL DE CORRESPONDÊNCIAS SIMPLES E
MULTIPLAS:
3.1. INTRODUÇÃO:
A análise estatística de um determinado problema é baseada num conjunto de
informações de n unidades de observação (pessoas, objetos,....) para as quais p
características (variáveis, medidas,...) são observadas. Temos então o seguinte tipo de
informação disponível (usualmente disposta em um “banco de dados”).
V1 V2 ... Vj .... Vp
1 ‫׃‬
2 ‫׃‬
. ‫׃‬
. ‫׃‬
i --- --- --- Xij --- ---
. ‫׃‬
. ‫׃‬
n ‫׃‬
Então:
Xij = Valor observado para a i-ésima unidade de observação para a j-ésima característica
observada.
Do ponto de vista da análise estatística, este conjunto de dados pode ser visto
como uma MATRIZ DE DADOS de ordem n x p, isto é:
V1 V2 ... Vj .... Vp
1 ‫׃‬ X11 X12 .. X1j .. X1p
2 ‫׃‬ X22 X22 .. X2j .. X2p
. ‫׃‬ .. .. .. .. .. ..
. ‫׃‬  .. .. .. .. .. ..
i --- --- --- Xij --- --- Xi1 Xi2 .. Xij .. XiP
. ‫׃‬ .. .. .. .. .. ..
. ‫׃‬ .. .. .. .. .. ..
n ‫׃‬ Xn1 X12 .. Xnj .. Xnp
Estatística Multivariada 2 – Prof. Pedro Ferreira Filho – 2o Semestre de 2013 Página 1

A partir do problema em estudo e do tipo de característica de interesse observada,

métodos estatísticos apropriados devem ser utilizados para uma adequada analise e
interpretação dos dados e conseqüente solução do problema.
Estaremos aqui interessados na situação onde o problema em estudo procura
identificar relações entre as unidades de observação, entre as características observadas e
entre unidades de observação e característica simultaneamente, ou seja, considerando a
matriz de dados acima, relações entre as linhas, entre as colunas e entre linhas e colunas
simultaneamente.
Os métodos estatísticos para este tipo de estudo, assim como o uso de qualquer
procedimento estatístico, depende do tipo de informação disponível, ou seja, do tipo de
característica observada. Quando as características observadas são quantitativas as
metodologias de Análise de Componentes Principais (ACP), Análise Fatorial (AF) e Análise
de Conglomerados (Cluster) são apropriadas para o estudo. Porém, em muitas situações
praticas, particularmente nas Ciências Humanas e Sociais, com destaque na parte de
pesquisa de opinião, as características de interesse são em quase sua totalidade,
características qualitativas. Nestes casos, caso exista alguma característica quantitativa
dentre aquelas de interesse, ela poderá ser categorizada e assim receber o mesmo
tratamento das demais. Para estas situações é que a Analise Fatorial de Correspondências
aparece como uma alternativa para analise do problema em estudo.
A necessidade de uso de diferentes métodos estatísticos para as situações de
características quantitativas e qualitativas pode ser ilustrada da seguinte forma:
Consideremos que n observações são tomadas para duas características de
interesse, isto é:
Obs X1 X2
1 X11 X12
2 X22 X22
.. .. ..
i Xi1 Xi2
i’ Xi’1 Xi’2
.. .. ..
.. .. ..
n Xn1 X12
Neste caso, se:

i) X1 e X2 são variáveis quantitativas para comparação de duas observações i e i’

podemos verificar as seguintes relações:
a) { Xij = Xi’j ou Xij = Xi’j };
b) { Xij ≥ Xi’j ou Xij ≤ Xi’j };
c) { Xij - Xi’j ou Xij/Xi’j };
Ou seja, a partir da propriedade numérica dos valores observados, temos diferentes

formas de comparar duas observações para cada umas das características observadas.
ii) X1 e X2 são variáveis qualitativas para comparação de duas observações i e i’
podemos verificar as seguintes relações:
a) { Xij = Xi’j ou Xij ≠ Xi’j };
Neste caso os valores observados são apenas códigos sem qualquer propriedade
numérica, portanto somente é possível identificar se duas observações têm ou não o
mesmo atributo.
O mesmo raciocínio pode ser feito para o estudo da existência ou não de relação
entre as duas características observadas.
Dado a não existência de propriedades numéricas das características observadas, a
análise estatística neste caso é realizada com o uso de TABELAS DE CONTINGENCIA, onde
é obtido número de ocorrências simultâneas das diferentes categorias de cada
característica em estudo, isto é, considerando as características V1 com P possíveis
categorias (possíveis valores que a característica pode assumir) e V2 com K possíveis
categorias, temos:

Obs X1 X2 1 2 j K
1 X11 X12 1 n11 n12 .. n1j .. n1pk n1.
2 X22 X22 2 n22 n22 .. n2j .. n2k n2.
.. .. .. .. .. .. .. .. .. .. ..
.. .. .. .. .. .. .. .. ..

i’ Xi’1 Xi’2 I ni1 ni2 .. nij .. nik ni.
.. .. .. .. .. .. .. .. .. .. ..
.. .. .. .. .. .. .. .. .. .. ..
n Xn1 Xn2 P np1 np2 npj
.. .. npk np.
n.1 n.2 .. n.j .. n.k n..
Onde:
nij = número de unidades de observação que possuem simultaneamente a categoria i da
característica X1 e a categoria j da característica X2 , chamada freqüência conjunta

de X1 e X2 .
ni. = número de unidades de observação que possuem a categoria i da característica
X1, chamada freqüência marginal de X1 .

n.j = número de unidades de observação que possuem a categoria j da característica
X2, chamada freqüência marginal de X2.
Observação : Ao construirmos uma tabela de contingência para as características

observadas estamos perdendo a informação especifica (individual) das unidades de
observação.
Os procedimentos estatísticos para análise de uma TABELA DE CONTINGÊNCIA são
bastante difundidos na literatura estatística e constitui-se de capitulo obrigatório em
qualquer texto de Estatística Básica. O objetivo da análise constitui-se basicamente na
identificação da existência ou não de associação entre as variáveis em estudo. A situação
mais usual é aquela onde as características observadas são estudadas considerando-se as
possíveis combinações duas a duas através do uso da estatística χ2 – Qui-Quadrado de
Pearson.

A estatística χ2 – Qui-Quadrado de Pearson é dada por:
p p p p
( nij − ni .n. j ) 2 ( oij − eij ) 2
χ2 = ∑∑ ni .n. j
= ∑∑ eij
i =1 j =1 i =1 j =1
onde:
oij = nij = freqüência observada

eij = freqüência esperada sob a hipótese de independência (não existência de associação
entre as características em estudo)
Podemos mostrar que : eij = ni.n.j
Portanto temos que o uso tradicional da estatística χ2 – Qui-Quadrado de Pearson,
nos leva ao estudo dos desvios dos valores em relação a hipótese de independência (não
associação entre as variáveis). A medida que estes desvios crescem a χ2 – Qui-Quadrado
de Pearson caracteriza-se a existência de associação entre as características em estudo.

No caso de independência temos que o conhecimento de uma característica não nos
permite informações sobre a segunda característica. Ao contrário, quando da existência de
dependência entre as características temos que o conhecimento do valor observado para
uma característica implica na ocorrência de determinados valores da segunda
característica com maior ou menor probabilidade.
Como ilustração, consideremos a seguinte situação:
CASO A CASO B
Tabela de A * B Tabela de A * B
B B
A B1 B2 B3 B4 Total A B1 B2 B3 B4 Total
A1 214 237 78 119 648 A1 156 272 142 78 648
A2 51 102 126 22 301 A2 72 127 66 36 301
A3 111 304 139 48 602 A3 144 254 132 72 602
Total 376 643 343 189 1551 Total 372 653 340 186 1551

REPRESENTAÇÃO GRAFICA
χ2 – Qui-Quadrado de Pearson.
Statistic DF Value Prob Statistic DF Value Prob
Chi-Square 6 173.3787 <.0001 Chi-Square 6 0.0098 1.0000
Temos, portanto que as características em estudo, no caso A, apresenta associação

enquanto que no caso B elas são independentes.
Uma forma alternativa de se investigar a existência da independência das
características é o uso das tabela de freqüências por linhas e colunas. Para os casos
acima:
PERFIS POR LINHA

CASO A
CASO B
B B
Tota
A B1 B2 B3 B4 l A B1 B2 B3 B4 Total
A1 33.02 36.57 12.03 18.36 100.00
A1 24.07 41.98 21.91 12.04 100.00
A2 16.94 33.88 41.86 7.30 100.00

A2 23.92 42.19 21.93 11.96 100.00
A3 18.43 50.49 23.89 7.97 100.00

A3 23.92 42.19 21.93 11.96 100.00
Total 24.24 41.57 22.11 12.19 100.00

Total 23.98 42.10 21.92 11.99 100.00

PERFIS POR COLUNA
CASO A CASO B
B B
A B1 B2 B3 B4 Total A B1 B2 B3 B4 Total
A1 56.91 36.86 22.74 62.96 41.78 A1 41.94 41.65 41.76 41.94 41.78
A2 13.56 15.86 36.73 11.64 19.41 A2 19.35 19.45 19.41 19.35 19.41
A3 29.52 47.28 40.52 25.40 38.81 A3 38.71 38.90 38.82 38.71 38.81
Total 100.0 100.0 100.0 100.0 100.0 Total 100.0 100.0 100.0 100.0 100.0
Podemos observar nos dois casos acima, perfil por linha e por coluna a existência
ou não de associação entre as características em estudo. No caso A os valores no interior
da tabela são distintos dos valores marginais, de colunas e linhas respectivamente,
enquanto que no caso B estes mesmos valores são praticamente iguais. Isto significa que,
no caso de perfis por linha, temos que no caso A, a informação das colunas (categorias de
B) altera a informação que é diferente da informação obtida sem o conhecimento de B
(valor marginal), já no caso B o conhecimento dos níveis de B fornece o mesmo valor do
que aquele obtido sem o conhecimento do mesmo. O mesmo raciocínio pode ser feito
para o caso de perfil por coluna.
O teste Qui-Quadrado nos permite então concluir pela existência ou não de
associação entre duas características em estudo. Caso existam mais do que duas
características em estudo, todas as possíveis combinações de duas características podem
ser estudadas.
Realizada esta analise podemos ainda ter interesse nas seguintes questões :
i) No caso de existência de associação entre as características como podemos
identificar os desvios em relação a hipótese de independência, ou ainda, que
categorias de A e B apresentam freqüências (e conseqüentemente, associação)
acima do esperado?

ii) No caso de presença de três ou mais características no estudo, como identificar

conjuntamente a associação entre categorias de todas as variáveis?
Estas questões não podem ser respondidas pelos métodos usualmente utilizados na
análise deste tipo de problema, e é com esta finalidade que a ANALISE FATORIAL DE
CORRESPONDENCIA foi proposta.
Portanto, a ANALISE FATORIAL DE CORRESPONDENCIAS é um procedimento
estatístico exploratório multivariado para estudo de tabelas de contingências.
3.2. ANÁLISE FATORIAL DE CORRESPONDÊNCIAS:
3.2.1. INTRODUÇÃO:
A Análise Fatorial de Correspondências foi proposta por J. P. Benzécri nos anos 60 com
o objetivo de realizar estudo de tabelas de contingência (cruzamento de variáveis
categóricas). Proposta inicialmente para o caso de análise conjunta de duas variáveis foi
mais tarde estendida para o estudo de um número qualquer de variáveis.
Hoje, dizemos que quando duas variáveis estão em estudo temos uma Análise Fatorial
de Correspondências Simples ou Binárias (AFCS) e para o caso de mais variáveis temos a
Análise Fatorial de Correspondências Múltiplas (AFCM).
Por suas propriedades estatísticas e pela riqueza de suas interpretações,
corroborada pelo desenvolvimento de recursos computacionais, a análise de
correspondências tornou-se um método privilegiado na descrição de dados qualitativos.
Com estas características, constitui-se numa ferramenta com inúmeras possibilidades de
uso, particularmente nas áreas de ciências humanas e sociais onde a presença de
variáveis qualitativas de interesse é bastante usual.
Podemos destacar dois grandes objetivos gerais da Análise Fatorial de
Correspondências:
i) Analisar toda informação contida em uma Tabela de Contingência;
ii) Representar Graficamente a estrutura de uma Tabela de Contingência;

3.2.2. ANÁLISE FATORIAL DE CORRESPOINDÊNCIAS SIMPLES (AFCS):
A Análise Fatorial de Correspondências Simples (AFCS) tem por objetivo o estudo

de uma única tabela de contingência, ou seja, nos casos onde o problema em estudo se
resume a duas variáveis. É importante, porém destacar que a maior parte das noções
introduzidas e os resultados obtidos para esse caso podem ser generalizadas às situações
com mais de uma tabela de contingência (AFCM), que será abordado posteriormente.
3.2.2.1. DADOS, TABELA DE CONTINGÊNCIA E HIPÓTESE DE INDEPENDÊNCIA:
Como já vimos inicialmente à informação conjunta de duas variáveis qualitativas é

apresentada na forma de uma tabela de contingência.
I: número de modalidades da característica 1

Modalidades
da 2ª variável
J:número de modalidades da característica 2
1 j J .
nij: número de indivíduos que possuem a modalidade i
1 da primeira característica e a modalidade j da segunda
característica (número de indivíduos que tem nível de
Modalidades i kij estudos i e ocupam a profissão j).
da 1ª variável
∑∑i j
k ij =n (número total de indivíduos)
I
Figura 1: Tabela de contingência dos dados originais.
A tabela de contingência da figura 1 é definida em termos de freqüências absolutas,

a partir da mesma pode-se construir a tabela de freqüências relativas F, dividindo-se cada
valor nij pelo total de n observações. Esta nova tabela define uma medida de
probabilidade sobre o espaço produto I × J. A marginal desta tabela, probabilidades
marginais, tem por termo geral fi. e f.j (cf. Figura 2).

1 j J
1
f ij = nij n
f i. = ∑ f ij
i fij
fi.
j
I f . j = ∑ f ij
i
f.j 1
∑i
f i. = ∑f
j
.j = ∑∑ f
i j
ij =1
Figura 2: A tabela de freqüências relativas F.

Uma tabela de contingência expressa a relação entre variáveis qualitativas.
Classicamente, para uma medida de probabilidade, diz-se que existe independência (não
existência de relação entre as variáveis) quando para todo i e todo j cumpre-se a
igualdade:
fij = fi. f.j (2-1)
Existe relação entre as duas variáveis quando uma ou mais caselas fij é diferente
do produto fi..f.j. Se fij é superior a este produto, as modalidades i e j se afastam da
situação de independência, diz-se que i e j se atraem. Pelo contrário, se fij é inferior ao

produto das marginais existe uma repulsão entre estas duas modalidades.
A independência se expressa também considerando a tabela como um conjunto de

linhas, ou seja, a igualdade anterior é equivalente a:
f ij
= f.j (2-2)
fi .
A quantidade f.j representa o percentual da população total que possui a
f ij
modalidade j, enquanto que representa o percentual de indivíduos numa
fi.
subpopulação da modalidade i que também possuem a modalidade j. Quando existe
independência, as I subpopulações caracterizadas pelas modalidades i da primeira variável

se dividem segundo as J modalidades j da segunda variável com os mesmos percentuais.

Todas as linhas são então proporcionais. A recíproca é verdadeira quando todas as linhas
são proporcionais a marginal fi. e as duas variáveis são independentes. Portanto sempre
existe relação quando as linhas não são todas proporcionais a marginal e quando não são
idênticas.
Observa-se ainda que numa tabela de contingência, linhas e colunas têm um papel
absolutamente simétrico e que a independência se expressa da mesma maneira sobre o
conjunto de colunas. As igualdades anteriores são equivalentes a seguinte:
f ij
= fi. (2-3)
f .j
Existe independência quando todos os percentuais das colunas são iguais as fi.
marginais, ou seja, quando as colunas são proporcionais.
3.2.2.2. OBJETIVO:
A Análise de Correspondência tem por objetivo, identificar as relações das linhas,

colunas e entre linhas e colunas de uma tabela de contingência, ou ainda, analisar a
similaridade e dissimilaridade das linhas e colunas.
Em uma tabela de contingência, a semelhança entre duas linhas, ou entre duas

colunas, expressa-se de maneira totalmente simétrica. Duas linhas são consideradas
próximas se estão associadas da mesma forma em relação ao conjunto das colunas, ou
seja, se elas apresentam freqüências próximas para todas as colunas. Simetricamente,
duas colunas estão próximas se estão associadas de um mesmo modo no conjunto das
linhas.
Esquematicamente, o estudo do conjunto das linhas consiste em expor uma técnica

na qual se buscam as linhas cuja distribuição se desvia mais do conjunto da população,
aquelas que assemelham entre si (no sentido determinado anteriormente) e as que se
opõem. Para relacionar a tipologia das linhas com o conjunto das colunas, caracteriza-se

cada grupo de linhas pelas colunas a que este grupo se associa muito ou muito pouco. O
estudo do conjunto das colunas é totalmente análogo.
Está claro que esta aproximação, segundo a noção de semelhança utilizada,

permite estudar a relação entre as duas variáveis, isto é, o desvio da tabela da situação de
independência. A análise desta relação é o objetivo fundamental da AFCS.
Finalmente é importante destacar que a AFC (Simples e Múltiplas) como toda

Análise Fatorial também é utilizada para uma redução da dimensão dos dados
conservando maior parte da informação possível.
3.2.2.3. PERFIS LINHAS E COLUNAS:
Na AFCS a tabela original não é analisada diretamente. Num estudo das linhas, a
tabela de dados é transformada dividindo-se cada termo fij da linha i pela marginal fi.
desta linha. A nova linha se denomina perfil linha (cf. Figura 3). Esta transformação
atende o objetivo de estudar a relação entre as duas variáveis por meio do desvio entre os
percentuais das linhas. Esta comparação, entretanto pode ser influenciada pelos seus
efeitos marginais.
f ij
O número representa, em nosso exemplo, a probabilidade de ocupar uma
f i.
profissão j sabendo que possui nível de escolaridade i. O perfil-linha i nada mais é que a
probabilidade condicionada definida por i sobre o conjunto de colunas.
Devido a simetria entre linhas e colunas, tem-se um raciocínio análogo para as
colunas. Levando a noção de perfil-coluna. (cf. Figura 3).
1 j J 1 j J
1 1
i f ij /f i. 1 i f ij /f.j
I
I
1
Figura 3: As notações de perfil-linha e de perfil-coluna

Assim, na AFC, segundo o interesse, nas linhas e colunas, não se considera a

mesma tabela transformada. Contudo, as duas transformações em perfis possuem o
mesmo significado a respeito dos objetos a que se referem. Estas transformações são
interessantes por si mesmas, independente de todo o contexto da análise fatorial. Para se
comentar uma tabela cruzada, quase sempre se utiliza a forma de percentual com respeito
a linhas ou as colunas segundo os aspectos que se pretende colocar em evidência.
3.2.2.4. A SEMELHANÇA ENTRE PERFIS: A DISTÂNCIA χ2
Na AFCS, a semelhança entre duas linhas ou entre duas colunas está definida por
uma distância entre seus perfis. Esta distância é conhecida como distância χ
2
(Qui-
quadrado) ou distância Benzecri. É definida de maneira análoga para as linhas e colunas.

Da seguinte forma:
1  f ij f lj 
d 2 ( perfil − linha i, perfil - linha l) = ∑  − 
χ j f.j  fi. fl.  (2-
4)
2
1  f ij f ik 
d 2 ( perfil − coluna j, perfil - coluna k) = ∑  − 

χ i f
i. 
f .j
f .k  (2-5)
Nestas relações, a distância entre suas linhas depende essencialmente das

diferenças limite a limite entre os dois perfis. Esta distância é uma soma ponderada dos
1
quadrados das diferenças citadas. A ponderação equilibra a influência das colunas
f. j
sobre a distância entre as linhas, ou seja, aumenta os limites, a priori menos freqüentes
referente as modalidades raras, isto representa um papel análogo ao da divisão pelo
desvio padrão em caso das variáveis numéricas.
χ
2
A distância possui uma propriedade fundamental chamada equivalência
distribucional. Segundo esta propriedade, se duas colunas proporcionais de uma tabela

são somadas a distância entre os perfis-linhas não se altera. Esta propriedade matemática
significa que se substituindo duas colunas ou linhas quase proporcionais por sua soma não
se modifica sensivelmente o resultado de uma AFC
3.2.2.5. A REPRESENTAÇÃO GRÁFICA DE UMA TABELA DE CONTINGÊNCIA E A
DISTÂNCIA χ2
Uma Tabela de Contingência pode ser comparada a uma tabela de dados Xn x p
sobre a qual estamos interessados em investigar as relações entre linhas (categorias da

variável 1), entre colunas (categorias da variável 2) e entre linhas e colunas (variável 1 e
variável 2). A diferença reside no fato de que os valores Xij não representam a medida
observada para uma determinada característica observada, mas sim o número de
ocorrências simultâneas das categorias i da variável 1 e j da variável 2. Como então para
este caso podemos obter uma matriz de distâncias entre linhas e colunas de forma a
exercer o mesmo papel que a matriz de variâncias e covariâncias (ou matriz de
correlação) tem na Analise de Componentes Principais.
Vamos considerar o seguinte exemplo:
Tabela de Contingência
Tipos de Centrais Tel. Prod.
País Produtor Pequenas Medianas Grandes x País
Linha Coluna (1) (k) (3)
A (1) 75 25 54 154
B (j) 56 78 189 323
C (3) 89 132 202 423
Total x Tipo 220 235 445 900
Temos neste caso duas variáveis:

Pais Produtos : Três paises – A B C
Tipo de Central Telefônica: Pequenas Médias Grandes

Podemos representar graficamente esta tabela da seguinte forma:

Referência : Colunas Referência : Linhas
Figura 4: Representação Gráfica de um TC
Poderíamos pensar então, para identificar a semelhança entre linhas e entre

colunas, calcular a distâncias entre dois pontos quaisquer dos gráficos acima, ou seja:
Distância Euclidiana entre duas Linhas da Tabela TC
(n jk − n j'k ) 2
K
d ( j, j' ) = ∑
k =1
∀j, j'∈ j = 1,..., J
Distância Euclidiana entre duas Colunas da Tabla TC
∑ (n )
J
d(k ,k ' ) = jk − n jk ' 2
∀k, k'∈ k = 1,..., K
j= 1
Agora, como vimos, o nij nas expressões acima representam o número de vezes
que a combinação i e j ocorre, portanto será esta uma medida adequada para calculo da
semelhança entre linhas ou colunas? E em caso negativo, que etapas devemos percorrer
na obtenção de uma medida de distância adequada para os objetivos propostos?
Consideremos a distância entre os paises A e B:

No Exemplo:
se n.. = 900

2 2 2 2
d (A,B) = (75 - 56) + (25 - 78) + (54 - 189) = 21395
d (A,B) = 146,27
se n.. = 90 centrales

2 2 2 2
d (A,B) = (8 - 6) + (3 - 8) + (5 - 19) = 225
d (A,B) = 15
Podemos observar perfeitamente o efeito que o tamanho total da amostra provoca
no calculo da distância euclidiana. Portanto, não podemos utilizar a distância euclidiana na
tabela de freqüências observadas como uma forma adequada de calculo da distância entre
duas linhas e duas colunas. Para se retirar o efeito do tamanho da amostra, devemos
dividir cada um dos valores observados por n, obtendo-se assim a tabela de freqüências
percentuais:
nij
f ij =
n
No exemplo:
Tabla de Freqüências associada
a Tabela de Contingência
Pequenas Medianas Grandes x País
País Produtor
A 8,2% 2,8% 6,0% 17,1%
B 6,3% 8,7% 21,0% 35,9%
C 9,9% 14,7% 22,4% 47,0%
Total x Tipo 24,4% 26,2% 49,4% 100%

Neste caso, as distâncias euclidianas entre linhas e entre colunas são dadas por:
Distância Euclidiana entre duas Linhas da Tabela F
2
 n jk n j'k 
(fjk − fj'k ) 2
K K
d( j, j' ) = ∑ 
k =1 
−
 n.. n.. 


= ∑
k =1
Distância Euclidiana entre duas colunas da Tabela F
2
 n jk n jk ' 
(fjk − fjk ' ) 2
J J
d(k ,k ' ) = ∑ 
j =1 
−
 n.. n.. 


= ∑
j =1
Porém, como pode-se observar, os cálculos são os mesmos anterior, exceto que
todo valor esta dividido pelo tamanho de amostra n. Portanto o calculo da distância na
tabela de freqüências percentuais conserva a mesma informação da tabela de dados
originais, graficamente:

Figura 5: Distâncias entre colunas de uma Tabela T e F.
Desta forma, a representação gráfica da informação da tabela F (Tabela de

Freqüências) é uma imagem reduzida, proporcional a imagem apresentada pela tabela T
(Dados Originais).
O tamanho da amostra não é, porém o único fator de distorção na leitura de uma
tabela de contingência, e conseqüentemente, não é o único fator que pode ocasionar
distorções no calculo da distância euclidiana entre linhas e colunas de uma tabela de
contingência.
Vejamos a seguinte situação: no exemplo estamos interessados em comparar os
paises A e C, pela tabela de freqüências percentuais:
Tipo Central
Pais Total
P M G
A 8.2% 2.8% 6.0% 17.1%
C 9.9% 14.7% 22.4% 47.0%
Se calcularmos a distância euclidiana entre estas duas linhas temos:

d2 (A,C) = (8.3 - 9.9)2 + (2.8 – 14.7)2 + (6.0 – 22.4)2 = 20.33

Porém esta é uma forma adequada de obtenção da distância entre duas linhas? Os
dois paises podem ser “comparados” desta forma direta?
Pela distribuição marginas, temos que o país A produz 17.1% das centrais
telefônicas enquanto que o país C, 47%. Portanto, na comparação entre paises os valores
8.3 e 9.9% (bem como os demais), não são efetivamente comparáveis, pois estão
baseados na referência do tamanho de amostra total, quando na verdade deveria se
referenciar no tamanho de amostra de cada categoria. Para que isto seja possível
devemos ter como referencia o perfil linha, isto é:
Tipo Central
País Total
P M G
A 48.7% 16.2% 35.1% 100%
C 21.1% 31.3% 47.6% 100%
Agora podemos efetivamente comparar a diferença entre os dois paises: O país A produz
29% de pequenas centrais enquanto que C produz 21.1%. A distância euclidiana é agora
dada por:
d2 (A,C) = (48.7 – 21.1)2 + (16.2 – 31.3)2 + (35.1 – 47.6)2
Raciocínio análogo pode ser feito para o calculo da distância euclidiana entre as
colunas da tabela.
Desta forma, devemos considerar:
Tabela de Perfis Linha - TL

Pequenas Medianas Grandes x País
País Produtor
A 48,7% 16,2% 35,1% 100%
B 17,3% 24,2% 58,5% 100%
C 21,0% 31,2% 47,8% 100%
Total x Tipo 24,4% 26,2% 49,4% 100%

Tabela de Perfis Coluna - TC

Pequenas Medianas Grandes x país
País Produtor
A 34,1% 10,6% 12,2% 17,1%
B 25,5% 33,2% 42,4% 35,9%
C 40,4% 56,2% 45,4% 47,0%
Total x Tipo 100% 100% 100% 100%
A distância euclidiana para as tabelas de perfis linhas e colunas é dado por,

respectivamente:
Distância Euclidiana entre Perfis

Distancia Euclidiana entre Duas Linhas da Tabela de
Perfis Linha - TL
2
K
 f jk f j'k 
d ( j, j' ) = ∑  −
 f j. f j'.
k =1 



∀j, j'∈ j = 1,, J
Distancia Euclidiana entre Duas Colunas da Tabela de

Perfis Coluna - TC
2
J
 f jk f jk ' 
d(k ,k ' ) = ∑  −
 f.k f.k ' 
j= 1 


∀k , k '∈ k = 1,,K
Ao trabalharmos com os perfis por linhas (ou colunas) definimos uma forma de
efetivamente estarmos com valores comparáveis. Porém uma distorção ainda é
observada, vejamos: Ao calcularmos, por exemplo, d(j, j’) como acima definido estamos as

somando as diferenças entre as linhas j e j’ considerando que as mesmas têm igual

importância, mas vejamos:

País Produtor
A 48,7% 16,2% 35,1% 100%
B 17,3% 24,2% 58,5% 100%
C 21,0% 31,2% 47,8% 100%
Total x tipo 24,4% 26,2% 49,4% 100%
Diferença (C - A) : 27,7% 15% 12,7%
Cada componente da soma refere-se à diferença entre os dois paises nos diferentes
tipos de centrais, que por sua vez são produzidas em diferentes proporções cujo valor é
dado pela freqüência marginal. Portanto estes diferentes “graus de importância” (pesos)
de cada elemento deve ser considerado no cálculo da distância euclidiana. Temos então,
finalmente a distancia ponderada entre duas linhas (ou colunas), dadas por:
Distância Euclidiana do Chi2

entre dois Perfis em Linha de uma Tabela F
2
1  f jk − f j'k 
K
d ( j, j' ) = ∑ f f
k =1 .k  j.
f j'.



∀j, j'∈ j = 1,, J
Distância Euclidiana do Chi2

entre dois Perfis em Coluna de uma Tabela F
2
1  f jk − f jk ' 
J
d(k ,k ' ) = ∑ f f
j =1 j.  .k
f.k ' 
∀k , k '∈ k = 1, , K

Observe que as expressões acima são exatamente as expressões apresentadas em
2.4 e 2.5, ou seja é a distancia χ 2 . Geometricamente temos:

Este processo de transformação para obtenção dos perfis ponderados, que

possibilitam um adequado cálculo da distância euclidiana entre duas linhas (ou colunas)
de uma tabela de contingência, pode ser representado geometricamente da seguinte
forma:

Portanto, para obtermos uma matriz adequada para obtenção da distância

euclidiana entre linha (ou colunas), devemos considerar a tabela de perfis ponderados,
obtidas a partir de:
2
1  f jk f j' k 
 
K
d ( j , j' ) = ∑  − 
 
k =1 f .k f f
j . j '.
que é equivalente a:
2
 f jk f j' k 
 
K
d ( j , j' ) = ∑ − 
 f j . f .k f j'. f .k 
k =1
K
d ( j , j' ) = ∑ ( x *jk − x *j' k )2
k =1

Portanto temos o seguinte processo:

Dados Originais
V1 V2 ... Vj .... Vp
1 ‫׃‬
2 ‫׃‬
. ‫׃‬
. ‫׃‬
i --- --- --- Xij --- ---
. ‫׃‬
. ‫׃‬
n ‫׃‬

Tabela de Contingência
1 2 k K
1 n11 n12 .. n1j .. n1pk n1.
2 n22 n22 .. n2j .. n2k n2.
.. .. .. .. .. .. .. ..
.. .. .. .. .. ..
j ni1 ni2 .. nij .. nik ni.
.. .. .. .. .. .. .. ..
.. .. .. .. .. .. .. ..
J np1 np2 npj .. .. npk np.
n.1 n.2 .. n.j .. n.k n..

Tabela de Perfis Ponderados
1 2 j K
1 .. .. .. .. .. .. f1.
2 .. .. .. .. .. .. f2.
.. .. .. .. .. .. .. ..
.. .. .. .. .. .. ..
j .. .. .. x *jk .. .. fi.
.. .. .. .. .. .. .. ..
.. .. .. .. .. .. .. ..
J .. .. .. .. .. .. n.p.
.. .. 1
f .1 f .2 f.j f .k
onde:
K J
f jk n jk ∑ n jk ∑ n jk
x jk =
*
f jk = f j. = k =1
f .k = j =1
f j. f .k n.. n.. n..
J f jk
PM = ∑ = f .k
j =1 f j. f .k
Variabilidade Total com respeito a Centro de Gravidade:
2
 f jk  K J ( f − f f ) 2

ϕ = ∑ f .k ∑  f k  = ∑ ∑  =
K J
2
− jk .k j.

k =1 j =1
 f j . f .k 
k =1 j =1
 f .k f j . 
χ2
=
n

Este mesmo valor é obtido considerando-se também os perfis ponderados das

colunas. A variabilidade total é então uma função do qui-quadrado de Pearson, ou seja,
quanto maior o valor desta estatística, maiores os desvios em torno do valor esperado,
maiores os desvios observados e conseqüentemente, maiores relações entre linhas e
colunas a serem identificados.
Observações:
i) Quanto maior ϕ 2 , maiores as distorções na representação gráfica dos pontos

perfis. A medida que ϕ decresce (independência) a nuvem de pontos perfis
2
ponderados apresentara uma forma esférica.

ii) A operação de “centrar” os pontos perfis ponderados não modifica as distâncias
originais de cada ponto perfil em relação ao Centro de Gravidade G.
iii) Não existe perda de informação.
iv) Representação Gráfica somente é possível para casos onde o número de
categorias das variáveis envolvidas é no máximo igual a três
Assim a tabela de perfis ponderados, possui propriedades análogas a matriz de
variância e covariâncias (ou matriz de correlação) no caso de variáveis quantitativas.
Desta forma, processo de decomposição, via Teorema da Decomposição Espectral,
que é utilizado para obtenção dos componentes principais pode ser aplicado a matriz de
perfis ponderados, ou seja, a Análise Fatorial de Correspondências e a Análise de
Componentes Principais aplicada a matriz de perfis ponderados.
3.2.2.6. A DIAGONALIZAÇÃO DA MATRIZ DE PERFIS PONDERADOS:
Consideremos:
Bii = matriz de perfis ponderados linha

Vjj = matriz de perfis ponderados coluna

Podemos mostrar que B e V são matrizes simétricas positivas definidas, assim

podemos aplicar o Teorema da Decomposição Espectral que no mostra que uma matriz X,
com as propriedades acima, pode ser decomposta da seguinte forma:
X = eλe'
onde:
λ = matriz diagonal com autovalores de X

e = matriz dos autovetores ortonormais associados aos autovalores de X.
Para o nosso problema, definimos:
B = wα λα wα ' V = uα λα uα '
Podemos provar que:
i) Os autovalores de B e V são os mesmos;
ii) 0 ≤ λα ≤ 1
∑ λα = ϕ
m
2
iii) onde m = (min(J,K)) = número de autovalores não nulos de B
α =1
ou V.
1 1
iv) uα = wα e wα = uα
f .k f j.
v) Coordenadas dos pontos perfis no α-ésimo eixo (linhas e colunas
respectivamente) :
K
Fα ( j ) = ∑ f jkl uα k
k =1
J
Gα ( k ) = ∑ f jkc wα j
j =1

F1 … F α … Fp G1 … Gα … Gp
… … … … … … … … … … … …
vi) Variância dos novos eixos: Gk … … Gα(k) … …
Lj … … Fα(j) … …
… … … … … … … … … … … …
GL 0 0 0 0 0 GK 0 0 0 0 0
Propriedades dos eixos fatoriais
Os fatores são p variáveis centradas, continuas.

J
∀α = 1,, p ⇒ Fα = ∑ f F ( j) = 0
j=1
j. α
K
∀α = 1, ,p ⇒ Gα = ∑f .k G α (k ) = 0
k =1
Variância dos eixos fatoriais : Fα = 0 ; ∀α = 1,,p
∑ p (F ( j) − F ) = ∑ p F
J J
( j) = λ α
2
s 2α = j α α
2
j α
j =1 j=1
K
s 2α = ∑p G k
2
α (k ) = λ α
k =1
Desta forma podemos interpretar o autovalor λα, associado ao α- ésimo fator

sendo a proporção expressa por este fator da relação entre as variáveis na tabela de
contingência, ou seja, quanto maior for este valor, maiores desvios da hipótese de
independência são “explicados”por este fator.
Percentual de Variância de Um dado Fator:
τα = pλ α × 100 = λ α2 × 100
ϕ
∑ αλ
α =1

Contribuição de um Ponto Perfil para a Variância de um Fator:
p j Fα2 ( j )
CTRα ( j ) = × 100 ∀ j ∈ J
λα
pk Gα2 (k )
CTRα (k ) = × 100 ∀ k ∈ K
λα
Estes valores expressam a contribuição de cada ponto perfil na formação do α-

ésimo fator. Quanto maior este valor, maior o “desvio” do ponto em relação a hipótese de
independência.
A A.F.C. produz os índices de contribução

dos pontos-perfis em linha e em coluna
Perfiles-línea F1 … Fα … Fp
L1 … … … … …
Lj … … CTRα (J) … …
LJ … … … … …
100% … 100% … 100%
Perf-colum. G1 … Gα … Gp
C1 … … … … …
Ck … … CTRα (K) … …
CK … … … … …
100% … 100% … 100%
Questão: Dois pontos perfis que apresentam a mesma coordenada num determinado
plano fatorial, podem apresentam diferente qualidade de representação neste plano ??
Geometricamente:
Neste caso, quanto menor o angulo formado, cos(w) → 1 (w→0o) ⇒ contribuição

de 100%, ou seja, este ponto é completamente representado neste plano fatorial. Quando
cos(w) → 0 (w→90o)⇒ contribuição de 0% (o ponto não tem qualquer representação
neste plano).
A medida de qualidade de representação acima é também definida por alguns
autore xom sendo a Corrα(i), ou seja, a coorelação do i-ésimo ponto perfil com o α-ésimo
plano fatorial.
Podemos ainda estabelecer a relação entre os eixos fatoriais nos espaços linha e
coluna. Estas relações são usualmente chamadas de Fórmulas de Transição e, permitem
que, a partir dos valores calculados num espaço, seja possível obter os eixos fatoriais na
outra dimensão.
Fórmulas de Transição
Coord. Fatoriais Coord. Fatoriais
Perfil-linha (j)
da linha (j) da Coluna (k)
 1  K f jk
Fα ( j) = 
 λ 

∑ G (k ) ∀ j ∈ J
f j. α
 α  k =1
Coord. Fatoriais Coord. Fatoriais

da coluna (k) Perfil-coluna (k)
da linha (j)
 1  J f jk
Gα (k ) = 
 λ 

∑
F ( j) ∀ k ∈ K
f.k α
 α  j =1

3.2.2.7. ELEMENTOS SUPLEMENTÁRIOS:

Em algumas situações podemos ter interesse em verificar o comportamento de
categorias de uma (ou mais) mias variáveis qualitativas no plano fatorial gerado pelas
variáveis em estudo. A análise destes elementos suplementares visa usualmente propiciar
uma melhor interpretação do problema em estudo.
Tabela de Dados:
Temos então:

Coordenadas de um perfil-suplementar-linha :
 f jS1 S
f jk S 
f jK
S =  S ;; S ;; S 
(1,K )  f j. f j. fj. 
Perfil ponderado de S
 f jS1 S
f jk S
f jK 
S * =  f S f ;; f S f ;; f S f 

(1,K )  j. .1 j. .k j. .K
Perfil ponderado-centrado de S
 f jS1 S
fjk S
f jK 
S* * = − f.1 ;; − f.k ;; − f.K 
(1,K )  f jS. f.1 f jS. f.k f jS. f.K 
e,
Coordenadas do ponto-perfil S é obtido pela

Projeção do mesmo nos eixos fatoriais gerados...
 f jk
S K 
Fα (S ) = 
 f
k =1  j.
S f∑.k
− f.k  ⋅ w α (k )

f.k
sendo : w α (k ) = ⋅F ( j)
λα α
Coordenadas K  fS 
do perfil S em Fα (S ) =
λ
1 ⋅ 
jk
α k =1  f j. f.k
S ∑
− f.k  ⋅ Fα ( j)

linha 
Coordenadas J  fS 
do perfil S em G α S = ( ) 1 ⋅
λα ∑ 
 S
jk
j=1  f.k f j.
− f j.  ⋅ Gα (k )

coluna 
Observação:
Os perfis suplementares não participam da formação da matriz de “inércia”, são
considerados pontos perfis sem peso.
3.2.2.8. RECONSTRUINDO OS DADOS – INTERPRETANDO A DECOMPOSIÇÃO DOS
EIXOS FATORIAIS:
Dados que a decomposição da matriz de perfis foi realizada, como podemos

reconstruí-la a partir dos eixos fatoriais obtidos:
Consideremos:
Fórmula de reconstrução dos dados
Elemento Geral α-ésima coordenada

da Tabela TC de la j-ésima linha
 p 
f jk = p jpk 1 +
λ
1
 α =1 α
∑
Fα ( j) Gα (k )

Desenvolvendo esta expressão ...

α-ésima coordenada
de la k-ésima coluna
Para cada eixo fatorial, temos sucessivamente:
para α = 0 f jk = p jpk
Tabela
Esquema : fjk = X pj = de
pk Indep.
para α = 1 f jk = p jpk + p jpk 1 F1 ( j ) G1 (k )

λ1
Tabela
fjk = de + fat. λ1 X F1(j)
Indep. G1(k)
Tabela Tabela
fjk = de + primeiro
Indep. fator
o
Estatística Multivariada 2 – Prof. Pedro Ferreira Filho – 2 Semestre de 2013 Página 34
para α = 2
f jk = p jpk + p jpk 1 F1 ( j) G1 (k ) + p jpk 1 F2 ( j) G 2 (k )

λ1 λ2
Tabela Tabela
fjk = de + primeiro + fat. λ 2 X F2(j)
Indep. fator G2(k)
Tabela Tabela Tabela

fjk = de + primeiro + segundo
Indep. fator fator
para α = p
f jk = p jp k + p jpk 1 F1 ( j) G1 (k ) +  + p jp k 1 Fα ( j) G α (k )
λ1 λα
Tabela Tabela
fjk = de +…+ fat. λ p
+ primeiro +…+ X Fp(j)
Indep. fator Gp(k)
Tabela Tabela Tabela

fjk = de + primeiro + … + p-ésimo
Indep. fator fator
A reconstrução completa da tabela de freqüências é feita somando a p tabelas produzida

em cada um dos eixos fatoriais:

Tabela Tabela Tabela Tabela

fjk - de = primeiro + segundo + … + p-ésimo
Indep. fator fator fator
ϕ2 = λ1 + λ2+ … + λp
• O primeiro plano fatorial de uma A.F.C. apresenta la
a aproximação mais importante do desvio da
independência da Tabela de Contingência.
• Os eixos sucessivos apresentam “correções”
complementares a esta primeira aproximação...
Finalmente:
Tabela Tabela Tabela Tabela

fjk = de + primeiro + segundo + … + p-ésimo
Indep. fator fator fator

3.2.2.9. A REPRESENTAÇÃO GRÁFICA – INTERPRETAÇÃO:
A representação gráfica de uma Análise Fatorial de Correspondências é feita através

do gráfico das coordenadas de cada plano fatorial. Usualmente os primeiros planos
fatoriais são suficientes para análise do problema em estudo. Para determinação do
número de eixos a ser analisado utiliza-se usualmente considerando o valor absoluto de
cada um dos p autovalores e/ou consultando a distribuição dos autovalores não nulos
conforme figura abaixo.
Considerando o exemplo das centrais telefônicas, temos:

Lembrando:
Tabela de Perfis em Linha

País Produtor
A 48,7% 16,2% 35,1% 100%
B 17,3% 24,2% 58,5% 100%
C 21,0% 31,2% 47,8% 100%
Total x tipo
-
24,4%
+
26,2%
-
49,4% 100%
PROGRAMA SAS PARA O EXEMPLO:

DADOS
Pais P M G
A 75 25 54
B 56 78 189
C 89 132 202
PROGRAMA:
proc corresp out=coord;

var P M G;
id Pais;
run;
%plotit (data=coord, datatype=corresp);
run;

RESULTADOS:
The CORRESP Procedure

Inertia and Chi-Square Decomposition
Singula Principa Chi- Cumulativ

r l Squar Percen e 18 36 54 72 90
Value Inertia e t Percent ----+----+----+----+----+---
************************
0.25939 0.06728 60.5564 88.74 88.74 *
0.09241 0.00854 7.6851 11.26 100.00 ***
Total 0.07582 68.2415 100.00
Degrees of Freedom = 4
Row Coordinates Summary Statistics for the Row

Points
Dim1 Dim2
Quality Mass Inertia
A 0.5648 -0.0297
A 1.0000 0.1711 0.7219
B -0.1641 -0.1088
B 1.0000 0.3589 0.1835
C -0.0803 0.0939
C 1.0000 0.4700 0.0946
Partial Contributions to Inertia

for the Row Points
Dim1 Dim2
A 0.8113 0.0176
B 0.1437 0.4974
C 0.0450 0.4850

Indices of the Coordinates that Contribute

Most to Inertia for the Row Points
Dim1 Dim2 Best
A 1 0 1
B 0 2 2
C 0 2 2
Squared Cosines for the Row

Points
Dim1 Dim2
A 0.9973 0.0027
B 0.6948 0.3052
C 0.4226 0.5774
Column Coordinates Summary Statistics for the

Column
Dim1 Dim2 Points
P 0.4560 0.0019 Quality Mass Inertia
M -0.1523 0.1457 P 1.0000 0.2444 0.6704
G -0.1450 -0.0779 M 1.0000 0.2611 0.1529
G 1.0000 0.4944 0.1767

Partial Contributions to Inertia

for the Column Points
Dim1 Dim2
P 0.7555 0.0001
M 0.0900 0.6489
G 0.1546 0.3510

Most to Inertia for the Column Points
Dim1 Dim2 Best
P 1 0 1
M 0 2 2
G 2 2 2
Squared Cosines for the Column

Points
Dim1 Dim2
P 1.0000 0.0000
M 0.5221 0.4779
G 0.7763 0.2237

Exemplo 2:
Uma pesquisa foi realizada no final dos anos 60 nos EUA com o objetivo de
investigar a opinião dos jovens americanos, segundo sexo e idade, no que dizia respeito a
estratégia de como o governo americano deveria terminar a Guerra do Vietnam. As
opções de estratégia apresentadas aos jovens foram:
A : Os EUA deveriam provocar a derrota do poder norte-vietnamita com bombardeios
intensivos de suas industrias, portos aeroportos e com uma invasão terrestre;
B: Os EUA deveriam continuar aplicando a política que era adotada à época;
C: Os EUA deveriam reduzir suas atividades militares, parar os bombardeios do Vietnam
do Norte e intensificar seus esforços para iniciar negociações diplomáticas;
D: Os EUA deveriam retirar imediatamente suas forças militares do Vietnam do Norte;

DADOS OBSERVADOS:
Obs AS A B C D
1 HOMENS 1 ANO 175 116 131 17
2 HOMENS 2 ANO 160 126 135 21
3 HOMENS 3 ANO 132 120 154 29
4 HOMENS 4 ANO 145 95 185 44
5 HOMENS 5 ANO 118 176 345 141
6 MULHERES 1 ANO 13 19 40 5
7 MULHERES 2 ANO 5 9 33 3
8 MULHERES 3 ANO 22 29 110 6
9 MULHERES 4 ANO 12 21 58 10
10 MULHERES 5 ANO 19 27 128 13
DADOS PRELIMINARES:
PERFIL POR COLUNA
ESTRATÉGIAS
All
A B C D
H1 21.85 15.72 9.93 5.88 13.95
H2 19.98 17.07 10.24 7.27 14.05
H3 16.48 16.26 11.68 10.03 13.82
H4 18.10 12.87 14.03 15.22 14.90
H5 14.73 23.85 26.16 48.79 24.79
M1 1.62 2.57 3.03 1.73 2.45
M2 0.62 1.22 2.50 1.04 1.59
M3 2.75 3.93 8.34 2.08 5.31
M4 1.50 2.85 4.40 3.46 3.21
M5 2.37 3.66 9.70 4.50 5.94
Total 100.00 100.00 100.00 100.00 100.00

PERFIL POR LINHA
EST
All
A B C D
H1 39.86 26.42 29.84 3.87 100.00
H2 36.20 28.51 30.54 4.75 100.00
H3 30.34 27.59 35.40 6.67 100.00
H4 30.92 20.26 39.45 9.38 100.00
H5 15.13 22.56 44.23 18.08 100.00
M1 16.88 24.68 51.95 6.49 100.00
M2 10.00 18.00 66.00 6.00 100.00
M3 13.17 17.37 65.87 3.59 100.00
M4 11.88 20.79 57.43 9.90 100.00
M5 10.16 14.44 68.45 6.95 100.00
Total 25.45 23.45 41.91 9.18 100.00

DESVIOS
ESTRATÉGIAS
Total
A B C D
H1 63.262 13.051 -53 -23.31
H2 47.499 22.347 -50.26 -19.59
H3 21.28 17.989 -28.32 -10.95
H4 25.626 -14.98 -11.57 0.9301
H5 -80.53 -6.917 18.079 69.37
M1 -6.599 0.9428 7.727 -2.071
M2 -7.726 -2.725 12.044 -1.592
M3 -20.51 -10.16 40.005 -9.336
M4 -13.71 -2.685 15.668 0.7248
M5 -28.6 -16.85 49.623 -4.173
Total 801 738 1319 289 3147
Statistic DF Value Prob
Chi-Square 27 366.3573 <.0001
PROGRAMA:
proc corresp data=vietnam outc=vvv;
Var A B C D;
id AS;
%plotit (data=vvv, datatype=corresp,color=black);
run;

RESULTADOS:
The CORRESP Procedure
Cumulativ
Singular Principal Chi- Percen e 15 30 45 60 75
Value Inertia Square t Percent ----+----+----+----+----+---
0.29271 0.08568 269.635 73.60 73.60 *************************
0.16697 0.02788 87.740 23.95 97.55 ********
0.05343 0.00285 8.982 2.45 100.00 *
Total 0.11641 366.357 100.00
Row Coordinates
Summary Statistics for the Row Points
Dim1 Dim2
H1 0.3856 -0.0410
H1 0.9970 0.1395 0.1808
H2 0.3265 -0.0149
H2 0.9844 0.1405 0.1309
H3 0.1746 -0.0036
H3 0.9043 0.1382 0.0400
H4 0.0809 0.0139
H4 0.3832 0.1490 0.0225
H5 -0.2808 0.2252
H5 0.9995 0.2479 0.2760
M1 -0.1665 -0.1500
M1 0.8183 0.0245 0.0129
M2 -0.4068 -0.2988
M2 0.9955 0.0159 0.0349
M3 -0.3337 -0.3667
M3 0.9994 0.0531 0.1121
M4 -0.3439 -0.1127
M4 0.9820 0.0321 0.0368
M5 -0.4535 -0.3043
M5 0.9944 0.0594 0.1531

Partial Contributions to Inertia Indices of the Coordinates that Contribute

for the Row Points Most to Inertia for the Row Points
Dim1 Dim2 Dim1 Dim2 Best
H1 0.2421 0.0084 H1 1 0 1
H2 0.1747 0.0011 H2 1 0 1
H3 0.0492 0.0001 H3 0 0 1
H4 0.0114 0.0010 H4 0 0 1
H5 0.2281 0.4508 H5 2 2 2
M1 0.0079 0.0198 M1 0 0 2
M2 0.0307 0.0509 M2 0 0 2
M3 0.0690 0.2560 M3 2 2 2
M4 0.0443 0.0146 M4 0 0 1
M5 0.1426 0.1974 M5 2 2 2
Squared Cosines for the Row

Points
Dim1 Dim2
H1 0.9858 0.0111
H2 0.9824 0.0020
H3 0.9040 0.0004
H4 0.3722 0.0110
H5 0.6084 0.3912
M1 0.4516 0.3667
M2 0.6467 0.3488
M3 0.4526 0.5468
M4 0.8868 0.0952
M5 0.6857 0.3088

Column Coordinates Summary Statistics for the Column

Points
Dim1 Dim2
A 0.4140 -0.0007
A 0.9848 0.2545 0.3806
B 0.1347 0.0579
B 0.7199 0.2345 0.0602
C -0.2467 -0.1333
C 0.9986 0.4191 0.2834
D -0.3659 0.4625
D 0.9947 0.0918 0.2758
Partial Contributions to Inertia Indices of the Coordinates that

for the Column Points Contribute
Dim1 Dim2
Dim1 Dim2 Best
A 0.5092 0.0000
A 1 0 1
B 0.0497 0.0282
B 0 0 1
C 0.2976 0.2672
C 1 1 1
D 0.1435 0.7046
D 0 2 2
Squared Cosines for the Column

Points
Dim1 Dim2
A 0.9848 0.0000
B 0.6077 0.1122
C 0.7728 0.2258
D 0.3829 0.6118

Cápítulo 4 – Análise Fatorial de Correspoindências Simples e Múltiplas
Conclusões:
O primeiro eixo fatorial com relação as colunas da tabela de dados, opõe as

opiniões mais “agressivas” (A e B) em relação as opiniões mais “conciliadoras” (C e D).
Com relação as linhas da tabelas (jovens por sexo e idade) esse eixo opõe os homens de
1º a 4º ano ao conjunto de mulheres e aos homens do 5º ano. Portanto é possível
concluir, com respeito aos homens, a medida que aumenta a idade dos mesmos (anos
cursados) a opinião passa das opiniões mais “agressivas” as mais “pacifistas”. No que diz
respeito as mulheres a opinião predominante, qualquer que seja a idade, é a de tipo
“conciliadora” ou até “pacifista”.
No segundo eixo fatorial diferencia a distribuição por sexo/idade entre as opiniões

“conciliadoras” e aquelas claramente “pacifistas”. Esse eixo apresenta uma correção
complementar indicando que os perfis de opinião das mulheres, qualquer que seja a idade

(anos de estudo) é majoritariamente do tipo “conciliador” (C) enquanto que a opinião dos
homens do 5º ano é apresenta traços “conciliadores” e também traços do tipo “pacifista”.
Assim podemos considerar, com base neste plano fatorial, que a opinião dos jovens
americanos com relação a forma como deveria terminar a guerra do Vietnam, varia
segundo a idade de maneira diferente no grupo de indivíduos de homens e mulheres.
Enquanto que as mulheres, qualquer que seja a idade, apresentam opinião “conciliadora”,
os homens mais jovens manifestam uma opinião majoritariamente mais “agressiva”
enquanto os mais velhos preferem uma solução mais “conciliadora” ou “pacifista”.
Problema:
O estudo foi realizado para analisar a relação existente entre a idade (anos de
estudos) e sexo e a opinião dos estudantes. Mas a amostra observada apresentou um
desequilíbrio muito grande entre o número de homens e mulheres consultados. As
mulheres representaram apenas 18.5% da amostra. Consequentemente, os perfis das
mulheres, por ano de estudo, apresentam baixo peso comparados aos dos homens.
Considerando que a opinião dos homens é muito marcada, quando se analisa a tabela
completa, a estrura das opiniões dos homens predomina e anula as diferenças de opinião
existentes entre as mulheres segundo os anos de estudo.

ANEXO

3.2.3. A ANÁLISE FATORIAL DE CORRESPONDÊNCIAS MÚLTIPLAS (AFCM):
3.2.3.1. INTRODUÇÃO:
Vamos considerar agora a situação onde o problema em estudo envolve a análise
de um conjunto de p > 2 variáveis categóricas. Problemas que exigem análise conjunta de
variáveis categóricas são bastante usuais em diferentes áreas do conhecimento, porém
merece destaque o caso de pesquisas de opinião. Nesta situação usualmente as pesquisas
realizadas são baseadas em questionários, que em sua grande maioria, por razões que
não discutiremos aqui, constituídos de questões fechadas onde o respondente opta por
uma das alternativas possíveis.
Estes questionários, após respondidos, são armazenados num “banco de dados”
usualmente com a seguinte estrutura.
Formato do Arquivo de Dados

Indice … Indice … Indice
obs1 obsj obsZ
1 … … … … …
… … … … … …
… … … … … …
i … … xij … …
… … … … … …
… … … … … …
n … … … … …
Que é a forma tradicional de armazenamento das informações coletadas. Cada

linha corresponde a um dado questionário e nas colunas as variáveis (perguntas)
observadas. Vamos aqui considerar que as respostas Xij são categóricas, ou seja, os
valores atribuídos a cada variável não possuem propriedade numérica, como visto
anteriormente.

Cabe também lembrar que é também usual os questionários envolverem vários

temas (dimensões) o que propicia a alternativa de que o mesmo possa ser dividido em
blocos, onde em cada são alocadas as perguntas referentes ao respectivo assunto.
Tabela por Unidades Temáticas - Dimensões
Tema 1 Tema J Tema K

Var. … Var. … Var. Var.… Var. … Var. …
obs1 obsj’ obsZ’ obs1 obsj obsZ …
1 … … … … … … … … … … i
… … xij’ … … … … xij … …
…
… … … … … … … … … … …
…
n … … … … … … … … … …
A análise do problema em estudo passa pelo estudo das relações entre as variáveis
(perguntas) seja dentro de um mesmo tema, ou entre temas.
O tratamento estatístico usualmente utilizado, nesses casos, é o de criar tabelas de
contingência relacionando pares de variáveis (dentro de um mesmo tema ou entre temas).
P x q tabelas
Dimensão 1 Dimensão 2
bivariadas são
Var. … Var. … Var. Op. … Op.
automaticamente
obs1 obsj’ obsz’ obs1 obsz
1 … … … … … … … …
… … … … … … … … …
… … … … … … … … …
Variável Dim 2
i … … xij’ … … … xij …
… … … … … … … … 1… … K
… … … … … … … … …
Variavel
…1
observj’
n … … … … … … …
… … njk …
J … … …
Naturalmente, a medida que o número de variáveis aumente, o número de

possíveis tabelas envolvendo duas variáveis obtidas cresce rapidamente. Dado o grande
numero de tabelas, procura-se selecionar aquelas mais interessantes” utilizando-se para

isso o teste qui-quadrado de Pearson. Este tipo de procedimento não incorpora a
informação de relações que envolvam três ou mais variáveis, o que geralmente é de muito
interesse e importância.
Um outro tipo de procedimento usual em pesquisas deste tipo quando as questões
envolvem o uso de escalas (Likert,...) nas respostas. Nestes casos costuma-se estabelecer
“índices” que determinam o grau de satisfação (ou insatisfação) com relação ao tema em
estudo.
Variável Resumo (Indice) :
Tema: opinião política
vir = p1x i1 +  + pp x ip
Esc. … Esc. … Esc.
obs1 obsj’ obsp eventualmente : pj = 1
1 3 … 5 … 4
Tipología da Opinião:
2 1 … 5 … 2
… … … … … … Clase A : 0 ≤ F( v ) ≤ 25%
i
…
2
…
…
…
xij’
…
…
…
5
…
ClaseB : 25% ≤ F( v ) ≤ 50%
…
n
…
4
…
…
…
3
…
…
…
1
ClaseC : 50% ≤ F( v) ≤ 75%
ClaseD : 75% ≤ F( v ) ≤ 100%
Este procedimento estabelece um índice arbitrário onde um único resultado pode

ser obtido de diferentes formas, que nem sempre podem ser interpretadas de uma mesma
forma.
É necessário então um procedimento alternativo que possa dentre outros aspectos:
i) Propiciar uma análise de conjunta das p > 2 variáveis observadas;

ii) Estabelecer uma redução de dimensão do problema em estudo, considerando as
p variáveis observadas;
iii) Propiciar uma adequada forma de síntese da informação coletada;
A Análise Fatorial de Correspondências Múltiplas (AFCM) é um procedimentos
estatístico multivariado que pode, desde que adequadamente utilizado, atender a estas
necessidades.
A AFCM nada mais é do que a generalização da AFCS, porém como temos agora a
presença de p > 2 variáveis é necessário estabelecer inicialmente como podemos
organizar a disponível de forma que os procedimentos vistos anteriormente possam ser

aplicados.
3.2.3.2. A ESTRUTURA DOS DADOS:
Usualmente uma pesquisa é realizada com base num instrumento de coleta

de dados (questionário) onde são investigadas características, qualitativas e quantitativas,
de interesse do estudo, ou seja , tem-se a observação sistemática de um conjunto de
características sobre um conjunto de unidades de observação. As variáveis observadas
podem ser qualitativas (categóricas) ou, eventualmente, quantitativas. Observe-se aqui
que uma variável quantitativa pode ser transformada numa variável qualitativa a partir de
uma adequada categorização.
Qualquer que seja a forma dada ao protocolo de observação (questionário), o
pesquisador dispõe de uma lista padrão de características observadas cujas categorias
são mutuamente exclusivas. Esta lista está apresentada esquematicamente na tabela
abaixo:
Primeira Característica Observada Código

1a Modalidade 1
2a Modalidade 2
3a Modalidade 3
Segunda Característica Observada Código
1a Modalidade 1
2a Modalidade 2
3a Modalidade 3
4a Modalidade 4
(....................)
j-ésima Característica Observada Código
1a Modalidade 1
2a Modalidade 2
(....................)
p-ésima Característica Observada Código
1a Modalidade 1
2a Modalidade 2
3a Modalidade 3
4a Modalidade 4
NOTA:A j-ésima característica utilizada é composta de
Kj modalidades mutuamente exclusivas.

Considerando-se que as modalidades de uma dada característica são mutuamente

exclusivas, o investigador pode associar a cada uma delas um código (preferencialmente
numérico) destinado a identificar univocamente, porém de forma mais reduzida, as
modalidades que constituem a característica observada.
3.2.3.3. TABELA DE CÓDIGOS CONDENSADOS:
Terminada a etapa de aplicação dos questionários o investigador dispõe de um

conjunto de n observações. Em cada um dos questionários tem-se associado a um
indivíduo da amostra uma das possíveis modalidades de cada uma das p características
observadas. Isto se constitui nos dados brutos resultantes da observação.
A partir dos questionários faz-se um primeiro resumo das informações obtidas
construindo-se uma tabela composta de uma linha por indivíduo e de uma coluna por
característica observada. Assim é obtido o que se denomina de Tabela de Códigos
Condensados (TCC), também chamada Tabela de Dados Brutos.
Apresenta-se na tabela abaixo um modelo geral de uma Tabela de Códigos
Condensados e suas principais características:

Características:
⇒ Cada linha contém todos os códigos, correspondentes as modalidades atribuídas a um

indivíduo para cada uma das características observadas.
⇒ Na interseção da i-ésima linha com a j-ésima coluna temos o valos Xij = código
numérico dado à modalidade que pertence o i-ésimo indivíduo na j-ésima
característica observada.
⇒ Tratando-se de uma tabela de códigos, a tabela TCC (n x p) não possui propriedades
numéricas. Por exemplo, a soma dos valores em linha ou colunas (marginais da
tabela) não tem sentido.
Deve-se observar que, sob ponto de vista computacional, a tabela TCC corresponde
ao arquivo de dados onde se registram os dados observados para posterior análise.
3.2.3.3. TABELA LÓGICA OU TABELA DISJUNTIVA:

A partir da tabela de códigos condensados que, como observado anteriormente,
não tem propriedades numéricas, pode-se gerar uma tabela numérica capaz de resumir a
mesma informação.
Consideremos a primeira coluna de uma TCC (n x p) apresentada anteriormente.
Esta coluna permite associar a cada indivíduo da amostra uma (e somente uma)
modalidade da primeira característica observada. Pode-se associar a esta coluna uma
tabela que, para cada indivíduo da amostra, indique qual é a modalidade dessa
característica que o mesmo possui. Apresenta-se a seguir a TCC correspondente a
primeira coluna, bem como a TL associada a essa coluna.

Na tabela TL (n x 3) acima, associada a primeira coluna de TCC (n x p) temos:

Xi1 = 1 se Ki1 = 1; se Ki1 = 2 ou Ki1 = 3 então Xi1 = 0
A tabela TL (n x 3) contêm três variáveis indicadoras das modalidades da primeira

característica observada. Estas novas variáveis afetam a cada modalidade da primeira
característica observada: o valor 1 indica se o i-ésimo indivíduo possui esta modalidade; o
valor 0 indica que o i-ésimo indivíduo não apresenta esta modalidade. Essas variáveis são
também chamadas de “variáveis de presença ou ausência” de uma dada modalidade.
Observe-se também que a margem inferior da tabela TL (n x 3) corresponde a
distribuição de freqüências da primeira característica observada numa amostra de n
indivíduos. A marginal direita desta tabela é constante e igual a 1 pelo fato do indivíduo
pertencer a somente uma das possíveis categorias desta característica (categorias
mutuamente exclusivas).
Repetindo-se este procedimento para cada uma das colunas da tabela TCC (n x p),
podemos associar a ela uma tabela TL (n x K), ou seja, uma tabela cujo número variáveis
indicadoras é dado pelo número total de modalidades das p caracteristicas em estudo.
Obtem-se assim a tabela lógica ou tabela disjuntiva completa correspondente a Tabela

TCC (n x p) conforme apresentado abaixo.
As k colunas da tabela T (n x k) são as variáveis indicadoras das K modalidades das

p características observadas. Desta forma a soma de cada linha desta tabela é constante e
igual a p. Cada bloco de variáveis indicadoras correspondente a uma característica
observada define, pela soma da coluna, um valor marginal que corresponde a distribuição
de frequências brutas da característica. Desta forma, a marginal inferior da Tabela TL ( n
x K) expressa a distribuição de freqüências absolutas de todas as características
observadas. A soma das marginais (direita e inferior) é, evidentemente igual a n*p.
3.2.3.5. TABELA DE BURT:

Na pratica, a tabela lógica TL (n x K), que resume diferentes aspectos da
informação obtida, pode ser uma tabela de dimensão enorme. A dimensão da tabela
lógica necessária para análise de dados de uma pesquisa cresce rapidamente a medida
que os investigadores passam a investigar uma quantidade razoável de características.

Desta forma as tabelas lógicas constituem um instrumento adequado porém, pouco útil
sobre o ponto de vista prático.
Assim, de uma outra maneira, pode-se resumir a informação contida na Tabela de
Códigos Condensados através de uma nova tabela chamada Tabela de Burt designada por
TB (K x K).
A Tabela de Burt TB (K x K) é uma tabela simétrica que apresenta o conjunto das
tabelas de contingências que podem ser construídas cruzando duas a duas as p
características observadas. Definindo-se, como no caso da tabela lógica, K como sendo a
soma das modalidades das p características observadas nos n indivíduos, a Tabela de Burt
TB (K x K) apresenta:
⇒ Na intersecção da j-ésima linha com a j-ésima coluna, o valor njj indica o número de
indivíduos que apresentaram a j-ésima modalidade de uma dada característica.
⇒ Na intersecção da j-ésima linha com a k-ésima coluna, o valor njk igual a 0 se a j-ésima
modalidade e a k-ésima modalidade pertencem a uma mesma característica observada
.
⇒ A intersecção da q-ésima linha com a k-ésima coluna, o valor nqk indica o número de
indivíduos que apresentaram, simultaneamente, a q-ésima modalidade de uma dada
característica e a k-ésima modalidade de outra característica observada.
Tratando-se de uma tabela simétrica, construída pela justaposição de todas as
Tabelas de Contingências definidas pelas p características observadas (tomadas duas a
duas), a tabela TB (K x K) resume as relações, duas a duas de todas as variáveis
qualitativas contidas na mesma.
A diagonal da tabela TB (K x K) é constituída pela distribuição de freqüências
absolutas de todas as modalidades de todas as variáveis qualitativas que a compõe. Se for
feita a divisão de todos os valores da tabela pelo valor n (número total de indivíduos
observados), a tabela TB (K x K) será apresentada em termos de freqüências relativas.
A tabela de Burt não é, no sentido stricto sensu, uma tabela de contingência. É na
verdade uma tabela que resulta da justaposição de Tabelas de Contingência. A soma em
linha (ou em coluna dado que a tabela TB é simétrica) dos valores correspondentes a j-
ésima modalidade é igual a p*n.j . Desta forma tem-se que os indivíduos observados
aparecem em uma tabela TB (K x K) p2 vezes. Um esboço da Tabela de Burt TB (K x K) é
apresentado a seguir.

3.2.3.6. UMA APLICAÇÃO: PERFIL DOS ALUNOS INGRESSOS NA UFSCAR EM
2007:
Um questionário foi aplicado aos alunos ingressos na UFSCar no ano de 1997 com o
objetivo de se estabelecer o perfil dos mesmos. Este questionário abordava os seguintes
aspectos: 1) Dados pessoais; 2) Dados a cerca da formação dos alunos; 3) Dados sócios
econômicos; 4) Dados a cerca de interesses em relação a cultura, esporte e lazer. Este
questionário foi respondido por um total de 933 alunos de um total de 980 ingressos.
Do conjunto de variáveis disponíveis, foram slecionadas quatro, para a partir das
mesmas ser feito uma aplicação da TABELA DE BURT. As características escolhidas e suas
respectivas modalidades e códigos são apresentadas abaixo:

Característica Modalidades Códigos

Sexo MAS: Masculino 1
FEM: Feminino 2
Faixa Etária FE1: De 16 a 18 anos 1
FE2: De 19 a 21 anos 2
FE3: De 22 a 24 anos 3
FE4: Acima de 24 anos 4
Escola de 2º Grau PUB: Escola Pública 1
PAR: Escola Particular 2
Área Acadêmica CHS: Ciências Humanas e 1
Sociais
CBS: Ciências Biológicas e 2
Saúde
TEA: Tecnológicas e Agrárias 3
CE: Ciências Exatas 4
TABELA DE CÓDIGOS CONDENSADOS TCC (933 x 4)
A partir dos questionários coletados, obtém-se a Tabela de Códigos Condensados

para o conjunto de características acima definidas. Por motivos óbvios, apresenta-se
abaixo apenas uma parte desta tabela.
Tabela de Códigos Condensados
Perfil dos Alunos Ingressos na UFSCar - 1997
Características
Aluno Sexo Faixa Etária 2o. Grau Area Acad.
1 2 1 2 1
2 1 1 1 1
3 1 1 2 1
4 1 2 2 1
5 1 1 2 1
6 1 1 2 1
7 1 2 2 1
8 1 1 2 1
9 1 1 1 1
10 1 2 2 1
. . . . .
. . . . .
. . . . .
932 2 2 2 4
933 2 2 1 4

TABELA LÓGICA TL (933 x 12)
A partir da Tabela de Códigos Condensados, apresentada acima, é obtida a Tabela

Lógica (TL) associada a mesma. Observe-se aqui que K=12 (número total de modalidades
das características em estudo). Também neste caso, apresenta-se apenas uma parte
desta tabela.
Tabela Lógica
Perfil dos Alunos Ingressos Na UFSCar - 1977
Sexo Faixa Etária 2o. Grau Área Acadêmioca
Aluno MAS FEM FE1 FE2 FE3 FE4 PUB PAR CHS CBS TEA CE
1 0 1 1 0 0 0 0 1 1 0 0 0
2 1 0 1 0 0 0 1 0 1 0 0 0
3 1 0 1 0 0 0 0 1 1 0 0 0
4 1 0 0 1 0 0 0 1 1 0 0 0
5 1 0 1 0 0 0 0 1 1 0 0 0
6 1 0 1 0 0 0 0 1 1 0 0 0
7 1 0 0 1 0 0 0 1 1 0 0 0
8 1 0 1 0 0 0 0 1 1 0 0 0
9 1 0 1 0 0 0 1 0 1 0 0 0
10 1 0 0 1 0 0 0 1 1 0 0 0
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
932 0 1 0 1 0 0 0 1 0 0 0 1
933 0 1 0 1 0 0 1 0 0 0 0 1
TABELA DE BURT
A partir justaposição da Tabela Lógica acima, é obtida a Tabela de Burt. Para se

obter a Tabela de Burt foi utilizado o software SPAD.N Integrado, versão 2.52 PC, cedido
pelo CISIA (Centre International de Statistique et d’Informatique Appliquées, França). É
possível obter a Tabela de Burt utilizando-se outros softwares, o que será apresentado no
próximo capítulo.
Inicialmente é apresentado a Tabela de Burt com as freqüências absolutas.

Tabela de Burt
FREQÜÊNCIAS ABSOLUTAS
| MAS FEM | FE1 FE2 FE3 FE4 | PUB PAR | CHS CBS TEA CE |
-----+-----------+---------------------+-----------+---------------------+
MAS | 505 0 |
FEM | 0 428 |
-----+-----------+---------------------+
FE1 | 255 224 | 479 0 0 0 |
FE2 | 177 159 | 0 336 0 0 |
FE3 | 37 21 | 0 0 58 0 |
FE4 | 36 24 | 0 0 0 60 |
-----+-----------+---------------------+-----------+
PUB | 168 179 | 112 165 31 39 | 347 0 |
PAR | 337 249 | 367 171 27 21 | 0 586 |
-----+-----------+---------------------+-----------+---------------------+
CHS | 69 165 | 81 89 30 34 | 116 118 | 234 0 0 0 |
CBS | 73 109 | 93 73 10 6 | 66 116 | 0 182 0 0 |
TEA | 278 84 | 234 113 10 5 | 81 281 | 0 0 362 0 |
CE | 85 70 | 71 61 8 15 | 84 71 | 0 0 0 155 |
-----+-----------+---------------------+-----------+---------------------+
Podemos observar na tabela acima as características da Tabela de Burt:

⇒ A tabela é simétrica, portanto apenas a parte triangular inferior é apresentada.
⇒ Nos blocos da diagonal temos a freqüência absoluta das modalidades de cada uma das
características. Por exemplo: Sexo: 505 dos alunos são do sexo masculino e 428 do
sexo feminino.
⇒ Nos blocos fora da diagonal, temos as tabelas cruzadas entre as respectivas
características. Por exemplo: a intersecção da linha FE1 e a coluna MAS nos mostra que
dentre os alunos observados 255 alunos estão na Faixa Etária 1 e são do sexo
Masculino. Observe-se ainda que a soma das linhas, dentro de cada bloco, é igual ao
valor da respectiva linha no bloco da diagonal.
A seguir é apresentado a Tabela de Burt considerando-se os perfis por linha. Esta é
uma opção existente no software SPAD.N Integrado e é obtido da seguinte forma: Nos
blocos da diagonal divide-se o valor observado pelo número total de observações (933,
neste caso) obtendo-se a freqüência percentual de cada modalidade das características.
Para os blocos fora da diagonal, divide-se os valores da linha, pelo valor da linha no bloco
diagonal, obtendo-se assim o percentual em relação a modalidade que esta na linha do

bloco diagonal, chamado Perfis por Linha. Deve-se observar que, neste caso, a tabela não
é simétrica.
Tabela de Burt
FREQÜÊNCIAS PERCENTUAIS
-----+-----------+---------------------+-----------+---------------------+
MAS | 54.1 .0 | 50.5 35.0 7.3 7.1 | 33.3 66.7 | 13.7 14.5 55.0 16.8 |
FEM | .0 45.9 | 52.3 37.1 4.9 5.6 | 41.8 58.2 | 38.6 25.5 19.6 16.4 |
-----+-----------+---------------------+-----------+---------------------+
FE1 | 53.2 46.8 | 51.3 .0 .0 .0 | 23.4 76.6 | 16.9 19.4 48.9 14.8 |
FE2 | 52.7 47.3 | .0 36.0 .0 .0 | 49.1 50.9 | 26.5 21.7 33.6 18.2 |
FE3 | 63.8 36.2 | .0 .0 6.2 .0 | 53.4 46.6 | 51.7 17.2 17.2 13.8 |
FE4 | 60.0 40.0 | .0 .0 .0 6.4 | 65.0 35.0 | 56.7 10.0 8.3 25.0 |
-----+-----------+---------------------+-----------+---------------------+
PUB | 48.4 51.6 | 32.3 47.6 8.9 11.2 | 37.2 .0 | 33.4 19.0 23.3 24.2 |
PAR | 57.5 42.5 | 62.6 29.2 4.6 3.6 | .0 62.8 | 20.1 19.8 48.0 12.1 |
-----+-----------+---------------------+-----------+---------------------+
CHS | 29.5 70.5 | 34.6 38.0 12.8 14.5 | 49.6 50.4 | 25.1 .0 .0 .0 |
CBS | 40.1 59.9 | 51.1 40.1 5.5 3.3 | 36.3 63.7 | .0 19.5 .0 .0 |
TEA | 76.8 23.2 | 64.6 31.2 2.8 1.4 | 22.4 77.6 | .0 .0 38.8 .0 |
CE | 54.8 45.2 | 45.8 39.4 5.2 9.7 | 54.2 45.8 | .0 .0 .0 16.6 |
-----+-----------+---------------------+-----------+---------------------+
Observemos que:
⇒ Nos blocos da diagonal temos as freqüências percentuais de cada uma das modalidades
das diferentes características. Por exemplo: Sexo Masculino: 54.1 = (505/933)*100
⇒ Nos blocos fora da diagonal o valor é dividido pelo valor da linha no bloco da diagonal.
Por exemplo: Intersecção da linha MAS com a coluna FE1: 50.5 = (255/505)*100.
Interpretação: Dentre os alunos do sexo masculino, 50.5 % tem faixa etária 1.
⇒ Por que a tabela não é simétrica: consideremos a intersecção da linha FE1 com a
coluna MAS(o simétrico do caso anterior), temos agora: 53.2 = (255/479)*100.
Interpretação: Dentre os alunos da faixa etária 1, 53.2% são do sexo masculino.

CONCLUSÕES:
A partir das Tabelas de Burt acima apresentadas pode-se estabelecer as seguintes

características dos alunos ingressos na UFSCar no ano de 1997:
⇒ Os alunos, como um todo, apresentam um relativo equilíbrio em relação ao sexo,

porém ao estudar a distribuição frente as áreas acadêmicas tem-se nas áreas de
Ciências Humanas e Sociais e Ciências Biológicas e Saúde um maior número de
alunos do sexo feminino enquanto que nas áreas Tecnológicas e Agrárias e Ciências
predominam alunos do sexo masculino.
⇒ A grande parte dos alunos possuei menos de 21 anos. A faixa etária até 18 anos
apresenta um grande percentual de alunos da área de Técnológicas e Agrárias,
enquanto que os alunos com maior faixa etária ingressam em cursos da área de
Ciências Humanas e Sociais. Também se tem que alunos com maior faixa etária
cursaram segundo grau em escolas públicas e os mais jovens em escolas
particulares.
⇒ Os alunos que cursaram segundo grau em escolas públicas ingressam em maior

percentual em cursos da área de Ciências Humanas e Sociais, já aqueles
provenientes de escolas particulares concentram-se em cursos da área de
Tecnológicas e Agrárias.
3.2.3.7. ANÁLISE FATORIAL DE CORRESPONDÊNCIAS DE UMA TABELA LÓGICA:
Mostramos no ponto anterior que uma tabela lógica, embora composta apenas de
valores iguais a um ou zero, pode ser utilizada para se estudar as relações entre unidades
de observação e entre variáveis de um dado problema.
É necessário, tal como no caso das tabelas de contingência, definir uma forma
adequada de se calcular uma matriz de distância associada a Tabela Lógica, de forma que
o procedimento de diagonalização com obtenção de autovalores e autovetores possa ser
realizado.

Para isto consideremos que a tabela lógica é um tipo particular de Tabela de

Contingência. Consideremos inicialmente o estudo das linhas da TL.
- a j-ésima coordenada do i-ésimo individuo:
xij
xij 1 nj np xij
fij = ;f = ;f = ; =
np i. n . j np
1 nj p nj
n np np
- a j-ésima coordenada do i’-ésimo individuo:
xi' j
xi' j 1 nj np xi' j
fi' j = ;f = ;f = ; =
np i'. n . j np n nj
1 j
p
n np np
Distância Chi2 entre duas Linhas da TL
• Coordenadas do i-ésimo perfil-ponderado-linha:

x ij
Elemento Geral : , ∀ j = 1, , K
nj
p
np
• Coordenadas do i’-ésimo perfil-ponderado-linha:

x i' j
Elemento Geral : , ∀ j = 1, , K
nj
p
np

2
 
K  x x

d(2i,i' ) = ∑ 

j=1 
ij
nj
−
i ' j
nj 
 =
p p 
 np np 
Desenvolvendo a expressão acima:

2
np  x ij x i' j  n (x − x )2
K K
d2(i,i' ) = ∑ n p
j =1 j 

−
p  
=1
p ∑ n ij
j =1 j
i' j
n (x − x )2
K
d2(i,i' ) =1
p ∑ n ij
j =1 j
i' j
Observando a expressão acima observamos que:
 Cada elemento da soma somente assume valores 1 ou 0, assumindo 1 se os

indivíduos i e i’ não apresentam simultaneamente a mesma característica e, valendo
0 caso contrário (não apresentam simultaneamente a mesma característica)
 A partir do ponto acima, temos que a distância cresce a medida que os indivíduos
não apresentarem as mesmas características em comum.
 A distância também cresce à medida que os indivíduos não apresentarem as
mesmas características em modalidades pouco freqüentes (modalidades de baixo
peso).
Considerando agora o estudo das linhas da TL, temos:

Distancia Chi2 entre duas Colunas da TL
• Coordenada do j-ésimo perfil-ponderado-coluna:

x ij
np
Elemento Geral : ∀i = 1, , n
nj p
np np
• Coordenada do j’-ésimo perfil-ponderado-coluna:
x ij'
np
Elemento Geral : ∀i = 1, , n
n j'p
np np
2
 x ij x ij' 
n  
∑  np np  =
d2( j, j' ) = −
i =1
 j p
n n j' p 
 np np np np 
 
De modo que...
2
  2
n  x x ij'  n  x ij x ij' 
d2( j, j' ) = ∑ 
i =1  n
ij
−
1 n 1
 = ∑ n
i =1  j
n
−
n


j' 
 j
n j'
n 
Desenvolvendo o quadrado acima, obtemos:
 x ij2 x ij2'
n x ij x ij' 
d2( j, j' ) = ∑
n 2 + 2 − 2
 n j n j'
i =1 
n j n j' 


Lembrando que:
nk : número de indivíduos que apresentam simultaneamente as modalidades j e k;

nj ; número de indivíduos que apresentaram a modalidade j;

nk ; número de indivíduos que apresentaram a modalidade k;
Temos então que expressão acima vale:
 1  : para (n – n ) indivíduos que apresentaram a modalidade j. Indivíduos que

a)  2 j jj’
n 
 j
apresentaram: xij = 1 e xij’ = 0;
 1 
b)  2 : para (nj’ – njj’) indivíduos que apresentaram a modalidade k. Indivíduos
n 
 j' 
que apresentaram: xij = 0 e xij’ = 1;
1 1 2 
c)  2+ 2 −  : para njj’ indivíduos que apresentaram simultaneamente as
n n n n 
 j j' j j' 
modalidade j e k. Indivíduos que apresentaram: xij = 1 e xij’ = 1;

d) 0 : para os indivíduos que não apresentaram a modalidade j nem a modalidade j’;
Substituindo estes valores na soma acima temos;
 n j − n jj'   n j' − n jj'  

= n ×  + 
 n jn j'   n jn j'  
d2( j, j' )
    
Podemos então observar que:
 O quadrado da distância entre as modalidades j e k é igual a proporção de
indivíduos que apresentaram a modalidade j e não apresentaram a modalidade j’
mais a proporção de indivíduos que apresentaram a modalidade j’ e não
apresentaram a modalidade j;
 A distância entre duas modalidades cresce em função do numero de indivíduos que
apresentaram apenas uma das modalidades;
 A distância entre duas modalidades é inversamente proporcional a importância
relativa de cada uma das modalidades;

Desta forma:
• Duas modalidades de uma mesma variável (mutuamente exclusivas) estarão

obrigatoriamente distantes no espaço de representação;
• Duas modalidades comuns a maioria dos indivíduos observados estarão
representadas pelo mesmo ponto no espaço de representação;
• Modalidades com baixa freqüência estarão bastante afastadas das demais;
Conclusão: A distância qui-quadrado em uma TL atende a necessidade dos

objetivos propostos.
É então possível obtermos o processo de diagonalização considerando os pontos

perfis ponderados dos indivíduos (linhas), cujos valores são dados por:
 
 
 i1 ;; x
;; iK 
x ij x
 n1 nj nK 
p p p 
 np np np 
Os valores marginais, coordenadas do centro de gravidade, no espaço das linhas
são dados por:
 n nj nK 
Coordenadas de GL :  
1
;; ;;
 np np np 
Portanto as os pontos perfis ponderados centrados são dados por:

 
 
 x i1 − n1 ;; x ij − n j ;; x iK − nK 
 n np nj np nK np 
p 1 p p 
 np np np 
O procedimento de diagonalização pode ser então realizado, levando aos mesmos

resultados, a partir do uso da matriz de pontos perfis ponderados ou matriz de pontos
perfis ponderados centrados.
Procedimento análogo é realizado utilizando-se os pontos perfis ponderados das
modalidades (colunas).
As propriedades e resultados do processo de diagonalização observadas no caso da
AFCS também são validas neste caso.
A partir do processo de diagonalização, calculo dos autovalores e autovetores, as
coordenadas fatoriais são obtidas de forma análoga a AFCS, ou seja:
Coordenadas Fatoriais
 Coordenadas dos pontos-individuos sobre o eixo α :
 
K  x n

Fα (i ) = ∑


j =1 
ij
nj
−
np
j 

w αj
p 
 np 
 Coordenadas dos pontos-modalidades sobre o eixo α :
 
 x ij
n
1 u
Gα ( j) = ∑
i =1  n 1
−
n
 αi

 
j
n
Ou ainda;

F1 … Fα … Fr
… … … … … …
Tabela de Coordenadas
i … … Fα(i) … …
Fatoriais dos Individuos
… … … … … …
GI 0 0 0 0 0
G1 … Gα … Gr
Tabela das Coordenadas
… … … … … …
Fatoriaisdas modalidades
Gj … … Gα(j) … …
… … … … … …
GM 0 0 0 0 0
Os elementos destas tabelas, são os valores que aparecem nos gráficos da análise
de correspondências múltiplas.
Propriedades dos Eixos Fatoriais

Os fatores são p variáveis centradas, continuas.
n
∀α = 1, , r ⇒ Fα = ∑
i =1
1 F (i ) = 0
n α
K n
∀α = 1, , r ⇒ Gα = ∑ np G
j =1
j
α ( j) = 0
Variância das variáveis fatoriais :
∑ ( ) = ∑ n1 F
n n
1 F (i ) − F (i ) = λ α
2
s 2α = 2
n α α α
i =1 i =1
K
( j) = λ α
nj
s 2α = ∑ np G
j=1
2
α
Observação : λα > 1 para qualquer α

Interpretação:
 O autovalor λα associado ao eixo fatorial α representa, no espaço das modalidades,
a parte representada pelo eixo α da associação entre as modalidades (colunas) da
TL;
 O autovalor λα associado ao eixo fatorial α representa, no espaço dos indivíduos, a
parte representada pelo eixo α da associação entre os indivíduos (linhas)
considerando todas as modalidades (colunas) da TL;
Portanto, a partir da AFCM, é possível:

i) Estudar todos indivíduos observados com base no conjunto de todas as
variáveis observadas;
ii) Estudar as relações entre todas as modalidades das variáveis observadas,
considerando-se todos os indivíduos observados;
iii) Resumir o conjunto de variáveis observadas em um pequeno conjunto de novas
variáveis quantitativas relacionados com o conjunto de todas as variáveis em
estudo;
Um outro importante elemento aspecto a ser estudado em uma AFCM, tal como na
AFCS é a contribuição a inércia (variabilidade) de uma modalidade e a inércia total dos
pontos modalidades. Temos neste caso:
Contribuição da j-ésima modalidade a inércia

da nuvem de puntos-modalidades
nj
Contrib.( j)I
GM
= pj d2 ( j ;GM ) = np d2 ( j ;GM )
 nx ij2 1
n x 
Sendo : d2
i =1 
∑
( j ;GM ) =  2 + n − 2 nij 
j 
 nj 
Nesta expressão :
xij = 1 : para os nj ind. que apresentaram a modalidade j.
xij = 0 : para os (n - nj) ind. que não apresentaram a modalidade j.

Desta forma a distância ao Centro de Gravidade de uma
Modalidade é igual a :
 
d2 ( j ; GM ) = n j  n2 + 1 − 2  + 1 n − n j
 nj n nj  n
( )
 
= n −1
nj
De modo que :
nj nj  n 
Contrib.( j)I = d 2 ( j ; GM ) =  − 1
GM np np  n j 

 nj 
= 1  1 − 
p n
É importante observar que:
 nj 
Contrib .( j) I 1
= × 1 − 
GM p  n 
Este valor é muito pequeno se nj é muito grande…
Este valor é próximo de 1 se nj es muito pequeno…
Conseqüência: Quanto mais rara é uma modalidade…

maior é sua contribução para inércia total da nuvem
de pontos-modalidades.

Desta forma, num probablema com modalidades com

baixa freqüência devemos observar a seguinte situação:
otras eixo II
modalidades
mod2B modalidades
raras
mod1C
mod2A eixo I
mod3B
mod4B
mod1A mod3C
mod1B
mod2C
Por outro lado, com respeito a Inércia Total temos:
Inercia total con respeito a GM de la nuvem

de pontos-modalidades
K K  n 
IGM = ∑ Contrib.( j)IGM = ∑ p1  1 − nj 
j =1 j =1  
IGM = Kp − 1
Conseqüência:
A inercia total de uma Tabela Lógica depende únicamente
do número de variáveis observadas e do número de
modalidades definidas para essas variáveis…

Temos também na AFCM as relações de transição entre os espaços dos indivíduos

(linhas) e modalidades (colunas). Estas relações são dadas por:
K x ij
Fα (i) = 1
λα
∑
j=1
G ( j)
p α
∀ i = 1, , n
Perfil del i-ésimo individuo…

xij = 1 quando o ind. i apresentou a modalidade j ;
xij = 0 se e ind. i não apresentou a modalidade j.
Coordenadas factoriales de las K modalidades

(columnas) de la Tabla Lógica.
A coordenada Fα(i) do i-ésimo indivíduo é igual a média

das coordenadas das modalidadesque ele apresentou
(média ponderada por um fatorde contração).
Conseqüências desta primeira relação baricéntrica

entre ambos espaços de representação
• O i-ésimo indivíduo se encontra no baricentro

das modalidades (atributos) que apresentou.
•A proximidade de dois indivíduos sobre um

plano fatorial traduz gráficamente o fato de
ambos apresentarem as mesmas modalidades
das variáveis observadas

n x ij
Gα ( j ) = 1
λα
∑n
i =1 j
Fα (i ) ∀ j = 1, , K
Perfil da j-ésima modalidad…

xij = 1 quando el ind. i apresentou a modalidade j ;
xij = 0 se o ind. i não apresentou a modalidade j.
Coordenadas fatoriais dos n individuos

(línhas) da Tabla Lógica.
A coordenada Gα(j) da j-ésima modalidade é igual a

média das coordenadas dos individuos que
apresentaram esta modalidade (médio ponderada
pelo mesmo fator de contração).
Conseqüências desta segunda relação baricéntrica

entre ambos espaços de representação
• A j-ésima modalidade se encontra no baricentro

dos individuos que apresentaram este atributo.
•A proximidade de duas modalidades j y j’ sobre um plano

fatorial traduz graficamente o fato destas modalidades
estarem presentes simultaneamente num mesmo grupo
de individuos, ou seja, estas variáveis são relacionadas.
3.2.3.8. ANÁLISE FATORIAL DE CORRESPONDÊNCIAS DE UMA TABELA DE BURT:
A AFC de uma tabela de Burt segue o mesmo procedimento de uma tabela lógica
exceto considerando que os pontos perfis ponderados e a distância qui-quadrado entre
duas linhas da tabela são dadas por:

Distância entre elementos de uma Tabela de Burt TB (K x K)
• Coordenadas do j-ésimo perfil-ponderado correspondente

a modalidade j de uma TB (K x K)
 n j1 n jk n jK 
 
 p 2n p 2n p 2n 
;; ;;
 pn j. pn pn j. pn.k pn j. pn.K 
 2 2
.1

 p n p n p 2n p 2n p 2 n p 2n 
  n j1     
 n ;; n  n jk ;; n  n jK 
 p  n j. n.1  pn n  pn n 
    j. .k   j. .K 
Distância Chi2 entre duas modalidades j e j’

2

K  n jk   
 − n  n j'k
d ( j; j' ) =
2
∑  n 
 p  n j. n.k  pn n


k =1     j'. .k 
2
n  n jk − n j'k 
K
=1
p ∑
n n
k =1 .k  j.
n j'.



A nuvem de pontos-modalidades construída a partir

da TB (K x K), com a distancia Chi2, permite
comparar as modalidades pela semelhança entre
os perfiles da distribução de todas as variáveis
qualitativas da tabela.
A partir destes valores, o processo de diagonalização e interpretação dos valores

são análogos ao caso da TL. Esta equivalência entre os dois procedimentos pode ser
justificada pelo seguinte fato:

Conseqüência:
A Análisis Fatorial de Correspondências...

- de uma Tabela Lógica
e
- de uma Tabela de Burt
tem que produzir resultados equivalentes
3.2.3.9. DETERMINAÇÃO DO NÚMERO DE EIXOS PARA ANÁLISE:
Seja qual for a alternativa utilizada para obtenção dos eixos fatoriais (Tabela Lógica
ou Tabela de Burt) uma questão importante é a que se refere ao número de fatores que
devem ser analisados. A partir do que vimos anteriormente, o percentual de variância
explicada por cada eixo, abaixo apresentado, não deve ser utilizado para fins da definição
da escolha do número de fatores para análise.

τα = pλ α × 100 = λI α × 100
∑ αλ G
α =1
Taxa de Inércia de um Fator
Uma alternativa usualmente utilizada é a de analisar a estrutura de decrescimento

dos autovalores. Neste caso devem ser analisados os eixos cujos autovalores que não se
enquadram na forma “regular” de decrescimento do histograma dos autovalores, como
pode ser visto na figura abaixo.
Uma outra forma de também se verificar o número de eixo a serem analisados é

através do grau de generalidade do mesmo. A contribuição dos indivíduos e das
modalidades, a inércia de um eixo é dada respectivamente por:
Fα (i )
1 2
CTRα (i ) = n × 100 ∀ i ∈I
λα
Gα (k )
nk 2
CTRα (k ) = n × 100 ∀ k∈K
λα
Desta forma, quanto maior o número de indivíduos e modalidades, principalmente

estas ultimas, com contribuição importante no eixo, maior quantidade de informações ele
possui e, portanto maior o interesse na sua análise.
3.2.3.10. ELEMENTOS SUPLEMENTÁRIOS EM AFCM:
Para uma melhor analise e interpretação do problema em estudo, muitas vezes é

importante o uso de indivíduos, atributos ou modalidades suplementares. Qualquer valor
suplementar não é utilizado na obtenção da matriz de distâncias e conseqüentemente na
obtenção das coordenadas Fatoriais. Depois de obtidos estes valores com os dados do
estudo, calculam-se as coordenadas para estes valores suplementários a partir das
expressões abaixo;
Indivíduos suplementários
K x 'sj  K 
Fα (i' s ) = 1
∑p G α ( j) = 1 1
∑ x 'sj G α ( j )
λα λα  p 
j =1  j =1 


3.2.3.11. EXEMPLO:
Problema: Estudo das Características de Diferentes Raças de Cães
São conhecidas as principais características morfológicas, comportamentais de

diferentes raças de cães. Pretende-se identificar “grupos de raças” de cães que
apresentem características semelhantes. Por outro lado, pretende-se verificar se existe
entre estas raças de cães associação com diferentes tipos de utilidades que são atribuídas
aos animais.
Variáveis e Respectivas Modalidades:

Tamanho: Peso: Velocidade: Inteligência:
T1 ; Pequeno P1: Pequeno V1: Lento I1: Pouca
T2: Mediano P2: Mediano V2: Mediano I2: Mediana
T3 : Grande P3: Grande V3: Rápido I3: Muita
Afeição: Agressividade: Função:

AF1: Leve AG1: Leve F1: Companhia

AF2: Grande AG2: Grande F2: Casa

F3: Utilitário
PROGRAMA:
proc corresp mca data=dados1 outc=cd;
tables Raca Tamanho Peso Velocidade Inteligencia Afeicao Agressividade
Funcao;
supplementary Funcao Raca;
run;
%plotit(data=cd, color=red, datatype=corresp, href=0,vref=0);
run;

DADOS: TABELA DE DADOS CONDENSADOS
Obs Raca Tamanho Peso Velocidade Inteligencia Afeicao Agressividade Funcao
1 Basset T1 P1 V1 I2 AF1 AG2 F2
2 Beauceron T3 P2 V3 I2 AF2 AG2 F3
3 Boxer T2 P2 V2 I2 AF2 AG2 F1
4 Buldog T1 P1 V1 I2 AF2 AG1 F1
5 Bull-massif T3 P3 V1 I3 AF1 AG2 F3
6 Caniche T1 P1 V2 I3 AF2 AG1 F1
7 Chiguagua T1 P1 V1 I2 AF2 AG1 F1
8 Cocker T2 P1 V1 I2 AF2 AG2 F1
9 Colley T3 P2 V3 I2 AF2 AG1 F1
10 Dalmata T2 P2 V2 I2 AF2 AG1 F1
11 Doberman T3 P2 V3 I3 AF1 AG2 F3
12 Dogo Aleman T3 P3 V3 I2 AF1 AG2 F3
13 Fox Haund T3 P2 V3 I2 AF1 AG2 F2
14 Fox Terrier T1 P1 V2 I2 AF2 AG2 F1
15 Galgo T3 P2 V3 I2 AF1 AG1 F2
16 Gascono T3 P2 V2 I2 AF1 AG2 F2
17 Labrador T2 P2 V2 I2 AF2 AG1 F2
18 Mastin Aleman T3 P2 V3 I3 AF2 AG2 F3
19 Mastiff T3 P3 V1 I2 AF1 AG2 F3
20 Pekines T1 P1 V1 I2 AF2 AG1 F1
21 Podenco Breton T2 P2 V2 I3 AF2 AG1 F2
22 Podenco Frances T3 P2 V2 I2 AF1 AG1 F2
23 Pointer T3 P2 V3 I3 AF1 AG1 F2
24 Setter T3 P2 V3 I2 AF1 AG1 F2
25 Sao Bernardo T3 P3 V1 I2 AF1 AG2 F3
26 Teckel T1 P1 V1 I2 AF2 AG1 F1
27 Terranova T3 P3 V1 I2 AF1 AG1 F3

The CORRESP P rocedure
Singular Principal Chi- Cumulative 6 12 18 24 30

Value Inertia Square Percent Percent ----+----+----+----+----+---
0.69398 0.48161 139.417 28.90 28.90 ************************
0.62027 0.38474 111.375 23.08 51.98 *******************
0.45930 0.21095 61.068 12.66 63.64 ***********
0.39693 0.15755 45.609 9.45 74.09 ********
0.38747 0.15013 43.461 9.01 83.10 ********
0.35113 0.12330 35.692 7.40 90.50 ******
0.28542 0.08146 23.582 4.89 95.38 ****
0.21370 0.04567 13.221 2.74 98.12 **
0.15343 0.02354 6.815 1.41 99.54 *
0.08782 0.00771 2.233 0.46 100.00
Total 1.66667 482.471 100.00

Column Coordinates
Dim1 Dim2
T1 1.1850 0.9239
T2 0.8511 -1.2317
T3 -0.8367 -0.0206
P1 1.1689 0.8243
P2 -0.3054 -0.8189
P3 -1.0151 0.9739
V1 0.3199 1.0449
V2 0.6037 -0.8878
V3 -0.8921 -0.3718
I1 -0.3490 0.8086
I2 0.3694 -0.2855
I3 -0.3351 -0.4595
AF1 -0.8352 0.2875
AF2 0.7755 -0.2669
AG1 0.4007 -0.1943
AG2 -0.4315 0.2092

Supplementary Column Coordinates Supplementary Column Coordinates
Dim1 Dim2 Dim1 Dim2
F1 1.0393 0.0953 FoxHaund -1.2631 0.0407
F2 -0.3224 -0.4324 FoxTerri 1.2704 0.2240
F3 -0.9365 0.3673 Galgo -0.9751 -0.1341
Basset 0.3662 1.7754 Gascono -0.7455 -0.1828
Beaucero -0.4571 -0.6734 Labrador 0.9327 -1.5964
Boxer 0.6446 -1.4216 Mastiff -1.0893 1.4310
Buldog 1.4602 0.8865 MastinAl -0.7009 -0.7488
Bull-mas -1.0844 0.8817 Pekines 1.2116 1.3605
Caniche 1.3146 -0.0261 PodencoB 0.6888 -1.6717
Chiguagu 1.2116 1.3605 PodencoF -0.2088 -0.8315
Cocker 1.0567 0.1275 Pointer -0.9703 -0.6834
Colley -0.1691 -0.8482 SaoBerna -0.8406 0.9571
Dalmata 0.9327 -1.5964 Setter -0.7264 -0.6080
Doberman -1.2583 -0.5086 Teckel 1.4602 0.8865
DogoAlem -1.5087 0.8173 Terranov -0.5526 0.7823

Summary Statistics for the Column

Points
T1 0.7902 0.0432 0.0741
T2 0.5094 0.0309 0.0815
T3 0.8756 0.0926 0.0444
P1 0.8614 0.0494 0.0704
P2 0.8226 0.0864 0.0481
P3 0.4498 0.0309 0.0815
V1 0.7025 0.0617 0.0630
V2 0.4853 0.0494 0.0704
V3 0.4671 0.0556 0.0667
I1 0.3266 0.0494 0.0704
I2 0.2024 0.0802 0.0519
I3 0.0924 0.0370 0.0778
AF1 0.7244 0.0802 0.0519
AF2 0.7244 0.0864 0.0481
AG1 0.2136 0.0864 0.0481

Quality of Representation Quality of Representation Quality of Representation

for the Supplementary for the Supplementary for the Supplementary
Column Points Column Points Column Points
F1 0.6408 Cocker 0.0436 Mastiff 0.1244
F2 0.1455 Colley 0.0288 MastinAl 0.0405
F3 0.4261 Dalmata 0.1315 Pekines 0.1276
Basset 0.1264 Doberman 0.0708 PodencoB 0.1257
Beaucero 0.0255 DogoAlem 0.1132 PodencoF 0.0283
Boxer 0.0937 FoxHaund 0.0614 Pointer 0.0542
Buldog 0.1122 FoxTerri 0.0640 SaoBerna 0.0624
Bull-mas 0.0751 Galgo 0.0373 Setter 0.0345
Caniche 0.0665 Gascono 0.0227 Teckel 0.1122
Chiguagu 0.1276 Labrador 0.1315 Terranov 0.0353
Partial Contributions to Inertia Partial Contributions to Inertia

for the Column Points for the Column Points
Dim1 Dim2 Dim1 Dim2
T1 0.1260 0.0959 V3 0.0918 0.0200
T2 0.0464 0.1217 I1 0.0125 0.0839
T3 0.1346 0.0001 I2 0.0227 0.0170
P1 0.1401 0.0872 I3 0.0086 0.0203
P2 0.0167 0.1506 AF1 0.1162 0.0172
P3 0.0660 0.0761 AF2 0.1079 0.0160
V1 0.0131 0.1752 AG1 0.0288 0.0085
V2 0.0374 0.1012 AG2 0.0310 0.0091


Dim1 Dim2 Best
T1 1 1 1
T2 2 2 2
T3 1 0 1
P1 1 1 1
P2 0 2 2
P3 2 0 2
V1 0 2 2
V2 0 2 2
V3 1 0 1
I1 0 2 2
I2 0 0 1
I3 0 0 2
AF1 1 0 1
AF2 1 0 1
AG1 0 0 1
AG2 0 0 1
Squared Cosines for the Column Squared Cosines for the Column
Points Points
Dim1 Dim2 Dim1 Dim2
T1 0.4914 0.2988 V1 0.0602 0.6422
T2 0.1646 0.3448 V2 0.1534 0.3319
T3 0.8750 0.0005 V3 0.3979 0.0691
P1 0.5753 0.2861 I1 0.0513 0.2753
P2 0.1004 0.7221 I2 0.1267 0.0757
P3 0.2342 0.2156 I3 0.0321 0.0603

Squared Cosines for the Column Squared Cosines for the Column
Points Points
Dim1 Dim2 Dim1 Dim2
AF1 0.6477 0.0767 AG2 0.1729 0.0406
AF2 0.6477 0.0767
AG1 0.1729 0.0406
Squared Cosines for the Supplementary Squared Cosines for the Supplementary
Column Points Column Points
Dim1 Dim2 Dim1 Dim2
F1 0.6354 0.0053 Mastiff 0.0456 0.0788
F2 0.0520 0.0935 MastinAl 0.0189 0.0216
F3 0.3693 0.0568 Pekines 0.0565 0.0712
Basset 0.0052 0.1212 PodencoB 0.0183 0.1075
Beaucero 0.0080 0.0174 PodencoF 0.0017 0.0266
Boxer 0.0160 0.0777 Pointer 0.0362 0.0180
Buldog 0.0820 0.0302 SaoBerna 0.0272 0.0352
Bull-mas 0.0452 0.0299 Setter 0.0203 0.0142
Caniche 0.0665 0.0000 Teckel 0.0820 0.0302
Chiguagu 0.0565 0.0712 Terranov 0.0117 0.0235
Cocker 0.0429 0.0006
Colley 0.0011 0.0277
Dalmata 0.0335 0.0980
Doberman 0.0609 0.0099
DogoAlem 0.0875 0.0257
FoxHaund 0.0614 0.0001
FoxTerri 0.0621 0.0019
Galgo 0.0366 0.0007
Gascono 0.0214 0.0013
Labrador 0.0335 0.0980


3.2.3.12.REFERÊNCIAS BIBLIOGRÁFICAS
• ANDRADE, S.F. – P erfil dos Alunos I ngressos na UFSCar – 1994-1997: Uma

Abordagem M ultivariada – Relatório Iniciação Cientifica, DEs-UFSCar, 1998.
• BOURACHE, J. M. e SAPORTA, G. - Análise de Dados , Zahar Editores, São

Paulo, 1982.
• CRISVISQUI, E. - Análisis factorial de Correspondencias: Un I nstrum ento de

I nvestigation en Ciências sociales, Bruselas, LMTD Université Libre de
Bruxelles, Universidad Católica de Asunción, Asunción. 1993.
• ESCOFIER, B. y J. PAGÉS, Análisis Factoriales Sim ples y M últiples:

Objectivos, M étodos e I nterpretación, Universidade del Pais Vasco, Bilbao,
1982
• FERREIRA FILHO, P., BERETA, E.M.P., RIBEIRO, F.B. – Tabela de Burt –

Relatório Técnico 04 – Notas Didáticas – Des-UFSCar, 1998.
• JONHSON, R.A. and WICHERN, D.W., Applied M ultivariate Statistical

Analysis, Prentice Hall, 1982.
• LEBART, L., MORINEAU A., and PIRON, M., Statistique Exploratoire

M ultidim ensionalle, Dunod, 1995.
• LANGRAND, C. Análise de Correspondências e M étodos de Classificação,

Notas de Mini-Curso, Seminário de Métodos Estatísticos Aplicados a Ciências
Humanas - DEs-UFSCar, julho, 1996.
• PEREIRA, J.C.R. – Análise de Dados Qualitativos, EDUSP, 2001.

Analise Fatorial de Correnpondencia Simples e Multipla

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Analise Fatorial de Correnpondencia Simples e Multipla

Enviado por

Direitos autorais:

Formatos disponíveis

Universidade Federal de São Carlos

Centro de Ciências Exatas e de Tecnologia

ANÁLISE FATORIAL DE CORRESPONDÊNCIAS

PROF. PEDRO FERREIRA FILHO

3. ANALISE FATORIAL DE CORRESPONDÊNCIAS SIMPLES E

Estatística Multivariada 2 – Prof. Pedro Ferreira Filho – 2o Semestre de 2013 Página 1

A partir do problema em estudo e do tipo de característica de interesse observada,

Estatística Multivariada 2 – Prof. Pedro Ferreira Filho – 2o Semestre de 2013 Página 2

i) X1 e X2 são variáveis quantitativas para comparação de duas observações i e i’

a) { Xij = Xi’j ou Xij = Xi’j };

b) { Xij ≥ Xi’j ou Xij ≤ Xi’j };

c) { Xij - Xi’j ou Xij/Xi’j };

Ou seja, a partir da propriedade numérica dos valores observados, temos diferentes

ii) X1 e X2 são variáveis qualitativas para comparação de duas observações i e i’

podemos verificar as seguintes relações:

a) { Xij = Xi’j ou Xij ≠ Xi’j };

Estatística Multivariada 2 – Prof. Pedro Ferreira Filho – 2o Semestre de 2013 Página 3

nij = número de unidades de observação que possuem simultaneamente a categoria i da

característica X1 e a categoria j da característica X2 , chamada freqüência conjunta

X1, chamada freqüência marginal de X1 .

X2, chamada freqüência marginal de X2.

Observação : Ao construirmos uma tabela de contingência para as características

possíveis combinações duas a duas através do uso da estatística χ2 – Qui-Quadrado de

Estatística Multivariada 2 – Prof. Pedro Ferreira Filho – 2o Semestre de 2013 Página 4

A estatística χ2 – Qui-Quadrado de Pearson é dada por:

oij = nij = freqüência observada

Portanto temos que o uso tradicional da estatística χ2 – Qui-Quadrado de Pearson,

associação entre as variáveis). A medida que estes desvios crescem a χ2 – Qui-Quadrado

de Pearson caracteriza-se a existência de associação entre as características em estudo.

A1 214 237 78 119 648 A1 156 272 142 78 648

A2 51 102 126 22 301 A2 72 127 66 36 301

A3 111 304 139 48 602 A3 144 254 132 72 602

Estatística Multivariada 2 – Prof. Pedro Ferreira Filho – 2o Semestre de 2013 Página 5

Statistic DF Value Prob Statistic DF Value Prob

Chi-Square 6 173.3787 <.0001 Chi-Square 6 0.0098 1.0000

Temos, portanto que as características em estudo, no caso A, apresenta associação

PERFIS POR LINHA

A2 16.94 33.88 41.86 7.30 100.00

A3 18.43 50.49 23.89 7.97 100.00

Total 24.24 41.57 22.11 12.19 100.00

Estatística Multivariada 2 – Prof. Pedro Ferreira Filho – 2o Semestre de 2013 Página 6

PERFIS POR COLUNA

Estatística Multivariada 2 – Prof. Pedro Ferreira Filho – 2o Semestre de 2013 Página 7

ii) No caso de presença de três ou mais características no estudo, como identificar

3.2. ANÁLISE FATORIAL DE CORRESPONDÊNCIAS:

Estatística Multivariada 2 – Prof. Pedro Ferreira Filho – 2o Semestre de 2013 Página 8

3.2.2. ANÁLISE FATORIAL DE CORRESPOINDÊNCIAS SIMPLES (AFCS):

A Análise Fatorial de Correspondências Simples (AFCS) tem por objetivo o estudo

3.2.2.1. DADOS, TABELA DE CONTINGÊNCIA E HIPÓTESE DE INDEPENDÊNCIA:

Como já vimos inicialmente à informação conjunta de duas variáveis qualitativas é

I: número de modalidades da característica 1

Figura 1: Tabela de contingência dos dados originais.

A tabela de contingência da figura 1 é definida em termos de freqüências absolutas,

Estatística Multivariada 2 – Prof. Pedro Ferreira Filho – 2o Semestre de 2013 Página 9

Figura 2: A tabela de freqüências relativas F.

fij = fi. f.j (2-1)

do produto fi..f.j. Se fij é superior a este produto, as modalidades i e j se afastam da

situação de independência, diz-se que i e j se atraem. Pelo contrário, se fij é inferior ao

A independência se expressa também considerando a tabela como um conjunto de

Estatística Multivariada 2 – Prof. Pedro Ferreira Filho – 2o Semestre de 2013 Página 10

se dividem segundo as J modalidades j da segunda variável com os mesmos percentuais.

A Análise de Correspondência tem por objetivo, identificar as relações das linhas,

Em uma tabela de contingência, a semelhança entre duas linhas, ou entre duas

Esquematicamente, o estudo do conjunto das linhas consiste em expor uma técnica