Você está na página 1de 96

Universidade Federal de São Carlos

Centro de Ciências Exatas e de Tecnologia


Departamento de Estatística

ESTATÍSTICA MULTIVARIADA 2

CAPÍTULO # 3

ANÁLISE FATORIAL DE CORRESPONDÊNCIAS


SIMPLES E MÚLTIPLAS

PROF. PEDRO FERREIRA FILHO

2º SEMESTRE DE 2013
Cápítulo 3 – Análise Fatorial de Correspondências Simples e Múltiplas

3. ANALISE FATORIAL DE CORRESPONDÊNCIAS SIMPLES E

MULTIPLAS:

3.1. INTRODUÇÃO:
A análise estatística de um determinado problema é baseada num conjunto de
informações de n unidades de observação (pessoas, objetos,....) para as quais p
características (variáveis, medidas,...) são observadas. Temos então o seguinte tipo de
informação disponível (usualmente disposta em um “banco de dados”).

V1 V2 ... Vj .... Vp
1 ‫׃‬
2 ‫׃‬
. ‫׃‬
. ‫׃‬
i --- --- --- Xij --- ---
. ‫׃‬
. ‫׃‬
n ‫׃‬
Então:
Xij = Valor observado para a i-ésima unidade de observação para a j-ésima característica
observada.
Do ponto de vista da análise estatística, este conjunto de dados pode ser visto
como uma MATRIZ DE DADOS de ordem n x p, isto é:

V1 V2 ... Vj .... Vp
1 ‫׃‬ X11 X12 .. X1j .. X1p
2 ‫׃‬ X22 X22 .. X2j .. X2p
. ‫׃‬ .. .. .. .. .. ..
. ‫׃‬  .. .. .. .. .. ..

i --- --- --- Xij --- --- Xi1 Xi2 .. Xij .. XiP
. ‫׃‬ .. .. .. .. .. ..
. ‫׃‬ .. .. .. .. .. ..
n ‫׃‬ Xn1 X12 .. Xnj .. Xnp

Estatística Multivariada 2 – Prof. Pedro Ferreira Filho – 2o Semestre de 2013 Página 1


Cápítulo 3 – Análise Fatorial de Correspondências Simples e Múltiplas

A partir do problema em estudo e do tipo de característica de interesse observada,


métodos estatísticos apropriados devem ser utilizados para uma adequada analise e
interpretação dos dados e conseqüente solução do problema.
Estaremos aqui interessados na situação onde o problema em estudo procura
identificar relações entre as unidades de observação, entre as características observadas e
entre unidades de observação e característica simultaneamente, ou seja, considerando a
matriz de dados acima, relações entre as linhas, entre as colunas e entre linhas e colunas
simultaneamente.
Os métodos estatísticos para este tipo de estudo, assim como o uso de qualquer
procedimento estatístico, depende do tipo de informação disponível, ou seja, do tipo de
característica observada. Quando as características observadas são quantitativas as
metodologias de Análise de Componentes Principais (ACP), Análise Fatorial (AF) e Análise
de Conglomerados (Cluster) são apropriadas para o estudo. Porém, em muitas situações
praticas, particularmente nas Ciências Humanas e Sociais, com destaque na parte de
pesquisa de opinião, as características de interesse são em quase sua totalidade,
características qualitativas. Nestes casos, caso exista alguma característica quantitativa
dentre aquelas de interesse, ela poderá ser categorizada e assim receber o mesmo
tratamento das demais. Para estas situações é que a Analise Fatorial de Correspondências
aparece como uma alternativa para analise do problema em estudo.
A necessidade de uso de diferentes métodos estatísticos para as situações de
características quantitativas e qualitativas pode ser ilustrada da seguinte forma:
Consideremos que n observações são tomadas para duas características de
interesse, isto é:

Obs X1 X2
1 X11 X12
2 X22 X22
.. .. ..
i Xi1 Xi2
i’ Xi’1 Xi’2
.. .. ..
.. .. ..
n Xn1 X12
Neste caso, se:

Estatística Multivariada 2 – Prof. Pedro Ferreira Filho – 2o Semestre de 2013 Página 2


Cápítulo 3 – Análise Fatorial de Correspondências Simples e Múltiplas

i) X1 e X2 são variáveis quantitativas para comparação de duas observações i e i’


podemos verificar as seguintes relações:

a) { Xij = Xi’j ou Xij = Xi’j };

b) { Xij ≥ Xi’j ou Xij ≤ Xi’j };

c) { Xij - Xi’j ou Xij/Xi’j };

Ou seja, a partir da propriedade numérica dos valores observados, temos diferentes


formas de comparar duas observações para cada umas das características observadas.

ii) X1 e X2 são variáveis qualitativas para comparação de duas observações i e i’

podemos verificar as seguintes relações:

a) { Xij = Xi’j ou Xij ≠ Xi’j };

Neste caso os valores observados são apenas códigos sem qualquer propriedade
numérica, portanto somente é possível identificar se duas observações têm ou não o
mesmo atributo.

O mesmo raciocínio pode ser feito para o estudo da existência ou não de relação
entre as duas características observadas.
Dado a não existência de propriedades numéricas das características observadas, a
análise estatística neste caso é realizada com o uso de TABELAS DE CONTINGENCIA, onde
é obtido número de ocorrências simultâneas das diferentes categorias de cada
característica em estudo, isto é, considerando as características V1 com P possíveis
categorias (possíveis valores que a característica pode assumir) e V2 com K possíveis
categorias, temos:

Estatística Multivariada 2 – Prof. Pedro Ferreira Filho – 2o Semestre de 2013 Página 3


Cápítulo 3 – Análise Fatorial de Correspondências Simples e Múltiplas

Obs X1 X2 1 2 j K
1 X11 X12 1 n11 n12 .. n1j .. n1pk n1.
2 X22 X22 2 n22 n22 .. n2j .. n2k n2.
.. .. .. .. .. .. .. .. .. .. ..
.. .. .. .. .. .. .. .. ..

i’ Xi’1 Xi’2 I ni1 ni2 .. nij .. nik ni.
.. .. .. .. .. .. .. .. .. .. ..
.. .. .. .. .. .. .. .. .. .. ..
n Xn1 Xn2 P np1 np2 npj
.. .. npk np.
n.1 n.2 .. n.j .. n.k n..

Onde:

nij = número de unidades de observação que possuem simultaneamente a categoria i da

característica X1 e a categoria j da característica X2 , chamada freqüência conjunta


de X1 e X2 .
ni. = número de unidades de observação que possuem a categoria i da característica

X1, chamada freqüência marginal de X1 .


n.j = número de unidades de observação que possuem a categoria j da característica

X2, chamada freqüência marginal de X2.

Observação : Ao construirmos uma tabela de contingência para as características


observadas estamos perdendo a informação especifica (individual) das unidades de
observação.
Os procedimentos estatísticos para análise de uma TABELA DE CONTINGÊNCIA são
bastante difundidos na literatura estatística e constitui-se de capitulo obrigatório em
qualquer texto de Estatística Básica. O objetivo da análise constitui-se basicamente na
identificação da existência ou não de associação entre as variáveis em estudo. A situação
mais usual é aquela onde as características observadas são estudadas considerando-se as

possíveis combinações duas a duas através do uso da estatística χ2 – Qui-Quadrado de

Pearson.

Estatística Multivariada 2 – Prof. Pedro Ferreira Filho – 2o Semestre de 2013 Página 4


Cápítulo 3 – Análise Fatorial de Correspondências Simples e Múltiplas

A estatística χ2 – Qui-Quadrado de Pearson é dada por:

p p p p
( nij − ni .n. j ) 2 ( oij − eij ) 2
χ2 = ∑∑ ni .n. j
= ∑∑ eij
i =1 j =1 i =1 j =1

onde:

oij = nij = freqüência observada


eij = freqüência esperada sob a hipótese de independência (não existência de associação
entre as características em estudo)
Podemos mostrar que : eij = ni.n.j

Portanto temos que o uso tradicional da estatística χ2 – Qui-Quadrado de Pearson,

nos leva ao estudo dos desvios dos valores em relação a hipótese de independência (não

associação entre as variáveis). A medida que estes desvios crescem a χ2 – Qui-Quadrado

de Pearson caracteriza-se a existência de associação entre as características em estudo.


No caso de independência temos que o conhecimento de uma característica não nos
permite informações sobre a segunda característica. Ao contrário, quando da existência de
dependência entre as características temos que o conhecimento do valor observado para
uma característica implica na ocorrência de determinados valores da segunda
característica com maior ou menor probabilidade.
Como ilustração, consideremos a seguinte situação:

CASO A CASO B

Tabela de A * B Tabela de A * B

B B

A B1 B2 B3 B4 Total A B1 B2 B3 B4 Total

A1 214 237 78 119 648 A1 156 272 142 78 648

A2 51 102 126 22 301 A2 72 127 66 36 301

A3 111 304 139 48 602 A3 144 254 132 72 602

Total 376 643 343 189 1551 Total 372 653 340 186 1551

Estatística Multivariada 2 – Prof. Pedro Ferreira Filho – 2o Semestre de 2013 Página 5


Cápítulo 3 – Análise Fatorial de Correspondências Simples e Múltiplas

REPRESENTAÇÃO GRAFICA

χ2 – Qui-Quadrado de Pearson.

Statistic DF Value Prob Statistic DF Value Prob

Chi-Square 6 173.3787 <.0001 Chi-Square 6 0.0098 1.0000

Temos, portanto que as características em estudo, no caso A, apresenta associação


enquanto que no caso B elas são independentes.
Uma forma alternativa de se investigar a existência da independência das
características é o uso das tabela de freqüências por linhas e colunas. Para os casos
acima:

PERFIS POR LINHA


CASO A
CASO B

Tabela de A * B Tabela de A * B
B B
Tota
A B1 B2 B3 B4 l A B1 B2 B3 B4 Total
A1 33.02 36.57 12.03 18.36 100.00
A1 24.07 41.98 21.91 12.04 100.00

A2 16.94 33.88 41.86 7.30 100.00


A2 23.92 42.19 21.93 11.96 100.00

A3 18.43 50.49 23.89 7.97 100.00


A3 23.92 42.19 21.93 11.96 100.00

Total 24.24 41.57 22.11 12.19 100.00


Total 23.98 42.10 21.92 11.99 100.00

Estatística Multivariada 2 – Prof. Pedro Ferreira Filho – 2o Semestre de 2013 Página 6


Cápítulo 3 – Análise Fatorial de Correspondências Simples e Múltiplas

PERFIS POR COLUNA

CASO A CASO B

Tabela de A * B Tabela de A * B

B B

A B1 B2 B3 B4 Total A B1 B2 B3 B4 Total

A1 56.91 36.86 22.74 62.96 41.78 A1 41.94 41.65 41.76 41.94 41.78

A2 13.56 15.86 36.73 11.64 19.41 A2 19.35 19.45 19.41 19.35 19.41

A3 29.52 47.28 40.52 25.40 38.81 A3 38.71 38.90 38.82 38.71 38.81

Total 100.0 100.0 100.0 100.0 100.0 Total 100.0 100.0 100.0 100.0 100.0

Podemos observar nos dois casos acima, perfil por linha e por coluna a existência
ou não de associação entre as características em estudo. No caso A os valores no interior
da tabela são distintos dos valores marginais, de colunas e linhas respectivamente,
enquanto que no caso B estes mesmos valores são praticamente iguais. Isto significa que,
no caso de perfis por linha, temos que no caso A, a informação das colunas (categorias de
B) altera a informação que é diferente da informação obtida sem o conhecimento de B
(valor marginal), já no caso B o conhecimento dos níveis de B fornece o mesmo valor do
que aquele obtido sem o conhecimento do mesmo. O mesmo raciocínio pode ser feito
para o caso de perfil por coluna.
O teste Qui-Quadrado nos permite então concluir pela existência ou não de
associação entre duas características em estudo. Caso existam mais do que duas
características em estudo, todas as possíveis combinações de duas características podem
ser estudadas.
Realizada esta analise podemos ainda ter interesse nas seguintes questões :
i) No caso de existência de associação entre as características como podemos
identificar os desvios em relação a hipótese de independência, ou ainda, que
categorias de A e B apresentam freqüências (e conseqüentemente, associação)
acima do esperado?

Estatística Multivariada 2 – Prof. Pedro Ferreira Filho – 2o Semestre de 2013 Página 7


Cápítulo 3 – Análise Fatorial de Correspondências Simples e Múltiplas

ii) No caso de presença de três ou mais características no estudo, como identificar


conjuntamente a associação entre categorias de todas as variáveis?

Estas questões não podem ser respondidas pelos métodos usualmente utilizados na
análise deste tipo de problema, e é com esta finalidade que a ANALISE FATORIAL DE
CORRESPONDENCIA foi proposta.
Portanto, a ANALISE FATORIAL DE CORRESPONDENCIAS é um procedimento
estatístico exploratório multivariado para estudo de tabelas de contingências.

3.2. ANÁLISE FATORIAL DE CORRESPONDÊNCIAS:

3.2.1. INTRODUÇÃO:

A Análise Fatorial de Correspondências foi proposta por J. P. Benzécri nos anos 60 com
o objetivo de realizar estudo de tabelas de contingência (cruzamento de variáveis
categóricas). Proposta inicialmente para o caso de análise conjunta de duas variáveis foi
mais tarde estendida para o estudo de um número qualquer de variáveis.
Hoje, dizemos que quando duas variáveis estão em estudo temos uma Análise Fatorial
de Correspondências Simples ou Binárias (AFCS) e para o caso de mais variáveis temos a
Análise Fatorial de Correspondências Múltiplas (AFCM).
Por suas propriedades estatísticas e pela riqueza de suas interpretações,
corroborada pelo desenvolvimento de recursos computacionais, a análise de
correspondências tornou-se um método privilegiado na descrição de dados qualitativos.
Com estas características, constitui-se numa ferramenta com inúmeras possibilidades de
uso, particularmente nas áreas de ciências humanas e sociais onde a presença de
variáveis qualitativas de interesse é bastante usual.
Podemos destacar dois grandes objetivos gerais da Análise Fatorial de
Correspondências:
i) Analisar toda informação contida em uma Tabela de Contingência;
ii) Representar Graficamente a estrutura de uma Tabela de Contingência;

Estatística Multivariada 2 – Prof. Pedro Ferreira Filho – 2o Semestre de 2013 Página 8


Cápítulo 3 – Análise Fatorial de Correspondências Simples e Múltiplas

3.2.2. ANÁLISE FATORIAL DE CORRESPOINDÊNCIAS SIMPLES (AFCS):

A Análise Fatorial de Correspondências Simples (AFCS) tem por objetivo o estudo


de uma única tabela de contingência, ou seja, nos casos onde o problema em estudo se
resume a duas variáveis. É importante, porém destacar que a maior parte das noções
introduzidas e os resultados obtidos para esse caso podem ser generalizadas às situações
com mais de uma tabela de contingência (AFCM), que será abordado posteriormente.

3.2.2.1. DADOS, TABELA DE CONTINGÊNCIA E HIPÓTESE DE INDEPENDÊNCIA:

Como já vimos inicialmente à informação conjunta de duas variáveis qualitativas é


apresentada na forma de uma tabela de contingência.

I: número de modalidades da característica 1


Modalidades
da 2ª variável
J:número de modalidades da característica 2
1 j J .
nij: número de indivíduos que possuem a modalidade i
1 da primeira característica e a modalidade j da segunda
característica (número de indivíduos que tem nível de
Modalidades i kij estudos i e ocupam a profissão j).
da 1ª variável
∑∑i j
k ij =n (número total de indivíduos)
I

Figura 1: Tabela de contingência dos dados originais.

A tabela de contingência da figura 1 é definida em termos de freqüências absolutas,


a partir da mesma pode-se construir a tabela de freqüências relativas F, dividindo-se cada
valor nij pelo total de n observações. Esta nova tabela define uma medida de
probabilidade sobre o espaço produto I × J. A marginal desta tabela, probabilidades

marginais, tem por termo geral fi. e f.j (cf. Figura 2).

Estatística Multivariada 2 – Prof. Pedro Ferreira Filho – 2o Semestre de 2013 Página 9


Cápítulo 3 – Análise Fatorial de Correspondências Simples e Múltiplas

1 j J
1
f ij = nij n

f i. = ∑ f ij
i fij
fi.
j

I f . j = ∑ f ij
i
f.j 1
∑i
f i. = ∑f
j
.j = ∑∑ f
i j
ij =1

Figura 2: A tabela de freqüências relativas F.


Uma tabela de contingência expressa a relação entre variáveis qualitativas.
Classicamente, para uma medida de probabilidade, diz-se que existe independência (não
existência de relação entre as variáveis) quando para todo i e todo j cumpre-se a
igualdade:

fij = fi. f.j (2-1)

Existe relação entre as duas variáveis quando uma ou mais caselas fij é diferente

do produto fi..f.j. Se fij é superior a este produto, as modalidades i e j se afastam da

situação de independência, diz-se que i e j se atraem. Pelo contrário, se fij é inferior ao


produto das marginais existe uma repulsão entre estas duas modalidades.

A independência se expressa também considerando a tabela como um conjunto de


linhas, ou seja, a igualdade anterior é equivalente a:

f ij
= f.j (2-2)
fi .
A quantidade f.j representa o percentual da população total que possui a

f ij
modalidade j, enquanto que representa o percentual de indivíduos numa
fi.
subpopulação da modalidade i que também possuem a modalidade j. Quando existe
independência, as I subpopulações caracterizadas pelas modalidades i da primeira variável

Estatística Multivariada 2 – Prof. Pedro Ferreira Filho – 2o Semestre de 2013 Página 10


Cápítulo 3 – Análise Fatorial de Correspondências Simples e Múltiplas

se dividem segundo as J modalidades j da segunda variável com os mesmos percentuais.


Todas as linhas são então proporcionais. A recíproca é verdadeira quando todas as linhas
são proporcionais a marginal fi. e as duas variáveis são independentes. Portanto sempre
existe relação quando as linhas não são todas proporcionais a marginal e quando não são
idênticas.

Observa-se ainda que numa tabela de contingência, linhas e colunas têm um papel
absolutamente simétrico e que a independência se expressa da mesma maneira sobre o
conjunto de colunas. As igualdades anteriores são equivalentes a seguinte:

f ij
= fi. (2-3)
f .j
Existe independência quando todos os percentuais das colunas são iguais as fi.
marginais, ou seja, quando as colunas são proporcionais.

3.2.2.2. OBJETIVO:

A Análise de Correspondência tem por objetivo, identificar as relações das linhas,


colunas e entre linhas e colunas de uma tabela de contingência, ou ainda, analisar a
similaridade e dissimilaridade das linhas e colunas.

Em uma tabela de contingência, a semelhança entre duas linhas, ou entre duas


colunas, expressa-se de maneira totalmente simétrica. Duas linhas são consideradas
próximas se estão associadas da mesma forma em relação ao conjunto das colunas, ou
seja, se elas apresentam freqüências próximas para todas as colunas. Simetricamente,
duas colunas estão próximas se estão associadas de um mesmo modo no conjunto das
linhas.

Esquematicamente, o estudo do conjunto das linhas consiste em expor uma técnica


na qual se buscam as linhas cuja distribuição se desvia mais do conjunto da população,
aquelas que assemelham entre si (no sentido determinado anteriormente) e as que se
opõem. Para relacionar a tipologia das linhas com o conjunto das colunas, caracteriza-se

Estatística Multivariada 2 – Prof. Pedro Ferreira Filho – 2o Semestre de 2013 Página 11


Cápítulo 3 – Análise Fatorial de Correspondências Simples e Múltiplas

cada grupo de linhas pelas colunas a que este grupo se associa muito ou muito pouco. O
estudo do conjunto das colunas é totalmente análogo.

Está claro que esta aproximação, segundo a noção de semelhança utilizada,


permite estudar a relação entre as duas variáveis, isto é, o desvio da tabela da situação de
independência. A análise desta relação é o objetivo fundamental da AFCS.

Finalmente é importante destacar que a AFC (Simples e Múltiplas) como toda


Análise Fatorial também é utilizada para uma redução da dimensão dos dados
conservando maior parte da informação possível.
3.2.2.3. PERFIS LINHAS E COLUNAS:

Na AFCS a tabela original não é analisada diretamente. Num estudo das linhas, a
tabela de dados é transformada dividindo-se cada termo fij da linha i pela marginal fi.
desta linha. A nova linha se denomina perfil linha (cf. Figura 3). Esta transformação
atende o objetivo de estudar a relação entre as duas variáveis por meio do desvio entre os
percentuais das linhas. Esta comparação, entretanto pode ser influenciada pelos seus
efeitos marginais.

f ij
O número representa, em nosso exemplo, a probabilidade de ocupar uma
f i.

profissão j sabendo que possui nível de escolaridade i. O perfil-linha i nada mais é que a
probabilidade condicionada definida por i sobre o conjunto de colunas.

Devido a simetria entre linhas e colunas, tem-se um raciocínio análogo para as

colunas. Levando a noção de perfil-coluna. (cf. Figura 3).

1 j J 1 j J
1 1

i f ij /f i. 1 i f ij /f.j

I
I
1

Figura 3: As notações de perfil-linha e de perfil-coluna

Estatística Multivariada 2 – Prof. Pedro Ferreira Filho – 2o Semestre de 2013 Página 12


Cápítulo 3 – Análise Fatorial de Correspondências Simples e Múltiplas

Assim, na AFC, segundo o interesse, nas linhas e colunas, não se considera a


mesma tabela transformada. Contudo, as duas transformações em perfis possuem o
mesmo significado a respeito dos objetos a que se referem. Estas transformações são
interessantes por si mesmas, independente de todo o contexto da análise fatorial. Para se
comentar uma tabela cruzada, quase sempre se utiliza a forma de percentual com respeito
a linhas ou as colunas segundo os aspectos que se pretende colocar em evidência.

3.2.2.4. A SEMELHANÇA ENTRE PERFIS: A DISTÂNCIA χ2

Na AFCS, a semelhança entre duas linhas ou entre duas colunas está definida por

uma distância entre seus perfis. Esta distância é conhecida como distância χ
2
(Qui-

quadrado) ou distância Benzecri. É definida de maneira análoga para as linhas e colunas.


Da seguinte forma:

1  f ij f lj 
d 2 ( perfil − linha i, perfil - linha l) = ∑  − 
χ j f.j  fi. fl.  (2-
4)

2
1  f ij f ik 
d 2 ( perfil − coluna j, perfil - coluna k) = ∑  − 

χ i f
i. 
f .j
f .k  (2-5)

Nestas relações, a distância entre suas linhas depende essencialmente das


diferenças limite a limite entre os dois perfis. Esta distância é uma soma ponderada dos
1
quadrados das diferenças citadas. A ponderação equilibra a influência das colunas
f. j

sobre a distância entre as linhas, ou seja, aumenta os limites, a priori menos freqüentes
referente as modalidades raras, isto representa um papel análogo ao da divisão pelo
desvio padrão em caso das variáveis numéricas.

χ
2
A distância possui uma propriedade fundamental chamada equivalência

distribucional. Segundo esta propriedade, se duas colunas proporcionais de uma tabela

Estatística Multivariada 2 – Prof. Pedro Ferreira Filho – 2o Semestre de 2013 Página 13


Cápítulo 3 – Análise Fatorial de Correspondências Simples e Múltiplas

são somadas a distância entre os perfis-linhas não se altera. Esta propriedade matemática
significa que se substituindo duas colunas ou linhas quase proporcionais por sua soma não
se modifica sensivelmente o resultado de uma AFC

3.2.2.5. A REPRESENTAÇÃO GRÁFICA DE UMA TABELA DE CONTINGÊNCIA E A

DISTÂNCIA χ2

Uma Tabela de Contingência pode ser comparada a uma tabela de dados Xn x p

sobre a qual estamos interessados em investigar as relações entre linhas (categorias da


variável 1), entre colunas (categorias da variável 2) e entre linhas e colunas (variável 1 e
variável 2). A diferença reside no fato de que os valores Xij não representam a medida
observada para uma determinada característica observada, mas sim o número de
ocorrências simultâneas das categorias i da variável 1 e j da variável 2. Como então para
este caso podemos obter uma matriz de distâncias entre linhas e colunas de forma a
exercer o mesmo papel que a matriz de variâncias e covariâncias (ou matriz de
correlação) tem na Analise de Componentes Principais.
Vamos considerar o seguinte exemplo:

Tabela de Contingência
Tipos de Centrais Tel. Prod.
País Produtor Pequenas Medianas Grandes x País
Linha Coluna (1) (k) (3)

A (1) 75 25 54 154

B (j) 56 78 189 323

C (3) 89 132 202 423

Total x Tipo 220 235 445 900

Temos neste caso duas variáveis:


Pais Produtos : Três paises – A B C
Tipo de Central Telefônica: Pequenas Médias Grandes

Estatística Multivariada 2 – Prof. Pedro Ferreira Filho – 2o Semestre de 2013 Página 14


Cápítulo 3 – Análise Fatorial de Correspondências Simples e Múltiplas

Podemos representar graficamente esta tabela da seguinte forma:


Referência : Colunas Referência : Linhas

Figura 4: Representação Gráfica de um TC

Poderíamos pensar então, para identificar a semelhança entre linhas e entre


colunas, calcular a distâncias entre dois pontos quaisquer dos gráficos acima, ou seja:

Distância Euclidiana entre duas Linhas da Tabela TC

(n jk − n j'k ) 2
K
d ( j, j' ) = ∑
k =1
∀j, j'∈ j = 1,..., J

Distância Euclidiana entre duas Colunas da Tabla TC

∑ (n )
J
d(k ,k ' ) = jk − n jk ' 2
∀k, k'∈ k = 1,..., K
j= 1

Agora, como vimos, o nij nas expressões acima representam o número de vezes
que a combinação i e j ocorre, portanto será esta uma medida adequada para calculo da
semelhança entre linhas ou colunas? E em caso negativo, que etapas devemos percorrer
na obtenção de uma medida de distância adequada para os objetivos propostos?
Consideremos a distância entre os paises A e B:

Estatística Multivariada 2 – Prof. Pedro Ferreira Filho – 2o Semestre de 2013 Página 15


Cápítulo 3 – Análise Fatorial de Correspondências Simples e Múltiplas

No Exemplo:

se n.. = 900


2 2 2 2
d (A,B) = (75 - 56) + (25 - 78) + (54 - 189) = 21395
d (A,B) = 146,27

se n.. = 90 centrales


2 2 2 2
d (A,B) = (8 - 6) + (3 - 8) + (5 - 19) = 225
d (A,B) = 15
Podemos observar perfeitamente o efeito que o tamanho total da amostra provoca
no calculo da distância euclidiana. Portanto, não podemos utilizar a distância euclidiana na
tabela de freqüências observadas como uma forma adequada de calculo da distância entre
duas linhas e duas colunas. Para se retirar o efeito do tamanho da amostra, devemos
dividir cada um dos valores observados por n, obtendo-se assim a tabela de freqüências
percentuais:

nij
f ij =
n
No exemplo:
Tabla de Freqüências associada
a Tabela de Contingência
Tipos de Centrais Tel. Prod.
Pequenas Medianas Grandes x País
País Produtor

A 8,2% 2,8% 6,0% 17,1%

B 6,3% 8,7% 21,0% 35,9%

C 9,9% 14,7% 22,4% 47,0%

Total x Tipo 24,4% 26,2% 49,4% 100%


Estatística Multivariada 2 – Prof. Pedro Ferreira Filho – 2o Semestre de 2013 Página 16
Cápítulo 3 – Análise Fatorial de Correspondências Simples e Múltiplas

Neste caso, as distâncias euclidianas entre linhas e entre colunas são dadas por:

Distância Euclidiana entre duas Linhas da Tabela F

2
 n jk n j'k 
(fjk − fj'k ) 2
K K
d( j, j' ) = ∑ 
k =1 

 n.. n.. 


= ∑
k =1

Distância Euclidiana entre duas colunas da Tabela F

2
 n jk n jk ' 
(fjk − fjk ' ) 2
J J
d(k ,k ' ) = ∑ 
j =1 

 n.. n.. 


= ∑
j =1

Porém, como pode-se observar, os cálculos são os mesmos anterior, exceto que
todo valor esta dividido pelo tamanho de amostra n. Portanto o calculo da distância na
tabela de freqüências percentuais conserva a mesma informação da tabela de dados
originais, graficamente:

Estatística Multivariada 2 – Prof. Pedro Ferreira Filho – 2o Semestre de 2013 Página 17


Cápítulo 3 – Análise Fatorial de Correspondências Simples e Múltiplas

Figura 5: Distâncias entre colunas de uma Tabela T e F.

Desta forma, a representação gráfica da informação da tabela F (Tabela de


Freqüências) é uma imagem reduzida, proporcional a imagem apresentada pela tabela T
(Dados Originais).
O tamanho da amostra não é, porém o único fator de distorção na leitura de uma
tabela de contingência, e conseqüentemente, não é o único fator que pode ocasionar
distorções no calculo da distância euclidiana entre linhas e colunas de uma tabela de
contingência.
Vejamos a seguinte situação: no exemplo estamos interessados em comparar os
paises A e C, pela tabela de freqüências percentuais:

Tipo Central
Pais Total
P M G
A 8.2% 2.8% 6.0% 17.1%
C 9.9% 14.7% 22.4% 47.0%

Se calcularmos a distância euclidiana entre estas duas linhas temos:


d2 (A,C) = (8.3 - 9.9)2 + (2.8 – 14.7)2 + (6.0 – 22.4)2 = 20.33

Estatística Multivariada 2 – Prof. Pedro Ferreira Filho – 2o Semestre de 2013 Página 18


Cápítulo 3 – Análise Fatorial de Correspondências Simples e Múltiplas

Porém esta é uma forma adequada de obtenção da distância entre duas linhas? Os
dois paises podem ser “comparados” desta forma direta?
Pela distribuição marginas, temos que o país A produz 17.1% das centrais
telefônicas enquanto que o país C, 47%. Portanto, na comparação entre paises os valores
8.3 e 9.9% (bem como os demais), não são efetivamente comparáveis, pois estão
baseados na referência do tamanho de amostra total, quando na verdade deveria se
referenciar no tamanho de amostra de cada categoria. Para que isto seja possível
devemos ter como referencia o perfil linha, isto é:

Tipo Central
País Total
P M G
A 48.7% 16.2% 35.1% 100%
C 21.1% 31.3% 47.6% 100%

Agora podemos efetivamente comparar a diferença entre os dois paises: O país A produz
29% de pequenas centrais enquanto que C produz 21.1%. A distância euclidiana é agora
dada por:
d2 (A,C) = (48.7 – 21.1)2 + (16.2 – 31.3)2 + (35.1 – 47.6)2
Raciocínio análogo pode ser feito para o calculo da distância euclidiana entre as
colunas da tabela.
Desta forma, devemos considerar:

Tabela de Perfis Linha - TL

Tipos de Centrais Tel. Prod.


Pequenas Medianas Grandes x País
País Produtor

A 48,7% 16,2% 35,1% 100%

B 17,3% 24,2% 58,5% 100%

C 21,0% 31,2% 47,8% 100%

Total x Tipo 24,4% 26,2% 49,4% 100%

Estatística Multivariada 2 – Prof. Pedro Ferreira Filho – 2o Semestre de 2013 Página 19


Cápítulo 3 – Análise Fatorial de Correspondências Simples e Múltiplas

Tabela de Perfis Coluna - TC

Tipos de Centrais Tel. Prod.


Pequenas Medianas Grandes x país
País Produtor

A 34,1% 10,6% 12,2% 17,1%

B 25,5% 33,2% 42,4% 35,9%

C 40,4% 56,2% 45,4% 47,0%

Total x Tipo 100% 100% 100% 100%

A distância euclidiana para as tabelas de perfis linhas e colunas é dado por,


respectivamente:

Distância Euclidiana entre Perfis


Distancia Euclidiana entre Duas Linhas da Tabela de
Perfis Linha - TL
2
K
 f jk f j'k 
d ( j, j' ) = ∑  −
 f j. f j'.
k =1 



∀j, j'∈ j = 1,, J

Distancia Euclidiana entre Duas Colunas da Tabela de


Perfis Coluna - TC
2
J
 f jk f jk ' 
d(k ,k ' ) = ∑  −
 f.k f.k ' 
j= 1 


∀k , k '∈ k = 1,,K

Ao trabalharmos com os perfis por linhas (ou colunas) definimos uma forma de
efetivamente estarmos com valores comparáveis. Porém uma distorção ainda é
observada, vejamos: Ao calcularmos, por exemplo, d(j, j’) como acima definido estamos as

Estatística Multivariada 2 – Prof. Pedro Ferreira Filho – 2o Semestre de 2013 Página 20


Cápítulo 3 – Análise Fatorial de Correspondências Simples e Múltiplas

somando as diferenças entre as linhas j e j’ considerando que as mesmas têm igual


importância, mas vejamos:

Tipos de Centrais Tel. Prod.


Pequenas Medianas Grandes x país
País Produtor

A 48,7% 16,2% 35,1% 100%

B 17,3% 24,2% 58,5% 100%

C 21,0% 31,2% 47,8% 100%

Total x tipo 24,4% 26,2% 49,4% 100%

Diferença (C - A) : 27,7% 15% 12,7%

Cada componente da soma refere-se à diferença entre os dois paises nos diferentes
tipos de centrais, que por sua vez são produzidas em diferentes proporções cujo valor é
dado pela freqüência marginal. Portanto estes diferentes “graus de importância” (pesos)
de cada elemento deve ser considerado no cálculo da distância euclidiana. Temos então,
finalmente a distancia ponderada entre duas linhas (ou colunas), dadas por:

Distância Euclidiana do Chi2


entre dois Perfis em Linha de uma Tabela F

2
1  f jk − f j'k 
K
d ( j, j' ) = ∑ f f
k =1 .k  j.
f j'.



∀j, j'∈ j = 1,, J

Distância Euclidiana do Chi2


entre dois Perfis em Coluna de uma Tabela F

2
1  f jk − f jk ' 
J
d(k ,k ' ) = ∑ f f
j =1 j.  .k
f.k ' 
∀k , k '∈ k = 1, , K

Estatística Multivariada 2 – Prof. Pedro Ferreira Filho – 2o Semestre de 2013 Página 21


Cápítulo 3 – Análise Fatorial de Correspondências Simples e Múltiplas

Observe que as expressões acima são exatamente as expressões apresentadas em

2.4 e 2.5, ou seja é a distancia χ 2 . Geometricamente temos:

Estatística Multivariada 2 – Prof. Pedro Ferreira Filho – 2o Semestre de 2013 Página 22


Cápítulo 3 – Análise Fatorial de Correspondências Simples e Múltiplas

Este processo de transformação para obtenção dos perfis ponderados, que


possibilitam um adequado cálculo da distância euclidiana entre duas linhas (ou colunas)
de uma tabela de contingência, pode ser representado geometricamente da seguinte
forma:

Estatística Multivariada 2 – Prof. Pedro Ferreira Filho – 2o Semestre de 2013 Página 23


Cápítulo 3 – Análise Fatorial de Correspondências Simples e Múltiplas

Portanto, para obtermos uma matriz adequada para obtenção da distância


euclidiana entre linha (ou colunas), devemos considerar a tabela de perfis ponderados,
obtidas a partir de:

2
1  f jk f j' k 
 
K
d ( j , j' ) = ∑  − 
 
k =1 f .k f f
j . j '.

que é equivalente a:
2
 f jk f j' k 
 
K
d ( j , j' ) = ∑ − 
 f j . f .k f j'. f .k 
k =1

K
d ( j , j' ) = ∑ ( x *jk − x *j' k )2
k =1

Estatística Multivariada 2 – Prof. Pedro Ferreira Filho – 2o Semestre de 2013 Página 24


Cápítulo 3 – Análise Fatorial de Correspondências Simples e Múltiplas

Portanto temos o seguinte processo:


Dados Originais

V1 V2 ... Vj .... Vp
1 ‫׃‬
2 ‫׃‬
. ‫׃‬
. ‫׃‬
i --- --- --- Xij --- ---
. ‫׃‬
. ‫׃‬
n ‫׃‬


Tabela de Contingência

1 2 k K
1 n11 n12 .. n1j .. n1pk n1.
2 n22 n22 .. n2j .. n2k n2.
.. .. .. .. .. .. .. ..
.. .. .. .. .. ..
j ni1 ni2 .. nij .. nik ni.
.. .. .. .. .. .. .. ..
.. .. .. .. .. .. .. ..
J np1 np2 npj .. .. npk np.
n.1 n.2 .. n.j .. n.k n..

Estatística Multivariada 2 – Prof. Pedro Ferreira Filho – 2o Semestre de 2013 Página 25


Cápítulo 3 – Análise Fatorial de Correspondências Simples e Múltiplas

Tabela de Perfis Ponderados

1 2 j K
1 .. .. .. .. .. .. f1.
2 .. .. .. .. .. .. f2.
.. .. .. .. .. .. .. ..
.. .. .. .. .. .. ..
j .. .. .. x *jk .. .. fi.

.. .. .. .. .. .. .. ..
.. .. .. .. .. .. .. ..
J .. .. .. .. .. .. n.p.
.. .. 1
f .1 f .2 f.j f .k

onde:
K J

f jk n jk ∑ n jk ∑ n jk
x jk =
*
f jk = f j. = k =1
f .k = j =1
f j. f .k n.. n.. n..
J f jk
PM = ∑ = f .k
j =1 f j. f .k
Variabilidade Total com respeito a Centro de Gravidade:
2
 f jk  K J ( f − f f ) 2

ϕ = ∑ f .k ∑  f k  = ∑ ∑  =
K J
2
− jk .k j.


k =1 j =1
 f j . f .k 
k =1 j =1
 f .k f j . 
χ2
=
n

Estatística Multivariada 2 – Prof. Pedro Ferreira Filho – 2o Semestre de 2013 Página 26


Cápítulo 3 – Análise Fatorial de Correspondências Simples e Múltiplas

Este mesmo valor é obtido considerando-se também os perfis ponderados das


colunas. A variabilidade total é então uma função do qui-quadrado de Pearson, ou seja,
quanto maior o valor desta estatística, maiores os desvios em torno do valor esperado,
maiores os desvios observados e conseqüentemente, maiores relações entre linhas e
colunas a serem identificados.

Observações:

i) Quanto maior ϕ 2 , maiores as distorções na representação gráfica dos pontos


perfis. A medida que ϕ decresce (independência) a nuvem de pontos perfis
2

ponderados apresentara uma forma esférica.


ii) A operação de “centrar” os pontos perfis ponderados não modifica as distâncias
originais de cada ponto perfil em relação ao Centro de Gravidade G.
iii) Não existe perda de informação.
iv) Representação Gráfica somente é possível para casos onde o número de
categorias das variáveis envolvidas é no máximo igual a três
Assim a tabela de perfis ponderados, possui propriedades análogas a matriz de
variância e covariâncias (ou matriz de correlação) no caso de variáveis quantitativas.
Desta forma, processo de decomposição, via Teorema da Decomposição Espectral,
que é utilizado para obtenção dos componentes principais pode ser aplicado a matriz de
perfis ponderados, ou seja, a Análise Fatorial de Correspondências e a Análise de
Componentes Principais aplicada a matriz de perfis ponderados.

3.2.2.6. A DIAGONALIZAÇÃO DA MATRIZ DE PERFIS PONDERADOS:

Consideremos:

Bii = matriz de perfis ponderados linha


Vjj = matriz de perfis ponderados coluna

Estatística Multivariada 2 – Prof. Pedro Ferreira Filho – 2o Semestre de 2013 Página 27


Cápítulo 3 – Análise Fatorial de Correspondências Simples e Múltiplas

Podemos mostrar que B e V são matrizes simétricas positivas definidas, assim


podemos aplicar o Teorema da Decomposição Espectral que no mostra que uma matriz X,
com as propriedades acima, pode ser decomposta da seguinte forma:

X = eλe'
onde:

λ = matriz diagonal com autovalores de X


e = matriz dos autovetores ortonormais associados aos autovalores de X.
Para o nosso problema, definimos:

B = wα λα wα ' V = uα λα uα '
Podemos provar que:
i) Os autovalores de B e V são os mesmos;

ii) 0 ≤ λα ≤ 1
∑ λα = ϕ
m
2
iii) onde m = (min(J,K)) = número de autovalores não nulos de B
α =1

ou V.

1 1
iv) uα = wα e wα = uα
f .k f j.
v) Coordenadas dos pontos perfis no α-ésimo eixo (linhas e colunas
respectivamente) :
K
Fα ( j ) = ∑ f jkl uα k
k =1

J
Gα ( k ) = ∑ f jkc wα j
j =1

Estatística Multivariada 2 – Prof. Pedro Ferreira Filho – 2o Semestre de 2013 Página 28


Cápítulo 3 – Análise Fatorial de Correspondências Simples e Múltiplas

F1 … F α … Fp G1 … Gα … Gp

… … … … … … … … … … … …
vi) Variância dos novos eixos: Gk … … Gα(k) … …
Lj … … Fα(j) … …
… … … … … … … … … … … …

GL 0 0 0 0 0 GK 0 0 0 0 0

Propriedades dos eixos fatoriais

Os fatores são p variáveis centradas, continuas.


J
∀α = 1,, p ⇒ Fα = ∑ f F ( j) = 0
j=1
j. α

K
∀α = 1, ,p ⇒ Gα = ∑f .k G α (k ) = 0
k =1
Variância dos eixos fatoriais : Fα = 0 ; ∀α = 1,,p

∑ p (F ( j) − F ) = ∑ p F
J J
( j) = λ α
2
s 2α = j α α
2
j α
j =1 j=1
K
s 2α = ∑p G k
2
α (k ) = λ α
k =1

Desta forma podemos interpretar o autovalor λα, associado ao α- ésimo fator


sendo a proporção expressa por este fator da relação entre as variáveis na tabela de
contingência, ou seja, quanto maior for este valor, maiores desvios da hipótese de
independência são “explicados”por este fator.
Percentual de Variância de Um dado Fator:

τα = pλ α × 100 = λ α2 × 100
ϕ
∑ αλ
α =1

Estatística Multivariada 2 – Prof. Pedro Ferreira Filho – 2o Semestre de 2013 Página 29


Cápítulo 3 – Análise Fatorial de Correspondências Simples e Múltiplas

Contribuição de um Ponto Perfil para a Variância de um Fator:

p j Fα2 ( j )
CTRα ( j ) = × 100 ∀ j ∈ J
λα
pk Gα2 (k )
CTRα (k ) = × 100 ∀ k ∈ K
λα

Estes valores expressam a contribuição de cada ponto perfil na formação do α-


ésimo fator. Quanto maior este valor, maior o “desvio” do ponto em relação a hipótese de
independência.

A A.F.C. produz os índices de contribução


dos pontos-perfis em linha e em coluna
Perfiles-línea F1 … Fα … Fp
L1 … … … … …
Lj … … CTRα (J) … …
LJ … … … … …
100% … 100% … 100%

Perf-colum. G1 … Gα … Gp
C1 … … … … …
Ck … … CTRα (K) … …
CK … … … … …
100% … 100% … 100%

Questão: Dois pontos perfis que apresentam a mesma coordenada num determinado
plano fatorial, podem apresentam diferente qualidade de representação neste plano ??

Geometricamente:
Estatística Multivariada 2 – Prof. Pedro Ferreira Filho – 2o Semestre de 2013 Página 30
Cápítulo 3 – Análise Fatorial de Correspondências Simples e Múltiplas

Neste caso, quanto menor o angulo formado, cos(w) → 1 (w→0o) ⇒ contribuição


de 100%, ou seja, este ponto é completamente representado neste plano fatorial. Quando
cos(w) → 0 (w→90o)⇒ contribuição de 0% (o ponto não tem qualquer representação
neste plano).
A medida de qualidade de representação acima é também definida por alguns
autore xom sendo a Corrα(i), ou seja, a coorelação do i-ésimo ponto perfil com o α-ésimo
plano fatorial.
Podemos ainda estabelecer a relação entre os eixos fatoriais nos espaços linha e
coluna. Estas relações são usualmente chamadas de Fórmulas de Transição e, permitem
que, a partir dos valores calculados num espaço, seja possível obter os eixos fatoriais na
outra dimensão.

Fórmulas de Transição
Coord. Fatoriais Coord. Fatoriais
Perfil-linha (j)
da linha (j) da Coluna (k)
 1  K f jk
Fα ( j) = 
 λ 

∑ G (k ) ∀ j ∈ J
f j. α
 α  k =1

Coord. Fatoriais Coord. Fatoriais


da coluna (k) Perfil-coluna (k)
da linha (j)
 1  J f jk
Gα (k ) = 
 λ 


F ( j) ∀ k ∈ K
f.k α
 α  j =1

Estatística Multivariada 2 – Prof. Pedro Ferreira Filho – 2o Semestre de 2013 Página 31


Cápítulo 3 – Análise Fatorial de Correspondências Simples e Múltiplas

3.2.2.7. ELEMENTOS SUPLEMENTÁRIOS:


Em algumas situações podemos ter interesse em verificar o comportamento de
categorias de uma (ou mais) mias variáveis qualitativas no plano fatorial gerado pelas
variáveis em estudo. A análise destes elementos suplementares visa usualmente propiciar
uma melhor interpretação do problema em estudo.
Tabela de Dados:

Temos então:

Estatística Multivariada 2 – Prof. Pedro Ferreira Filho – 2o Semestre de 2013 Página 32


Cápítulo 3 – Análise Fatorial de Correspondências Simples e Múltiplas

Coordenadas de um perfil-suplementar-linha :
 f jS1 S
f jk S 
f jK
S =  S ;; S ;; S 
(1,K )  f j. f j. fj. 

Perfil ponderado de S
 f jS1 S
f jk S
f jK 
S * =  f S f ;; f S f ;; f S f 

(1,K )  j. .1 j. .k j. .K

Perfil ponderado-centrado de S

 f jS1 S
fjk S
f jK 
S* * = − f.1 ;; − f.k ;; − f.K 
(1,K )  f jS. f.1 f jS. f.k f jS. f.K 

e,

Coordenadas do ponto-perfil S é obtido pela


Projeção do mesmo nos eixos fatoriais gerados...
 f jk
S K 
Fα (S ) = 
 f
k =1  j.
S f∑.k
− f.k  ⋅ w α (k )

f.k
sendo : w α (k ) = ⋅F ( j)
λα α
Coordenadas K  fS 
do perfil S em Fα (S ) =
λ
1 ⋅ 
jk

α k =1  f j. f.k
S ∑
− f.k  ⋅ Fα ( j)

linha 
Coordenadas J  fS 
do perfil S em G α S = ( ) 1 ⋅
λα ∑ 
 S
jk

j=1  f.k f j.
− f j.  ⋅ Gα (k )

coluna 

Observação:
Os perfis suplementares não participam da formação da matriz de “inércia”, são
considerados pontos perfis sem peso.
Estatística Multivariada 2 – Prof. Pedro Ferreira Filho – 2o Semestre de 2013 Página 33
Cápítulo 3 – Análise Fatorial de Correspondências Simples e Múltiplas

3.2.2.8. RECONSTRUINDO OS DADOS – INTERPRETANDO A DECOMPOSIÇÃO DOS

EIXOS FATORIAIS:

Dados que a decomposição da matriz de perfis foi realizada, como podemos


reconstruí-la a partir dos eixos fatoriais obtidos:
Consideremos:

Fórmula de reconstrução dos dados

Elemento Geral α-ésima coordenada


da Tabela TC de la j-ésima linha

 p 
f jk = p jpk 1 +
λ
1
 α =1 α

Fα ( j) Gα (k )


Desenvolvendo esta expressão ...


α-ésima coordenada
de la k-ésima coluna

Para cada eixo fatorial, temos sucessivamente:

para α = 0 f jk = p jpk

Tabela
Esquema : fjk = X pj = de
pk Indep.

para α = 1 f jk = p jpk + p jpk 1 F1 ( j ) G1 (k )


λ1
Tabela
fjk = de + fat. λ1 X F1(j)
Indep. G1(k)

Tabela Tabela
fjk = de + primeiro
Indep. fator
o
Estatística Multivariada 2 – Prof. Pedro Ferreira Filho – 2 Semestre de 2013 Página 34
Cápítulo 3 – Análise Fatorial de Correspondências Simples e Múltiplas

para α = 2

f jk = p jpk + p jpk 1 F1 ( j) G1 (k ) + p jpk 1 F2 ( j) G 2 (k )


λ1 λ2

Tabela Tabela
fjk = de + primeiro + fat. λ 2 X F2(j)
Indep. fator G2(k)

Tabela Tabela Tabela


fjk = de + primeiro + segundo
Indep. fator fator

para α = p

f jk = p jp k + p jpk 1 F1 ( j) G1 (k ) +  + p jp k 1 Fα ( j) G α (k )
λ1 λα

Tabela Tabela
fjk = de +…+ fat. λ p
+ primeiro +…+ X Fp(j)
Indep. fator Gp(k)

Tabela Tabela Tabela


fjk = de + primeiro + … + p-ésimo
Indep. fator fator

A reconstrução completa da tabela de freqüências é feita somando a p tabelas produzida


em cada um dos eixos fatoriais:

Estatística Multivariada 2 – Prof. Pedro Ferreira Filho – 2o Semestre de 2013 Página 35


Cápítulo 3 – Análise Fatorial de Correspondências Simples e Múltiplas

Tabela Tabela Tabela Tabela


fjk - de = primeiro + segundo + … + p-ésimo
Indep. fator fator fator

ϕ2 = λ1 + λ2+ … + λp
• O primeiro plano fatorial de uma A.F.C. apresenta la
a aproximação mais importante do desvio da
independência da Tabela de Contingência.
• Os eixos sucessivos apresentam “correções”
complementares a esta primeira aproximação...

Finalmente:

Tabela Tabela Tabela Tabela


fjk = de + primeiro + segundo + … + p-ésimo
Indep. fator fator fator

Estatística Multivariada 2 – Prof. Pedro Ferreira Filho – 2o Semestre de 2013 Página 36


Cápítulo 3 – Análise Fatorial de Correspondências Simples e Múltiplas

3.2.2.9. A REPRESENTAÇÃO GRÁFICA – INTERPRETAÇÃO:

A representação gráfica de uma Análise Fatorial de Correspondências é feita através


do gráfico das coordenadas de cada plano fatorial. Usualmente os primeiros planos
fatoriais são suficientes para análise do problema em estudo. Para determinação do
número de eixos a ser analisado utiliza-se usualmente considerando o valor absoluto de
cada um dos p autovalores e/ou consultando a distribuição dos autovalores não nulos
conforme figura abaixo.

Considerando o exemplo das centrais telefônicas, temos:

Estatística Multivariada 2 – Prof. Pedro Ferreira Filho – 2o Semestre de 2013 Página 37


Cápítulo 3 – Análise Fatorial de Correspondências Simples e Múltiplas

Lembrando:

Tabela de Perfis em Linha


Tipos de Centrais Tel. Prod.
Pequenas Medianas Grandes x país
País Produtor

A 48,7% 16,2% 35,1% 100%

B 17,3% 24,2% 58,5% 100%

C 21,0% 31,2% 47,8% 100%

Total x tipo
-
24,4%
+
26,2%
-
49,4% 100%

PROGRAMA SAS PARA O EXEMPLO:


DADOS

Pais P M G
A 75 25 54
B 56 78 189
C 89 132 202

PROGRAMA:

proc corresp out=coord;


var P M G;
id Pais;
run;
%plotit (data=coord, datatype=corresp);
run;

Estatística Multivariada 2 – Prof. Pedro Ferreira Filho – 2o Semestre de 2013 Página 38


Cápítulo 3 – Análise Fatorial de Correspondências Simples e Múltiplas

RESULTADOS:

The CORRESP Procedure


Inertia and Chi-Square Decomposition

Singula Principa Chi- Cumulativ


r l Squar Percen e 18 36 54 72 90
Value Inertia e t Percent ----+----+----+----+----+---

************************
0.25939 0.06728 60.5564 88.74 88.74 *

0.09241 0.00854 7.6851 11.26 100.00 ***

Total 0.07582 68.2415 100.00

Degrees of Freedom = 4

Row Coordinates Summary Statistics for the Row


Points
Dim1 Dim2
Quality Mass Inertia
A 0.5648 -0.0297
A 1.0000 0.1711 0.7219
B -0.1641 -0.1088
B 1.0000 0.3589 0.1835
C -0.0803 0.0939
C 1.0000 0.4700 0.0946

Partial Contributions to Inertia


for the Row Points

Dim1 Dim2

A 0.8113 0.0176

B 0.1437 0.4974

C 0.0450 0.4850

Estatística Multivariada 2 – Prof. Pedro Ferreira Filho – 2o Semestre de 2013 Página 39


Cápítulo 3 – Análise Fatorial de Correspondências Simples e Múltiplas

Indices of the Coordinates that Contribute


Most to Inertia for the Row Points

Dim1 Dim2 Best

A 1 0 1

B 0 2 2

C 0 2 2

Squared Cosines for the Row


Points

Dim1 Dim2

A 0.9973 0.0027

B 0.6948 0.3052

C 0.4226 0.5774

Column Coordinates Summary Statistics for the


Column
Dim1 Dim2 Points
P 0.4560 0.0019 Quality Mass Inertia
M -0.1523 0.1457 P 1.0000 0.2444 0.6704

G -0.1450 -0.0779 M 1.0000 0.2611 0.1529

G 1.0000 0.4944 0.1767

Estatística Multivariada 2 – Prof. Pedro Ferreira Filho – 2o Semestre de 2013 Página 40


Cápítulo 3 – Análise Fatorial de Correspondências Simples e Múltiplas

Partial Contributions to Inertia


for the Column Points

Dim1 Dim2

P 0.7555 0.0001

M 0.0900 0.6489

G 0.1546 0.3510

Indices of the Coordinates that Contribute


Most to Inertia for the Column Points

Dim1 Dim2 Best

P 1 0 1

M 0 2 2

G 2 2 2

Squared Cosines for the Column


Points

Dim1 Dim2

P 1.0000 0.0000

M 0.5221 0.4779

G 0.7763 0.2237

Estatística Multivariada 2 – Prof. Pedro Ferreira Filho – 2o Semestre de 2013 Página 41


Cápítulo 3 – Análise Fatorial de Correspondências Simples e Múltiplas

Exemplo 2:

Uma pesquisa foi realizada no final dos anos 60 nos EUA com o objetivo de
investigar a opinião dos jovens americanos, segundo sexo e idade, no que dizia respeito a
estratégia de como o governo americano deveria terminar a Guerra do Vietnam. As
opções de estratégia apresentadas aos jovens foram:
A : Os EUA deveriam provocar a derrota do poder norte-vietnamita com bombardeios
intensivos de suas industrias, portos aeroportos e com uma invasão terrestre;
B: Os EUA deveriam continuar aplicando a política que era adotada à época;
C: Os EUA deveriam reduzir suas atividades militares, parar os bombardeios do Vietnam
do Norte e intensificar seus esforços para iniciar negociações diplomáticas;
D: Os EUA deveriam retirar imediatamente suas forças militares do Vietnam do Norte;

Estatística Multivariada 2 – Prof. Pedro Ferreira Filho – 2o Semestre de 2013 Página 42


Cápítulo 3 – Análise Fatorial de Correspondências Simples e Múltiplas

DADOS OBSERVADOS:

Obs AS A B C D

1 HOMENS 1 ANO 175 116 131 17

2 HOMENS 2 ANO 160 126 135 21

3 HOMENS 3 ANO 132 120 154 29

4 HOMENS 4 ANO 145 95 185 44

5 HOMENS 5 ANO 118 176 345 141

6 MULHERES 1 ANO 13 19 40 5

7 MULHERES 2 ANO 5 9 33 3

8 MULHERES 3 ANO 22 29 110 6

9 MULHERES 4 ANO 12 21 58 10

10 MULHERES 5 ANO 19 27 128 13

DADOS PRELIMINARES:
PERFIL POR COLUNA

ESTRATÉGIAS
All
A B C D

H1 21.85 15.72 9.93 5.88 13.95

H2 19.98 17.07 10.24 7.27 14.05

H3 16.48 16.26 11.68 10.03 13.82

H4 18.10 12.87 14.03 15.22 14.90

H5 14.73 23.85 26.16 48.79 24.79

M1 1.62 2.57 3.03 1.73 2.45

M2 0.62 1.22 2.50 1.04 1.59

M3 2.75 3.93 8.34 2.08 5.31

M4 1.50 2.85 4.40 3.46 3.21

M5 2.37 3.66 9.70 4.50 5.94

Total 100.00 100.00 100.00 100.00 100.00

Estatística Multivariada 2 – Prof. Pedro Ferreira Filho – 2o Semestre de 2013 Página 43


Cápítulo 3 – Análise Fatorial de Correspondências Simples e Múltiplas

PERFIL POR LINHA

EST
All
A B C D

H1 39.86 26.42 29.84 3.87 100.00

H2 36.20 28.51 30.54 4.75 100.00

H3 30.34 27.59 35.40 6.67 100.00

H4 30.92 20.26 39.45 9.38 100.00

H5 15.13 22.56 44.23 18.08 100.00

M1 16.88 24.68 51.95 6.49 100.00

M2 10.00 18.00 66.00 6.00 100.00

M3 13.17 17.37 65.87 3.59 100.00

M4 11.88 20.79 57.43 9.90 100.00

M5 10.16 14.44 68.45 6.95 100.00

Total 25.45 23.45 41.91 9.18 100.00

Estatística Multivariada 2 – Prof. Pedro Ferreira Filho – 2o Semestre de 2013 Página 44


Cápítulo 3 – Análise Fatorial de Correspondências Simples e Múltiplas

DESVIOS

ESTRATÉGIAS
Total
A B C D

H1 63.262 13.051 -53 -23.31

H2 47.499 22.347 -50.26 -19.59

H3 21.28 17.989 -28.32 -10.95

H4 25.626 -14.98 -11.57 0.9301

H5 -80.53 -6.917 18.079 69.37

M1 -6.599 0.9428 7.727 -2.071

M2 -7.726 -2.725 12.044 -1.592

M3 -20.51 -10.16 40.005 -9.336

M4 -13.71 -2.685 15.668 0.7248

M5 -28.6 -16.85 49.623 -4.173

Total 801 738 1319 289 3147

Statistic DF Value Prob

Chi-Square 27 366.3573 <.0001

PROGRAMA:
proc corresp data=vietnam outc=vvv;
Var A B C D;
id AS;
%plotit (data=vvv, datatype=corresp,color=black);
run;

Estatística Multivariada 2 – Prof. Pedro Ferreira Filho – 2o Semestre de 2013 Página 45


Cápítulo 3 – Análise Fatorial de Correspondências Simples e Múltiplas

RESULTADOS:
The CORRESP Procedure
Inertia and Chi-Square Decomposition
Cumulativ
Singular Principal Chi- Percen e 15 30 45 60 75
Value Inertia Square t Percent ----+----+----+----+----+---

0.29271 0.08568 269.635 73.60 73.60 *************************

0.16697 0.02788 87.740 23.95 97.55 ********

0.05343 0.00285 8.982 2.45 100.00 *

Total 0.11641 366.357 100.00

Degrees of Freedom = 27

Row Coordinates
Summary Statistics for the Row Points
Dim1 Dim2
Quality Mass Inertia
H1 0.3856 -0.0410
H1 0.9970 0.1395 0.1808
H2 0.3265 -0.0149
H2 0.9844 0.1405 0.1309
H3 0.1746 -0.0036
H3 0.9043 0.1382 0.0400
H4 0.0809 0.0139
H4 0.3832 0.1490 0.0225
H5 -0.2808 0.2252
H5 0.9995 0.2479 0.2760
M1 -0.1665 -0.1500
M1 0.8183 0.0245 0.0129
M2 -0.4068 -0.2988
M2 0.9955 0.0159 0.0349
M3 -0.3337 -0.3667
M3 0.9994 0.0531 0.1121
M4 -0.3439 -0.1127
M4 0.9820 0.0321 0.0368
M5 -0.4535 -0.3043
M5 0.9944 0.0594 0.1531

Estatística Multivariada 2 – Prof. Pedro Ferreira Filho – 2o Semestre de 2013 Página 46


Cápítulo 3 – Análise Fatorial de Correspondências Simples e Múltiplas

Partial Contributions to Inertia Indices of the Coordinates that Contribute


for the Row Points Most to Inertia for the Row Points

Dim1 Dim2 Dim1 Dim2 Best

H1 0.2421 0.0084 H1 1 0 1

H2 0.1747 0.0011 H2 1 0 1

H3 0.0492 0.0001 H3 0 0 1

H4 0.0114 0.0010 H4 0 0 1

H5 0.2281 0.4508 H5 2 2 2

M1 0.0079 0.0198 M1 0 0 2

M2 0.0307 0.0509 M2 0 0 2

M3 0.0690 0.2560 M3 2 2 2

M4 0.0443 0.0146 M4 0 0 1

M5 0.1426 0.1974 M5 2 2 2

Squared Cosines for the Row


Points

Dim1 Dim2

H1 0.9858 0.0111

H2 0.9824 0.0020

H3 0.9040 0.0004

H4 0.3722 0.0110

H5 0.6084 0.3912

M1 0.4516 0.3667

M2 0.6467 0.3488

M3 0.4526 0.5468

M4 0.8868 0.0952

M5 0.6857 0.3088

Estatística Multivariada 2 – Prof. Pedro Ferreira Filho – 2o Semestre de 2013 Página 47


Cápítulo 3 – Análise Fatorial de Correspondências Simples e Múltiplas

Column Coordinates Summary Statistics for the Column


Points
Dim1 Dim2
Quality Mass Inertia
A 0.4140 -0.0007
A 0.9848 0.2545 0.3806
B 0.1347 0.0579
B 0.7199 0.2345 0.0602
C -0.2467 -0.1333
C 0.9986 0.4191 0.2834
D -0.3659 0.4625
D 0.9947 0.0918 0.2758

Partial Contributions to Inertia Indices of the Coordinates that


for the Column Points Contribute
Most to Inertia for the Column Points
Dim1 Dim2
Dim1 Dim2 Best
A 0.5092 0.0000
A 1 0 1
B 0.0497 0.0282
B 0 0 1
C 0.2976 0.2672
C 1 1 1
D 0.1435 0.7046
D 0 2 2

Squared Cosines for the Column


Points

Dim1 Dim2

A 0.9848 0.0000

B 0.6077 0.1122

C 0.7728 0.2258

D 0.3829 0.6118

Estatística Multivariada 2 – Prof. Pedro Ferreira Filho – 2o Semestre de 2013 Página 48


Cápítulo 4 – Análise Fatorial de Correspoindências Simples e Múltiplas

Conclusões:

O primeiro eixo fatorial com relação as colunas da tabela de dados, opõe as


opiniões mais “agressivas” (A e B) em relação as opiniões mais “conciliadoras” (C e D).
Com relação as linhas da tabelas (jovens por sexo e idade) esse eixo opõe os homens de
1º a 4º ano ao conjunto de mulheres e aos homens do 5º ano. Portanto é possível
concluir, com respeito aos homens, a medida que aumenta a idade dos mesmos (anos
cursados) a opinião passa das opiniões mais “agressivas” as mais “pacifistas”. No que diz
respeito as mulheres a opinião predominante, qualquer que seja a idade, é a de tipo
“conciliadora” ou até “pacifista”.

No segundo eixo fatorial diferencia a distribuição por sexo/idade entre as opiniões


“conciliadoras” e aquelas claramente “pacifistas”. Esse eixo apresenta uma correção
complementar indicando que os perfis de opinião das mulheres, qualquer que seja a idade

Estatística Multivariada 2 – Prof. Pedro Ferreira Filho – 2o Semestre de 2013 Página 49


Cápítulo 4 – Análise Fatorial de Correspoindências Simples e Múltiplas

(anos de estudo) é majoritariamente do tipo “conciliador” (C) enquanto que a opinião dos
homens do 5º ano é apresenta traços “conciliadores” e também traços do tipo “pacifista”.

Assim podemos considerar, com base neste plano fatorial, que a opinião dos jovens
americanos com relação a forma como deveria terminar a guerra do Vietnam, varia
segundo a idade de maneira diferente no grupo de indivíduos de homens e mulheres.
Enquanto que as mulheres, qualquer que seja a idade, apresentam opinião “conciliadora”,
os homens mais jovens manifestam uma opinião majoritariamente mais “agressiva”
enquanto os mais velhos preferem uma solução mais “conciliadora” ou “pacifista”.

Problema:

O estudo foi realizado para analisar a relação existente entre a idade (anos de
estudos) e sexo e a opinião dos estudantes. Mas a amostra observada apresentou um
desequilíbrio muito grande entre o número de homens e mulheres consultados. As
mulheres representaram apenas 18.5% da amostra. Consequentemente, os perfis das
mulheres, por ano de estudo, apresentam baixo peso comparados aos dos homens.
Considerando que a opinião dos homens é muito marcada, quando se analisa a tabela
completa, a estrura das opiniões dos homens predomina e anula as diferenças de opinião
existentes entre as mulheres segundo os anos de estudo.

Estatística Multivariada 2 – Prof. Pedro Ferreira Filho – 2o Semestre de 2013 Página 50


Cápítulo 4 – Análise Fatorial de Correspoindências Simples e Múltiplas

ANEXO

Estatística Multivariada 2 – Prof. Pedro Ferreira Filho – 2o Semestre de 2013 Página 51


Cápítulo 4 – Análise Fatorial de Correspoindências Simples e Múltiplas

3.2.3. A ANÁLISE FATORIAL DE CORRESPONDÊNCIAS MÚLTIPLAS (AFCM):

3.2.3.1. INTRODUÇÃO:
Vamos considerar agora a situação onde o problema em estudo envolve a análise
de um conjunto de p > 2 variáveis categóricas. Problemas que exigem análise conjunta de
variáveis categóricas são bastante usuais em diferentes áreas do conhecimento, porém
merece destaque o caso de pesquisas de opinião. Nesta situação usualmente as pesquisas
realizadas são baseadas em questionários, que em sua grande maioria, por razões que
não discutiremos aqui, constituídos de questões fechadas onde o respondente opta por
uma das alternativas possíveis.
Estes questionários, após respondidos, são armazenados num “banco de dados”
usualmente com a seguinte estrutura.

Formato do Arquivo de Dados


Indice … Indice … Indice
obs1 obsj obsZ

1 … … … … …
… … … … … …
… … … … … …
i … … xij … …
… … … … … …
… … … … … …
n … … … … …

Que é a forma tradicional de armazenamento das informações coletadas. Cada


linha corresponde a um dado questionário e nas colunas as variáveis (perguntas)
observadas. Vamos aqui considerar que as respostas Xij são categóricas, ou seja, os
valores atribuídos a cada variável não possuem propriedade numérica, como visto
anteriormente.

Estatística Multivariada 2 – Prof. Pedro Ferreira Filho – 2o Semestre de 2013 Página 52


Cápítulo 4 – Análise Fatorial de Correspoindências Simples e Múltiplas

Cabe também lembrar que é também usual os questionários envolverem vários


temas (dimensões) o que propicia a alternativa de que o mesmo possa ser dividido em
blocos, onde em cada são alocadas as perguntas referentes ao respectivo assunto.

Tabela por Unidades Temáticas - Dimensões

Tema 1 Tema J Tema K


Var. … Var. … Var. Var.… Var. … Var. …
obs1 obsj’ obsZ’ obs1 obsj obsZ …
1 … … … … … … … … … … i

… … xij’ … … … … xij … …


… … … … … … … … … … …

n … … … … … … … … … …

A análise do problema em estudo passa pelo estudo das relações entre as variáveis
(perguntas) seja dentro de um mesmo tema, ou entre temas.
O tratamento estatístico usualmente utilizado, nesses casos, é o de criar tabelas de
contingência relacionando pares de variáveis (dentro de um mesmo tema ou entre temas).

P x q tabelas
Dimensão 1 Dimensão 2
bivariadas são
Var. … Var. … Var. Op. … Op.
automaticamente
obs1 obsj’ obsz’ obs1 obsz
1 … … … … … … … …
… … … … … … … … …
… … … … … … … … …
Variável Dim 2
i … … xij’ … … … xij …
… … … … … … … … 1… … K
… … … … … … … … …
Variavel

…1
observj’

n … … … … … … …
… … njk …
J … … …

Naturalmente, a medida que o número de variáveis aumente, o número de


possíveis tabelas envolvendo duas variáveis obtidas cresce rapidamente. Dado o grande
Estatística Multivariada 2 – Prof. Pedro Ferreira Filho – 2o Semestre de 2013 Página 53
Cápítulo 4 – Análise Fatorial de Correspoindências Simples e Múltiplas

numero de tabelas, procura-se selecionar aquelas mais interessantes” utilizando-se para


isso o teste qui-quadrado de Pearson. Este tipo de procedimento não incorpora a
informação de relações que envolvam três ou mais variáveis, o que geralmente é de muito
interesse e importância.
Um outro tipo de procedimento usual em pesquisas deste tipo quando as questões
envolvem o uso de escalas (Likert,...) nas respostas. Nestes casos costuma-se estabelecer
“índices” que determinam o grau de satisfação (ou insatisfação) com relação ao tema em
estudo.
Variável Resumo (Indice) :
Tema: opinião política
vir = p1x i1 +  + pp x ip
Esc. … Esc. … Esc.
obs1 obsj’ obsp eventualmente : pj = 1
1 3 … 5 … 4
Tipología da Opinião:
2 1 … 5 … 2
… … … … … … Clase A : 0 ≤ F( v ) ≤ 25%
i

2



xij’



5

ClaseB : 25% ≤ F( v ) ≤ 50%

n

4



3



1
ClaseC : 50% ≤ F( v) ≤ 75%
ClaseD : 75% ≤ F( v ) ≤ 100%

Este procedimento estabelece um índice arbitrário onde um único resultado pode


ser obtido de diferentes formas, que nem sempre podem ser interpretadas de uma mesma
forma.
É necessário então um procedimento alternativo que possa dentre outros aspectos:

i) Propiciar uma análise de conjunta das p > 2 variáveis observadas;


ii) Estabelecer uma redução de dimensão do problema em estudo, considerando as
p variáveis observadas;
iii) Propiciar uma adequada forma de síntese da informação coletada;
A Análise Fatorial de Correspondências Múltiplas (AFCM) é um procedimentos
estatístico multivariado que pode, desde que adequadamente utilizado, atender a estas
necessidades.
A AFCM nada mais é do que a generalização da AFCS, porém como temos agora a
presença de p > 2 variáveis é necessário estabelecer inicialmente como podemos
Estatística Multivariada 2 – Prof. Pedro Ferreira Filho – 2o Semestre de 2013 Página 54
Cápítulo 4 – Análise Fatorial de Correspoindências Simples e Múltiplas

organizar a disponível de forma que os procedimentos vistos anteriormente possam ser


aplicados.

3.2.3.2. A ESTRUTURA DOS DADOS:

Usualmente uma pesquisa é realizada com base num instrumento de coleta


de dados (questionário) onde são investigadas características, qualitativas e quantitativas,
de interesse do estudo, ou seja , tem-se a observação sistemática de um conjunto de
características sobre um conjunto de unidades de observação. As variáveis observadas
podem ser qualitativas (categóricas) ou, eventualmente, quantitativas. Observe-se aqui
que uma variável quantitativa pode ser transformada numa variável qualitativa a partir de
uma adequada categorização.
Qualquer que seja a forma dada ao protocolo de observação (questionário), o
pesquisador dispõe de uma lista padrão de características observadas cujas categorias
são mutuamente exclusivas. Esta lista está apresentada esquematicamente na tabela
abaixo:

Primeira Característica Observada Código


1a Modalidade 1
2a Modalidade 2
3a Modalidade 3
Segunda Característica Observada Código
1a Modalidade 1
2a Modalidade 2
3a Modalidade 3
4a Modalidade 4
(....................)
j-ésima Característica Observada Código
1a Modalidade 1
2a Modalidade 2
(....................)
p-ésima Característica Observada Código
1a Modalidade 1
2a Modalidade 2
3a Modalidade 3
4a Modalidade 4
NOTA:A j-ésima característica utilizada é composta de
Kj modalidades mutuamente exclusivas.

Estatística Multivariada 2 – Prof. Pedro Ferreira Filho – 2o Semestre de 2013 Página 55


Cápítulo 4 – Análise Fatorial de Correspoindências Simples e Múltiplas

Considerando-se que as modalidades de uma dada característica são mutuamente


exclusivas, o investigador pode associar a cada uma delas um código (preferencialmente
numérico) destinado a identificar univocamente, porém de forma mais reduzida, as
modalidades que constituem a característica observada.

3.2.3.3. TABELA DE CÓDIGOS CONDENSADOS:

Terminada a etapa de aplicação dos questionários o investigador dispõe de um


conjunto de n observações. Em cada um dos questionários tem-se associado a um
indivíduo da amostra uma das possíveis modalidades de cada uma das p características
observadas. Isto se constitui nos dados brutos resultantes da observação.
A partir dos questionários faz-se um primeiro resumo das informações obtidas
construindo-se uma tabela composta de uma linha por indivíduo e de uma coluna por
característica observada. Assim é obtido o que se denomina de Tabela de Códigos
Condensados (TCC), também chamada Tabela de Dados Brutos.
Apresenta-se na tabela abaixo um modelo geral de uma Tabela de Códigos
Condensados e suas principais características:

Estatística Multivariada 2 – Prof. Pedro Ferreira Filho – 2o Semestre de 2013 Página 56


Cápítulo 4 – Análise Fatorial de Correspoindências Simples e Múltiplas

Características:

⇒ Cada linha contém todos os códigos, correspondentes as modalidades atribuídas a um


indivíduo para cada uma das características observadas.
⇒ Na interseção da i-ésima linha com a j-ésima coluna temos o valos Xij = código
numérico dado à modalidade que pertence o i-ésimo indivíduo na j-ésima
característica observada.
⇒ Tratando-se de uma tabela de códigos, a tabela TCC (n x p) não possui propriedades
numéricas. Por exemplo, a soma dos valores em linha ou colunas (marginais da
tabela) não tem sentido.
Deve-se observar que, sob ponto de vista computacional, a tabela TCC corresponde
ao arquivo de dados onde se registram os dados observados para posterior análise.

3.2.3.3. TABELA LÓGICA OU TABELA DISJUNTIVA:


A partir da tabela de códigos condensados que, como observado anteriormente,
não tem propriedades numéricas, pode-se gerar uma tabela numérica capaz de resumir a
mesma informação.
Consideremos a primeira coluna de uma TCC (n x p) apresentada anteriormente.
Esta coluna permite associar a cada indivíduo da amostra uma (e somente uma)
modalidade da primeira característica observada. Pode-se associar a esta coluna uma
tabela que, para cada indivíduo da amostra, indique qual é a modalidade dessa
característica que o mesmo possui. Apresenta-se a seguir a TCC correspondente a
primeira coluna, bem como a TL associada a essa coluna.

Estatística Multivariada 2 – Prof. Pedro Ferreira Filho – 2o Semestre de 2013 Página 57


Cápítulo 4 – Análise Fatorial de Correspoindências Simples e Múltiplas

Na tabela TL (n x 3) acima, associada a primeira coluna de TCC (n x p) temos:


Xi1 = 1 se Ki1 = 1; se Ki1 = 2 ou Ki1 = 3 então Xi1 = 0
Xi2 = 1 se Ki2 = 2; se Ki2 = 1 ou Ki2 = 3 então Xi2 = 0
Xi3 = 1 se Ki3 = 3; se Ki3 = 1 ou Ki3 = 2 então Xi3 = 0

A tabela TL (n x 3) contêm três variáveis indicadoras das modalidades da primeira


característica observada. Estas novas variáveis afetam a cada modalidade da primeira
característica observada: o valor 1 indica se o i-ésimo indivíduo possui esta modalidade; o
valor 0 indica que o i-ésimo indivíduo não apresenta esta modalidade. Essas variáveis são
também chamadas de “variáveis de presença ou ausência” de uma dada modalidade.
Observe-se também que a margem inferior da tabela TL (n x 3) corresponde a
distribuição de freqüências da primeira característica observada numa amostra de n
indivíduos. A marginal direita desta tabela é constante e igual a 1 pelo fato do indivíduo
pertencer a somente uma das possíveis categorias desta característica (categorias
mutuamente exclusivas).
Repetindo-se este procedimento para cada uma das colunas da tabela TCC (n x p),
podemos associar a ela uma tabela TL (n x K), ou seja, uma tabela cujo número variáveis
indicadoras é dado pelo número total de modalidades das p caracteristicas em estudo.
Estatística Multivariada 2 – Prof. Pedro Ferreira Filho – 2o Semestre de 2013 Página 58
Cápítulo 4 – Análise Fatorial de Correspoindências Simples e Múltiplas

Obtem-se assim a tabela lógica ou tabela disjuntiva completa correspondente a Tabela


TCC (n x p) conforme apresentado abaixo.

As k colunas da tabela T (n x k) são as variáveis indicadoras das K modalidades das


p características observadas. Desta forma a soma de cada linha desta tabela é constante e
igual a p. Cada bloco de variáveis indicadoras correspondente a uma característica
observada define, pela soma da coluna, um valor marginal que corresponde a distribuição
de frequências brutas da característica. Desta forma, a marginal inferior da Tabela TL ( n
x K) expressa a distribuição de freqüências absolutas de todas as características
observadas. A soma das marginais (direita e inferior) é, evidentemente igual a n*p.

3.2.3.5. TABELA DE BURT:


Na pratica, a tabela lógica TL (n x K), que resume diferentes aspectos da
informação obtida, pode ser uma tabela de dimensão enorme. A dimensão da tabela
lógica necessária para análise de dados de uma pesquisa cresce rapidamente a medida
que os investigadores passam a investigar uma quantidade razoável de características.

Estatística Multivariada 2 – Prof. Pedro Ferreira Filho – 2o Semestre de 2013 Página 59


Cápítulo 4 – Análise Fatorial de Correspoindências Simples e Múltiplas

Desta forma as tabelas lógicas constituem um instrumento adequado porém, pouco útil
sobre o ponto de vista prático.
Assim, de uma outra maneira, pode-se resumir a informação contida na Tabela de
Códigos Condensados através de uma nova tabela chamada Tabela de Burt designada por
TB (K x K).
A Tabela de Burt TB (K x K) é uma tabela simétrica que apresenta o conjunto das
tabelas de contingências que podem ser construídas cruzando duas a duas as p
características observadas. Definindo-se, como no caso da tabela lógica, K como sendo a
soma das modalidades das p características observadas nos n indivíduos, a Tabela de Burt
TB (K x K) apresenta:
⇒ Na intersecção da j-ésima linha com a j-ésima coluna, o valor njj indica o número de
indivíduos que apresentaram a j-ésima modalidade de uma dada característica.
⇒ Na intersecção da j-ésima linha com a k-ésima coluna, o valor njk igual a 0 se a j-ésima
modalidade e a k-ésima modalidade pertencem a uma mesma característica observada
.
⇒ A intersecção da q-ésima linha com a k-ésima coluna, o valor nqk indica o número de
indivíduos que apresentaram, simultaneamente, a q-ésima modalidade de uma dada
característica e a k-ésima modalidade de outra característica observada.
Tratando-se de uma tabela simétrica, construída pela justaposição de todas as
Tabelas de Contingências definidas pelas p características observadas (tomadas duas a
duas), a tabela TB (K x K) resume as relações, duas a duas de todas as variáveis
qualitativas contidas na mesma.
A diagonal da tabela TB (K x K) é constituída pela distribuição de freqüências
absolutas de todas as modalidades de todas as variáveis qualitativas que a compõe. Se for
feita a divisão de todos os valores da tabela pelo valor n (número total de indivíduos
observados), a tabela TB (K x K) será apresentada em termos de freqüências relativas.
A tabela de Burt não é, no sentido stricto sensu, uma tabela de contingência. É na
verdade uma tabela que resulta da justaposição de Tabelas de Contingência. A soma em
linha (ou em coluna dado que a tabela TB é simétrica) dos valores correspondentes a j-
ésima modalidade é igual a p*n.j . Desta forma tem-se que os indivíduos observados
aparecem em uma tabela TB (K x K) p2 vezes. Um esboço da Tabela de Burt TB (K x K) é
apresentado a seguir.

Estatística Multivariada 2 – Prof. Pedro Ferreira Filho – 2o Semestre de 2013 Página 60


Cápítulo 4 – Análise Fatorial de Correspoindências Simples e Múltiplas

3.2.3.6. UMA APLICAÇÃO: PERFIL DOS ALUNOS INGRESSOS NA UFSCAR EM

2007:

Um questionário foi aplicado aos alunos ingressos na UFSCar no ano de 1997 com o
objetivo de se estabelecer o perfil dos mesmos. Este questionário abordava os seguintes
aspectos: 1) Dados pessoais; 2) Dados a cerca da formação dos alunos; 3) Dados sócios
econômicos; 4) Dados a cerca de interesses em relação a cultura, esporte e lazer. Este
questionário foi respondido por um total de 933 alunos de um total de 980 ingressos.
Do conjunto de variáveis disponíveis, foram slecionadas quatro, para a partir das
mesmas ser feito uma aplicação da TABELA DE BURT. As características escolhidas e suas
respectivas modalidades e códigos são apresentadas abaixo:

Estatística Multivariada 2 – Prof. Pedro Ferreira Filho – 2o Semestre de 2013 Página 61


Cápítulo 4 – Análise Fatorial de Correspoindências Simples e Múltiplas

Característica Modalidades Códigos


Sexo MAS: Masculino 1
FEM: Feminino 2
Faixa Etária FE1: De 16 a 18 anos 1
FE2: De 19 a 21 anos 2
FE3: De 22 a 24 anos 3
FE4: Acima de 24 anos 4
Escola de 2º Grau PUB: Escola Pública 1
PAR: Escola Particular 2
Área Acadêmica CHS: Ciências Humanas e 1
Sociais
CBS: Ciências Biológicas e 2
Saúde
TEA: Tecnológicas e Agrárias 3
CE: Ciências Exatas 4

TABELA DE CÓDIGOS CONDENSADOS TCC (933 x 4)

A partir dos questionários coletados, obtém-se a Tabela de Códigos Condensados


para o conjunto de características acima definidas. Por motivos óbvios, apresenta-se
abaixo apenas uma parte desta tabela.
Tabela de Códigos Condensados
Perfil dos Alunos Ingressos na UFSCar - 1997
Características
Aluno Sexo Faixa Etária 2o. Grau Area Acad.
1 2 1 2 1
2 1 1 1 1
3 1 1 2 1
4 1 2 2 1
5 1 1 2 1
6 1 1 2 1
7 1 2 2 1
8 1 1 2 1
9 1 1 1 1
10 1 2 2 1
. . . . .
. . . . .
. . . . .
932 2 2 2 4
933 2 2 1 4

Estatística Multivariada 2 – Prof. Pedro Ferreira Filho – 2o Semestre de 2013 Página 62


Cápítulo 4 – Análise Fatorial de Correspoindências Simples e Múltiplas

TABELA LÓGICA TL (933 x 12)

A partir da Tabela de Códigos Condensados, apresentada acima, é obtida a Tabela


Lógica (TL) associada a mesma. Observe-se aqui que K=12 (número total de modalidades
das características em estudo). Também neste caso, apresenta-se apenas uma parte
desta tabela.
Tabela Lógica
Perfil dos Alunos Ingressos Na UFSCar - 1977
Sexo Faixa Etária 2o. Grau Área Acadêmioca
Aluno MAS FEM FE1 FE2 FE3 FE4 PUB PAR CHS CBS TEA CE
1 0 1 1 0 0 0 0 1 1 0 0 0
2 1 0 1 0 0 0 1 0 1 0 0 0
3 1 0 1 0 0 0 0 1 1 0 0 0
4 1 0 0 1 0 0 0 1 1 0 0 0
5 1 0 1 0 0 0 0 1 1 0 0 0
6 1 0 1 0 0 0 0 1 1 0 0 0
7 1 0 0 1 0 0 0 1 1 0 0 0
8 1 0 1 0 0 0 0 1 1 0 0 0
9 1 0 1 0 0 0 1 0 1 0 0 0
10 1 0 0 1 0 0 0 1 1 0 0 0
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
932 0 1 0 1 0 0 0 1 0 0 0 1
933 0 1 0 1 0 0 1 0 0 0 0 1

TABELA DE BURT

A partir justaposição da Tabela Lógica acima, é obtida a Tabela de Burt. Para se


obter a Tabela de Burt foi utilizado o software SPAD.N Integrado, versão 2.52 PC, cedido
pelo CISIA (Centre International de Statistique et d’Informatique Appliquées, França). É
possível obter a Tabela de Burt utilizando-se outros softwares, o que será apresentado no
próximo capítulo.
Inicialmente é apresentado a Tabela de Burt com as freqüências absolutas.

Estatística Multivariada 2 – Prof. Pedro Ferreira Filho – 2o Semestre de 2013 Página 63


Cápítulo 4 – Análise Fatorial de Correspoindências Simples e Múltiplas

Tabela de Burt
Perfil dos Alunos Ingressos na UFSCar - 1997
FREQÜÊNCIAS ABSOLUTAS

| MAS FEM | FE1 FE2 FE3 FE4 | PUB PAR | CHS CBS TEA CE |
-----+-----------+---------------------+-----------+---------------------+
MAS | 505 0 |
FEM | 0 428 |
-----+-----------+---------------------+
FE1 | 255 224 | 479 0 0 0 |
FE2 | 177 159 | 0 336 0 0 |
FE3 | 37 21 | 0 0 58 0 |
FE4 | 36 24 | 0 0 0 60 |
-----+-----------+---------------------+-----------+
PUB | 168 179 | 112 165 31 39 | 347 0 |
PAR | 337 249 | 367 171 27 21 | 0 586 |
-----+-----------+---------------------+-----------+---------------------+
CHS | 69 165 | 81 89 30 34 | 116 118 | 234 0 0 0 |
CBS | 73 109 | 93 73 10 6 | 66 116 | 0 182 0 0 |
TEA | 278 84 | 234 113 10 5 | 81 281 | 0 0 362 0 |
CE | 85 70 | 71 61 8 15 | 84 71 | 0 0 0 155 |
-----+-----------+---------------------+-----------+---------------------+
| MAS FEM | FE1 FE2 FE3 FE4 | PUB PAR | CHS CBS TEA CE |

Podemos observar na tabela acima as características da Tabela de Burt:


⇒ A tabela é simétrica, portanto apenas a parte triangular inferior é apresentada.
⇒ Nos blocos da diagonal temos a freqüência absoluta das modalidades de cada uma das
características. Por exemplo: Sexo: 505 dos alunos são do sexo masculino e 428 do
sexo feminino.
⇒ Nos blocos fora da diagonal, temos as tabelas cruzadas entre as respectivas
características. Por exemplo: a intersecção da linha FE1 e a coluna MAS nos mostra que
dentre os alunos observados 255 alunos estão na Faixa Etária 1 e são do sexo
Masculino. Observe-se ainda que a soma das linhas, dentro de cada bloco, é igual ao
valor da respectiva linha no bloco da diagonal.
A seguir é apresentado a Tabela de Burt considerando-se os perfis por linha. Esta é
uma opção existente no software SPAD.N Integrado e é obtido da seguinte forma: Nos
blocos da diagonal divide-se o valor observado pelo número total de observações (933,
neste caso) obtendo-se a freqüência percentual de cada modalidade das características.
Para os blocos fora da diagonal, divide-se os valores da linha, pelo valor da linha no bloco
diagonal, obtendo-se assim o percentual em relação a modalidade que esta na linha do

Estatística Multivariada 2 – Prof. Pedro Ferreira Filho – 2o Semestre de 2013 Página 64


Cápítulo 4 – Análise Fatorial de Correspoindências Simples e Múltiplas

bloco diagonal, chamado Perfis por Linha. Deve-se observar que, neste caso, a tabela não
é simétrica.
Tabela de Burt
Perfil dos Alunos Ingressos na UFSCar - 1997
FREQÜÊNCIAS PERCENTUAIS

| MAS FEM | FE1 FE2 FE3 FE4 | PUB PAR | CHS CBS TEA CE |
-----+-----------+---------------------+-----------+---------------------+
MAS | 54.1 .0 | 50.5 35.0 7.3 7.1 | 33.3 66.7 | 13.7 14.5 55.0 16.8 |
FEM | .0 45.9 | 52.3 37.1 4.9 5.6 | 41.8 58.2 | 38.6 25.5 19.6 16.4 |
-----+-----------+---------------------+-----------+---------------------+
FE1 | 53.2 46.8 | 51.3 .0 .0 .0 | 23.4 76.6 | 16.9 19.4 48.9 14.8 |
FE2 | 52.7 47.3 | .0 36.0 .0 .0 | 49.1 50.9 | 26.5 21.7 33.6 18.2 |
FE3 | 63.8 36.2 | .0 .0 6.2 .0 | 53.4 46.6 | 51.7 17.2 17.2 13.8 |
FE4 | 60.0 40.0 | .0 .0 .0 6.4 | 65.0 35.0 | 56.7 10.0 8.3 25.0 |
-----+-----------+---------------------+-----------+---------------------+
PUB | 48.4 51.6 | 32.3 47.6 8.9 11.2 | 37.2 .0 | 33.4 19.0 23.3 24.2 |
PAR | 57.5 42.5 | 62.6 29.2 4.6 3.6 | .0 62.8 | 20.1 19.8 48.0 12.1 |
-----+-----------+---------------------+-----------+---------------------+
CHS | 29.5 70.5 | 34.6 38.0 12.8 14.5 | 49.6 50.4 | 25.1 .0 .0 .0 |
CBS | 40.1 59.9 | 51.1 40.1 5.5 3.3 | 36.3 63.7 | .0 19.5 .0 .0 |
TEA | 76.8 23.2 | 64.6 31.2 2.8 1.4 | 22.4 77.6 | .0 .0 38.8 .0 |
CE | 54.8 45.2 | 45.8 39.4 5.2 9.7 | 54.2 45.8 | .0 .0 .0 16.6 |
-----+-----------+---------------------+-----------+---------------------+
| MAS FEM | FE1 FE2 FE3 FE4 | PUB PAR | CHS CBS TEA CE |

Observemos que:
⇒ Nos blocos da diagonal temos as freqüências percentuais de cada uma das modalidades
das diferentes características. Por exemplo: Sexo Masculino: 54.1 = (505/933)*100
⇒ Nos blocos fora da diagonal o valor é dividido pelo valor da linha no bloco da diagonal.
Por exemplo: Intersecção da linha MAS com a coluna FE1: 50.5 = (255/505)*100.
Interpretação: Dentre os alunos do sexo masculino, 50.5 % tem faixa etária 1.
⇒ Por que a tabela não é simétrica: consideremos a intersecção da linha FE1 com a
coluna MAS(o simétrico do caso anterior), temos agora: 53.2 = (255/479)*100.
Interpretação: Dentre os alunos da faixa etária 1, 53.2% são do sexo masculino.

Estatística Multivariada 2 – Prof. Pedro Ferreira Filho – 2o Semestre de 2013 Página 65


Cápítulo 4 – Análise Fatorial de Correspoindências Simples e Múltiplas

CONCLUSÕES:

A partir das Tabelas de Burt acima apresentadas pode-se estabelecer as seguintes


características dos alunos ingressos na UFSCar no ano de 1997:

⇒ Os alunos, como um todo, apresentam um relativo equilíbrio em relação ao sexo,


porém ao estudar a distribuição frente as áreas acadêmicas tem-se nas áreas de
Ciências Humanas e Sociais e Ciências Biológicas e Saúde um maior número de
alunos do sexo feminino enquanto que nas áreas Tecnológicas e Agrárias e Ciências
predominam alunos do sexo masculino.

⇒ A grande parte dos alunos possuei menos de 21 anos. A faixa etária até 18 anos
apresenta um grande percentual de alunos da área de Técnológicas e Agrárias,
enquanto que os alunos com maior faixa etária ingressam em cursos da área de
Ciências Humanas e Sociais. Também se tem que alunos com maior faixa etária
cursaram segundo grau em escolas públicas e os mais jovens em escolas
particulares.

⇒ Os alunos que cursaram segundo grau em escolas públicas ingressam em maior


percentual em cursos da área de Ciências Humanas e Sociais, já aqueles
provenientes de escolas particulares concentram-se em cursos da área de
Tecnológicas e Agrárias.

3.2.3.7. ANÁLISE FATORIAL DE CORRESPONDÊNCIAS DE UMA TABELA LÓGICA:

Mostramos no ponto anterior que uma tabela lógica, embora composta apenas de
valores iguais a um ou zero, pode ser utilizada para se estudar as relações entre unidades
de observação e entre variáveis de um dado problema.
É necessário, tal como no caso das tabelas de contingência, definir uma forma
adequada de se calcular uma matriz de distância associada a Tabela Lógica, de forma que
o procedimento de diagonalização com obtenção de autovalores e autovetores possa ser
realizado.

Estatística Multivariada 2 – Prof. Pedro Ferreira Filho – 2o Semestre de 2013 Página 66


Cápítulo 4 – Análise Fatorial de Correspoindências Simples e Múltiplas

Para isto consideremos que a tabela lógica é um tipo particular de Tabela de


Contingência. Consideremos inicialmente o estudo das linhas da TL.

- a j-ésima coordenada do i-ésimo individuo:

xij
xij 1 nj np xij
fij = ;f = ;f = ; =
np i. n . j np
1 nj p nj
n np np
- a j-ésima coordenada do i’-ésimo individuo:
xi' j
xi' j 1 nj np xi' j
fi' j = ;f = ;f = ; =
np i'. n . j np n nj
1 j
p
n np np

Distância Chi2 entre duas Linhas da TL

• Coordenadas do i-ésimo perfil-ponderado-linha:


x ij
Elemento Geral : , ∀ j = 1, , K
nj
p
np

• Coordenadas do i’-ésimo perfil-ponderado-linha:


x i' j
Elemento Geral : , ∀ j = 1, , K
nj
p
np

Estatística Multivariada 2 – Prof. Pedro Ferreira Filho – 2o Semestre de 2013 Página 67


Cápítulo 4 – Análise Fatorial de Correspoindências Simples e Múltiplas

2
 
K  x x

d(2i,i' ) = ∑ 

j=1 
ij
nj

i ' j
nj 
 =

p p 
 np np 

Desenvolvendo a expressão acima:


2
np  x ij x i' j  n (x − x )2
K K
d2(i,i' ) = ∑ n p
j =1 j 


p  
=1
p ∑ n ij
j =1 j
i' j

n (x − x )2
K
d2(i,i' ) =1
p ∑ n ij
j =1 j
i' j

Observando a expressão acima observamos que:

 Cada elemento da soma somente assume valores 1 ou 0, assumindo 1 se os


indivíduos i e i’ não apresentam simultaneamente a mesma característica e, valendo
0 caso contrário (não apresentam simultaneamente a mesma característica)
 A partir do ponto acima, temos que a distância cresce a medida que os indivíduos
não apresentarem as mesmas características em comum.
 A distância também cresce à medida que os indivíduos não apresentarem as
mesmas características em modalidades pouco freqüentes (modalidades de baixo
peso).

Considerando agora o estudo das linhas da TL, temos:

Estatística Multivariada 2 – Prof. Pedro Ferreira Filho – 2o Semestre de 2013 Página 68


Cápítulo 4 – Análise Fatorial de Correspoindências Simples e Múltiplas

Distancia Chi2 entre duas Colunas da TL

• Coordenada do j-ésimo perfil-ponderado-coluna:


x ij
np
Elemento Geral : ∀i = 1, , n
nj p
np np
• Coordenada do j’-ésimo perfil-ponderado-coluna:
x ij'
np
Elemento Geral : ∀i = 1, , n
n j'p
np np

2
 x ij x ij' 
n  
∑  np np  =
d2( j, j' ) = −
i =1
 j p
n n j' p 
 np np np np 
 
De modo que...
2
  2
n  x x ij'  n  x ij x ij' 
d2( j, j' ) = ∑ 
i =1  n
ij

1 n 1
 = ∑ n
i =1  j
n

n


j' 
 j
n j'
n 
Desenvolvendo o quadrado acima, obtemos:

 x ij2 x ij2'
n x ij x ij' 
d2( j, j' ) = ∑
n 2 + 2 − 2
 n j n j'
i =1 
n j n j' 


Lembrando que:

nk : número de indivíduos que apresentam simultaneamente as modalidades j e k;


Estatística Multivariada 2 – Prof. Pedro Ferreira Filho – 2o Semestre de 2013 Página 69
Cápítulo 4 – Análise Fatorial de Correspoindências Simples e Múltiplas

nj ; número de indivíduos que apresentaram a modalidade j;


nk ; número de indivíduos que apresentaram a modalidade k;

Temos então que expressão acima vale:

 1  : para (n – n ) indivíduos que apresentaram a modalidade j. Indivíduos que


a)  2 j jj’
n 
 j
apresentaram: xij = 1 e xij’ = 0;

 1 
b)  2 : para (nj’ – njj’) indivíduos que apresentaram a modalidade k. Indivíduos
n 
 j' 
que apresentaram: xij = 0 e xij’ = 1;

1 1 2 
c)  2+ 2 −  : para njj’ indivíduos que apresentaram simultaneamente as
n n n n 
 j j' j j' 

modalidade j e k. Indivíduos que apresentaram: xij = 1 e xij’ = 1;


d) 0 : para os indivíduos que não apresentaram a modalidade j nem a modalidade j’;

Substituindo estes valores na soma acima temos;

 n j − n jj'   n j' − n jj'  


= n ×  + 
 n jn j'   n jn j'  
d2( j, j' )
    
Podemos então observar que:
 O quadrado da distância entre as modalidades j e k é igual a proporção de
indivíduos que apresentaram a modalidade j e não apresentaram a modalidade j’
mais a proporção de indivíduos que apresentaram a modalidade j’ e não
apresentaram a modalidade j;
 A distância entre duas modalidades cresce em função do numero de indivíduos que
apresentaram apenas uma das modalidades;
 A distância entre duas modalidades é inversamente proporcional a importância
relativa de cada uma das modalidades;

Estatística Multivariada 2 – Prof. Pedro Ferreira Filho – 2o Semestre de 2013 Página 70


Cápítulo 4 – Análise Fatorial de Correspoindências Simples e Múltiplas

Desta forma:

• Duas modalidades de uma mesma variável (mutuamente exclusivas) estarão


obrigatoriamente distantes no espaço de representação;
• Duas modalidades comuns a maioria dos indivíduos observados estarão
representadas pelo mesmo ponto no espaço de representação;
• Modalidades com baixa freqüência estarão bastante afastadas das demais;

Conclusão: A distância qui-quadrado em uma TL atende a necessidade dos


objetivos propostos.

É então possível obtermos o processo de diagonalização considerando os pontos


perfis ponderados dos indivíduos (linhas), cujos valores são dados por:

 
 
 i1 ;; x
;; iK 
x ij x
 n1 nj nK 
p p p 
 np np np 
Os valores marginais, coordenadas do centro de gravidade, no espaço das linhas
são dados por:

 n nj nK 
Coordenadas de GL :  
1
;; ;;
 np np np 

Portanto as os pontos perfis ponderados centrados são dados por:


 
 
 x i1 − n1 ;; x ij − n j ;; x iK − nK 
 n np nj np nK np 
p 1 p p 
 np np np 
Estatística Multivariada 2 – Prof. Pedro Ferreira Filho – 2o Semestre de 2013 Página 71
Cápítulo 4 – Análise Fatorial de Correspoindências Simples e Múltiplas

O procedimento de diagonalização pode ser então realizado, levando aos mesmos


resultados, a partir do uso da matriz de pontos perfis ponderados ou matriz de pontos
perfis ponderados centrados.
Procedimento análogo é realizado utilizando-se os pontos perfis ponderados das
modalidades (colunas).
As propriedades e resultados do processo de diagonalização observadas no caso da
AFCS também são validas neste caso.
A partir do processo de diagonalização, calculo dos autovalores e autovetores, as
coordenadas fatoriais são obtidas de forma análoga a AFCS, ou seja:

Coordenadas Fatoriais
 Coordenadas dos pontos-individuos sobre o eixo α :
 
K  x n

Fα (i ) = ∑


j =1 
ij

nj

np
j 

w αj
p 
 np 
 Coordenadas dos pontos-modalidades sobre o eixo α :
 
 x ij
n
1 u
Gα ( j) = ∑
i =1  n 1

n
 αi

 
j
n

Ou ainda;

Estatística Multivariada 2 – Prof. Pedro Ferreira Filho – 2o Semestre de 2013 Página 72


Cápítulo 4 – Análise Fatorial de Correspoindências Simples e Múltiplas

F1 … Fα … Fr
… … … … … …
Tabela de Coordenadas
i … … Fα(i) … …
Fatoriais dos Individuos
… … … … … …
GI 0 0 0 0 0

G1 … Gα … Gr
Tabela das Coordenadas
… … … … … …
Fatoriaisdas modalidades
Gj … … Gα(j) … …
… … … … … …
GM 0 0 0 0 0

Os elementos destas tabelas, são os valores que aparecem nos gráficos da análise
de correspondências múltiplas.

Propriedades dos Eixos Fatoriais


Os fatores são p variáveis centradas, continuas.
n
∀α = 1, , r ⇒ Fα = ∑
i =1
1 F (i ) = 0
n α
K n
∀α = 1, , r ⇒ Gα = ∑ np G
j =1
j
α ( j) = 0
Variância das variáveis fatoriais :

∑ ( ) = ∑ n1 F
n n
1 F (i ) − F (i ) = λ α
2
s 2α = 2
n α α α
i =1 i =1
K
( j) = λ α
nj
s 2α = ∑ np G
j=1
2
α

Observação : λα > 1 para qualquer α

Estatística Multivariada 2 – Prof. Pedro Ferreira Filho – 2o Semestre de 2013 Página 73


Cápítulo 4 – Análise Fatorial de Correspoindências Simples e Múltiplas

Interpretação:
 O autovalor λα associado ao eixo fatorial α representa, no espaço das modalidades,
a parte representada pelo eixo α da associação entre as modalidades (colunas) da
TL;
 O autovalor λα associado ao eixo fatorial α representa, no espaço dos indivíduos, a
parte representada pelo eixo α da associação entre os indivíduos (linhas)
considerando todas as modalidades (colunas) da TL;

Portanto, a partir da AFCM, é possível:


i) Estudar todos indivíduos observados com base no conjunto de todas as
variáveis observadas;
ii) Estudar as relações entre todas as modalidades das variáveis observadas,
considerando-se todos os indivíduos observados;
iii) Resumir o conjunto de variáveis observadas em um pequeno conjunto de novas
variáveis quantitativas relacionados com o conjunto de todas as variáveis em
estudo;
Um outro importante elemento aspecto a ser estudado em uma AFCM, tal como na
AFCS é a contribuição a inércia (variabilidade) de uma modalidade e a inércia total dos
pontos modalidades. Temos neste caso:

Contribuição da j-ésima modalidade a inércia


da nuvem de puntos-modalidades
nj
Contrib.( j)I
GM
= pj d2 ( j ;GM ) = np d2 ( j ;GM )

 nx ij2 1
n x 
Sendo : d2
i =1 

( j ;GM ) =  2 + n − 2 nij 
j 
 nj 
Nesta expressão :
xij = 1 : para os nj ind. que apresentaram a modalidade j.

xij = 0 : para os (n - nj) ind. que não apresentaram a modalidade j.

Estatística Multivariada 2 – Prof. Pedro Ferreira Filho – 2o Semestre de 2013 Página 74


Cápítulo 4 – Análise Fatorial de Correspoindências Simples e Múltiplas
Desta forma a distância ao Centro de Gravidade de uma
Modalidade é igual a :
 
d2 ( j ; GM ) = n j  n2 + 1 − 2  + 1 n − n j
 nj n nj  n
( )
 
= n −1
nj
De modo que :
nj nj  n 
Contrib.( j)I = d 2 ( j ; GM ) =  − 1
GM np np  n j 

 nj 
= 1  1 − 
p n

É importante observar que:

 nj 
Contrib .( j) I 1
= × 1 − 
GM p  n 

Este valor é muito pequeno se nj é muito grande…

Este valor é próximo de 1 se nj es muito pequeno…

Conseqüência: Quanto mais rara é uma modalidade…


maior é sua contribução para inércia total da nuvem
de pontos-modalidades.

Estatística Multivariada 2 – Prof. Pedro Ferreira Filho – 2o Semestre de 2013 Página 75


Cápítulo 4 – Análise Fatorial de Correspoindências Simples e Múltiplas

Desta forma, num probablema com modalidades com


baixa freqüência devemos observar a seguinte situação:

otras eixo II
modalidades

mod2B modalidades
raras
mod1C
mod2A eixo I
mod3B
mod4B

mod1A mod3C
mod1B
mod2C

Por outro lado, com respeito a Inércia Total temos:

Inercia total con respeito a GM de la nuvem


de pontos-modalidades
K K  n 
IGM = ∑ Contrib.( j)IGM = ∑ p1  1 − nj 
j =1 j =1  

IGM = Kp − 1

Conseqüência:
A inercia total de uma Tabela Lógica depende únicamente
do número de variáveis observadas e do número de
modalidades definidas para essas variáveis…

Estatística Multivariada 2 – Prof. Pedro Ferreira Filho – 2o Semestre de 2013 Página 76


Cápítulo 4 – Análise Fatorial de Correspoindências Simples e Múltiplas

Temos também na AFCM as relações de transição entre os espaços dos indivíduos


(linhas) e modalidades (colunas). Estas relações são dadas por:

K x ij
Fα (i) = 1
λα

j=1
G ( j)
p α
∀ i = 1, , n

Perfil del i-ésimo individuo…


xij = 1 quando o ind. i apresentou a modalidade j ;
xij = 0 se e ind. i não apresentou a modalidade j.

Coordenadas factoriales de las K modalidades


(columnas) de la Tabla Lógica.

A coordenada Fα(i) do i-ésimo indivíduo é igual a média


das coordenadas das modalidadesque ele apresentou
(média ponderada por um fatorde contração).

Conseqüências desta primeira relação baricéntrica


entre ambos espaços de representação

• O i-ésimo indivíduo se encontra no baricentro


das modalidades (atributos) que apresentou.

•A proximidade de dois indivíduos sobre um


plano fatorial traduz gráficamente o fato de
ambos apresentarem as mesmas modalidades
das variáveis observadas

Estatística Multivariada 2 – Prof. Pedro Ferreira Filho – 2o Semestre de 2013 Página 77


Cápítulo 4 – Análise Fatorial de Correspoindências Simples e Múltiplas

n x ij
Gα ( j ) = 1
λα
∑n
i =1 j
Fα (i ) ∀ j = 1, , K

Perfil da j-ésima modalidad…


xij = 1 quando el ind. i apresentou a modalidade j ;
xij = 0 se o ind. i não apresentou a modalidade j.

Coordenadas fatoriais dos n individuos


(línhas) da Tabla Lógica.

A coordenada Gα(j) da j-ésima modalidade é igual a


média das coordenadas dos individuos que
apresentaram esta modalidade (médio ponderada
pelo mesmo fator de contração).

Conseqüências desta segunda relação baricéntrica


entre ambos espaços de representação

• A j-ésima modalidade se encontra no baricentro


dos individuos que apresentaram este atributo.

•A proximidade de duas modalidades j y j’ sobre um plano


fatorial traduz graficamente o fato destas modalidades
estarem presentes simultaneamente num mesmo grupo
de individuos, ou seja, estas variáveis são relacionadas.

3.2.3.8. ANÁLISE FATORIAL DE CORRESPONDÊNCIAS DE UMA TABELA DE BURT:

A AFC de uma tabela de Burt segue o mesmo procedimento de uma tabela lógica
exceto considerando que os pontos perfis ponderados e a distância qui-quadrado entre
duas linhas da tabela são dadas por:

Estatística Multivariada 2 – Prof. Pedro Ferreira Filho – 2o Semestre de 2013 Página 78


Cápítulo 4 – Análise Fatorial de Correspoindências Simples e Múltiplas

Distância entre elementos de uma Tabela de Burt TB (K x K)

• Coordenadas do j-ésimo perfil-ponderado correspondente


a modalidade j de uma TB (K x K)

 n j1 n jk n jK 
 
 p 2n p 2n p 2n 
;; ;;
 pn j. pn pn j. pn.k pn j. pn.K 
 2 2
.1

 p n p n p 2n p 2n p 2 n p 2n 
  n j1     
 n ;; n  n jk ;; n  n jK 
 p  n j. n.1  pn n  pn n 
    j. .k   j. .K 

Distância Chi2 entre duas modalidades j e j’


2

K  n jk   
 − n  n j'k
d ( j; j' ) =
2
∑  n 
 p  n j. n.k  pn n


k =1     j'. .k 
2
n  n jk − n j'k 
K
=1
p ∑
n n
k =1 .k  j.
n j'.


A nuvem de pontos-modalidades construída a partir


da TB (K x K), com a distancia Chi2, permite
comparar as modalidades pela semelhança entre
os perfiles da distribução de todas as variáveis
qualitativas da tabela.

A partir destes valores, o processo de diagonalização e interpretação dos valores


são análogos ao caso da TL. Esta equivalência entre os dois procedimentos pode ser
justificada pelo seguinte fato:

Estatística Multivariada 2 – Prof. Pedro Ferreira Filho – 2o Semestre de 2013 Página 79


Cápítulo 4 – Análise Fatorial de Correspoindências Simples e Múltiplas

Conseqüência:

A Análisis Fatorial de Correspondências...


- de uma Tabela Lógica
e
- de uma Tabela de Burt
tem que produzir resultados equivalentes

3.2.3.9. DETERMINAÇÃO DO NÚMERO DE EIXOS PARA ANÁLISE:

Seja qual for a alternativa utilizada para obtenção dos eixos fatoriais (Tabela Lógica
ou Tabela de Burt) uma questão importante é a que se refere ao número de fatores que
devem ser analisados. A partir do que vimos anteriormente, o percentual de variância
explicada por cada eixo, abaixo apresentado, não deve ser utilizado para fins da definição
da escolha do número de fatores para análise.

Estatística Multivariada 2 – Prof. Pedro Ferreira Filho – 2o Semestre de 2013 Página 80


Cápítulo 4 – Análise Fatorial de Correspoindências Simples e Múltiplas

τα = pλ α × 100 = λI α × 100
∑ αλ G

α =1
Taxa de Inércia de um Fator

Uma alternativa usualmente utilizada é a de analisar a estrutura de decrescimento


dos autovalores. Neste caso devem ser analisados os eixos cujos autovalores que não se
enquadram na forma “regular” de decrescimento do histograma dos autovalores, como
pode ser visto na figura abaixo.

Uma outra forma de também se verificar o número de eixo a serem analisados é


através do grau de generalidade do mesmo. A contribuição dos indivíduos e das
modalidades, a inércia de um eixo é dada respectivamente por:

Fα (i )
1 2
CTRα (i ) = n × 100 ∀ i ∈I
λα
Gα (k )
nk 2
CTRα (k ) = n × 100 ∀ k∈K
λα
Estatística Multivariada 2 – Prof. Pedro Ferreira Filho – 2o Semestre de 2013 Página 81
Cápítulo 4 – Análise Fatorial de Correspoindências Simples e Múltiplas

Desta forma, quanto maior o número de indivíduos e modalidades, principalmente


estas ultimas, com contribuição importante no eixo, maior quantidade de informações ele
possui e, portanto maior o interesse na sua análise.

3.2.3.10. ELEMENTOS SUPLEMENTÁRIOS EM AFCM:

Para uma melhor analise e interpretação do problema em estudo, muitas vezes é


importante o uso de indivíduos, atributos ou modalidades suplementares. Qualquer valor
suplementar não é utilizado na obtenção da matriz de distâncias e conseqüentemente na
obtenção das coordenadas Fatoriais. Depois de obtidos estes valores com os dados do
estudo, calculam-se as coordenadas para estes valores suplementários a partir das
expressões abaixo;

Indivíduos suplementários
K x 'sj  K 
Fα (i' s ) = 1
∑p G α ( j) = 1 1
∑ x 'sj G α ( j )
λα λα  p 
j =1  j =1 

Estatística Multivariada 2 – Prof. Pedro Ferreira Filho – 2o Semestre de 2013 Página 82


Cápítulo 4 – Análise Fatorial de Correspoindências Simples e Múltiplas

Estatística Multivariada 2 – Prof. Pedro Ferreira Filho – 2o Semestre de 2013 Página 83


Cápítulo 4 – Análise Fatorial de Correspoindências Simples e Múltiplas

3.2.3.11. EXEMPLO:

Problema: Estudo das Características de Diferentes Raças de Cães

São conhecidas as principais características morfológicas, comportamentais de


diferentes raças de cães. Pretende-se identificar “grupos de raças” de cães que
apresentem características semelhantes. Por outro lado, pretende-se verificar se existe
entre estas raças de cães associação com diferentes tipos de utilidades que são atribuídas
aos animais.

Variáveis e Respectivas Modalidades:


Tamanho: Peso: Velocidade: Inteligência:
T1 ; Pequeno P1: Pequeno V1: Lento I1: Pouca
T2: Mediano P2: Mediano V2: Mediano I2: Mediana
T3 : Grande P3: Grande V3: Rápido I3: Muita

Afeição: Agressividade: Função:


AF1: Leve AG1: Leve F1: Companhia

Estatística Multivariada 2 – Prof. Pedro Ferreira Filho – 2o Semestre de 2013 Página 84


Cápítulo 4 – Análise Fatorial de Correspoindências Simples e Múltiplas

AF2: Grande AG2: Grande F2: Casa


F3: Utilitário
PROGRAMA:
proc corresp mca data=dados1 outc=cd;
tables Raca Tamanho Peso Velocidade Inteligencia Afeicao Agressividade
Funcao;
supplementary Funcao Raca;
run;
%plotit(data=cd, color=red, datatype=corresp, href=0,vref=0);
run;

Estatística Multivariada 2 – Prof. Pedro Ferreira Filho – 2o Semestre de 2013 Página 85


Cápítulo 4 – Análise Fatorial de Correspoindências Simples e Múltiplas

DADOS: TABELA DE DADOS CONDENSADOS

Obs Raca Tamanho Peso Velocidade Inteligencia Afeicao Agressividade Funcao

1 Basset T1 P1 V1 I2 AF1 AG2 F2

2 Beauceron T3 P2 V3 I2 AF2 AG2 F3

3 Boxer T2 P2 V2 I2 AF2 AG2 F1

4 Buldog T1 P1 V1 I2 AF2 AG1 F1

5 Bull-massif T3 P3 V1 I3 AF1 AG2 F3

6 Caniche T1 P1 V2 I3 AF2 AG1 F1

7 Chiguagua T1 P1 V1 I2 AF2 AG1 F1

8 Cocker T2 P1 V1 I2 AF2 AG2 F1

9 Colley T3 P2 V3 I2 AF2 AG1 F1

10 Dalmata T2 P2 V2 I2 AF2 AG1 F1

11 Doberman T3 P2 V3 I3 AF1 AG2 F3

12 Dogo Aleman T3 P3 V3 I2 AF1 AG2 F3

13 Fox Haund T3 P2 V3 I2 AF1 AG2 F2

14 Fox Terrier T1 P1 V2 I2 AF2 AG2 F1

15 Galgo T3 P2 V3 I2 AF1 AG1 F2

16 Gascono T3 P2 V2 I2 AF1 AG2 F2

17 Labrador T2 P2 V2 I2 AF2 AG1 F2

18 Mastin Aleman T3 P2 V3 I3 AF2 AG2 F3

19 Mastiff T3 P3 V1 I2 AF1 AG2 F3

20 Pekines T1 P1 V1 I2 AF2 AG1 F1

21 Podenco Breton T2 P2 V2 I3 AF2 AG1 F2

22 Podenco Frances T3 P2 V2 I2 AF1 AG1 F2

23 Pointer T3 P2 V3 I3 AF1 AG1 F2

24 Setter T3 P2 V3 I2 AF1 AG1 F2

25 Sao Bernardo T3 P3 V1 I2 AF1 AG2 F3

26 Teckel T1 P1 V1 I2 AF2 AG1 F1

27 Terranova T3 P3 V1 I2 AF1 AG1 F3

Estatística Multivariada 2 – Prof. Pedro Ferreira Filho – 2o Semestre de 2013 Página 86


Cápítulo 4 – Análise Fatorial de Correspoindências Simples e Múltiplas

The CORRESP P rocedure

Inertia and Chi-Square Decomposition

Singular Principal Chi- Cumulative 6 12 18 24 30


Value Inertia Square Percent Percent ----+----+----+----+----+---

0.69398 0.48161 139.417 28.90 28.90 ************************

0.62027 0.38474 111.375 23.08 51.98 *******************

0.45930 0.21095 61.068 12.66 63.64 ***********

0.39693 0.15755 45.609 9.45 74.09 ********

0.38747 0.15013 43.461 9.01 83.10 ********

0.35113 0.12330 35.692 7.40 90.50 ******

0.28542 0.08146 23.582 4.89 95.38 ****

0.21370 0.04567 13.221 2.74 98.12 **

0.15343 0.02354 6.815 1.41 99.54 *

0.08782 0.00771 2.233 0.46 100.00

Total 1.66667 482.471 100.00

Degrees of Freedom = 225

Estatística Multivariada 2 – Prof. Pedro Ferreira Filho – 2o Semestre de 2013 Página 87


Cápítulo 4 – Análise Fatorial de Correspoindências Simples e Múltiplas

Column Coordinates

Dim1 Dim2

T1 1.1850 0.9239

T2 0.8511 -1.2317

T3 -0.8367 -0.0206

P1 1.1689 0.8243

P2 -0.3054 -0.8189

P3 -1.0151 0.9739

V1 0.3199 1.0449

V2 0.6037 -0.8878

V3 -0.8921 -0.3718

I1 -0.3490 0.8086

I2 0.3694 -0.2855

I3 -0.3351 -0.4595

AF1 -0.8352 0.2875

AF2 0.7755 -0.2669

AG1 0.4007 -0.1943

AG2 -0.4315 0.2092

Estatística Multivariada 2 – Prof. Pedro Ferreira Filho – 2o Semestre de 2013 Página 88


Cápítulo 4 – Análise Fatorial de Correspoindências Simples e Múltiplas

Supplementary Column Coordinates Supplementary Column Coordinates

Dim1 Dim2 Dim1 Dim2

F1 1.0393 0.0953 FoxHaund -1.2631 0.0407

F2 -0.3224 -0.4324 FoxTerri 1.2704 0.2240

F3 -0.9365 0.3673 Galgo -0.9751 -0.1341

Basset 0.3662 1.7754 Gascono -0.7455 -0.1828

Beaucero -0.4571 -0.6734 Labrador 0.9327 -1.5964

Boxer 0.6446 -1.4216 Mastiff -1.0893 1.4310

Buldog 1.4602 0.8865 MastinAl -0.7009 -0.7488

Bull-mas -1.0844 0.8817 Pekines 1.2116 1.3605

Caniche 1.3146 -0.0261 PodencoB 0.6888 -1.6717

Chiguagu 1.2116 1.3605 PodencoF -0.2088 -0.8315

Cocker 1.0567 0.1275 Pointer -0.9703 -0.6834

Colley -0.1691 -0.8482 SaoBerna -0.8406 0.9571

Dalmata 0.9327 -1.5964 Setter -0.7264 -0.6080

Doberman -1.2583 -0.5086 Teckel 1.4602 0.8865

DogoAlem -1.5087 0.8173 Terranov -0.5526 0.7823

Estatística Multivariada 2 – Prof. Pedro Ferreira Filho – 2o Semestre de 2013 Página 89


Cápítulo 4 – Análise Fatorial de Correspoindências Simples e Múltiplas

Summary Statistics for the Column


Points

Quality Mass Inertia

T1 0.7902 0.0432 0.0741

T2 0.5094 0.0309 0.0815

T3 0.8756 0.0926 0.0444

P1 0.8614 0.0494 0.0704

P2 0.8226 0.0864 0.0481

P3 0.4498 0.0309 0.0815

V1 0.7025 0.0617 0.0630

V2 0.4853 0.0494 0.0704

V3 0.4671 0.0556 0.0667

I1 0.3266 0.0494 0.0704

I2 0.2024 0.0802 0.0519

I3 0.0924 0.0370 0.0778

AF1 0.7244 0.0802 0.0519

AF2 0.7244 0.0864 0.0481

AG1 0.2136 0.0864 0.0481

Estatística Multivariada 2 – Prof. Pedro Ferreira Filho – 2o Semestre de 2013 Página 90


Cápítulo 4 – Análise Fatorial de Correspoindências Simples e Múltiplas

Quality of Representation Quality of Representation Quality of Representation


for the Supplementary for the Supplementary for the Supplementary
Column Points Column Points Column Points

F1 0.6408 Cocker 0.0436 Mastiff 0.1244

F2 0.1455 Colley 0.0288 MastinAl 0.0405

F3 0.4261 Dalmata 0.1315 Pekines 0.1276

Basset 0.1264 Doberman 0.0708 PodencoB 0.1257

Beaucero 0.0255 DogoAlem 0.1132 PodencoF 0.0283

Boxer 0.0937 FoxHaund 0.0614 Pointer 0.0542

Buldog 0.1122 FoxTerri 0.0640 SaoBerna 0.0624

Bull-mas 0.0751 Galgo 0.0373 Setter 0.0345

Caniche 0.0665 Gascono 0.0227 Teckel 0.1122

Chiguagu 0.1276 Labrador 0.1315 Terranov 0.0353

Partial Contributions to Inertia Partial Contributions to Inertia


for the Column Points for the Column Points

Dim1 Dim2 Dim1 Dim2

T1 0.1260 0.0959 V3 0.0918 0.0200

T2 0.0464 0.1217 I1 0.0125 0.0839

T3 0.1346 0.0001 I2 0.0227 0.0170

P1 0.1401 0.0872 I3 0.0086 0.0203

P2 0.0167 0.1506 AF1 0.1162 0.0172

P3 0.0660 0.0761 AF2 0.1079 0.0160

V1 0.0131 0.1752 AG1 0.0288 0.0085

V2 0.0374 0.1012 AG2 0.0310 0.0091

Estatística Multivariada 2 – Prof. Pedro Ferreira Filho – 2o Semestre de 2013 Página 91


Cápítulo 4 – Análise Fatorial de Correspoindências Simples e Múltiplas

Indices of the Coordinates that Contribute


Most to Inertia for the Column Points

Dim1 Dim2 Best

T1 1 1 1

T2 2 2 2

T3 1 0 1

P1 1 1 1

P2 0 2 2

P3 2 0 2

V1 0 2 2

V2 0 2 2

V3 1 0 1

I1 0 2 2

I2 0 0 1

I3 0 0 2

AF1 1 0 1

AF2 1 0 1

AG1 0 0 1

AG2 0 0 1

Squared Cosines for the Column Squared Cosines for the Column
Points Points

Dim1 Dim2 Dim1 Dim2

T1 0.4914 0.2988 V1 0.0602 0.6422

T2 0.1646 0.3448 V2 0.1534 0.3319

T3 0.8750 0.0005 V3 0.3979 0.0691

P1 0.5753 0.2861 I1 0.0513 0.2753

P2 0.1004 0.7221 I2 0.1267 0.0757

P3 0.2342 0.2156 I3 0.0321 0.0603

Estatística Multivariada 2 – Prof. Pedro Ferreira Filho – 2o Semestre de 2013 Página 92


Cápítulo 4 – Análise Fatorial de Correspoindências Simples e Múltiplas

Squared Cosines for the Column Squared Cosines for the Column
Points Points

Dim1 Dim2 Dim1 Dim2

AF1 0.6477 0.0767 AG2 0.1729 0.0406

AF2 0.6477 0.0767

AG1 0.1729 0.0406

Squared Cosines for the Supplementary Squared Cosines for the Supplementary
Column Points Column Points

Dim1 Dim2 Dim1 Dim2

F1 0.6354 0.0053 Mastiff 0.0456 0.0788

F2 0.0520 0.0935 MastinAl 0.0189 0.0216

F3 0.3693 0.0568 Pekines 0.0565 0.0712

Basset 0.0052 0.1212 PodencoB 0.0183 0.1075

Beaucero 0.0080 0.0174 PodencoF 0.0017 0.0266

Boxer 0.0160 0.0777 Pointer 0.0362 0.0180

Buldog 0.0820 0.0302 SaoBerna 0.0272 0.0352

Bull-mas 0.0452 0.0299 Setter 0.0203 0.0142

Caniche 0.0665 0.0000 Teckel 0.0820 0.0302

Chiguagu 0.0565 0.0712 Terranov 0.0117 0.0235

Cocker 0.0429 0.0006

Colley 0.0011 0.0277

Dalmata 0.0335 0.0980

Doberman 0.0609 0.0099

DogoAlem 0.0875 0.0257

FoxHaund 0.0614 0.0001

FoxTerri 0.0621 0.0019

Galgo 0.0366 0.0007

Gascono 0.0214 0.0013

Labrador 0.0335 0.0980

Estatística Multivariada 2 – Prof. Pedro Ferreira Filho – 2o Semestre de 2013 Página 93


Cápítulo 4 – Análise Fatorial de Correspoindências Simples e Múltiplas

Estatística Multivariada 2 – Prof. Pedro Ferreira Filho – 2o Semestre de 2013 Página 94


Cápítulo 4 – Análise Fatorial de Correspoindências Simples e Múltiplas

3.2.3.12.REFERÊNCIAS BIBLIOGRÁFICAS

• ANDRADE, S.F. – P erfil dos Alunos I ngressos na UFSCar – 1994-1997: Uma


Abordagem M ultivariada – Relatório Iniciação Cientifica, DEs-UFSCar, 1998.

• BOURACHE, J. M. e SAPORTA, G. - Análise de Dados , Zahar Editores, São


Paulo, 1982.

• CRISVISQUI, E. - Análisis factorial de Correspondencias: Un I nstrum ento de


I nvestigation en Ciências sociales, Bruselas, LMTD Université Libre de
Bruxelles, Universidad Católica de Asunción, Asunción. 1993.

• ESCOFIER, B. y J. PAGÉS, Análisis Factoriales Sim ples y M últiples:


Objectivos, M étodos e I nterpretación, Universidade del Pais Vasco, Bilbao,
1982

• FERREIRA FILHO, P., BERETA, E.M.P., RIBEIRO, F.B. – Tabela de Burt –


Relatório Técnico 04 – Notas Didáticas – Des-UFSCar, 1998.

• JONHSON, R.A. and WICHERN, D.W., Applied M ultivariate Statistical


Analysis, Prentice Hall, 1982.

• LEBART, L., MORINEAU A., and PIRON, M., Statistique Exploratoire


M ultidim ensionalle, Dunod, 1995.

• LANGRAND, C. Análise de Correspondências e M étodos de Classificação,


Notas de Mini-Curso, Seminário de Métodos Estatísticos Aplicados a Ciências
Humanas - DEs-UFSCar, julho, 1996.

• PEREIRA, J.C.R. – Análise de Dados Qualitativos, EDUSP, 2001.

Estatística Multivariada 2 – Prof. Pedro Ferreira Filho – 2o Semestre de 2013 Página 95

Você também pode gostar