Escolar Documentos
Profissional Documentos
Cultura Documentos
ESTATÍSTICA MULTIVARIADA 2
CAPÍTULO # 3
2º SEMESTRE DE 2013
Cápítulo 3 – Análise Fatorial de Correspondências Simples e Múltiplas
MULTIPLAS:
3.1. INTRODUÇÃO:
A análise estatística de um determinado problema é baseada num conjunto de
informações de n unidades de observação (pessoas, objetos,....) para as quais p
características (variáveis, medidas,...) são observadas. Temos então o seguinte tipo de
informação disponível (usualmente disposta em um “banco de dados”).
V1 V2 ... Vj .... Vp
1 ׃
2 ׃
. ׃
. ׃
i --- --- --- Xij --- ---
. ׃
. ׃
n ׃
Então:
Xij = Valor observado para a i-ésima unidade de observação para a j-ésima característica
observada.
Do ponto de vista da análise estatística, este conjunto de dados pode ser visto
como uma MATRIZ DE DADOS de ordem n x p, isto é:
V1 V2 ... Vj .... Vp
1 ׃ X11 X12 .. X1j .. X1p
2 ׃ X22 X22 .. X2j .. X2p
. ׃ .. .. .. .. .. ..
. ׃ .. .. .. .. .. ..
i --- --- --- Xij --- --- Xi1 Xi2 .. Xij .. XiP
. ׃ .. .. .. .. .. ..
. ׃ .. .. .. .. .. ..
n ׃ Xn1 X12 .. Xnj .. Xnp
Obs X1 X2
1 X11 X12
2 X22 X22
.. .. ..
i Xi1 Xi2
i’ Xi’1 Xi’2
.. .. ..
.. .. ..
n Xn1 X12
Neste caso, se:
Neste caso os valores observados são apenas códigos sem qualquer propriedade
numérica, portanto somente é possível identificar se duas observações têm ou não o
mesmo atributo.
O mesmo raciocínio pode ser feito para o estudo da existência ou não de relação
entre as duas características observadas.
Dado a não existência de propriedades numéricas das características observadas, a
análise estatística neste caso é realizada com o uso de TABELAS DE CONTINGENCIA, onde
é obtido número de ocorrências simultâneas das diferentes categorias de cada
característica em estudo, isto é, considerando as características V1 com P possíveis
categorias (possíveis valores que a característica pode assumir) e V2 com K possíveis
categorias, temos:
Obs X1 X2 1 2 j K
1 X11 X12 1 n11 n12 .. n1j .. n1pk n1.
2 X22 X22 2 n22 n22 .. n2j .. n2k n2.
.. .. .. .. .. .. .. .. .. .. ..
.. .. .. .. .. .. .. .. ..
i’ Xi’1 Xi’2 I ni1 ni2 .. nij .. nik ni.
.. .. .. .. .. .. .. .. .. .. ..
.. .. .. .. .. .. .. .. .. .. ..
n Xn1 Xn2 P np1 np2 npj
.. .. npk np.
n.1 n.2 .. n.j .. n.k n..
Onde:
Pearson.
p p p p
( nij − ni .n. j ) 2 ( oij − eij ) 2
χ2 = ∑∑ ni .n. j
= ∑∑ eij
i =1 j =1 i =1 j =1
onde:
nos leva ao estudo dos desvios dos valores em relação a hipótese de independência (não
CASO A CASO B
Tabela de A * B Tabela de A * B
B B
A B1 B2 B3 B4 Total A B1 B2 B3 B4 Total
Total 376 643 343 189 1551 Total 372 653 340 186 1551
REPRESENTAÇÃO GRAFICA
χ2 – Qui-Quadrado de Pearson.
Tabela de A * B Tabela de A * B
B B
Tota
A B1 B2 B3 B4 l A B1 B2 B3 B4 Total
A1 33.02 36.57 12.03 18.36 100.00
A1 24.07 41.98 21.91 12.04 100.00
CASO A CASO B
Tabela de A * B Tabela de A * B
B B
A B1 B2 B3 B4 Total A B1 B2 B3 B4 Total
A1 56.91 36.86 22.74 62.96 41.78 A1 41.94 41.65 41.76 41.94 41.78
A2 13.56 15.86 36.73 11.64 19.41 A2 19.35 19.45 19.41 19.35 19.41
A3 29.52 47.28 40.52 25.40 38.81 A3 38.71 38.90 38.82 38.71 38.81
Total 100.0 100.0 100.0 100.0 100.0 Total 100.0 100.0 100.0 100.0 100.0
Podemos observar nos dois casos acima, perfil por linha e por coluna a existência
ou não de associação entre as características em estudo. No caso A os valores no interior
da tabela são distintos dos valores marginais, de colunas e linhas respectivamente,
enquanto que no caso B estes mesmos valores são praticamente iguais. Isto significa que,
no caso de perfis por linha, temos que no caso A, a informação das colunas (categorias de
B) altera a informação que é diferente da informação obtida sem o conhecimento de B
(valor marginal), já no caso B o conhecimento dos níveis de B fornece o mesmo valor do
que aquele obtido sem o conhecimento do mesmo. O mesmo raciocínio pode ser feito
para o caso de perfil por coluna.
O teste Qui-Quadrado nos permite então concluir pela existência ou não de
associação entre duas características em estudo. Caso existam mais do que duas
características em estudo, todas as possíveis combinações de duas características podem
ser estudadas.
Realizada esta analise podemos ainda ter interesse nas seguintes questões :
i) No caso de existência de associação entre as características como podemos
identificar os desvios em relação a hipótese de independência, ou ainda, que
categorias de A e B apresentam freqüências (e conseqüentemente, associação)
acima do esperado?
Estas questões não podem ser respondidas pelos métodos usualmente utilizados na
análise deste tipo de problema, e é com esta finalidade que a ANALISE FATORIAL DE
CORRESPONDENCIA foi proposta.
Portanto, a ANALISE FATORIAL DE CORRESPONDENCIAS é um procedimento
estatístico exploratório multivariado para estudo de tabelas de contingências.
3.2.1. INTRODUÇÃO:
A Análise Fatorial de Correspondências foi proposta por J. P. Benzécri nos anos 60 com
o objetivo de realizar estudo de tabelas de contingência (cruzamento de variáveis
categóricas). Proposta inicialmente para o caso de análise conjunta de duas variáveis foi
mais tarde estendida para o estudo de um número qualquer de variáveis.
Hoje, dizemos que quando duas variáveis estão em estudo temos uma Análise Fatorial
de Correspondências Simples ou Binárias (AFCS) e para o caso de mais variáveis temos a
Análise Fatorial de Correspondências Múltiplas (AFCM).
Por suas propriedades estatísticas e pela riqueza de suas interpretações,
corroborada pelo desenvolvimento de recursos computacionais, a análise de
correspondências tornou-se um método privilegiado na descrição de dados qualitativos.
Com estas características, constitui-se numa ferramenta com inúmeras possibilidades de
uso, particularmente nas áreas de ciências humanas e sociais onde a presença de
variáveis qualitativas de interesse é bastante usual.
Podemos destacar dois grandes objetivos gerais da Análise Fatorial de
Correspondências:
i) Analisar toda informação contida em uma Tabela de Contingência;
ii) Representar Graficamente a estrutura de uma Tabela de Contingência;
marginais, tem por termo geral fi. e f.j (cf. Figura 2).
1 j J
1
f ij = nij n
f i. = ∑ f ij
i fij
fi.
j
I f . j = ∑ f ij
i
f.j 1
∑i
f i. = ∑f
j
.j = ∑∑ f
i j
ij =1
Existe relação entre as duas variáveis quando uma ou mais caselas fij é diferente
f ij
= f.j (2-2)
fi .
A quantidade f.j representa o percentual da população total que possui a
f ij
modalidade j, enquanto que representa o percentual de indivíduos numa
fi.
subpopulação da modalidade i que também possuem a modalidade j. Quando existe
independência, as I subpopulações caracterizadas pelas modalidades i da primeira variável
Observa-se ainda que numa tabela de contingência, linhas e colunas têm um papel
absolutamente simétrico e que a independência se expressa da mesma maneira sobre o
conjunto de colunas. As igualdades anteriores são equivalentes a seguinte:
f ij
= fi. (2-3)
f .j
Existe independência quando todos os percentuais das colunas são iguais as fi.
marginais, ou seja, quando as colunas são proporcionais.
3.2.2.2. OBJETIVO:
cada grupo de linhas pelas colunas a que este grupo se associa muito ou muito pouco. O
estudo do conjunto das colunas é totalmente análogo.
Na AFCS a tabela original não é analisada diretamente. Num estudo das linhas, a
tabela de dados é transformada dividindo-se cada termo fij da linha i pela marginal fi.
desta linha. A nova linha se denomina perfil linha (cf. Figura 3). Esta transformação
atende o objetivo de estudar a relação entre as duas variáveis por meio do desvio entre os
percentuais das linhas. Esta comparação, entretanto pode ser influenciada pelos seus
efeitos marginais.
f ij
O número representa, em nosso exemplo, a probabilidade de ocupar uma
f i.
profissão j sabendo que possui nível de escolaridade i. O perfil-linha i nada mais é que a
probabilidade condicionada definida por i sobre o conjunto de colunas.
1 j J 1 j J
1 1
i f ij /f i. 1 i f ij /f.j
I
I
1
Na AFCS, a semelhança entre duas linhas ou entre duas colunas está definida por
uma distância entre seus perfis. Esta distância é conhecida como distância χ
2
(Qui-
1 f ij f lj
d 2 ( perfil − linha i, perfil - linha l) = ∑ −
χ j f.j fi. fl. (2-
4)
2
1 f ij f ik
d 2 ( perfil − coluna j, perfil - coluna k) = ∑ −
χ i f
i.
f .j
f .k (2-5)
sobre a distância entre as linhas, ou seja, aumenta os limites, a priori menos freqüentes
referente as modalidades raras, isto representa um papel análogo ao da divisão pelo
desvio padrão em caso das variáveis numéricas.
χ
2
A distância possui uma propriedade fundamental chamada equivalência
são somadas a distância entre os perfis-linhas não se altera. Esta propriedade matemática
significa que se substituindo duas colunas ou linhas quase proporcionais por sua soma não
se modifica sensivelmente o resultado de uma AFC
DISTÂNCIA χ2
Tabela de Contingência
Tipos de Centrais Tel. Prod.
País Produtor Pequenas Medianas Grandes x País
Linha Coluna (1) (k) (3)
A (1) 75 25 54 154
(n jk − n j'k ) 2
K
d ( j, j' ) = ∑
k =1
∀j, j'∈ j = 1,..., J
∑ (n )
J
d(k ,k ' ) = jk − n jk ' 2
∀k, k'∈ k = 1,..., K
j= 1
Agora, como vimos, o nij nas expressões acima representam o número de vezes
que a combinação i e j ocorre, portanto será esta uma medida adequada para calculo da
semelhança entre linhas ou colunas? E em caso negativo, que etapas devemos percorrer
na obtenção de uma medida de distância adequada para os objetivos propostos?
Consideremos a distância entre os paises A e B:
No Exemplo:
nij
f ij =
n
No exemplo:
Tabla de Freqüências associada
a Tabela de Contingência
Tipos de Centrais Tel. Prod.
Pequenas Medianas Grandes x País
País Produtor
Neste caso, as distâncias euclidianas entre linhas e entre colunas são dadas por:
2
n jk n j'k
(fjk − fj'k ) 2
K K
d( j, j' ) = ∑
k =1
−
n.. n..
= ∑
k =1
2
n jk n jk '
(fjk − fjk ' ) 2
J J
d(k ,k ' ) = ∑
j =1
−
n.. n..
= ∑
j =1
Porém, como pode-se observar, os cálculos são os mesmos anterior, exceto que
todo valor esta dividido pelo tamanho de amostra n. Portanto o calculo da distância na
tabela de freqüências percentuais conserva a mesma informação da tabela de dados
originais, graficamente:
Tipo Central
Pais Total
P M G
A 8.2% 2.8% 6.0% 17.1%
C 9.9% 14.7% 22.4% 47.0%
Porém esta é uma forma adequada de obtenção da distância entre duas linhas? Os
dois paises podem ser “comparados” desta forma direta?
Pela distribuição marginas, temos que o país A produz 17.1% das centrais
telefônicas enquanto que o país C, 47%. Portanto, na comparação entre paises os valores
8.3 e 9.9% (bem como os demais), não são efetivamente comparáveis, pois estão
baseados na referência do tamanho de amostra total, quando na verdade deveria se
referenciar no tamanho de amostra de cada categoria. Para que isto seja possível
devemos ter como referencia o perfil linha, isto é:
Tipo Central
País Total
P M G
A 48.7% 16.2% 35.1% 100%
C 21.1% 31.3% 47.6% 100%
Agora podemos efetivamente comparar a diferença entre os dois paises: O país A produz
29% de pequenas centrais enquanto que C produz 21.1%. A distância euclidiana é agora
dada por:
d2 (A,C) = (48.7 – 21.1)2 + (16.2 – 31.3)2 + (35.1 – 47.6)2
Raciocínio análogo pode ser feito para o calculo da distância euclidiana entre as
colunas da tabela.
Desta forma, devemos considerar:
Ao trabalharmos com os perfis por linhas (ou colunas) definimos uma forma de
efetivamente estarmos com valores comparáveis. Porém uma distorção ainda é
observada, vejamos: Ao calcularmos, por exemplo, d(j, j’) como acima definido estamos as
Cada componente da soma refere-se à diferença entre os dois paises nos diferentes
tipos de centrais, que por sua vez são produzidas em diferentes proporções cujo valor é
dado pela freqüência marginal. Portanto estes diferentes “graus de importância” (pesos)
de cada elemento deve ser considerado no cálculo da distância euclidiana. Temos então,
finalmente a distancia ponderada entre duas linhas (ou colunas), dadas por:
2
1 f jk − f j'k
K
d ( j, j' ) = ∑ f f
k =1 .k j.
f j'.
∀j, j'∈ j = 1,, J
2
1 f jk − f jk '
J
d(k ,k ' ) = ∑ f f
j =1 j. .k
f.k '
∀k , k '∈ k = 1, , K
2
1 f jk f j' k
K
d ( j , j' ) = ∑ −
k =1 f .k f f
j . j '.
que é equivalente a:
2
f jk f j' k
K
d ( j , j' ) = ∑ −
f j . f .k f j'. f .k
k =1
K
d ( j , j' ) = ∑ ( x *jk − x *j' k )2
k =1
V1 V2 ... Vj .... Vp
1 ׃
2 ׃
. ׃
. ׃
i --- --- --- Xij --- ---
. ׃
. ׃
n ׃
Tabela de Contingência
1 2 k K
1 n11 n12 .. n1j .. n1pk n1.
2 n22 n22 .. n2j .. n2k n2.
.. .. .. .. .. .. .. ..
.. .. .. .. .. ..
j ni1 ni2 .. nij .. nik ni.
.. .. .. .. .. .. .. ..
.. .. .. .. .. .. .. ..
J np1 np2 npj .. .. npk np.
n.1 n.2 .. n.j .. n.k n..
1 2 j K
1 .. .. .. .. .. .. f1.
2 .. .. .. .. .. .. f2.
.. .. .. .. .. .. .. ..
.. .. .. .. .. .. ..
j .. .. .. x *jk .. .. fi.
.. .. .. .. .. .. .. ..
.. .. .. .. .. .. .. ..
J .. .. .. .. .. .. n.p.
.. .. 1
f .1 f .2 f.j f .k
onde:
K J
f jk n jk ∑ n jk ∑ n jk
x jk =
*
f jk = f j. = k =1
f .k = j =1
f j. f .k n.. n.. n..
J f jk
PM = ∑ = f .k
j =1 f j. f .k
Variabilidade Total com respeito a Centro de Gravidade:
2
f jk K J ( f − f f ) 2
ϕ = ∑ f .k ∑ f k = ∑ ∑ =
K J
2
− jk .k j.
k =1 j =1
f j . f .k
k =1 j =1
f .k f j .
χ2
=
n
Observações:
Consideremos:
X = eλe'
onde:
B = wα λα wα ' V = uα λα uα '
Podemos provar que:
i) Os autovalores de B e V são os mesmos;
ii) 0 ≤ λα ≤ 1
∑ λα = ϕ
m
2
iii) onde m = (min(J,K)) = número de autovalores não nulos de B
α =1
ou V.
1 1
iv) uα = wα e wα = uα
f .k f j.
v) Coordenadas dos pontos perfis no α-ésimo eixo (linhas e colunas
respectivamente) :
K
Fα ( j ) = ∑ f jkl uα k
k =1
J
Gα ( k ) = ∑ f jkc wα j
j =1
F1 … F α … Fp G1 … Gα … Gp
… … … … … … … … … … … …
vi) Variância dos novos eixos: Gk … … Gα(k) … …
Lj … … Fα(j) … …
… … … … … … … … … … … …
GL 0 0 0 0 0 GK 0 0 0 0 0
K
∀α = 1, ,p ⇒ Gα = ∑f .k G α (k ) = 0
k =1
Variância dos eixos fatoriais : Fα = 0 ; ∀α = 1,,p
∑ p (F ( j) − F ) = ∑ p F
J J
( j) = λ α
2
s 2α = j α α
2
j α
j =1 j=1
K
s 2α = ∑p G k
2
α (k ) = λ α
k =1
τα = pλ α × 100 = λ α2 × 100
ϕ
∑ αλ
α =1
p j Fα2 ( j )
CTRα ( j ) = × 100 ∀ j ∈ J
λα
pk Gα2 (k )
CTRα (k ) = × 100 ∀ k ∈ K
λα
Perf-colum. G1 … Gα … Gp
C1 … … … … …
Ck … … CTRα (K) … …
CK … … … … …
100% … 100% … 100%
Questão: Dois pontos perfis que apresentam a mesma coordenada num determinado
plano fatorial, podem apresentam diferente qualidade de representação neste plano ??
Geometricamente:
Estatística Multivariada 2 – Prof. Pedro Ferreira Filho – 2o Semestre de 2013 Página 30
Cápítulo 3 – Análise Fatorial de Correspondências Simples e Múltiplas
Fórmulas de Transição
Coord. Fatoriais Coord. Fatoriais
Perfil-linha (j)
da linha (j) da Coluna (k)
1 K f jk
Fα ( j) =
λ
∑ G (k ) ∀ j ∈ J
f j. α
α k =1
Temos então:
Coordenadas de um perfil-suplementar-linha :
f jS1 S
f jk S
f jK
S = S ;; S ;; S
(1,K ) f j. f j. fj.
Perfil ponderado de S
f jS1 S
f jk S
f jK
S * = f S f ;; f S f ;; f S f
(1,K ) j. .1 j. .k j. .K
Perfil ponderado-centrado de S
f jS1 S
fjk S
f jK
S* * = − f.1 ;; − f.k ;; − f.K
(1,K ) f jS. f.1 f jS. f.k f jS. f.K
e,
α k =1 f j. f.k
S ∑
− f.k ⋅ Fα ( j)
linha
Coordenadas J fS
do perfil S em G α S = ( ) 1 ⋅
λα ∑
S
jk
j=1 f.k f j.
− f j. ⋅ Gα (k )
coluna
Observação:
Os perfis suplementares não participam da formação da matriz de “inércia”, são
considerados pontos perfis sem peso.
Estatística Multivariada 2 – Prof. Pedro Ferreira Filho – 2o Semestre de 2013 Página 33
Cápítulo 3 – Análise Fatorial de Correspondências Simples e Múltiplas
EIXOS FATORIAIS:
p
f jk = p jpk 1 +
λ
1
α =1 α
∑
Fα ( j) Gα (k )
para α = 0 f jk = p jpk
Tabela
Esquema : fjk = X pj = de
pk Indep.
Tabela Tabela
fjk = de + primeiro
Indep. fator
o
Estatística Multivariada 2 – Prof. Pedro Ferreira Filho – 2 Semestre de 2013 Página 34
Cápítulo 3 – Análise Fatorial de Correspondências Simples e Múltiplas
para α = 2
Tabela Tabela
fjk = de + primeiro + fat. λ 2 X F2(j)
Indep. fator G2(k)
para α = p
f jk = p jp k + p jpk 1 F1 ( j) G1 (k ) + + p jp k 1 Fα ( j) G α (k )
λ1 λα
Tabela Tabela
fjk = de +…+ fat. λ p
+ primeiro +…+ X Fp(j)
Indep. fator Gp(k)
ϕ2 = λ1 + λ2+ … + λp
• O primeiro plano fatorial de uma A.F.C. apresenta la
a aproximação mais importante do desvio da
independência da Tabela de Contingência.
• Os eixos sucessivos apresentam “correções”
complementares a esta primeira aproximação...
Finalmente:
Lembrando:
Total x tipo
-
24,4%
+
26,2%
-
49,4% 100%
Pais P M G
A 75 25 54
B 56 78 189
C 89 132 202
PROGRAMA:
RESULTADOS:
************************
0.25939 0.06728 60.5564 88.74 88.74 *
Degrees of Freedom = 4
Dim1 Dim2
A 0.8113 0.0176
B 0.1437 0.4974
C 0.0450 0.4850
A 1 0 1
B 0 2 2
C 0 2 2
Dim1 Dim2
A 0.9973 0.0027
B 0.6948 0.3052
C 0.4226 0.5774
Dim1 Dim2
P 0.7555 0.0001
M 0.0900 0.6489
G 0.1546 0.3510
P 1 0 1
M 0 2 2
G 2 2 2
Dim1 Dim2
P 1.0000 0.0000
M 0.5221 0.4779
G 0.7763 0.2237
Exemplo 2:
Uma pesquisa foi realizada no final dos anos 60 nos EUA com o objetivo de
investigar a opinião dos jovens americanos, segundo sexo e idade, no que dizia respeito a
estratégia de como o governo americano deveria terminar a Guerra do Vietnam. As
opções de estratégia apresentadas aos jovens foram:
A : Os EUA deveriam provocar a derrota do poder norte-vietnamita com bombardeios
intensivos de suas industrias, portos aeroportos e com uma invasão terrestre;
B: Os EUA deveriam continuar aplicando a política que era adotada à época;
C: Os EUA deveriam reduzir suas atividades militares, parar os bombardeios do Vietnam
do Norte e intensificar seus esforços para iniciar negociações diplomáticas;
D: Os EUA deveriam retirar imediatamente suas forças militares do Vietnam do Norte;
DADOS OBSERVADOS:
Obs AS A B C D
6 MULHERES 1 ANO 13 19 40 5
7 MULHERES 2 ANO 5 9 33 3
9 MULHERES 4 ANO 12 21 58 10
DADOS PRELIMINARES:
PERFIL POR COLUNA
ESTRATÉGIAS
All
A B C D
EST
All
A B C D
DESVIOS
ESTRATÉGIAS
Total
A B C D
PROGRAMA:
proc corresp data=vietnam outc=vvv;
Var A B C D;
id AS;
%plotit (data=vvv, datatype=corresp,color=black);
run;
RESULTADOS:
The CORRESP Procedure
Inertia and Chi-Square Decomposition
Cumulativ
Singular Principal Chi- Percen e 15 30 45 60 75
Value Inertia Square t Percent ----+----+----+----+----+---
Degrees of Freedom = 27
Row Coordinates
Summary Statistics for the Row Points
Dim1 Dim2
Quality Mass Inertia
H1 0.3856 -0.0410
H1 0.9970 0.1395 0.1808
H2 0.3265 -0.0149
H2 0.9844 0.1405 0.1309
H3 0.1746 -0.0036
H3 0.9043 0.1382 0.0400
H4 0.0809 0.0139
H4 0.3832 0.1490 0.0225
H5 -0.2808 0.2252
H5 0.9995 0.2479 0.2760
M1 -0.1665 -0.1500
M1 0.8183 0.0245 0.0129
M2 -0.4068 -0.2988
M2 0.9955 0.0159 0.0349
M3 -0.3337 -0.3667
M3 0.9994 0.0531 0.1121
M4 -0.3439 -0.1127
M4 0.9820 0.0321 0.0368
M5 -0.4535 -0.3043
M5 0.9944 0.0594 0.1531
H1 0.2421 0.0084 H1 1 0 1
H2 0.1747 0.0011 H2 1 0 1
H3 0.0492 0.0001 H3 0 0 1
H4 0.0114 0.0010 H4 0 0 1
H5 0.2281 0.4508 H5 2 2 2
M1 0.0079 0.0198 M1 0 0 2
M2 0.0307 0.0509 M2 0 0 2
M3 0.0690 0.2560 M3 2 2 2
M4 0.0443 0.0146 M4 0 0 1
M5 0.1426 0.1974 M5 2 2 2
Dim1 Dim2
H1 0.9858 0.0111
H2 0.9824 0.0020
H3 0.9040 0.0004
H4 0.3722 0.0110
H5 0.6084 0.3912
M1 0.4516 0.3667
M2 0.6467 0.3488
M3 0.4526 0.5468
M4 0.8868 0.0952
M5 0.6857 0.3088
Dim1 Dim2
A 0.9848 0.0000
B 0.6077 0.1122
C 0.7728 0.2258
D 0.3829 0.6118
Conclusões:
(anos de estudo) é majoritariamente do tipo “conciliador” (C) enquanto que a opinião dos
homens do 5º ano é apresenta traços “conciliadores” e também traços do tipo “pacifista”.
Assim podemos considerar, com base neste plano fatorial, que a opinião dos jovens
americanos com relação a forma como deveria terminar a guerra do Vietnam, varia
segundo a idade de maneira diferente no grupo de indivíduos de homens e mulheres.
Enquanto que as mulheres, qualquer que seja a idade, apresentam opinião “conciliadora”,
os homens mais jovens manifestam uma opinião majoritariamente mais “agressiva”
enquanto os mais velhos preferem uma solução mais “conciliadora” ou “pacifista”.
Problema:
O estudo foi realizado para analisar a relação existente entre a idade (anos de
estudos) e sexo e a opinião dos estudantes. Mas a amostra observada apresentou um
desequilíbrio muito grande entre o número de homens e mulheres consultados. As
mulheres representaram apenas 18.5% da amostra. Consequentemente, os perfis das
mulheres, por ano de estudo, apresentam baixo peso comparados aos dos homens.
Considerando que a opinião dos homens é muito marcada, quando se analisa a tabela
completa, a estrura das opiniões dos homens predomina e anula as diferenças de opinião
existentes entre as mulheres segundo os anos de estudo.
ANEXO
3.2.3.1. INTRODUÇÃO:
Vamos considerar agora a situação onde o problema em estudo envolve a análise
de um conjunto de p > 2 variáveis categóricas. Problemas que exigem análise conjunta de
variáveis categóricas são bastante usuais em diferentes áreas do conhecimento, porém
merece destaque o caso de pesquisas de opinião. Nesta situação usualmente as pesquisas
realizadas são baseadas em questionários, que em sua grande maioria, por razões que
não discutiremos aqui, constituídos de questões fechadas onde o respondente opta por
uma das alternativas possíveis.
Estes questionários, após respondidos, são armazenados num “banco de dados”
usualmente com a seguinte estrutura.
1 … … … … …
… … … … … …
… … … … … …
i … … xij … …
… … … … … …
… … … … … …
n … … … … …
… … xij’ … … … … xij … …
…
… … … … … … … … … … …
…
n … … … … … … … … … …
A análise do problema em estudo passa pelo estudo das relações entre as variáveis
(perguntas) seja dentro de um mesmo tema, ou entre temas.
O tratamento estatístico usualmente utilizado, nesses casos, é o de criar tabelas de
contingência relacionando pares de variáveis (dentro de um mesmo tema ou entre temas).
P x q tabelas
Dimensão 1 Dimensão 2
bivariadas são
Var. … Var. … Var. Op. … Op.
automaticamente
obs1 obsj’ obsz’ obs1 obsz
1 … … … … … … … …
… … … … … … … … …
… … … … … … … … …
Variável Dim 2
i … … xij’ … … … xij …
… … … … … … … … 1… … K
… … … … … … … … …
Variavel
…1
observj’
n … … … … … … …
… … njk …
J … … …
Características:
Desta forma as tabelas lógicas constituem um instrumento adequado porém, pouco útil
sobre o ponto de vista prático.
Assim, de uma outra maneira, pode-se resumir a informação contida na Tabela de
Códigos Condensados através de uma nova tabela chamada Tabela de Burt designada por
TB (K x K).
A Tabela de Burt TB (K x K) é uma tabela simétrica que apresenta o conjunto das
tabelas de contingências que podem ser construídas cruzando duas a duas as p
características observadas. Definindo-se, como no caso da tabela lógica, K como sendo a
soma das modalidades das p características observadas nos n indivíduos, a Tabela de Burt
TB (K x K) apresenta:
⇒ Na intersecção da j-ésima linha com a j-ésima coluna, o valor njj indica o número de
indivíduos que apresentaram a j-ésima modalidade de uma dada característica.
⇒ Na intersecção da j-ésima linha com a k-ésima coluna, o valor njk igual a 0 se a j-ésima
modalidade e a k-ésima modalidade pertencem a uma mesma característica observada
.
⇒ A intersecção da q-ésima linha com a k-ésima coluna, o valor nqk indica o número de
indivíduos que apresentaram, simultaneamente, a q-ésima modalidade de uma dada
característica e a k-ésima modalidade de outra característica observada.
Tratando-se de uma tabela simétrica, construída pela justaposição de todas as
Tabelas de Contingências definidas pelas p características observadas (tomadas duas a
duas), a tabela TB (K x K) resume as relações, duas a duas de todas as variáveis
qualitativas contidas na mesma.
A diagonal da tabela TB (K x K) é constituída pela distribuição de freqüências
absolutas de todas as modalidades de todas as variáveis qualitativas que a compõe. Se for
feita a divisão de todos os valores da tabela pelo valor n (número total de indivíduos
observados), a tabela TB (K x K) será apresentada em termos de freqüências relativas.
A tabela de Burt não é, no sentido stricto sensu, uma tabela de contingência. É na
verdade uma tabela que resulta da justaposição de Tabelas de Contingência. A soma em
linha (ou em coluna dado que a tabela TB é simétrica) dos valores correspondentes a j-
ésima modalidade é igual a p*n.j . Desta forma tem-se que os indivíduos observados
aparecem em uma tabela TB (K x K) p2 vezes. Um esboço da Tabela de Burt TB (K x K) é
apresentado a seguir.
2007:
Um questionário foi aplicado aos alunos ingressos na UFSCar no ano de 1997 com o
objetivo de se estabelecer o perfil dos mesmos. Este questionário abordava os seguintes
aspectos: 1) Dados pessoais; 2) Dados a cerca da formação dos alunos; 3) Dados sócios
econômicos; 4) Dados a cerca de interesses em relação a cultura, esporte e lazer. Este
questionário foi respondido por um total de 933 alunos de um total de 980 ingressos.
Do conjunto de variáveis disponíveis, foram slecionadas quatro, para a partir das
mesmas ser feito uma aplicação da TABELA DE BURT. As características escolhidas e suas
respectivas modalidades e códigos são apresentadas abaixo:
TABELA DE BURT
Tabela de Burt
Perfil dos Alunos Ingressos na UFSCar - 1997
FREQÜÊNCIAS ABSOLUTAS
| MAS FEM | FE1 FE2 FE3 FE4 | PUB PAR | CHS CBS TEA CE |
-----+-----------+---------------------+-----------+---------------------+
MAS | 505 0 |
FEM | 0 428 |
-----+-----------+---------------------+
FE1 | 255 224 | 479 0 0 0 |
FE2 | 177 159 | 0 336 0 0 |
FE3 | 37 21 | 0 0 58 0 |
FE4 | 36 24 | 0 0 0 60 |
-----+-----------+---------------------+-----------+
PUB | 168 179 | 112 165 31 39 | 347 0 |
PAR | 337 249 | 367 171 27 21 | 0 586 |
-----+-----------+---------------------+-----------+---------------------+
CHS | 69 165 | 81 89 30 34 | 116 118 | 234 0 0 0 |
CBS | 73 109 | 93 73 10 6 | 66 116 | 0 182 0 0 |
TEA | 278 84 | 234 113 10 5 | 81 281 | 0 0 362 0 |
CE | 85 70 | 71 61 8 15 | 84 71 | 0 0 0 155 |
-----+-----------+---------------------+-----------+---------------------+
| MAS FEM | FE1 FE2 FE3 FE4 | PUB PAR | CHS CBS TEA CE |
bloco diagonal, chamado Perfis por Linha. Deve-se observar que, neste caso, a tabela não
é simétrica.
Tabela de Burt
Perfil dos Alunos Ingressos na UFSCar - 1997
FREQÜÊNCIAS PERCENTUAIS
| MAS FEM | FE1 FE2 FE3 FE4 | PUB PAR | CHS CBS TEA CE |
-----+-----------+---------------------+-----------+---------------------+
MAS | 54.1 .0 | 50.5 35.0 7.3 7.1 | 33.3 66.7 | 13.7 14.5 55.0 16.8 |
FEM | .0 45.9 | 52.3 37.1 4.9 5.6 | 41.8 58.2 | 38.6 25.5 19.6 16.4 |
-----+-----------+---------------------+-----------+---------------------+
FE1 | 53.2 46.8 | 51.3 .0 .0 .0 | 23.4 76.6 | 16.9 19.4 48.9 14.8 |
FE2 | 52.7 47.3 | .0 36.0 .0 .0 | 49.1 50.9 | 26.5 21.7 33.6 18.2 |
FE3 | 63.8 36.2 | .0 .0 6.2 .0 | 53.4 46.6 | 51.7 17.2 17.2 13.8 |
FE4 | 60.0 40.0 | .0 .0 .0 6.4 | 65.0 35.0 | 56.7 10.0 8.3 25.0 |
-----+-----------+---------------------+-----------+---------------------+
PUB | 48.4 51.6 | 32.3 47.6 8.9 11.2 | 37.2 .0 | 33.4 19.0 23.3 24.2 |
PAR | 57.5 42.5 | 62.6 29.2 4.6 3.6 | .0 62.8 | 20.1 19.8 48.0 12.1 |
-----+-----------+---------------------+-----------+---------------------+
CHS | 29.5 70.5 | 34.6 38.0 12.8 14.5 | 49.6 50.4 | 25.1 .0 .0 .0 |
CBS | 40.1 59.9 | 51.1 40.1 5.5 3.3 | 36.3 63.7 | .0 19.5 .0 .0 |
TEA | 76.8 23.2 | 64.6 31.2 2.8 1.4 | 22.4 77.6 | .0 .0 38.8 .0 |
CE | 54.8 45.2 | 45.8 39.4 5.2 9.7 | 54.2 45.8 | .0 .0 .0 16.6 |
-----+-----------+---------------------+-----------+---------------------+
| MAS FEM | FE1 FE2 FE3 FE4 | PUB PAR | CHS CBS TEA CE |
Observemos que:
⇒ Nos blocos da diagonal temos as freqüências percentuais de cada uma das modalidades
das diferentes características. Por exemplo: Sexo Masculino: 54.1 = (505/933)*100
⇒ Nos blocos fora da diagonal o valor é dividido pelo valor da linha no bloco da diagonal.
Por exemplo: Intersecção da linha MAS com a coluna FE1: 50.5 = (255/505)*100.
Interpretação: Dentre os alunos do sexo masculino, 50.5 % tem faixa etária 1.
⇒ Por que a tabela não é simétrica: consideremos a intersecção da linha FE1 com a
coluna MAS(o simétrico do caso anterior), temos agora: 53.2 = (255/479)*100.
Interpretação: Dentre os alunos da faixa etária 1, 53.2% são do sexo masculino.
CONCLUSÕES:
⇒ A grande parte dos alunos possuei menos de 21 anos. A faixa etária até 18 anos
apresenta um grande percentual de alunos da área de Técnológicas e Agrárias,
enquanto que os alunos com maior faixa etária ingressam em cursos da área de
Ciências Humanas e Sociais. Também se tem que alunos com maior faixa etária
cursaram segundo grau em escolas públicas e os mais jovens em escolas
particulares.
Mostramos no ponto anterior que uma tabela lógica, embora composta apenas de
valores iguais a um ou zero, pode ser utilizada para se estudar as relações entre unidades
de observação e entre variáveis de um dado problema.
É necessário, tal como no caso das tabelas de contingência, definir uma forma
adequada de se calcular uma matriz de distância associada a Tabela Lógica, de forma que
o procedimento de diagonalização com obtenção de autovalores e autovetores possa ser
realizado.
xij
xij 1 nj np xij
fij = ;f = ;f = ; =
np i. n . j np
1 nj p nj
n np np
- a j-ésima coordenada do i’-ésimo individuo:
xi' j
xi' j 1 nj np xi' j
fi' j = ;f = ;f = ; =
np i'. n . j np n nj
1 j
p
n np np
2
K x x
d(2i,i' ) = ∑
j=1
ij
nj
−
i ' j
nj
=
p p
np np
n (x − x )2
K
d2(i,i' ) =1
p ∑ n ij
j =1 j
i' j
2
x ij x ij'
n
∑ np np =
d2( j, j' ) = −
i =1
j p
n n j' p
np np np np
De modo que...
2
2
n x x ij' n x ij x ij'
d2( j, j' ) = ∑
i =1 n
ij
−
1 n 1
= ∑ n
i =1 j
n
−
n
j'
j
n j'
n
Desenvolvendo o quadrado acima, obtemos:
x ij2 x ij2'
n x ij x ij'
d2( j, j' ) = ∑
n 2 + 2 − 2
n j n j'
i =1
n j n j'
Lembrando que:
1
b) 2 : para (nj’ – njj’) indivíduos que apresentaram a modalidade k. Indivíduos
n
j'
que apresentaram: xij = 0 e xij’ = 1;
1 1 2
c) 2+ 2 − : para njj’ indivíduos que apresentaram simultaneamente as
n n n n
j j' j j'
Desta forma:
i1 ;; x
;; iK
x ij x
n1 nj nK
p p p
np np np
Os valores marginais, coordenadas do centro de gravidade, no espaço das linhas
são dados por:
n nj nK
Coordenadas de GL :
1
;; ;;
np np np
Coordenadas Fatoriais
Coordenadas dos pontos-individuos sobre o eixo α :
K x n
Fα (i ) = ∑
j =1
ij
nj
−
np
j
w αj
p
np
Coordenadas dos pontos-modalidades sobre o eixo α :
x ij
n
1 u
Gα ( j) = ∑
i =1 n 1
−
n
αi
j
n
Ou ainda;
F1 … Fα … Fr
… … … … … …
Tabela de Coordenadas
i … … Fα(i) … …
Fatoriais dos Individuos
… … … … … …
GI 0 0 0 0 0
G1 … Gα … Gr
Tabela das Coordenadas
… … … … … …
Fatoriaisdas modalidades
Gj … … Gα(j) … …
… … … … … …
GM 0 0 0 0 0
Os elementos destas tabelas, são os valores que aparecem nos gráficos da análise
de correspondências múltiplas.
∑ ( ) = ∑ n1 F
n n
1 F (i ) − F (i ) = λ α
2
s 2α = 2
n α α α
i =1 i =1
K
( j) = λ α
nj
s 2α = ∑ np G
j=1
2
α
Interpretação:
O autovalor λα associado ao eixo fatorial α representa, no espaço das modalidades,
a parte representada pelo eixo α da associação entre as modalidades (colunas) da
TL;
O autovalor λα associado ao eixo fatorial α representa, no espaço dos indivíduos, a
parte representada pelo eixo α da associação entre os indivíduos (linhas)
considerando todas as modalidades (colunas) da TL;
nx ij2 1
n x
Sendo : d2
i =1
∑
( j ;GM ) = 2 + n − 2 nij
j
nj
Nesta expressão :
xij = 1 : para os nj ind. que apresentaram a modalidade j.
nj
Contrib .( j) I 1
= × 1 −
GM p n
otras eixo II
modalidades
mod2B modalidades
raras
mod1C
mod2A eixo I
mod3B
mod4B
mod1A mod3C
mod1B
mod2C
IGM = Kp − 1
Conseqüência:
A inercia total de uma Tabela Lógica depende únicamente
do número de variáveis observadas e do número de
modalidades definidas para essas variáveis…
K x ij
Fα (i) = 1
λα
∑
j=1
G ( j)
p α
∀ i = 1, , n
n x ij
Gα ( j ) = 1
λα
∑n
i =1 j
Fα (i ) ∀ j = 1, , K
A AFC de uma tabela de Burt segue o mesmo procedimento de uma tabela lógica
exceto considerando que os pontos perfis ponderados e a distância qui-quadrado entre
duas linhas da tabela são dadas por:
n j1 n jk n jK
p 2n p 2n p 2n
;; ;;
pn j. pn pn j. pn.k pn j. pn.K
2 2
.1
p n p n p 2n p 2n p 2 n p 2n
n j1
n ;; n n jk ;; n n jK
p n j. n.1 pn n pn n
j. .k j. .K
Conseqüência:
Seja qual for a alternativa utilizada para obtenção dos eixos fatoriais (Tabela Lógica
ou Tabela de Burt) uma questão importante é a que se refere ao número de fatores que
devem ser analisados. A partir do que vimos anteriormente, o percentual de variância
explicada por cada eixo, abaixo apresentado, não deve ser utilizado para fins da definição
da escolha do número de fatores para análise.
τα = pλ α × 100 = λI α × 100
∑ αλ G
α =1
Taxa de Inércia de um Fator
Fα (i )
1 2
CTRα (i ) = n × 100 ∀ i ∈I
λα
Gα (k )
nk 2
CTRα (k ) = n × 100 ∀ k∈K
λα
Estatística Multivariada 2 – Prof. Pedro Ferreira Filho – 2o Semestre de 2013 Página 81
Cápítulo 4 – Análise Fatorial de Correspoindências Simples e Múltiplas
Indivíduos suplementários
K x 'sj K
Fα (i' s ) = 1
∑p G α ( j) = 1 1
∑ x 'sj G α ( j )
λα λα p
j =1 j =1
3.2.3.11. EXEMPLO:
Column Coordinates
Dim1 Dim2
T1 1.1850 0.9239
T2 0.8511 -1.2317
T3 -0.8367 -0.0206
P1 1.1689 0.8243
P2 -0.3054 -0.8189
P3 -1.0151 0.9739
V1 0.3199 1.0449
V2 0.6037 -0.8878
V3 -0.8921 -0.3718
I1 -0.3490 0.8086
I2 0.3694 -0.2855
I3 -0.3351 -0.4595
T1 1 1 1
T2 2 2 2
T3 1 0 1
P1 1 1 1
P2 0 2 2
P3 2 0 2
V1 0 2 2
V2 0 2 2
V3 1 0 1
I1 0 2 2
I2 0 0 1
I3 0 0 2
AF1 1 0 1
AF2 1 0 1
AG1 0 0 1
AG2 0 0 1
Squared Cosines for the Column Squared Cosines for the Column
Points Points
Squared Cosines for the Column Squared Cosines for the Column
Points Points
Squared Cosines for the Supplementary Squared Cosines for the Supplementary
Column Points Column Points
3.2.3.12.REFERÊNCIAS BIBLIOGRÁFICAS