Você está na página 1de 11

r

Prof. Lor Viali, Dr.


viali@pucrs.br;
viali@mat.ufrgs.br;
http://www.pucrs.br/famat/viali;

Factor Analysis (FACAN)

http://www.mat.ufrgs.br/~viali/
Prof. Lor Viali, Dr.

PUCRS

FAMAT: Departamento de Estatstica

Prof. Lor Viali, Dr.

PUCRS

FAMAT: Departamento de Estatstica

Abrir o arquivo ven_car.sav

Prof. Lor Viali, Dr.

PUCRS

FAMAT: Departamento de Estatstica

Utilizar as 10 variveis a partir de Vehicle Type.

Prof. Lor Viali, Dr.

PUCRS

FAMAT: Departamento de Estatstica

Prof. Lor Viali, Dr.

PUCRS

FAMAT: Departamento de Estatstica

Clique Extraction

Prof. Lor Viali, Dr.

PUCRS

FAMAT: Departamento de Estatstica

Clique Rotation

Prof. Lor Viali, Dr.

PUCRS

Clique Scores

FAMAT: Departamento de Estatstica

Esta seleo produz uma soluo que utiliza


a extrao atravs de componentes principais

Prof. Lor Viali, Dr.

PUCRS

FAMAT: Departamento de Estatstica

Comunalidade representa a proporo da


varincia de uma varivel que compartilhada
com os fatores comuns na anlise de fatores.

que so ento girados para facilitar a


interpretao. Componentes com autovalores
acima de um so salvos em um arquivo de
trabalho.
Prof. Lor Viali, Dr.

PUCRS

FAMAT: Departamento de Estatstica

Prof. Lor Viali, Dr.

PUCRS

FAMAT: Departamento de Estatstica

Prof. Lor Viali, Dr.

PUCRS

FAMAT: Departamento de Estatstica

Comunalidades iniciais so estimativas da


varincia que cada varivel apresenta em comum
com cada fator. Para a extrao por
componentes principais

elas so sempre

inicialmente iguais a um.


Prof. Lor Viali, Dr.

PUCRS

FAMAT: Departamento de Estatstica

Comunalidades de extrao so estimativas


da varincia em cada varivel compartilha com
os fatores. As comunalidades na tabela so
todas altas indicando que os componentes
extrados representam bem as variveis. Se
qualquer comunalidade for baixa, neste mtodo,
ser preciso extrair outro componente.
Prof. Lor Viali, Dr.

PUCRS

FAMAT: Departamento de Estatstica

A tabela mostra autovalores iniciais, o


percentual da varincia que cada componente
explica e percentual da varincia acumulada.

= 10
Prof. Lor Viali, Dr.

PUCRS

Prof. Lor Viali, Dr.

FAMAT: Departamento de Estatstica

Na soluo inicial existem tantas


componentes quanto variveis. Na anlise de
correlao a soma dos autovetores igual ao
nmero de componentes. Foi solicitado que o
nmero que autovalores maiores do que um
fossem extrados, assim os trs primeiros
componentes formam a soluo.

FAMAT: Departamento de Estatstica

A segunda coluna da tabela mostra os componentes


extrados. Eles explicam aproximadamente 88% da
variabilidade das dez variveis originais. Assim a
complexidade dos dados pode ser bastante reduzida pela
utilizao destes componentes com perda de apenas 12
da informao.

PUCRS

Prof. Lor Viali, Dr.

PUCRS

FAMAT: Departamento de Estatstica

A rotao mantm o % acumulado da variao


explicada pelos componentes extrados, mas esta
variao est agora distribuda de maneira mais
uniforme. As grandes mudanas nos totais individuais
sugerem que a matriz dos componentes rotacionados
ser mais simples de interpretar do que a matriz
original.

Prof. Lor Viali, Dr.

PUCRS

FAMAT: Departamento de Estatstica

Prof. Lor Viali, Dr.

PUCRS

FAMAT: Departamento de Estatstica

O grfico da declividade (scree plot) ajuda na


determinao do nmero timo de componentes,
plotando os autovalores de cada componente da
soluo inicial.

Prof. Lor Viali, Dr.

PUCRS

FAMAT: Departamento de Estatstica

Os componentes da parte mais plana do


grfico contribuem com muito pouco na soluo.

Prof. Lor Viali, Dr.

PUCRS

FAMAT: Departamento de Estatstica

A matriz dos componentes rotacionados ajuda na


interpretao do que os componentes significam.

Prof. Lor Viali, Dr.

PUCRS

FAMAT: Departamento de Estatstica

Prof. Lor Viali, Dr.

PUCRS

FAMAT: Departamento de Estatstica

A ltima grande queda (declive) ocorre entre o


terceiro e o quarto componentes. Assim a escolha de
trs componentes a mais natural.

Prof. Lor Viali, Dr.

PUCRS

FAMAT: Departamento de Estatstica

Assim o primeiro componente apresenta correlaes


mais altas com o Preo (Price in thousands) e
Potncia (Horsepower). O preo um representante
melhor, pois est menos correlacionado com os demais
componentes.

Prof. Lor Viali, Dr.

PUCRS

FAMAT: Departamento de Estatstica

O segundo componente est correlacionado de forma


mais alta com o Comprimento (Lenght).

Prof. Lor Viali, Dr.

PUCRS

FAMAT: Departamento de Estatstica

O terceiro componente est mais altamente


correlacionado com o Tipo de veculo (Vehicle type).

Prof. Lor Viali, Dr.

PUCRS

FAMAT: Departamento de Estatstica

Prof. Lor Viali, Dr.

PUCRS

FAMAT: Departamento de Estatstica

Prof. Lor Viali, Dr.

PUCRS

FAMAT: Departamento de Estatstica

A ltimas trs variveis (curb weight, fuel


capacity e fuel efficiency) no esto separando
muito bem, pois apesar de apresentam correlaes
mais altas com o terceiro componente tambm
apresentam correlaes elevadas com os outros dois
componentes.
Prof. Lor Viali, Dr.

PUCRS

FAMAT: Departamento de Estatstica

A sugesto , ento, que as dez variveis sejam


representadas pelas seguintes trs fatores: preo,
comprimento e tipo.

Prof. Lor Viali, Dr.

PUCRS

FAMAT: Departamento de Estatstica

A anlise hierrquica de aglomerados (HCA Hierarchical Cluster Analysis) uma ferramenta


exploratria que objetiva revelar agrupamentos
naturais (clusters) dentro de conjuntos que
aparentemente no apresenta grupos. Ela mais
til quando se quer agrupar um pequeno nmero
(algumas centenas) de casos. Os objetos podem ser
casos ou variveis.
Prof. Lor Viali, Dr.

PUCRS

O critrio bsico para qualquer agrupamento


a distncia. Os objetos que esto prximos um do
outro pertencem ao mesmo grupo e se esto
distantes pertencem a grupos diferentes. Para um
dado conjunto de dados os agrupamentos so
construdos dependendo da especificao dos
seguintes parmetros:

FAMAT: Departamento de Estatstica

Prof. Lor Viali, Dr.

PUCRS

FAMAT: Departamento de Estatstica

Mtodo. Define as regras para a formao dos

Medidas. Define a frmula para o clculo das

grupos. Por exemplo, quando se calcula a distncia

distncias. Por exemplo, a distncia Euclidiana que

entre dois grupos, pode-se utilizar o par de objetos


mais prximos ou o par de objetos mais distantes

mede a distncia em linha reta entre os dois grupos.


Medidas Intervalares assumem que as variveis
so ordinais.

ou alguma combinao dos dois.


Prof. Lor Viali, Dr.

PUCRS

FAMAT: Departamento de Estatstica

Medidas de contagem assumem que elas so

Prof. Lor Viali, Dr.

arquivo

PUCRS

FAMAT: Departamento de Estatstica

ven_car.sav

apresenta

numricas discretas. Medidas binrias assumem que

informaes sobre vrios modelos de veculos.

eles assumem apenas dois valores.

Utilize a Anlise Hierrquica de Aglomerados

Padronizao. Permite que sejam equalizados os


efeitos das variveis medidas em escalas diferentes.

Prof. Lor Viali, Dr.

PUCRS

FAMAT: Departamento de Estatstica

para agrupar os carros de valores de vendas mais


altos de acordo com suas propriedades fsicas.

Prof. Lor Viali, Dr.

PUCRS

FAMAT: Departamento de Estatstica

Abrir o arquivo
ven_car.sav. Selecionar
os carros com vendas
acima de 100 mil
unidades.

Prof. Lor Viali, Dr.

PUCRS

FAMAT: Departamento de Estatstica

Para isto utilize o condicional If

Prof. Lor Viali, Dr.

PUCRS

FAMAT: Departamento de Estatstica

Digite as duas condies: tipo = carro (type = 0) e


vendas > 100 (sales > 100) , na janela que se abrir.

Qualquer anlise agora, ser executada apenas sobre


os carros com vendas maiores que 100 mil unidades.
Prof. Lor Viali, Dr.

PUCRS

FAMAT: Departamento de Estatstica

Prof. Lor Viali, Dr.

PUCRS

FAMAT: Departamento de Estatstica

Observe que os carros que apresentam vendas sales


abaixo de 100 esto eliminados (marcados) na planilha.
Rodar o anlise atravs
do procedimento: Classify
Hierarchical Cluster.

Prof. Lor Viali, Dr.

PUCRS

FAMAT: Departamento de Estatstica

Prof. Lor Viali, Dr.

PUCRS

FAMAT: Departamento de Estatstica

Clique em Plots e marque o diagrama


Utilize o modelo do carro como rtulo (label)
Prof. Lor Viali, Dr.

PUCRS

FAMAT: Departamento de Estatstica

Dendograma.
Prof. Lor Viali, Dr.

PUCRS

FAMAT: Departamento de Estatstica

O dendograma um resumo grfico da soluo


dada pela anlise de agrupamento.

Clique em Method e escolha o do vizinho mais


prximo (Nearest neighbor)
Prof. Lor Viali, Dr.

PUCRS

FAMAT: Departamento de Estatstica

Os casos ficam listados esquerda.

Prof. Lor Viali, Dr.

PUCRS

FAMAT: Departamento de Estatstica

Prof. Lor Viali, Dr.

PUCRS

FAMAT: Departamento de Estatstica

O eixo horizontal mostra a distncia entre os


grupos quando eles so ligados.

Prof. Lor Viali, Dr.

PUCRS

FAMAT: Departamento de Estatstica

Examinar a rvore de classificao para

Iniciando pela direita, observa-se o primeiro gap


entre as distncias 20 e 25, que divide os carros em dois
grupos.

determinar o nmero de grupos (clusters) um


processo subjetivo. Geralmente deve-se observar os
espaos vazios (gaps) entre as junes ao longo do
eixo horizontal.
Prof. Lor Viali, Dr.

PUCRS

FAMAT: Departamento de Estatstica

Existe outro gap entre as distncias 10 e 15, que


sugere a existncia de seis grupos.

Prof. Lor Viali, Dr.

PUCRS

FAMAT: Departamento de Estatstica

Prof. Lor Viali, Dr.

PUCRS

FAMAT: Departamento de Estatstica

A planilha de aglomerao um resumo numrico da


soluo. No primeiro estgio os casos 8 e 11 so
combinados, pois so eles que apresentam a menor
distncia.

Prof. Lor Viali, Dr.

PUCRS

FAMAT: Departamento de Estatstica

O grupo criado por eles aparece somente no estgio

Quando existem muitos casos esta tabela se tornar

sete. No estgio sete os grupos criados no estgio um e

longa. Mas pode ser mais fcil procurar por gaps na

trs so unidos. O resultado aparece aps no estgio oito.

coluna dos coeficientes do que no dendograma.

Prof. Lor Viali, Dr.

PUCRS

FAMAT: Departamento de Estatstica

Prof. Lor Viali, Dr.

PUCRS

FAMAT: Departamento de Estatstica

Estgio Coeficiente
1
1,260
2
1,579
3
1,625
4
2,318
5
2,619
6
3,670
7
4,420
8
4,505
9
4,774
10
5,718

Uma
boa
soluo a que
percebe mudanas
sbitas
nos
coeficientes.
A
soluo antes do gap
indica a melhor
soluo.
Prof. Lor Viali, Dr.

PUCRS

O maior gap entre

Gap
1,260
0,319

os coeficientes ocorre

0,046

entre os estgios cinco e

0,693

seis,

0,301

indicando

uma

1,051

soluo de seis grupos e

0,750

entre os estgios nove e

0,085

dez

0,269
0,944

FAMAT: Departamento de Estatstica

Esta no uma soluo totalmente satisfatria,

indicando

uma

soluo de dois grupos.


Prof. Lor Viali, Dr.

PUCRS

Estgio Coeficiente
1
1,260
2
1,579
3
1,625
4
2,318
5
2,619
6
3,670
7
4,420
8
4,505
9
4,774
10
5,718

Gap
1,260
0,319
0,046
0,693
0,301
1,051
0,750
0,085
0,269
0,944

FAMAT: Departamento de Estatstica

Utilize novamente a caixa de dilogo da Anlise


Hierrquica.

pois no representa uma classificao forte. Tente


uma anlise utilizando

encadeamento completo

(complete linkage) com o vizinho mais distante


(Furthest neighbor) como mtodo de agrupamento.
Prof. Lor Viali, Dr.

PUCRS

FAMAT: Departamento de Estatstica

Em mtodo de agrupamento escolha Furthest


neighbor.

Prof. Lor Viali, Dr.

PUCRS

FAMAT: Departamento de Estatstica

Prof. Lor Viali, Dr.

PUCRS

FAMAT: Departamento de Estatstica

Os primeiros estgios no diferem do mtodo


anterior, mas nos finais ela bem diferente, pois este
mtodo fornece uma classificao forte em dois ou trs
grupos.

Prof. Lor Viali, Dr.

PUCRS

FAMAT: Departamento de Estatstica

10

A eficcia desta classificao refletida no


dendograma.

Prof. Lor Viali, Dr.

PUCRS

A diviso inicial da rvore forma dois grupos


distintos. O primeiro contendo os carros pequenos e o
segundo os carros maiores.

FAMAT: Departamento de Estatstica

O grupo dos carros pequenos pode ainda ser dividido


em dois. O dos carros pequenos e o dos econmicos. O
Civic e o Corolla so pequenos e mais baratos que o
Accord e o Camry por exemplo.

Prof. Lor Viali, Dr.

PUCRS

FAMAT: Departamento de Estatstica

A soluo por este mtodo satisfatria porque os


grupos so distintos, enquanto que no anterior a
soluo

no era to

encadeamento

completo

evidente. Utilizando o
pode-se

determinar

competio por veculos na fase de projeto. Basta entrar


com suas especificaes como novos casos no conjunto
de dados e, ento, refazer a anlise.
Prof. Lor Viali, Dr.

PUCRS

FAMAT: Departamento de Estatstica

Prof. Lor Viali, Dr.

PUCRS

FAMAT: Departamento de Estatstica

11

Você também pode gostar