AnaliseEstrutural II

Seminário DEs/DEP
Algumas Técnicas Estatísticas

Multivariadas
Parte II
Jorge Oishi
djoi@power.ufscar.br 1
Técnicas Multivariadas
 Tópicos abrangidos:
 Análise Discriminante
 Análise de Cluster
 Análise de Correspondência
Análise Discriminante
 Objetivo
 Construir um modelo preditivo para prognosticar o grupo a qual
pertence uma observação a partir de determinadas
características observadas.
 Permite classificar novos indivíduos em grupos previamente

estabelecidos a partir das informações das variáveis observadas.
 Fundamentalmente, se deseja construir uma regra ou esquema

de classificação que possibilite ao investigador predizer a
população que é mais provável que um indivíduo pertença.
 Este é o caso onde temos uma variável dependente não métrica

(que define os grupos) e várias variáveis independentes
métricas.
 Curiosidade: teve início com a “certeza” que um diretor

de penitenciária americana tinha em ser capaz de
reconhecer um criminoso andando na rua, somente
através das medidas morfométricas da pessoa;
 Hitler criou as medidas perfeitas de um ariano puro;
 Ainda hoje existem “teorias” sobre a relação entre

medidas morfométricas e estruturas psíquicas.
 Exemplos:
 Área de crédito: dado o cadastro de clientes, estabelecer
um critério para empréstimo. (Credit Score);
 Área de negócios: criar uma regra, a partir de um banco de
dados sobre a previsão de insolvência de empresas;
 Área de negócios: regra para prever a troca de
fornecedores por parte dos clientes;
 Policial: através das imagens de satélite ser capaz de
reconhecer se uma plantação é de maconha.
 Policial: construir um critério para ajudar a PM de nossa
cidade a identificar os locais de maior risco em relação à
criminalidade.
Grupos Casos X1 X2 ... Xp
1 1 X111 X112 ... X11p
1 2 X211 X212 ... X21p
... ... ... ... ... ...
1 n1 Xn1,11 Xn1,12 ... Xn1,1p
2 1 X121 X222 ... X12p
... ... ... ... ... ...
2 n2 Xn221 Xn2,22 ... Xn2,2p
... ... ... ... ... ...
m 1 X1m1 X1m2 ... X1mp
... ... ... .... ... ...
m nm Xnm,m1 Xnm,m2 ... Xnm,mp
Avaliação de um novo produto
Grupo Sujeito Durabilidade Desempenho Estilo
1 1 8 9 6
1 2 6 7 5
1 3 10 6 3
1 4 9 4 4
1 5 4 8 2
2 6 5 4 7
2 7 3 7 2
2 8 4 5 5
2 9 2 4 3
2 10 2 2 2
 Curso de Multivariada\NOVPRODU.STA
Análise de Cluster
 Objetivo
 Dado um conjunto de n objetos observados através de p
variáveis, agregá-los em grupos “similares” segundo o
conjunto de características avaliadas.
 O que diferencia esta técnica da anterior é que nesta o
número de grupos não é conhecido de antemão.
 Os agrupamentos resultantes devem ter a propriedade de
serem bastante homogêneos internamente ao grupo, mas
bastante heterogêneos em relação aos elementos de
outros grupos.
Análise de Cluster
 A forma de agir da Análise de Cluster difere das demais técnicas
por trabalhar unicamente com o conceito de distância entre os
sujeitos.
 A “semelhança” utilizada é dada por proximidade dos casos
segundo uma medida de distância, que em muitos casos é a
distância euclidiana e em outros a distância estatística.
 Ela pode ser usada também para agrupar variáveis ao invés de
casos, porém a distância utilizada é a correlação entre elas. Este
tipo de distância oferece alguns desafios que precisa ser
entendido dentro do contexto do estudo.
 Basicamente existem 3 tipos de medidas de similaridade entre
os sujeitos:distância, correlação e associação.
Análise de Cluster
 Algorítmos de agrupamento:
 Como fazer para colocar no mesmo grupos os
casos?
 Método Hierárquico
 Método aglomerativo – começa só com ele
 Método divisivo – começa com todos os casos
 Dendrograma – árvore que mostra os casos se
agrupando
 Algorítmos:
 single linkage, average linkage e complete linkage
 Ward
Análise de Cluster
 Método Não hierárquico: não usa o processo de

árvore mas partem de agrupamentos feitos a
priori e corrigem o os agrupamentos reajustando
as distâncias entre os elementos ao centro de
cada grupo.Também são chamados de K-means.
 Método de Referencia Seqüencial
 Método da Referencia Paralela
 Método da Otimização
Análise de Cluster
 Número de Agrupamentos: quantos grupos

formar?
 Não existem regras que possam ser recomendadas
para todos os casos.
 Existe a regra estatística, que a distância entre os
agrupamentos são claramente determinados a partir de
um teste de hipóteses;
 Existe a regra do “bom senso” onde os grupos são
construídos a partir do dendrograma.
Análise de Cluster
STATISTICA.lnk
Análise de Correspondências
 Objetivo
 Analisar tabelas de dupla-entrada ou de múltiplas
entradas levando-se em consideração alguma
medida de correspondência entre linhas e
colunas;
 Ela converte uma matriz de dados não negativos
em um tipo de representação gráfica em que
linhas e colunas são representadas em
dimensões reduzidas, isto é, por pontos num
gráfico.
 Exemplo:
 Consideremos as vendas de três produtos A, B e C para
pessoas de três faixas etárias.
Venda de produto
Faixa etária A B C Total
18 – 35 20 20 20 60
36 – 55 40 10 40 90
56 ou + 20 10 40 70
Total 80 40 100 220
 Queremos encontrar um padrão para estabelecer

que os jovens compram mais do produto X ou os
idosos compram do produto Y;
 Para isso precisamos de uma medida padronizada
de vendas que leve em conta simultaneamente as
diferenças em vendas para uma combinação
específica de produto-faixa etária;
 Se um grupo compra mais unidades de um produto
do que o esperado, podemos associar essa faixa
etária ao produto comprado.
 Em uma representação gráfica, grupos de idade seriam

colocados mais proximamente de produtos com os quais
eles estão mais altamente associados e mais afastados
de produtos com menores associações.
 Isso se faz através do cálculo dos valores observados
menos os valores esperados sob a suposição de não
haver qualquer associação entre produtos e
consumidores.
 Os valores esperados são calculados através do produto
cruzado entre os totais de linhas e colunas
correspondentes, dividido pelo total de vendas.
 Após a determinação dos valores esperados,

encontra-se o Qui-quadrado de cada cruzamento
através da seguinte fórmula:
2
(valor observado - valor esperado)
χ 
2
valor esperado
χ 2
Venda de produto
Faixa etária A B C Total
18 – 35 21,8 10,9 27,3 60
0,15 7,58 1,94 9,67
-0,15 7,58 -1,94
36 – 55 32,7 6,4 40,9 90
1,62 2,47 0,02 4,11
1,62 -2,47 -0,02
56 ou + 25,4 12,7 31,8 70
1,17 0,58 2,10 3,85
-1,17 -0,58 2,10
Total 80 40 100 220
2,94 10,63 4,06 17,63
2D Plot of Row and Column Coordinates; Dimension: 1 x 2
Input Table (Rows x Columns): 3 x 3
Standardization: Row and column profiles
0.25
Dimension 2; Eigenvalue: .01969 (24.56% of Inertia)
0.20 A
Adultos
0.15
0.10
0.05
Jovens
0.00
B
-0.05
-0.10 C
-0.15
Idosos
-0.20
Row.Coords
-0.25
-0.3 -0.2 -0.1 0.0 0.1 0.2 0.3 0.4 0.5 0.6 Col.Coords
Dimension 1; Eigenvalue: .06047 (75.44% of Inertia)
 A partir da construção de uma estrutura de
relacionamento, determinam-se dimensões através da
decomposição espectral (autovalores e autovetores)
cujo gráfico das variáveis e casos são representados por
pontos e cujas proximidades refletem a semelhança
entre comportamentos.
 A construção dessas dimensões é realizada através dos

softwares estatísticos e fica muito difícil a sua obtenção
através de outros meios.
 A grande contribuição da AC está nesses gráficos que

permitem a avaliação visual do comportamentos das
linhas e colunas num único gráfico.
Bibliografia
 Hair Jr,J.F.; Anderson,R.E.; Tatham, R,L.; Black, W.C.

Análise Multivariada de Dados. 5a. Edição, Bookman,
2005
 Johnson, R.A.; Wichern, D.W. Applied Multivariate
Statistical Analysis. 4a. Edição, Prentice Hall, 1998.
 Manly, B.F.J. Multivariate Statistical Analysis: A primer.
2a. Edição, Chapman & Hall, 1997.
 Manual do Statistica, Vol III: Statistics II. StatSoft, 1999.
 Lopez, C.P. Métodos Estadísticos Avanzados com
SPSS. Thomson, 2005.
Muito obrigado a todos vocês que conseguiram me
agüentar nesses dois dias.
Que Deus os abençoe e os gratifiquem contribuindo com
um mãozinha na MegaSena (mas se ganharem não se
esqueçam da minha comissão)

AnaliseEstrutural II

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

AnaliseEstrutural II

Enviado por

Direitos autorais:

Formatos disponíveis

Seminário DEs/DEP

Algumas Técnicas Estatísticas

 Permite classificar novos indivíduos em grupos previamente

 Fundamentalmente, se deseja construir uma regra ou esquema

 Este é o caso onde temos uma variável dependente não métrica

 Curiosidade: teve início com a “certeza” que um diretor

 Hitler criou as medidas perfeitas de um ariano puro;

 Ainda hoje existem “teorias” sobre a relação entre

1 1 X111 X112 ... X11p

1 2 X211 X212 ... X21p

... ... ... ... ... ...

1 n1 Xn1,11 Xn1,12 ... Xn1,1p

2 1 X121 X222 ... X12p

... ... ... ... ... ...

2 n2 Xn221 Xn2,22 ... Xn2,2p

... ... ... ... ... ...

m 1 X1m1 X1m2 ... X1mp

... ... ... .... ... ...

m nm Xnm,m1 Xnm,m2 ... Xnm,mp

Grupo Sujeito Durabilidade Desempenho Estilo

 Método Não hierárquico: não usa o processo de

 Número de Agrupamentos: quantos grupos

 Queremos encontrar um padrão para estabelecer

 Em uma representação gráfica, grupos de idade seriam

 Após a determinação dos valores esperados,

Dimension 1; Eigenvalue: .06047 (75.44% of Inertia)

 A construção dessas dimensões é realizada através dos

 A grande contribuição da AC está nesses gráficos que

 Hair Jr,J.F.; Anderson,R.E.; Tatham, R,L.; Black, W.C.

Você também pode gostar