Você está na página 1de 24

Seminário DEs/DEP

Algumas Técnicas Estatísticas


Multivariadas
Parte II
Jorge Oishi

djoi@power.ufscar.br 1
Técnicas Multivariadas

 Tópicos abrangidos:

 Análise Discriminante
 Análise de Cluster
 Análise de Correspondência

djoi@power.ufscar.br 2
Análise Discriminante
 Objetivo
 Construir um modelo preditivo para prognosticar o grupo a qual
pertence uma observação a partir de determinadas
características observadas.

 Permite classificar novos indivíduos em grupos previamente


estabelecidos a partir das informações das variáveis observadas.

 Fundamentalmente, se deseja construir uma regra ou esquema


de classificação que possibilite ao investigador predizer a
população que é mais provável que um indivíduo pertença.

 Este é o caso onde temos uma variável dependente não métrica


(que define os grupos) e várias variáveis independentes
métricas.

djoi@power.ufscar.br 3
Análise Discriminante

 Curiosidade: teve início com a “certeza” que um diretor


de penitenciária americana tinha em ser capaz de
reconhecer um criminoso andando na rua, somente
através das medidas morfométricas da pessoa;

 Hitler criou as medidas perfeitas de um ariano puro;

 Ainda hoje existem “teorias” sobre a relação entre


medidas morfométricas e estruturas psíquicas.

djoi@power.ufscar.br 4
Análise Discriminante

 Exemplos:
 Área de crédito: dado o cadastro de clientes, estabelecer
um critério para empréstimo. (Credit Score);
 Área de negócios: criar uma regra, a partir de um banco de
dados sobre a previsão de insolvência de empresas;
 Área de negócios: regra para prever a troca de
fornecedores por parte dos clientes;
 Policial: através das imagens de satélite ser capaz de
reconhecer se uma plantação é de maconha.
 Policial: construir um critério para ajudar a PM de nossa
cidade a identificar os locais de maior risco em relação à
criminalidade.

djoi@power.ufscar.br 5
Análise Discriminante
Grupos Casos X1 X2 ... Xp

1 1 X111 X112 ... X11p

1 2 X211 X212 ... X21p

... ... ... ... ... ...

1 n1 Xn1,11 Xn1,12 ... Xn1,1p

2 1 X121 X222 ... X12p

... ... ... ... ... ...

2 n2 Xn221 Xn2,22 ... Xn2,2p

... ... ... ... ... ...

m 1 X1m1 X1m2 ... X1mp

... ... ... .... ... ...

m nm Xnm,m1 Xnm,m2 ... Xnm,mp

djoi@power.ufscar.br 6
Análise Discriminante
Avaliação de um novo produto

Grupo Sujeito Durabilidade Desempenho Estilo

1 1 8 9 6

1 2 6 7 5

1 3 10 6 3

1 4 9 4 4

1 5 4 8 2

2 6 5 4 7

2 7 3 7 2

2 8 4 5 5

2 9 2 4 3

2 10 2 2 2

djoi@power.ufscar.br 7
Análise Discriminante

 Curso de Multivariada\NOVPRODU.STA

djoi@power.ufscar.br 8
Análise de Cluster

 Objetivo
 Dado um conjunto de n objetos observados através de p
variáveis, agregá-los em grupos “similares” segundo o
conjunto de características avaliadas.
 O que diferencia esta técnica da anterior é que nesta o
número de grupos não é conhecido de antemão.
 Os agrupamentos resultantes devem ter a propriedade de
serem bastante homogêneos internamente ao grupo, mas
bastante heterogêneos em relação aos elementos de
outros grupos.

djoi@power.ufscar.br 9
Análise de Cluster
 A forma de agir da Análise de Cluster difere das demais técnicas
por trabalhar unicamente com o conceito de distância entre os
sujeitos.
 A “semelhança” utilizada é dada por proximidade dos casos
segundo uma medida de distância, que em muitos casos é a
distância euclidiana e em outros a distância estatística.
 Ela pode ser usada também para agrupar variáveis ao invés de
casos, porém a distância utilizada é a correlação entre elas. Este
tipo de distância oferece alguns desafios que precisa ser
entendido dentro do contexto do estudo.
 Basicamente existem 3 tipos de medidas de similaridade entre
os sujeitos:distância, correlação e associação.

djoi@power.ufscar.br 10
Análise de Cluster

 Algorítmos de agrupamento:
 Como fazer para colocar no mesmo grupos os
casos?
 Método Hierárquico
 Método aglomerativo – começa só com ele
 Método divisivo – começa com todos os casos
 Dendrograma – árvore que mostra os casos se
agrupando
 Algorítmos:
 single linkage, average linkage e complete linkage
 Ward

djoi@power.ufscar.br 11
Análise de Cluster

 Método Não hierárquico: não usa o processo de


árvore mas partem de agrupamentos feitos a
priori e corrigem o os agrupamentos reajustando
as distâncias entre os elementos ao centro de
cada grupo.Também são chamados de K-means.
 Método de Referencia Seqüencial
 Método da Referencia Paralela
 Método da Otimização

djoi@power.ufscar.br 12
Análise de Cluster

 Número de Agrupamentos: quantos grupos


formar?
 Não existem regras que possam ser recomendadas
para todos os casos.
 Existe a regra estatística, que a distância entre os
agrupamentos são claramente determinados a partir de
um teste de hipóteses;
 Existe a regra do “bom senso” onde os grupos são
construídos a partir do dendrograma.

djoi@power.ufscar.br 13
Análise de Cluster

STATISTICA.lnk

djoi@power.ufscar.br 14
Análise de Correspondências

 Objetivo
 Analisar tabelas de dupla-entrada ou de múltiplas
entradas levando-se em consideração alguma
medida de correspondência entre linhas e
colunas;
 Ela converte uma matriz de dados não negativos
em um tipo de representação gráfica em que
linhas e colunas são representadas em
dimensões reduzidas, isto é, por pontos num
gráfico.

djoi@power.ufscar.br 15
Análise de Correspondências

 Exemplo:
 Consideremos as vendas de três produtos A, B e C para
pessoas de três faixas etárias.

Venda de produto
Faixa etária A B C Total
18 – 35 20 20 20 60
36 – 55 40 10 40 90
56 ou + 20 10 40 70
Total 80 40 100 220

djoi@power.ufscar.br 16
Análise de Correspondências

 Queremos encontrar um padrão para estabelecer


que os jovens compram mais do produto X ou os
idosos compram do produto Y;
 Para isso precisamos de uma medida padronizada
de vendas que leve em conta simultaneamente as
diferenças em vendas para uma combinação
específica de produto-faixa etária;
 Se um grupo compra mais unidades de um produto
do que o esperado, podemos associar essa faixa
etária ao produto comprado.

djoi@power.ufscar.br 17
Análise de Correspondências

 Em uma representação gráfica, grupos de idade seriam


colocados mais proximamente de produtos com os quais
eles estão mais altamente associados e mais afastados
de produtos com menores associações.
 Isso se faz através do cálculo dos valores observados
menos os valores esperados sob a suposição de não
haver qualquer associação entre produtos e
consumidores.
 Os valores esperados são calculados através do produto
cruzado entre os totais de linhas e colunas
correspondentes, dividido pelo total de vendas.

djoi@power.ufscar.br 18
Análise de Correspondências

 Após a determinação dos valores esperados,


encontra-se o Qui-quadrado de cada cruzamento
através da seguinte fórmula:

2
(valor observado - valor esperado)
χ 
2

valor esperado

djoi@power.ufscar.br 19
Análise de Correspondências

χ 2
Venda de produto
Faixa etária A B C Total
18 – 35 21,8 10,9 27,3 60
0,15 7,58 1,94 9,67
-0,15 7,58 -1,94
36 – 55 32,7 6,4 40,9 90
1,62 2,47 0,02 4,11
1,62 -2,47 -0,02
56 ou + 25,4 12,7 31,8 70
1,17 0,58 2,10 3,85
-1,17 -0,58 2,10
Total 80 40 100 220
2,94 10,63 4,06 17,63

djoi@power.ufscar.br 20
Análise de Correspondências
2D Plot of Row and Column Coordinates; Dimension: 1 x 2
Input Table (Rows x Columns): 3 x 3
Standardization: Row and column profiles
0.25
Dimension 2; Eigenvalue: .01969 (24.56% of Inertia)

0.20 A

Adultos
0.15

0.10

0.05
Jovens
0.00
B
-0.05

-0.10 C

-0.15
Idosos
-0.20
Row.Coords
-0.25
-0.3 -0.2 -0.1 0.0 0.1 0.2 0.3 0.4 0.5 0.6 Col.Coords

Dimension 1; Eigenvalue: .06047 (75.44% of Inertia)

djoi@power.ufscar.br 21
Análise de Correspondências
 A partir da construção de uma estrutura de
relacionamento, determinam-se dimensões através da
decomposição espectral (autovalores e autovetores)
cujo gráfico das variáveis e casos são representados por
pontos e cujas proximidades refletem a semelhança
entre comportamentos.

 A construção dessas dimensões é realizada através dos


softwares estatísticos e fica muito difícil a sua obtenção
através de outros meios.

 A grande contribuição da AC está nesses gráficos que


permitem a avaliação visual do comportamentos das
linhas e colunas num único gráfico.

djoi@power.ufscar.br 22
Bibliografia

 Hair Jr,J.F.; Anderson,R.E.; Tatham, R,L.; Black, W.C.


Análise Multivariada de Dados. 5a. Edição, Bookman,
2005
 Johnson, R.A.; Wichern, D.W. Applied Multivariate
Statistical Analysis. 4a. Edição, Prentice Hall, 1998.
 Manly, B.F.J. Multivariate Statistical Analysis: A primer.
2a. Edição, Chapman & Hall, 1997.
 Manual do Statistica, Vol III: Statistics II. StatSoft, 1999.
 Lopez, C.P. Métodos Estadísticos Avanzados com
SPSS. Thomson, 2005.

djoi@power.ufscar.br 23
Muito obrigado a todos vocês que conseguiram me
agüentar nesses dois dias.
Que Deus os abençoe e os gratifiquem contribuindo com
um mãozinha na MegaSena (mas se ganharem não se
esqueçam da minha comissão)

djoi@power.ufscar.br 24

Você também pode gostar