Escolar Documentos
Profissional Documentos
Cultura Documentos
djoi@power.ufscar.br 1
Técnicas Multivariadas
Tópicos abrangidos:
Análise Discriminante
Análise de Cluster
Análise de Correspondência
djoi@power.ufscar.br 2
Análise Discriminante
Objetivo
Construir um modelo preditivo para prognosticar o grupo a qual
pertence uma observação a partir de determinadas
características observadas.
djoi@power.ufscar.br 3
Análise Discriminante
djoi@power.ufscar.br 4
Análise Discriminante
Exemplos:
Área de crédito: dado o cadastro de clientes, estabelecer
um critério para empréstimo. (Credit Score);
Área de negócios: criar uma regra, a partir de um banco de
dados sobre a previsão de insolvência de empresas;
Área de negócios: regra para prever a troca de
fornecedores por parte dos clientes;
Policial: através das imagens de satélite ser capaz de
reconhecer se uma plantação é de maconha.
Policial: construir um critério para ajudar a PM de nossa
cidade a identificar os locais de maior risco em relação à
criminalidade.
djoi@power.ufscar.br 5
Análise Discriminante
Grupos Casos X1 X2 ... Xp
djoi@power.ufscar.br 6
Análise Discriminante
Avaliação de um novo produto
1 1 8 9 6
1 2 6 7 5
1 3 10 6 3
1 4 9 4 4
1 5 4 8 2
2 6 5 4 7
2 7 3 7 2
2 8 4 5 5
2 9 2 4 3
2 10 2 2 2
djoi@power.ufscar.br 7
Análise Discriminante
Curso de Multivariada\NOVPRODU.STA
djoi@power.ufscar.br 8
Análise de Cluster
Objetivo
Dado um conjunto de n objetos observados através de p
variáveis, agregá-los em grupos “similares” segundo o
conjunto de características avaliadas.
O que diferencia esta técnica da anterior é que nesta o
número de grupos não é conhecido de antemão.
Os agrupamentos resultantes devem ter a propriedade de
serem bastante homogêneos internamente ao grupo, mas
bastante heterogêneos em relação aos elementos de
outros grupos.
djoi@power.ufscar.br 9
Análise de Cluster
A forma de agir da Análise de Cluster difere das demais técnicas
por trabalhar unicamente com o conceito de distância entre os
sujeitos.
A “semelhança” utilizada é dada por proximidade dos casos
segundo uma medida de distância, que em muitos casos é a
distância euclidiana e em outros a distância estatística.
Ela pode ser usada também para agrupar variáveis ao invés de
casos, porém a distância utilizada é a correlação entre elas. Este
tipo de distância oferece alguns desafios que precisa ser
entendido dentro do contexto do estudo.
Basicamente existem 3 tipos de medidas de similaridade entre
os sujeitos:distância, correlação e associação.
djoi@power.ufscar.br 10
Análise de Cluster
Algorítmos de agrupamento:
Como fazer para colocar no mesmo grupos os
casos?
Método Hierárquico
Método aglomerativo – começa só com ele
Método divisivo – começa com todos os casos
Dendrograma – árvore que mostra os casos se
agrupando
Algorítmos:
single linkage, average linkage e complete linkage
Ward
djoi@power.ufscar.br 11
Análise de Cluster
djoi@power.ufscar.br 12
Análise de Cluster
djoi@power.ufscar.br 13
Análise de Cluster
STATISTICA.lnk
djoi@power.ufscar.br 14
Análise de Correspondências
Objetivo
Analisar tabelas de dupla-entrada ou de múltiplas
entradas levando-se em consideração alguma
medida de correspondência entre linhas e
colunas;
Ela converte uma matriz de dados não negativos
em um tipo de representação gráfica em que
linhas e colunas são representadas em
dimensões reduzidas, isto é, por pontos num
gráfico.
djoi@power.ufscar.br 15
Análise de Correspondências
Exemplo:
Consideremos as vendas de três produtos A, B e C para
pessoas de três faixas etárias.
Venda de produto
Faixa etária A B C Total
18 – 35 20 20 20 60
36 – 55 40 10 40 90
56 ou + 20 10 40 70
Total 80 40 100 220
djoi@power.ufscar.br 16
Análise de Correspondências
djoi@power.ufscar.br 17
Análise de Correspondências
djoi@power.ufscar.br 18
Análise de Correspondências
2
(valor observado - valor esperado)
χ
2
valor esperado
djoi@power.ufscar.br 19
Análise de Correspondências
χ 2
Venda de produto
Faixa etária A B C Total
18 – 35 21,8 10,9 27,3 60
0,15 7,58 1,94 9,67
-0,15 7,58 -1,94
36 – 55 32,7 6,4 40,9 90
1,62 2,47 0,02 4,11
1,62 -2,47 -0,02
56 ou + 25,4 12,7 31,8 70
1,17 0,58 2,10 3,85
-1,17 -0,58 2,10
Total 80 40 100 220
2,94 10,63 4,06 17,63
djoi@power.ufscar.br 20
Análise de Correspondências
2D Plot of Row and Column Coordinates; Dimension: 1 x 2
Input Table (Rows x Columns): 3 x 3
Standardization: Row and column profiles
0.25
Dimension 2; Eigenvalue: .01969 (24.56% of Inertia)
0.20 A
Adultos
0.15
0.10
0.05
Jovens
0.00
B
-0.05
-0.10 C
-0.15
Idosos
-0.20
Row.Coords
-0.25
-0.3 -0.2 -0.1 0.0 0.1 0.2 0.3 0.4 0.5 0.6 Col.Coords
djoi@power.ufscar.br 21
Análise de Correspondências
A partir da construção de uma estrutura de
relacionamento, determinam-se dimensões através da
decomposição espectral (autovalores e autovetores)
cujo gráfico das variáveis e casos são representados por
pontos e cujas proximidades refletem a semelhança
entre comportamentos.
djoi@power.ufscar.br 22
Bibliografia
djoi@power.ufscar.br 23
Muito obrigado a todos vocês que conseguiram me
agüentar nesses dois dias.
Que Deus os abençoe e os gratifiquem contribuindo com
um mãozinha na MegaSena (mas se ganharem não se
esqueçam da minha comissão)
djoi@power.ufscar.br 24