Escolar Documentos
Profissional Documentos
Cultura Documentos
Análise discriminante
Aldina Correia
aic@estg.ipp.pt
1
I. Estatística Descritiva 11/30/2021
2
I. Estatística Descritiva 11/30/2021
Análise discriminante
•Semelhante à MANOVA no objetivo de identificar as variáveis que melhor
discriminam entre dois ou mais grupos estruturalmente diferentes e
mutuamente exclusivos.
Na MANOVA, os grupos constituem as variáveis independentes;
•Os grupos sobre os quais se aplica a Análise Discriminante podem ser definidos
explicitamente ou criados através da análise de clusters.
• Os grupos de pertença devem ser mutuamente exclusivos.
3
I. Estatística Descritiva 11/30/2021
1 1 2 3 …
(não métrica) (métrica)
Função discriminante
1 2 3 …
A B
A B
Função discriminante Z
Probabilidade de classificar
mal os objetos do grupo B no
grupo A Função discriminante Z
4
I. Estatística Descritiva 11/30/2021
Análise discriminante
A Análise Discriminante (AD) é muito sensível à dimensão da amostra:
◦ Mínimo 5 casos por cada variável independente (20 seria o desejável)
◦ Ter pelo menos p observações no grupo mais pequeno (p = nº de variáveis
independentes)
Para verificar se assim é pode considerar-se a tabela de frequências por
grupo.
Se estes pressupostos não se verificarem não se pode usar AD. Pode
reduzir-se este problema usando a metodologia bootstrapping, desde que
não haja frequências nulas, ou seja, grupos vazios.
É também muito sensível à existência de outliers
Não se verificando estes pressupostos da dimensão e/ou da inexistência
de outliers é preferível usar outra metodologia de classificação, por
exemplo, regressão logística.
Análise discriminante
Pressupostos
◦ Normalidade multivariada – Testes K-S ou S-W, Assimetria e Curtose ou TLC
◦ Homocedasticidade multivariada - Box’s M test1 e log determinants
◦ Ausência de Multicolinearidade 2 (as variáveis independentes não podem estar
altamente correlacionadas) –> (T=1-R2) variáveis com pequena tolerância (menos
de 0,001) são retiradas do estudo
10
5
I. Estatística Descritiva 11/30/2021
Análise discriminante
Homocedasticidade multivariada
o- Box’s M test
H0: matrizes de variância-covariância
iguais
Teste particularmente sensível à
violação do pressuposto da normalidade
e à dimensão da amostra (amostras
grandes conduzem geralmente à
rejeição de Ho).
Pode analisar-se as matrizes de
covariância separadas para ver se os
resultados de classificação são
radicalmente diferentes.
Assim, se o teste de Box M for
significativo, vale a pena executar uma
segunda análise com a opção separate-
groups para ver se muda a classificação.
Se os resultados da classificação não mudarem muito, então provavelmente não vale a pena
usar matrizes de covariância separadas.
O M do Box pode ser excessivamente sensível a grandes amostras, o que provavelmente
pode acontecer e não ser por falha da homocedasticidade.
11
Análise discriminante
Homocedasticidade multivariada
o- log determinants
Os determinantes logísticos são uma medida da variabilidade dos grupos.
log determinants maiores correspondem a mais grupos de variáveis.
Grandes diferenças nos determinantes logísticos indicam grupos que têm
matrizes de covariância diferentes, logo existência de heterocedasticidade
12
6
I. Estatística Descritiva 11/30/2021
Análise discriminante
Seleção do método de estimação
13
14
7
I. Estatística Descritiva 11/30/2021
Objetivo:
Saber se as 7 variáveis (x1 a x7 ) têm poder para
discriminar dois grupos de compradores (0=compra por
especificações e 1=análise ao valor total)
15
N =100 casos
n.º var. independentes = 7 var.=p Aproximadamente 14
Mínimo 5 casos por cada variável independente casos por variável
(20 seria o desejável)
Dimensão por grupo
N.º de casos por grupo
0 – compra por especificações-> 40 casos
é claramente superior
1 – análise ao valor total -> 60 casos ao n.º de variáveis
independentes (7)
Ter pelo menos p observações no grupo mais
pequeno (p = nº de variáveis independentes)
16
8
I. Estatística Descritiva 11/30/2021
Análise discriminante
independente
X1 a x7 – variáveis
Pressupostos
Normalidade multivariada – Testes K-S ou S-W
H0: A variável
segue uma
distribuição
normal por grupo
X11 – variável
dependente
17
Para um nível de
significância de 5%,
apenas se rejeita H0 em
4 situações.
Para os restantes (a
maioria) verifica-se o
pressuposto da
normalidade.
18
9
I. Estatística Descritiva 11/30/2021
Análise discriminante
Pressupostos
◦ Normalidade multivariada
◦ Homocedasticidade multivariada
◦ Ausência de Multicolinearidade
19
Analyze
→Classify
→Discriminant
20
10
I. Estatística Descritiva 11/30/2021
X1 a x7 – variáveis
independente
Estimação simultânea
(todas as variáveis selecionadas
são colocadas no modelo)
21
22
11
I. Estatística Descritiva 11/30/2021
23
24
12
I. Estatística Descritiva 11/30/2021
É possível guardar:
- O grupo de pertença
Previsto
- Os scores
- As probabilidades de
pertença a cada grupo
25
As variâncias/desvios padrão
das variáveis são
relativamente similares nos 2
grupos (parece haver homogeneidade)
26
13
I. Estatística Descritiva 11/30/2021
H0:µG1= µ G2
P>0,05 H0 não pode
ser rejeitada
H0=as médias dos
grupos são iguais
28
14
I. Estatística Descritiva 11/30/2021
Heterocedasticidade
29
30
15
I. Estatística Descritiva 11/30/2021
31
16
I. Estatística Descritiva 11/30/2021
33
34
17
I. Estatística Descritiva 11/30/2021
35
D1=-61,809+10,077*rapidez de
entrega+11,178*preço+...+5,114*qualidade
do produto
D2= -66,475+11,837*rapidez de
entrega+11,867*preço+…+3,402*qualidade
do produto
36
18
I. Estatística Descritiva 11/30/2021
Casos corretamente
classificados
90%
37
Correto
Errado
38
19
I. Estatística Descritiva 11/30/2021
Sensibilidade Neste
(sensitivity) caso não
há
92.5 diferenças
Especificidade
Provavelmente foi
(specificity) um efeito do
88.3 tamanho da amostra
39
Análise discriminante
No exemplo anterior, verificamos, através da ANOVA, que as
variáveis “Imagem” e “Imagem da força de vendas” não tinham
grande poder discriminante.
40
20
I. Estatística Descritiva 11/30/2021
Análise discriminante
Método stepwise
41
42
21
I. Estatística Descritiva 11/30/2021
Analyze
→Classify
→Discriminant
43
X1 a x7 – variáveis
independente
Selecção do
método
Stepwise
44
22
I. Estatística Descritiva 11/30/2021
45
46
23
I. Estatística Descritiva 11/30/2021
Á medida que as
variáveis vão sendo
Proporção da variância da variável que não introduzidas, o
está contida em nenhuma das outras Lambda de Wilks
variáveis. diminui.
Uma variável com pouca tolerância
contribuí pouco para o modelo
47
Avaliação da
multicolinearidade feita
através do calculo da
tolerância (T=1-R2) – todas
as variáveis apresentam
elevados níveis de tolerância
por isso podem ser
consideradas na análise ->
ausência de
multicolinearidade
48
24
I. Estatística Descritiva 11/30/2021
0.8122=0.6593 da
variância dos grupos
formados é explicada pela
função discriminante
49
50
25
I. Estatística Descritiva 11/30/2021
51
A percentagem de
compradores
classificados
corretamente foi de
87% (classificação
original).
26
I. Estatística Descritiva 11/30/2021
Bibliografia
Pereira, A. (2008). SPSS Guia Prático de Utilização – Análise de dados para
as ciências sociais e psicologia, Edições Sílabo.
Hair, J.F., Black, W., Babin, B., Anderson, R.E. (2010). Multivariate Data
Analysis (7 ed.). New Jersey: Pearson.
Mais detalhes da implementação em SPSS em:
https://www.ibm.com/support/knowledgecenter/en/SSLVMB_25.0.0/statistics_casestudies_project_ddita/spss/tutorials/discriminant_table.html
53
27