Você está na página 1de 27

I.

Estatística Descritiva 11/30/2021

Análise discriminante
Aldina Correia
aic@estg.ipp.pt

Estes slides baseiam-se nos de Vanda Lima de 2013-2014

Análise discriminante - definição


• Técnica multivariada utilizada para investigar ou avaliar diferenças
entre grupos e classificar entidades dentro dos grupos, com base em
variáveis discricionárias conhecidas
• Classifica a amostra em vários grupos conhecidos baseando-se numa
variável dependente não métrica, em geral, dicotómica (ex:
macho/fêmea)  prevê a inclusão de um indivíduo num grupo
• Estuda o relacionamento entre uma variável dependente não métrica
com duas ou mais variáveis independentes métricas
• Permite perceber as diferenças entre grupos e obter a probabilidade de
uma entidade vir a pertencer a um grupo particular com base nas
variáveis independentes métricas

1
I. Estatística Descritiva 11/30/2021

Análise discriminante - objetivos


• Determinar quando existem diferenças estatisticamente significativas
entre um conjunto de variáveis para dois ou mais grupos
• Determinar quais das variáveis independentes contêm maior
capacidade de diferenciação
• Estabelecer procedimentos para classificar objetos/entidades dentro
de grupos
• Estabelecer o número e a composição das dimensões da discriminação
entre grupos formados a partir das variáveis independentes

Análise discriminante - exemplos


Alguns exemplos onde se pode aplicar a análise discriminante:
• Identificar as variáveis de autoconceito, da escola, sociais e económicas
que diferenciam os estudantes com aproveitamento escolar vs sem
aproveitamento escolar;
• Identificar as variáveis que levam um determinado grupo de
consumidores a comprar vs não comprar determinado produto;
• Identificar as variáveis que discriminam entre funcionários de uma
determinada empresa que apresentam alta vs baixa produtividade no
trabalho e usar essas variáveis num índice que permita prever a
produtividade dos candidatos
Maroco (2010:513)

2
I. Estatística Descritiva 11/30/2021

Análise discriminante
•Semelhante à MANOVA no objetivo de identificar as variáveis que melhor
discriminam entre dois ou mais grupos estruturalmente diferentes e
mutuamente exclusivos.
Na MANOVA, os grupos constituem as variáveis independentes;

Na Análise Discriminante, os grupos são as variáveis dependentes;

•Semelhante à Regressão linear múltipla no objetivo de utilizar a função


discriminante para classificar a priori novos objetos/entidades nos grupos.
Na Regressão Múltipla, a variável dependente é contínua;
Na Análise Discriminante, a variável dependente (grupos) é discreta

•Os grupos sobre os quais se aplica a Análise Discriminante podem ser definidos
explicitamente ou criados através da análise de clusters.
• Os grupos de pertença devem ser mutuamente exclusivos.

Análise discriminante - Principais conceitos

Centroíde – valor médio para os resultados de uma função


discriminante z de um conjunto de objetos que pertencem ao
mesmo grupo

Função discriminante – variação de um conjunto de variáveis


independentes selecionadas pelo seu poder de discriminação
usadas para prever os elementos pertencentes a um dado grupo

“hit ratio” – percentagem de objetos corretamente classificados

3
I. Estatística Descritiva 11/30/2021

Análise discriminante - Principais conceitos

1 1 2 3 …
(não métrica) (métrica)
Função discriminante

1 2 3 …

“intercept” (a): valor que resulta da interceção da função discriminante com o


eixo do x.
wi: peso discriminante para a variável independente i (estes valores são estimados de
forma a que os grupos sejam os mais diferentes possível nos valores das funções
discriminantes)

Xik: variável independente i para o objeto k


Z: valor discriminante

Análise discriminante - Graficamente


Função que discrimina bem

A B

A B
Função discriminante Z

Probabilidade de classificar
mal os objetos do grupo B no
grupo A Função discriminante Z

Função que discrimina mal


8

4
I. Estatística Descritiva 11/30/2021

Análise discriminante
A Análise Discriminante (AD) é muito sensível à dimensão da amostra:
◦ Mínimo 5 casos por cada variável independente (20 seria o desejável)
◦ Ter pelo menos p observações no grupo mais pequeno (p = nº de variáveis
independentes)
Para verificar se assim é pode considerar-se a tabela de frequências por
grupo.
Se estes pressupostos não se verificarem não se pode usar AD. Pode
reduzir-se este problema usando a metodologia bootstrapping, desde que
não haja frequências nulas, ou seja, grupos vazios.
É também muito sensível à existência de outliers
Não se verificando estes pressupostos da dimensão e/ou da inexistência
de outliers é preferível usar outra metodologia de classificação, por
exemplo, regressão logística.

Análise discriminante
Pressupostos
◦ Normalidade multivariada – Testes K-S ou S-W, Assimetria e Curtose ou TLC
◦ Homocedasticidade multivariada - Box’s M test1 e log determinants
◦ Ausência de Multicolinearidade 2 (as variáveis independentes não podem estar
altamente correlacionadas) –> (T=1-R2) variáveis com pequena tolerância (menos
de 0,001) são retiradas do estudo

A Análise Discriminante é robusta à violação dos pressupostos desde que:


(1) dimensão do menor grupo seja superior ao número de variáveis independentes;
(2) as médias dos grupos não sejam proporcionais às variâncias. (Maroco,2010)
____________
1 Teste particularmente sensível à violação do pressuposto da normalidade e à

dimensão da amostra (amostras grandes conduzem geralmente à rejeição de Ho).


2 Multicolinearidade é especialmente crítica no método de estimação stepwise.

1, 2 Incluídos no output de análise discriminante.

10

5
I. Estatística Descritiva 11/30/2021

Análise discriminante
Homocedasticidade multivariada
o- Box’s M test
 H0: matrizes de variância-covariância
iguais
 Teste particularmente sensível à
violação do pressuposto da normalidade
e à dimensão da amostra (amostras
grandes conduzem geralmente à
rejeição de Ho).
 Pode analisar-se as matrizes de
covariância separadas para ver se os
resultados de classificação são
radicalmente diferentes.
 Assim, se o teste de Box M for
significativo, vale a pena executar uma
segunda análise com a opção separate-
groups para ver se muda a classificação.
 Se os resultados da classificação não mudarem muito, então provavelmente não vale a pena
usar matrizes de covariância separadas.
 O M do Box pode ser excessivamente sensível a grandes amostras, o que provavelmente
pode acontecer e não ser por falha da homocedasticidade.
11

Análise discriminante
Homocedasticidade multivariada
o- log determinants
 Os determinantes logísticos são uma medida da variabilidade dos grupos.
 log determinants maiores correspondem a mais grupos de variáveis.
 Grandes diferenças nos determinantes logísticos indicam grupos que têm
matrizes de covariância diferentes, logo existência de heterocedasticidade

12

6
I. Estatística Descritiva 11/30/2021

Análise discriminante
Seleção do método de estimação

Estimação simultânea (Enter) – todas as variáveis


independentes são consideradas em simultâneo no cálculo da
função discriminante.

Estimação “setpwise” – As variáveis independentes são


consideradas na função discriminante uma de cada vez, de
acordo com o seu poder discriminante.

13

Análise discriminante - etapas


1. Selecionar os casos (retirar os casos onde exista falta de
informação)
2. Analisar as diferenças entre grupos
3. Selecionar as variáveis independentes e testar os
pressupostos
4. Estimar os coeficientes da função discriminante,
assegurar a significância das funções e calcular os
valores de discriminação para cada caso
5. Classificar os casos dentro dos grupos
6. Interpretar resultados da discriminação e da validação

14

7
I. Estatística Descritiva 11/30/2021

Análise discriminante - exemplo


Aplicar uma análise discriminante à base de dados HATCO.sav
considerando:
◦ Variável dependente x11
◦ Variáveis independentes x1 a x7

Utilize o método de estimação simultânea.

Objetivo:
Saber se as 7 variáveis (x1 a x7 ) têm poder para
discriminar dois grupos de compradores (0=compra por
especificações e 1=análise ao valor total)

15

Análise discriminante - exemplo


Dimensão da amostra

N =100 casos
n.º var. independentes = 7 var.=p Aproximadamente 14
Mínimo 5 casos por cada variável independente casos por variável
(20 seria o desejável)
Dimensão por grupo
N.º de casos por grupo
0 – compra por especificações-> 40 casos
é claramente superior
1 – análise ao valor total -> 60 casos ao n.º de variáveis
independentes (7)
Ter pelo menos p observações no grupo mais
pequeno (p = nº de variáveis independentes)
16

8
I. Estatística Descritiva 11/30/2021

Análise discriminante

independente
X1 a x7 – variáveis
Pressupostos
Normalidade multivariada – Testes K-S ou S-W

H0: A variável
segue uma
distribuição
normal por grupo
X11 – variável
dependente

Analyze → Explore→ Plots… Normality plots with tests

17

Análise discriminante - exemplo


Pressupostos
Normalidade 
H0: variável segue
distribuição normal

Para um nível de
significância de 5%,
apenas se rejeita H0 em
4 situações.
Para os restantes (a
maioria) verifica-se o
pressuposto da
normalidade.

18

9
I. Estatística Descritiva 11/30/2021

Análise discriminante
Pressupostos
◦ Normalidade multivariada 
◦ Homocedasticidade multivariada
◦ Ausência de Multicolinearidade

NOTA: os restantes pressupostos (Homocedasticidade e


Multicolinearidade) são verificados no output da análise
discriminante

19

Análise discriminante - exemplo

Analyze
→Classify
→Discriminant

20

10
I. Estatística Descritiva 11/30/2021

Análise discriminante - exemplo


X11 – variável dependente

X1 a x7 – variáveis
independente

Estimação simultânea
(todas as variáveis selecionadas
são colocadas no modelo)

21

Análise discriminante - exemplo

X11 – Compra por especificações


0=compra por especificações
1=análise ao valor total

22

11
I. Estatística Descritiva 11/30/2021

Análise discriminante - exemplo

23

Análise discriminante - exemplo

24

12
I. Estatística Descritiva 11/30/2021

Análise discriminante - exemplo

É possível guardar:
- O grupo de pertença
Previsto
- Os scores
- As probabilidades de
pertença a cada grupo

25

Análise discriminante - exemplo


Estatísticas descritivas 40 casos são 0
60 casos são 1
0=compra por especificações
1=análise ao valor total

Verifica-se que as médias


dos grupos não são
proporcionais às variâncias.

As variâncias/desvios padrão
das variáveis são
relativamente similares nos 2
grupos (parece haver homogeneidade)

26

13
I. Estatística Descritiva 11/30/2021

Análise discriminante - exemplo


Analisar as diferenças entre grupos Estas variáveis,
provavelmente, não
Testes ANOVA contribuem para o modelo

H0:µG1= µ G2
P>0,05 H0 não pode
ser rejeitada
H0=as médias dos
grupos são iguais

Se o valor de Wilks’λ for = 1  as médias F (pequenos) indicam que quando as variáveis


dos grupos são iguais; independentes são consideradas individualmente não
Se o valor de Wilks’λ for = 0  existem diferem entre os grupos. Neste caso, a “Imagem” e a
diferenças significativas entre os grupos. “Imagem da força de vendas” não influenciam a atitude do
Valores menores indicam que a variável é cliente na compra.
melhor na discriminação entre grupos.
27

Análise discriminante - exemplo


Pressupostos - Multicolinearidade

Multicolinearidade  Níveis de correlação entre as variáveis, de um modo


geral, fracos ou moderados. Apenas as var. “Imagem” e “Imagem da força de
vendas” apresentam um nível de correlação ligeiramente superior a 0,7 
“quase” ausência de multicolinearidade

28

14
I. Estatística Descritiva 11/30/2021

Análise discriminante - exemplo


Pressupostos Homoscedasticidade

Os log determinantes deviam ser próximos


→ indícios de heterocedasticidade

Teste de Homoscedasticidade multivariada


Box’s M test
Valor de prova ≈ 0 < 0,001 (nível de significância deve ser este em vez de 5%)

Decisão:
Rejeitar H0: matrizes de variância-covariância iguais
para os 2 grupos

Heterocedasticidade 
29

Análise discriminante - exemplo


O modelo discriminante ajusta-se aos dados?
valores próprios (eigenvalues)
lambda de Wilks (Wilks' lambda)

0.8202=0.6724 da variância dos


grupos formados é explicada
Mede a eficácia pela função discriminante
relativa de cada (no caso de só haver 1, ou seja,
função discriminante.
da variável dependente ser
binária)

30

15
I. Estatística Descritiva 11/30/2021

Análise discriminante - exemplo


sig<5%
Decisão: Rejeitar Ho: as
médias dos grupos na função
são iguais.
Mede a capacidade da função
A função derivada é
discriminante fazer a
separação em grupos.
significante, i.é., consegue
Teste de igualdade de discriminar os casos em dois
médias:
Valores mais pequenos grupos.
H0: As médias das funções
revelam maior poder são iguais entre os grupos.
discriminantes da função
discriminante.
Mede a capacidade da função discriminante
Representa a proporção da
fazer a separação em grupos.
variância total nos scores
discriminantes não explicada
Valores mais pequenos revelam maior poder
por diferenças entre os grupos. discriminantes da função discriminante.

31

Análise discriminante - exemplo


Averiguar a contribuição das variáveis para a função discriminante
Contribuição relativa de cada variável para a
função discriminante.
Como os coeficientes estão estandardizados
(i.é. independentes das unidades de medida),
são comparáveis.
Quanto maior o valor do coeficiente, maior a
importância relativa da variável.

• Contribuição (ordenada, pelo valor absoluto) de cada variável


para a função discriminante, sem o efeito da colinearidade.
• A ordem deve ser coerente com a ordem na matriz anterior,
se não for indica problemas de multicolinearidade
• Os valores absolutos devem ser maiores do que 0,3
32

16
I. Estatística Descritiva 11/30/2021

Análise discriminante - exemplo


Coeficientes da função discriminante

Os coeficientes não estandardizados são calculados para calcular as pontuações


discriminantes que permitem prever a inclusão de um caso num dado grupo
(a partir de um dado valor, o caso é previsto como fazendo parte de um grupo, abaixo como fazendo
parte do outro grupo)

33

Análise discriminante - exemplo

Valor médio da função discriminante nos 2


grupos:
- A media no grupo “Compra por especificações”
é inferior à media global

34

17
I. Estatística Descritiva 11/30/2021

Análise discriminante - exemplo


Estatísticas de classificação

Todos os casos foram classificados À partida havia 40 casos num grupo e 60


Não há outliers no outro
(Não deve haver outliers, esta técnica é muito
sensível à sua existência)

35

Análise discriminante - exemplo


Classificar os casos

D1=-61,809+10,077*rapidez de
entrega+11,178*preço+...+5,114*qualidade
do produto
D2= -66,475+11,837*rapidez de
entrega+11,867*preço+…+3,402*qualidade
do produto

Calcule o valor das equações para os casos


(observações) 10 e 20 e classifique-os nos
grupos respetivos Os coeficientes obtidos pela
(a classificação mais elevada (por exemplo, em função de Fisher permitem
D1) indica a inclusão no grupo 1) classificar os casos em grupos

36

18
I. Estatística Descritiva 11/30/2021

Análise discriminante - exemplo


Interpretar resultados da discriminação e da validação

Casos corretamente
classificados
90%

Sensibilidade Casos corretamente


(sensitivity) classificados, quando
92.5 no cálculo da
classificação não é
Especificidade considerado o caso em
(specificity) análise  menos
88.3 otimista

Alta sensibilidade implica poucos falsos negativos


Alta especificidade implica poucos falsos positivos

37

Análise discriminante - exemplo


O que foi gravado na Base de dados

Previsão da AD Probabilidades de pertença

Correto

Errado

38

19
I. Estatística Descritiva 11/30/2021

Análise discriminante - exemplo


Homocedasticidade multivariada
Como no teste de Box’s M test se
rejeitou a igualdade das matrizes de
variância-covariância pode analisar-se
as matrizes separadas para ver se os
resultados de classificação são
radicalmente diferentes.

Sensibilidade Neste
(sensitivity) caso não

92.5 diferenças

Especificidade
Provavelmente foi
(specificity) um efeito do
88.3 tamanho da amostra

39

Análise discriminante
No exemplo anterior, verificamos, através da ANOVA, que as
variáveis “Imagem” e “Imagem da força de vendas” não tinham
grande poder discriminante.

Este pode ser um método a usar para selecionar as variáveis


com capacidade discriminante, de modo a que a análise
discriminante seja só efetuada com essas variáveis.

Método stepwise (passo-a-passo) – a análise começa sem


variáveis e nos passos seguintes as variáveis são adicionadas
ou removidas, dependendo da sua capacidade discriminante.

40

20
I. Estatística Descritiva 11/30/2021

Análise discriminante
Método stepwise

Métodos para a inclusão/remoção de variáveis:

• Lambda de Wilks: variáveis são incluídas (ou removidas) consoante a sua


inclusão diminui bastante (ou não) o valor de lambda.

• Distância Mahalanobis: esta distância permite separar os grupos. Uma


variável é selecionada se a sua inclusão aumentar significativamente
esta distância.

• Rácio F entre grupos: Semelhante à distância de Mahalanobis, mas tem


em consideração as diferentes dimensões dos grupos, considerando os
grupos de maior dimensão com mais peso na análise.

41

Análise discriminante - exemplo


Aplicar uma análise discriminante à base de dados HATCO.sav
considerando:
◦ Variável dependente x11
◦ Variáveis independentes x1 a x7

Utilize o método stepwise e selecione a método do


Lambda de Wilks para decisão das variáveis a
considerar na análise.

42

21
I. Estatística Descritiva 11/30/2021

Análise discriminante - exemplo

Analyze
→Classify
→Discriminant

43

Análise discriminante - exemplo


X11 – variável dependente

X1 a x7 – variáveis
independente

Selecção do
método
Stepwise

44

22
I. Estatística Descritiva 11/30/2021

Análise discriminante - exemplo


método do Lambda
de Wilks

45

Análise discriminante - exemplo


É possível guardar:
- O grupo de pertença
Previsto
- Os scores
- As probabilidades de
pertença a cada grupo

46

23
I. Estatística Descritiva 11/30/2021

Análise discriminante - exemplo

Á medida que as
variáveis vão sendo
Proporção da variância da variável que não introduzidas, o
está contida em nenhuma das outras Lambda de Wilks
variáveis. diminui.
Uma variável com pouca tolerância
contribuí pouco para o modelo

47

Análise discriminante - exemplo


A cada passo, a
variável de previsão
com o menor valor do
Lambda de Wilks, entra
no modelo.

Avaliação da
multicolinearidade feita
através do calculo da
tolerância (T=1-R2) – todas
as variáveis apresentam
elevados níveis de tolerância
por isso podem ser
consideradas na análise ->
ausência de
multicolinearidade

48

24
I. Estatística Descritiva 11/30/2021

Análise discriminante - exemplo

3 passos para obtenção da função discriminante.


Decisão: Rejeitar Ho: as médias dos grupos na função são iguais. A função
é discriminante.

0.8122=0.6593 da
variância dos grupos
formados é explicada pela
função discriminante

49

Análise discriminante - exemplo

Coeficientes estandardizados da função discriminante estimada.

A função é definida por 3 variáveis (rapidez na entrega, flexibilidade do preço e


qualidade do produto) e discrimina significativamente os dois grupos de compradores
(compra por especificações e análise ao valor total).

50

25
I. Estatística Descritiva 11/30/2021

Análise discriminante - exemplo


Coeficientes da função
de classificação

D(compra por especificações)=-49,339 + 1,982*rapidez de entrega +


5,759*flexibilidade do preço + 6,357*qualidade do produto

D(análise ao valor total) = -52,708 + 3,174*rapidez de entrega + 7,149*flexibilidade


do preço + 4,836*qualidade do produto

51

Análise discriminante - exemplo

A percentagem de
compradores
classificados
corretamente foi de
87% (classificação
original).

Na validação cruzada (caso é classificado com as funções de classificação deduzidas sem


esse caso) a percentagem é sensivelmente a mesma (86%) da classificação original.
52

26
I. Estatística Descritiva 11/30/2021

Bibliografia
Pereira, A. (2008). SPSS Guia Prático de Utilização – Análise de dados para
as ciências sociais e psicologia, Edições Sílabo.

Maroco, J. (2010). Análise Estatística - Com a Utilização do SPSS (3 ed.).


Lisboa: Edições Sílabo.

Hair, J.F., Black, W., Babin, B., Anderson, R.E. (2010). Multivariate Data
Analysis (7 ed.). New Jersey: Pearson.
Mais detalhes da implementação em SPSS em:
https://www.ibm.com/support/knowledgecenter/en/SSLVMB_25.0.0/statistics_casestudies_project_ddita/spss/tutorials/discriminant_table.html

53

27

Você também pode gostar