Você está na página 1de 16

Universidade Federal do Pará

Instituto de Ciências Exatas e Naturais


Faculdade de Estatística
Estatística Aplicada

ANÁLISE DISCRIMINANTE
(MÓDULO I)

Franciely Farias da Cunha


(201007840014), aluna do
curso de bacharelado em
Estatística pela Universidade
Federal do Pará.

Belém
2014
1. O que é a Análise Discriminante?

É uma técnica multivariada utilizada quando a variável dependente é


categórica, ou seja, qualitativa (não métrica) e as variáveis independentes são
quantitativas (métricas).

1.1 Qual seu objetivo?

O objetivo principal da AD é identificar as variáveis que discriminam os


grupos e, assim, elaborar previsões a respeito de uma nova observação,
identificando o grupo mais adequado a que ela deverá pertencer, em função
de suas características. Para alcançar esse objetivo, a AD gera funções
discriminantes (combinações lineares das variáveis) que ampliam a
discriminação dos grupos descritos pelas variáveis dependentes (FÁVERO et
al., 2009).

2. Tipos de Análise Discriminante

Quando o pesquisador estiver interessado em estudar somente dois grupos de


variáveis dependentes, a técnica é chamada de Análise Discriminante
Simples. No entanto, em muitos casos, há o interesse na discriminação entre
mais de dois grupos, sendo a técnica, assim, denominada de Análise
Discriminante Múltipla (MDA).

2.1 Objetivos

Os objetivos principais desses dois tipos de análises são parecidos: (i)


identificar as variáveis que melhor discriminam dois ou mais grupos; (ii)
utilizar estas variáveis para desenvolver funções discriminantes que
representem as diferenças entre os grupos; (iii) fazer uso das funções
discriminantes para o desenvolvimento de regras de classificação de futuras
observações nos grupos.

3. Modelagem da Análise Discriminante

Antes de iniciar a modelagem da AD propriamente dita, é pertinente


esclarecer os pressupostos inerentes a está técnica. As suposiçoes em AD,
de acordo Hair et al. (2005) e Fávero et al. (2009), são:

 Normalidade multivariada das variáveis explicativas: a violação


desse pressuposto poderá causar distorções nas avaliações do
pesquisador;
 Homogeneidade das Matrizes de variância e covariância: este
pressuposto é verificado por meio da estatística Box’s M, que pode
ser sensível ao tamanho da amostra;
 Inexistência de outliers;
 Presença de linearidade das relações;
 Ausência de problemas relacionados à multicolinearidade das
variáveis explicativas.

4. Tamanho da Amostra

Hair et al. (2005), destaca que é essencial definir o tamanho correto da


amostra que será estudada, já que esta técnica é muito sensível à proporção
do tamanho da amostra em relação ao número de variáveis preditoras. Assim,
como regra geral, utiliza-se no mínimo 20 observações para cada variável
explicativa, mesmo que o número final das variáveis preditoras a serem
incluídas no modelo seja reduzido (método stepwise).

5. Composições das Funções Discriminantes

Apresentados os pressupostos, pode-se começar os passos para a composição


das funções discriminantes. Portanto, esta etapa consiste na seleção da
varável dependente (categórica) e das variáveis explicativas (métricas). A AD
permite o conhecimento das variáveis que mais se destacam na discriminação
dos grupos, a partir de testes estatísticos, como o lambda de Wilks, a
correlação canônica, o qui-quadrado e o eigenvalue.
O lambda de Wilks, que varia de 0 a 1, propicia a avaliação da existência de
diferenças de médias entre os grupos para cada variável. Os valores elevados
desta estatística indicam ausência de diferenças entre os grupos, e sua
expressão é dada por
SQ dg
 ,
SQT

em que SQdg representa a soma dos erros (dentro dos grupos) e SQT, a soma
dos quadrados total.
Com a seleção das variáveis discriminantes (explicativas) para formação
dos grupos, o próximo passo é a identificação das funções discriminantes.
Desta forma, a função geral discriminante pode ser representada pela seguinte
equação linear, Z n    1X1   2 X 2  ...   n X n
,
em que Z é a variável dependente, α é o intercepto, Xi são as variáveis
explicativas e β1 são os coeficientes discriminantes para cada variável
explicativa.
Fávero et al. (2009), afirmam que é importante ressaltar que esta função
discriminante é diferente da função discriminante linear de Fisher, uma vez
que, enquanto a primeira é utilizada como um meio de facilitar a interpretação
dos parâmetros das variáveis explicativas, a função discriminante linear de
Fisher é utilizada para classificar as observações nos grupos, assim os valores
das variáveis explicativas de uma observação são inseridos nas funções de
classificação e, consequentemente, um escore de classificação é calculado
para cada grupo, para aquela observação. Dadas as p variáveis e g grupos, é
possível estabelecer m = min(g - 1; p) funções discriminantes que são
combinações lineares das p variáveis, de modo que a função linear de Fisher
seja dada por
Z n  W1X1  W2 X 2  ...  Wn X n
,
em que Wi representa o vetor de pesos das variáveis para as funções
discriminantes e são estimados de modo que a variabilidade dos escores da
função discriminante seja máxima entre os grupos e mínima dentro dos grupos
(MAROCO, 2007). Em termos matriciais, Sharma (1996) apresenta a função
discriminante como,
  X '
,
Em que X’(px1) e a transposta da matriz com p variáveis e representa o vetor
de pesos das variáveis. A soma dos quadrados totais dos escores  pode ser
(X '  ) ' (' X '  )   ' XX '  T
definido como  XX' Sendo a matriz da soma dos
quadrados e produtos cruzados totais da matriz X com p variáveis.
Fazendo T = B + W, em que B e W representam, respectivamente, as
matrizes das somas dos quadrados entre os grupos e dentro dos grupos, a soma
dos quadrados totais para a função discriminante pode agora ser escrita como
(MAROCO, 2007),
 '   'T   ' ' ( B  W )   ' B   'W
Uma vez que  ’ B  e  ’ W  são respectivamente a soma dos quadrados entre
os grupos e dentro dos grupos para a função  , a obtenção da função
discriminante resume-se, segundo Maroco (2007), a encontrar o vetor  , de
modo que
 ' B
 ,
 'W

Seja máximo.

6. Escore de Corte

Após a função discrimante ser definida, será calculado o escore


discriminante da variável dependente (Z) para cada observação. Segundo Hair
et al. (2005), o escore de corte é o critério em relação ao qual o escore
discriminante de cada objeto é comparado para determinar em qual grupo o
objeto deve ser classificado. Para os grupos de mesma dimensão amostral
(tamanho), o cálculo do escore de corte é

d1  d 2
f 
2

em que d1 e d 2 representam as médias das funções discriminantes


(centróides) nos grupos 1 e 2, respectivamente. Já para o grupos de tamanhos
diferentes, têm-se

n1d1  n 2 d 2
f 
n1  n2

em que n1 e n2 são os tamanhos dos grupos 1 e 2, respectivamente. Sharma


(1996) destaca que o valor do corte selecionado é aquele que minimiza o
número de classificação incorreta.

7. Métodos: Simultâneo e Stepwise

 Simultâneo: considera a inclusão de todas as variáveis explicativas


conjuntamente no modelo, mesmo quando 1 ou mais delas não forem
significativas.
 Stepwise: considera a inclusão passo a passo apenas das variáveis
significantes.

O procedimento de stepwise oferece diversos métodos de inclusão ou exclusão


de variáveis discriminantes na função discriminante. Dentre eles podemos
citar:
 Método de lambda de Wilks
 D2 de Mahalanobis
 Razão F entre os grupos
 V de Rao
 Método Unexplained Variance

8. Aplicação

EXEMPLO: Um agrônomo deseja estudar a qualidade do solo de uma área


particular de plantio de Açaí. Porém, neste momento, para cada amostra de
solo foi atribuído um índice e, então a amostra de solo foi classificada
(categorizada) de acordo com esse índice, sendo estabelecido o seguinte
critério: valor do índice igual ou superior a 0,70 é considerados bom; valor
situado de 0,35 e 0,69 é regular; valor inferior a 0,35 é considerado ruim. As
variáveis explicativas que poderão formar a função discriminante, a fim de
que as amostras sejam distribuídas nos grupos corretos são: potencial
hidrogeniônico (pH), matéria orgânica (MO), fósforo (P), potássio (K), cálcio
(Ca), magnésio (Mg), alumínio, (Al), acidez potencial (H+Al) e saturação por
base (V).

Para aplicar a técnica podemos utilizar o software SPSS, após abrir o banco de
dados, é necessário clicar em Analisar Classificar Discriminante.

Insira a variável Grupo na caixa Variável de Agrupamento e defina a


amplitude dos grupos, clicando em Definir faixa. Digite 1 e 3 em Mínimo e
Máximo, respectivamente, a fim de que todas as categorias da variável
dependente sejam selecionados para a formação dos grupos (3 grupos).
Posteriormente clique em Continuar.
Após definir as variáveis explicativas e a variável dependente, deve-se
selecionar a opção Usar método por etapa.

Em Método, selecione o tipo de teste a ser aplicado quando da elaboração do


procedimento stepwise na AD. Nesse exemplo, será utilizado o método lambda
de Wilks. Em Exibir, clique na opção Resumo das etapas, que propicia a
apresentação das tabelas com as variáveis inseridas e removidas do modelo e
os respectivos valores de lambda de Wilks. O critério de inclusão ou exclusão
de variáveis será mantido de acordo com o padrão do software. Em critérios
use a probabilidade de F, porteriormente clique em Continuar.

Clique em Estatística para selecionar as opções referentes às estatísticas que


serão geradas para a análise. Marque todas as opções e clique em Continuar.
Em Classificação, selecione a opção Calcular a partir de tamanhos de grupo e
clique na opção Tabela de resumo em exibir. Selecione a opção Dentro dos
grupos em Usar Matriz de Covariância. Por fim, em Diagramas, selecione
grupos combinados e Territorial Map, depois clique em Continuar e em OK.

A Figura a seguir apresenta a análise descritiva das variáveis, em que pode-se


ver as médias, os desvio padrão e o número de observações em cada grupo,
com o total de 45 observações.
Group Statistics
Grupo Mean Std. Deviation Valid N (listwise)
Unweighted Weighted
pH 4,7267 ,27140 18 18,000
MO ,9416 ,43841 18 18,000
P 1,0841 ,14661 18 18,000
K -,8594 ,19642 18 18,000
Ruim Ca ,4747 ,28416 18 18,000
Mg -,4135 ,33270 18 18,000
Al ,9972 ,19887 18 18,000
HeAl 5,2593 ,68255 18 18,000
V 17,4638 5,93469 18 18,000
pH 5,5305 ,37357 21 21,000
MO ,8844 ,42866 21 21,000
P 1,1743 ,19628 21 21,000
K -,7500 ,21901 21 21,000
Regular Ca 1,5406 ,46088 21 21,000
Mg -,2425 ,32455 21 21,000
Al ,5024 ,34441 21 21,000
HeAl 3,6032 1,58243 21 21,000
V 42,4932 11,55820 21 21,000
pH 6,4850 ,34887 6 6,000
MO ,8534 ,24989 6 6,000
P 1,3490 ,17963 6 6,000
K -,5811 ,16541 6 6,000
Bom Ca 2,5437 ,60984 6 6,000
Mg -,2139 ,26732 6 6,000
Al ,1250 ,02739 6 6,000
HeAl 1,5741 ,44119 6 6,000
V 68,8069 9,17182 6 6,000
pH 5,3362 ,67505 45 45,000
MO ,9031 ,40741 45 45,000
Total P 1,1615 ,19185 45 45,000
K -,7713 ,21942 45 45,000
Ca 1,2480 ,82731 45 45,000
Mg -,3071 ,32646 45 45,000
Al ,6500 ,40816 45 45,000
HeAl 3,9951 1,69313 45 45,000
V 35,9899 19,78231 45 45,000

O teste de igualdade de médias dos grupos para cada variável explicativa é


apresentado na próxima Figura, que mostra a ANOVA One Way das variáveis
em estudo. Nela, também pode-se identificar as variáveis que são as melhores
discriminantes dos níveis de qualidade (bom, regular e ruim). O lambda de
Wilks, que varia de 0 a 1, testa a existência de diferenças de médias entre os
grupos para cada variável. É importante lembrar que valores elevados desta
estatística indicam ausência de diferenças entre os grupos.
Pode-se perceber por meio dessa mesma Figura que as variáveis Saturação
por Base (V), Potencial Hidrogeniônico (pH) e Cálcio (Ca) são as que mais
discriminam os grupos, ou seja, seu poder de diferenciação dos grupos é
superior, se comparado com as outras variáveis. Por outro lado, as variáveis
Matéria Orgânica (MO) e Magésio (Mg) apresentam os valores mais elevados,
demonstrando serem a pior em termos de discriminação dos grupos. O sig. F
expressa as diferenças entre as médias, sendo que os valores mais próximos
de 0
indicam médias mais distintas. Assim, pode-se assumir, que para a maioria
das variáveis explicativas em análise, existe pelo menos um grupo em que as
médias são diferentes.
Tests of Equality of Group Means

Wilks' Lambda F df1 df2 Sig.

pH ,232 69,515 2 42 ,000


MO ,993 ,141 2 42 ,869
P ,801 5,216 2 42 ,009
K ,827 4,391 2 42 ,019
Ca ,248 63,544 2 42 ,000
Mg ,927 1,660 2 42 ,202
Al ,416 29,494 2 42 ,000
HeAl ,468 23,914 2 42 ,000
V ,214 76,962 2 42 ,000

As próximas Figuras apresentam as matrizes de covariância e de correlações.


Estas figuras contribuem para a avaliação da relação entre as variáveis, e é a
partir delas que pode-se notar a presença de multicolinearidade entre os
elementos. Caso ocorram correlações muito elevadas entre duas variáveis,
recomenda-se a exclusão de uma delas.
Pooled Within-Groups Matricesa
pH MO P K Ca Mg Al HeAl V

pH ,111 ,006 ,015 ,014 ,082 -,003 -,022 -,104 1,624

MO ,006 ,173 ,017 ,003 ,006 ,004 ,021 -,049 ,305

P ,015 ,017 ,031 ,016 ,031 -,008 ,007 ,037 ,197

K ,014 ,003 ,016 ,042 ,009 -,010 ,002 ,078 -,211

Covariance Ca ,082 ,006 ,031 ,009 ,178 -,016 -,015 -,037 2,020

Mg -,003 ,004 -,008 -,010 -,016 ,103 ,027 ,021 ,899

Al -,022 ,021 ,007 ,002 -,015 ,027 ,073 ,079 -,416

HeAl -,104 -,049 ,037 ,078 -,037 ,021 ,079 1,404 -7,888

V 1,624 ,305 ,197 -,211 2,020 ,899 -,416 -7,888 87,886


pH 1,000 ,042 ,263 ,208 ,582 -,033 -,250 -,264 ,521

MO ,042 1,000 ,226 ,040 ,037 ,031 ,189 -,100 ,078

P ,263 ,226 1,000 ,441 ,424 -,138 ,140 ,180 ,120

K ,208 ,040 ,441 1,000 ,100 -,153 ,033 ,323 -,110

Correlation Ca ,582 ,037 ,424 ,100 1,000 -,120 -,131 -,073 ,510

Mg -,033 ,031 -,138 -,153 -,120 1,000 ,308 ,056 ,298

Al -,250 ,189 ,140 ,033 -,131 ,308 1,000 ,247 -,165

HeAl -,264 -,100 ,180 ,323 -,073 ,056 ,247 1,000 -,710

V ,521 ,078 ,120 -,110 ,510 ,298 -,165 -,710 1,000

a. The covariance matrix has 42 degrees of freedom.

A seguir mostra-se a matriz de covariância para cada um dos grupos auxilia


quanto à percepção de homogeneidade de covariância. É importante lembrar
que a presença de homogeneidade das matrizes de covariância é um dos
pressupostos da AD. Entretanto é a partir da estatística Box’M que será
verificado se as diferentes dispersões observadas são ou não estatisticamente
significativas. Este teste tem como hipótese nula que não há diferenças
significativas entre os grupos, ou seja, que há homogeneidade das matrizes de
covariância para os grupos em análise.
Covariance Matricesa

Grupo pH MO P K Ca Mg Al HeAl V

pH ,074 ,005 -,001 ,018 ,018 -,004 -,040 ,008 ,321

MO ,005 ,192 ,003 ,005 -,016 ,017 -,012 -,050 ,045

P -,001 ,003 ,021 ,004 ,008 -,003 -,002 ,027 ,094

K ,018 ,005 ,004 ,039 ,013 -,025 -,012 ,028 ,073

Ruim Ca ,018 -,016 ,008 ,013 ,081 -,025 -,028 -,040 1,117

Mg -,004 ,017 -,003 -,025 -,025 ,111 ,000 -,004 ,892

Al -,040 -,012 -,002 -,012 -,028 ,000 ,040 ,031 -,554

HeAl ,008 -,050 ,027 ,028 -,040 -,004 ,031 ,466 -1,566

V ,321 ,045 ,094 ,073 1,117 ,892 -,554 -1,566 35,221


pH ,140 ,008 ,034 ,024 ,108 -,014 -,013 -,214 2,643
MO ,008 ,184 ,024 ,001 ,011 -,005 ,054 -,059 ,515
P ,034 ,024 ,039 ,026 ,054 -,008 ,015 ,045 ,510
K ,024 ,001 ,026 ,048 ,020 ,005 ,014 ,131 -,282
Regular Ca ,108 ,011 ,054 ,020 ,212 -,030 -,008 -,021 2,378
Mg -,014 -,005 -,008 ,005 -,030 ,105 ,056 ,063 ,647
Al -,013 ,054 ,015 ,014 -,008 ,056 ,119 ,141 -,419
HeAl -,214 -,059 ,045 ,131 -,021 ,063 ,141 2,504 -14,354
V 2,643 ,515 ,510 -,282 2,378 ,647 -,419 -14,354 133,592
pH ,122 ,001 -,003 -,035 ,193 ,040 -,001 -,047 1,983
MO ,001 ,062 ,032 ,009 ,065 -,003 ,005 -,008 ,352
P -,003 ,032 ,032 ,018 ,021 -,026 ,002 ,042 -,702
K -,035 ,009 ,018 ,027 -,050 -,019 ,000 ,040 -,888

Bom Ca ,193 ,065 ,021 -,050 ,372 ,070 ,002 -,087 3,654
Mg ,040 -,003 -,026 -,019 ,070 ,071 -,002 -,060 1,929
Al -,001 ,005 ,002 ,000 ,002 -,002 ,001 -,006 ,064
HeAl -,047 -,008 ,042 ,040 -,087 -,060 -,006 ,195 -3,519
V 1,983 ,352 -,702 -,888 3,654 1,929 ,064 -3,519 84,122
pH ,456 -,014 ,065 ,067 ,501 ,044 -,204 -,830 11,914

MO -,014 ,166 ,013 ,000 -,017 ,001 ,031 -,007 -,281

P ,065 ,013 ,037 ,023 ,089 -,001 -,019 -,069 1,654

K ,067 ,000 ,023 ,048 ,073 -,003 -,026 -,038 1,384

Total Ca ,501 -,017 ,089 ,073 ,684 ,044 -,237 -,917 14,495

Mg ,044 ,001 -,001 -,003 ,044 ,107 -,001 -,078 2,282

Al -,204 ,031 -,019 -,026 -,237 -,001 ,167 ,456 -5,836

HeAl -,830 -,007 -,069 -,038 -,917 -,078 ,456 2,867 -29,161

V 11,914 -,281 1,654 1,384 14,495 2,282 -5,836 -29,161 391,340

a. The total covariance matrix has 44 degrees of freedom.

Resultado do teste Box’M


Test Results

Box's M 8,450

Approx. 1,259

df1 6
F
df2 1762,804

Sig. ,273

Tests null hypothesis of equal population


covariance matrices.

A Figura a seguir fornece as variáveis discriminantes em cada passo da


análise. Pode-se perceber que apenas a variável V é incluída no modelo no
passo 1. Já no passo 2, são incluídas as variáveis V e pH. Por mais que as
variáveis P, K, Ca, Al e H + Al tenham se mostrado significante, isto é,
apresentam diferenças significativas nos três grupos, eles não foram incluídos
na análise. Como pode ser observado por meio da matriz de correlações totais,
obtida por meio do procedimento Analisar Correlação Bivariada,
essas variáveis apresentam altas correlações com as variáveis V e pH
selecionados na análise. Portanto, ficaram no modelo apenas os atributos com
menores valores de lambdas de Wilks.
Variables Entered/Removeda,b,c,d

Step Entered Wilks' Lambda

Statistic df1 df2 df3 Exact F

Statistic df1 df2 Sig.

1 V ,214 1 2 42,000 76,962 2 42,000 ,000


2 pH ,178 2 2 42,000 28,134 4 82,000 ,000

At each step, the variable that minimizes the overall Wilks' Lambda is entered.
a. Maximum number of steps is 18.

b. Maximum significance of F to enter is .05.


c. Minimum significance of F to remove is .10.
d. F level, tolerance, or VIN insufficient for further computation.

Variáveis discriminantes em cada passo (stepwise)


Variables in the Analysis

Step Tolerance Sig. of F to Remove Wilks' Lambda

1 V 1,000 ,000

V ,729 ,004 ,232


2
pH ,729 ,021 ,214
Após a definição das variáveis discriminantes, procedeu-se a determinação
das funções discriminantes importantes na análise das contribuições desses
atributos. Neste estudo, como há três grupos, duas funções discriminantes são
definidas para representar 100% da variância total, conforme apresenta a
Figura a seguir, nela nota-se que houve grande predominância da primeira
função discriminante, que representa 99,9% da variância total explicada.
Além disso, o valor alto do coeficiente de correlação canônica da primeira
função indica alto grau de associação entre a primeira função discriminante e
os grupos.
Eigenvalues
Function Eigenvalue % of Variance Cumulative % Canonical
Correlation
1 4,591a 99,9 99,9 ,906
a
2 ,007 ,1 100,0 ,081
a. First 2 canonical discriminant functions were used in the analysis.

Na Figura a seguir, inicialmente na primeira linha, são testadas as duas


funções em conjunto, podendo-se concluir que pelo menos a primeira função
discriminante é altamente significativa. A linha seguinte é referente à segunda
função discriminante, sendo que não é possível rejeitar H0 de que as médias
dos grupos nesta função são iguais. Além disso, há um decréscimo no poder
discriminatório por conta do aumento no valor do lambda de Wilks.
Wilks' Lambda
Test of Function(s) Wilks' Lambda Chi-square df Sig.

1 through 2 ,178 71,704 4 ,000


2 ,993 ,272 1 ,602

A Figura a seguir apresenta os coeficientes não padronizados das funções


discriminantes para cada uma das variáveis explicativas.
Canonical Discriminant Function
Coefficients

Function

1 2

pH 1,582 3,144

V ,066 -,106
(Constant) -10,819 -12,958

Unstandardized coefficients

Os coeficientes padronizados das funções discriminantes são obtidos pela


multiplicação dos coeficientes não padronizados pelas respectivas raízes de
covariâncias para cada variável. Os valores dos coeficientes padronizados das
funções discriminantes, são apresentados na Figura abaixo. Segundo Maroco
(2007), esses coeficientes, que também são chamados de pesos
discriminantes, podem ser utilizados para avaliar a importância relativa de
cada variável explicativa para a função discriminante. Assim, variáveis
explicativas com grande poder discriminante geralmente apresentam grandes
pesos, porém a presença de multicolinearidade pode gerar certa igualdade na
magnitude dos pesos discriminantes.
A matriz de estrutura apresentada abaixo auxilia na interpretação da
contribuição que cada variável forneceu para cada função discriminante, uma
vez que apresenta as correlações entre as variáveis explicativas e as funções
discriminantes canônicas padronizadas.
As variáveis cujos valores apresentam-se com o asterico são as mais
relevantes para a determinação de cada função discriminante, uma vez que
oferecem maiores correlações com essas funções. Porém, apenas as variáveis
com maior correlação com cada função canônica serão incluídos no modelo
final, ou seja, V e pH na primeira função discriminante.
Standardized Canonical Discriminant Structure Matrix
Function Coefficients
Function
Function
1 2
1 2 *
V ,893 -,450
pH ,527 1,046 pH ,849 *
,529
V ,619 -,994 Ca b
,622 *
,101
b *
HeAl -,579 ,429
b *
Al -,234 -,098
b *
P ,212 ,156
b *
MO ,071 -,034
b
Mg ,167 -,330*
Kb ,041 ,327*

A definição do ponto de corte auxilia na classificação de novos elementos. A


Figura abaixo apresenta os coeficientes das funções de classificação, que
servem apenas para classificar observações e não têm qualquer interpretação
discriminante.
Classification Function Coefficients

Grupo

Ruim Regular Bom

pH 54,545 58,771 64,570


V -,809 -,603 -,410
(Constant) -122,756 -150,473 -197,263

Fisher's linear discriminant functions


Como exemplo, considere uma amostra de solo com o grau de reação do
potencial hidrogeniônico (pH) igual a 6,57 e percentual de saturação por
bases (V) igual a 75,18%. Qual o possível grupo que pertenceria essa amostra
de solo?

Bom = 64; 57 x 6; 57 – 0,41 x 75,18 – 197,26 = 196,11;


Regular = 58; 77 x 6; 57 – 0,60 x 75,18 – 150,47 = 190,34;
Ruim = 54; 54 x 6, 57 – 0,81 x 75,18 – 122,76 = 174,75.

Dessa forma, essa nova amostra de solo, com as características mencionadas,


pertenceria ao grupo bom do índice de qualidade do solo, visto que é neste
grupo que se observa o maior valor das funções de classificação. A Figura
abaixo mostra o resultado da classificação das amostras de solo pelo
procedimento stepwise. Observa-se que 91,11% das amostras de solo foram
classificadas corretamente e que apenas 4 amostras foram classificadas de
forma errada.
Classification Resultsa

Predicted Group Membership Total


Grupo
Ruim Regular Bom

Ruim 18 0 0 18

Count Regular 1 18 2 21

Bom 0 1 5 6
Original
Ruim 100,0 ,0 ,0 100,0

% Regular 4,8 85,7 9,5 100,0

Bom ,0 16,7 83,3 100,0

a. 91,1% of original grouped cases correctly classified.

No menu Analisar Classificar Discriminante, clique em Salvar e


selecione a opção Associação de grupo prevista, clique em continuar e em
OK.
Esta opção faz com que uma nova variável seja incluída no banco de dados,
com os resultados dos grupos preditos. Este procedimento, realizado para cada
observação, foi elaborado da mesma forma que o desenvolvido anteriormente
quando do cálculo dos escores das funções de classificação para definição do
grupo da nova amostra de solo. A Figura abaixo apresenta este novo banco de
dados, por meio do qual é possível verificar quais foram as quatro observações
classificadas de modo errado.

REFERÊNCIAS
[1] FÁVERO, L. P.; BELFIORE, P.; SILVA, F. L.; CHAN, B. L. Análise de
dados: modelagem multivariada para tomada de decisões. Rio de Janeiro:
Elsevier, 2009.
[2] HAIR, J. F.; ANDERSON, R. E.; TATHAM, R. L.; BLACK, W. C. Análise
multivariada de dados. Porto Alegre: Bookman, 2005.
[3] MAROCO, J. Análise estatística com utilização do SPSS. 3. ed. Lisboa:
Edições Sílabo, 2007.
[4] SHARMA, S. Applied multivariate techniques. New York: John Wiley &
Sons, 1996.