Você está na página 1de 19

Rev. Bras. Biom., So Paulo, v.29, n.3, p.

493-511, 2011 493


IDENTIFICAO DE OBSERVAES INFLUENTES NA
CLASSIFICAO DE AMOSTRAS DE PLANTAS DO GNERO
MINTHOSTACHYS VIA ANLISE DISCRIMINANTE
Daniel Caari CASAO
1

Doris Gmez TICERN
2

Olga Lidia Solano DVILA
1
Yakov Quinteros GMEZ
3

Joaquina Albn CASTILLLO
3

RESUMO: No presente estudo so explorados mtodos de identificao de observaes
influentes no contexto de uma anlise discriminante conduzida para classificar as medies feitas
em 100 espcimes do gnero Minthostachys com pubescncia abundante e em Minthostachys
com pubescncia escassa, recolhidos na provncia andina de Cajatambo do Departamento de
Lima, Per. Os dados usados no presente trabalho vm de um inventrio florstico realizado no
ano de 2005. As variveis morfolgicas estudadas no ramo principal de cada Minthostachys
foram: comprimento do peciolo, comprimento da folha e largura da folha. Estudos taxonmicos e
sistemticos das amostras foram realizados utilizando o sistema de classificao de Cronquist,
que classificou 51 plantas de Minthostachys como de pubescncia abundante e 49 plantas de
Minthostachys com pubescncia escassa. Atravs da anlise foram discriminadas corretamente
92 das plantas de Minthostachys que sobre o total representa o 92%, um valor suficientemente
grande para afirmar a eficcia da funo discriminante. Para as 100 plantas de Minthostachys ,
eliminando uma informao por vez , foi calculado o valor da Distncia de Mahalanobis, a
probabilidade de erro de classificao e os escores da funo discriminante de Fisher (Campbell,
1978; Fung, 1992, 1995). A anlise discriminou corretamente 92 plantas de Minthostachys ou
seja 92% de un total de 100, um valor suficientemente grande para evidenciar a eficcia da
funo discriminante. Das comparaes dos valores da Distncia de Mahalanobis, a
probabilidade de erro de classificao, os escores da funo discriminante de Fisher com e sem a
observao em avaliao, as maiores mudanas nos valores dessas medidas envolvidas na anlise
discriminante, cada vez que se elimina uma observao, ocorreram quando foram retiradas as
observaes, 64, 90 e 100, portanto h evidencia significativa que essas observaes so
influentes.
PALAVRAS CHAVES: Medida de influncia, observao influente, anlise discriminante linear,
gnero Minthostachys.

1 Ministerio de Vivienda, Construccin y Saneamiento, Oficina de Estadstica, CEP: 31, Lima, Per. E-mail:
dcanari@vivienda.gob.pe.
2
UNMSM, Facultad de Ciencias Matemticas, Departamento de Estadstica, CEP: 31, Lima, Per. E-mail:
dorisgomezt@gmail.com / solano_2010@gmail.com
3
UNMSM, Museo de Historia Natural, Departamento de Etnobotnica y Botnica Econmica, CEP: 31, Lima,
Per. Yakov281 @hotmail.com. E-mail: yakov281@hotmail.com / jalbanc@gmail.com

Rev. Bras. Biom., So Paulo, v.29, n.3, p.493-511, 2011 494
1 Introduo
Desde 1985, um grupo de pesquisadores do Departamento de Etnobotnica e
Botnica Econmica do Museu de Histria Natural de Lima pertencente a Universidad
Nacional Mayor de San Marcos (UNMSM), tem interesse em estudos de populaes de
plantas medicinais andinas, particularmente do gnero Minthostachys, considerada uma
das plantas medicinais mais relevante dos Andes do Peru. Trata-se de uma planta perene.
Quando jovem herbcea e na fase adulta arbustiva, podendo atingir de 1 a 1,5 metros
de altura. Suas folhas so verdes, pecioladas, lanceolada-elpticas e aromticas.
Geograficamente est distribuda ao longo da cordilheira dos Andes, desde a Venezuela,
Colmbia, at a Argentina, crescendo entre 500 e 4000 metros acima do nvel do mar .
Geralmente crescem nas margens das lavouras ou em zonas midas e utilizada pelos
habitantes dos Andes do Peru desde tempos imemoriais, para fins medicinais, alimentcio
e, nos ltimos anos o leo extrado da planta tem sido comercializado, por exemplo, como
repelente de insetos.
Esse conjunto de propriedades da planta se manifesta como recurso valioso que
poderia ser melhor explorado em forma sustentvel e contribuir para melhorar a sade dos
moradores dos Andes do Peru. Nesse contexto relevante investigar o seu potencial, em
especial em Cajatambo, dado que at o ano 2004 a planta no era encontrada nesse lugar.
A Provincia de Cajatambo uma comunidade andina localizada na parte ocidental dos
Andes do Departamento de Lima, a uma altitude de 3.376 metros acima do nvel do mar,
com uma populao de aproximadamente 9.618 habitantes, dos quais 56% pertencem a
populao indgena (INEI, 2005).
Em 2005, uma equipe de pesquisadores do Laboratrio de Etnobotnica do Museu
de Histria Natural da UNMSM fez um inventrio florstico em Cajatambo e atravs das
determinaes taxonmicas, a maioria das Minthostachys foi identificada como da espcie
tomentosa.
A anlise estatstica dos dados das variaveis morfolgicas: o comprimento do
pednculo, a largura do pednculo, o nmero de veias do clice, o comprimento da
corola, a largura da corola usando anlise de componentes principais mostrou duas
possveis espcies de Minthostachys (Gomez et al, 2008), a Minthostachys com
pubescncia abundante e a Minthostachys com escassa pubescncia. Aps muitos anos de
confuses taxonmicas e virtual indeterminabilidade de seus espcimes, Schmidt (2008),
fez um resumo geral do estado do conhecimento sobre Minthostachys, com nfase na
etnobotnica e no contedo farmacolgico do leo.
No contexto descrito, o objetivo deste trabalho identificar observaes influentes
aplicando as medidas desenvolvidas por Campbell (1978), Fung (1992) e Fung (1995) em
dados de amostras do gnero Minthostachys tomentosa, com abundante pubescncia, e
com escassa pubescncia, coletadas na Provncia de Cajatambo, do Departamento de
Lima.
Trata-se de uma aplicao de tcnicas de estatstica multivariada conhecidos na
literatura por anlise discriminante ou discriminao e classificao que so
frequentemente utilizados para simplificar o tamanho do problema estatstico (Anderson,
1984; Manly, 2005), onde os resultados, podem ser afetados pela presena de algumas
observaes que tm um comportamento diferente da maioria dos dados, que muitos
pesquisadores tm chamado de observaes discordantes, outliers, influentes (Beckman e
Cook,1983). Tm-se desenvolvido muitos estudos com mtodos ou medidas estatisticas
Rev. Bras. Biom., So Paulo, v.29, n.3, p.493-511, 2011 495
para detectar dados influentes (Muoz et al., 2001). Uma observao influente ao ser
omitida da anlise, d origem a alteraes nas estimativas de alguns ou de todos os
parmetros envolvidos no estudo. Pode ser considerado como um caso especial de
observao discordantes. J um dado discordante, quando na opinio do pesquisador,
est localizado longe das outras observaes que compem o conjunto de dados para
anlise. Tambm chamado aberrante ou dissidente, para citar alguns termos que tem-se
atribudo ao longo dos anos (Beckman e Cook,1983).
importante mencionar que havero observaes discordantes que no so
influentes, desde que as estimativas dos parmetros permanem essencialmente
inalteradas quando essas observaes so omitidas (Beckman e Cook,1983).
A Anlise de Influncia, para Belsley et al. (1982) tem sido amplamente estudada e
divulgada em vrias aplicaes de anlise de regresso e no contexto da anlise
discriminante, foi abordada inicialmente por Campbell (1978), que props medidas de
influncia com base na funo de influncia dada por Hampel (1974).
Anos mais tarde, Fung (1992, 1995) com base na relao entre os coeficientes da
funo discriminante linear de Fisher e os coeficientes do modelo de regresso linear
mltipla, props algumas medidas seguindo a metodologia utilizada na anlise de
regresso. Apresenta-se a seguir a teoria mais relevante para identificar observaes
influentes no contexto da anlise discriminante.
2 Metodologia
Na anlise discriminante o interesse principal alocar um individuo
,
1
) ..., , (
p
x x x = com p medidas, em um dos k grupos ou populaes pr determinadas.
2.1 Anlise discriminante linear em dois grupos
Sejam
2 1
G e G as duas populaes ou classes de objetos e
, ) ( ) (
1
) (
) , ,... (
k
p
k k
X X X = ,
com 2 , 1 = k um vetor aleatrio de valores em
p
R que contm as medies dos
indivduos de cada uma das populaes, com os parmetros
, ) ( ) (
1
) (
) , ,... (
k
p
k k
= e
k
, e se valores observados do vetor aleatrio
) ( k
X
, diferem de um grupo para
outro atravs de suas medidas, ento cria-se uma regra para classificar o novo
indivduo,
,
1
) ..., , (
p
x x x = de
p
R em uma das duas populaes
2 1
, G G .
Dadas essas consideraes, tomam-se amostras aleatrias de cada uma das
populaes, para estimar os parmetros de interesse, onde
) 1 (
x
,
) 2 (
x
e
S
so as
estimativas dos vetores de mdias e da matriz de covarincia comum
k
= ,
respectivamente.
Fisher (1936), partiu em busca de uma combinao linear do vetor x , x Y ' = , em
cada populao, de modo que seja o mximo da relao do quadrado da diferena de
mdias com sua varincia; ou seja, que fornece o mximo para a proporo:
Rev. Bras. Biom., So Paulo, v.29, n.3, p.493-511, 2011 496
( ) ( )
.
'
' '
2 1

S
x x |
.
|

\
|

=
Demonstra-se que o vetor
proporcional a forma
|
.
|

\
|

) 2 ( ) 1 (
1
x x S e a combinao
linear,
,
1
'
) 2 ( ) 1 (
x S x x Y

|
.
|

\
|
= (1)
conhecida como a funo discriminante linear de Fisher.
Fazendo, |
.
|

\
|
=

) 2 ( ) 1 (
1

x x S
, define-se a regra de classificao a seguir:
Alocar
x
ao grupo
1
G se
( ) ( )
0 '
2
1
'
2 1
|
.
|

\
|
+ x x x

caso contrario, alocar x

ao grupo
2
G
(2)
Alguns aspectos importantes relacionados com a questo da discriminao em dois
grupos so:
a. A Distncia de Mahalanobis na populao, ( ) ( )
) 2 ( ) 1 ( 1
'
) 2 ( ) 1 ( 2
=

, estimada pela
expresso;
=
2

( ) ( ) ( ) ( )
|
.
|

\
|
|
.
|

\
|
=

2 1
1
'
2 1
2
x x S x x D (3)
b) A probabilidade de classificar erroneamente uma observao do grupo
j
G no grupo
i
G seguindo a regra de classificao, R , dada por:
=
2

|
.
|

\
|
=
2
2
1
) ; / ( D R j i P (4)
Onde, a funo distribuio cumulativa normal no ponto |
.
|

\
|

2
2
1
D , . 2 , 1 , j i j i =
c) A funo discriminante linear de Fisher dada por:
x S x x Y
1
'
) 2 ( ) 1 (

|
.
|

\
|
=

(5)
d) Os escores da funo discriminante linear de Fisher, dados como
Rev. Bras. Biom., So Paulo, v.29, n.3, p.493-511, 2011 497
( ) ( )
|
.
|

\
|
+
2 1
'
2
1
' x x x

(6)
Um problema que muitas vezes aparece quando se faz anlise discriminante a
presena de observaes que alteram os valores das medidas: Distncia de Mahalanobis, a
probabilidade de erro de classificaco, a funo discriminante linear de Fisher e os escores
da funo discriminante, envolvidas em nesta questo. Confrontado com este problema,
tem se proposto na literatura um conjunto de tcnicas para detect-los denominadas
anlise de influncia. A idia bsica por trs da anlise de influncia comparar os
valores das estimativas das medidas: Distncia de Mahalanobis, a probabilidade de erro de
classificao, a funo discriminante linear de Fisher e os escores da funo
discriminante, com e sem a observao considerada influente.
Em vrios estudos sobre o tema, o tipo de perturbao mais utilizado para avaliar a
influncia de uma observao, a omisso de observaes (Muoz et al, 2001), por isso
de interesse avaliar o efeito da i-sima observao multivariada, )' ,...., (
1 ip i i
x x x = , em
cada uma das estatsticas envolvidas na questo da anlise discriminante.
2.2 Medida de influncia para a Distncia de Mahalanobis
Para avaliar a possivel influncia da observao multivariada x na Distncia de
Mahalanobis da amostra,
( ) ( ) ( ) ( )
|
.
|

\
|
|
.
|

\
|
=

2 1
1
'
2 1
2
x x S x x D
, Fung (1992) props a seguinte
funo de influncia:
( )
2
1
1 1
2

;
(

=


w w x I M

(7)
onde
( )
|
.
|

\
|
=
k
x x '

e
k
w o peso de cada grupo na formao da matriz de
covarincia; assim,
( )
2
1
2 1
1
1
+

=
n n
n
w
e . 1
1 2
w w =
Esta medida depende em grande parte da estatstica

, que compara cada


observao com o vetor de medies do grupo ao que pertence, ponderado pelos
coeficientes da funco discriminante linear de Fisher.
2.3 Medidas de Influncia para a probabilidade do erro de classificao
A probabilidade de m classificao quantifica a probabilidade de alocar
erroneamente o vetor com medidas )' ,...., (
1
mp m
x x x = , no grupo
i
G quando na realidade
pertence ao grupo
j
G
. Para uma regra de classificao R , a probabilidade de erro de
classificao foi definido em (4) como
|
.
|

\
|
=
2
2
1
) ; / ( D R j i P
. Para avaliar a possvel influncia
Rev. Bras. Biom., So Paulo, v.29, n.3, p.493-511, 2011 498
da a i-sima observao multivariada, sobre a probabilidade de erro de classificao,
Hampel (1974) props a seguinte funo de influncia:
( ) ( )
( )
2
1 1
2
1
2
1
1 ;
(

|
.
|

\
|
|
.
|

\
|
=

i
D D n MP x I (8)
onde:
D : a raiz quadrada da Distncia de Mahalanobis com a amostra total, e
) (i
D : a raiz quadrada da Distncia de Mahalanobis omitindo a
i
-sima observao.
Supondo-se que as estimativas dos vetores de mdias omitindo a i-sima observao
do grupo k so, ( )
( ) k
i x , a estimativa da funo discriminante linear :
x S x x Y i
1
'
) 2 ( ) 1 (
) (

|
.
|

\
|
=
,
x Y
i) (
' =
(9)
onde: ( )
( ) ( )
1
2 1
) (
'

|
.
|

\
|
= S x x i
i
so os coeficientes da funo discriminante linear, quando se
omitiu a i-sima observao do Grupo 1. Nesse caso, a regra de classificao, omitindo a
i-sima observao definido como:
Alocar
x
ao grupo
1
G quando ( )
( ) ( )
0
2
1
'
2 1
) (
>
(

|
.
|

\
|
+ x x x i
i

caso contrrio, alocar ao
2
G .
(10)
Fung (1992) props a seguinte medida de influncia para avaliar o efeito da i-sima
observao sobre a probabilidade de erro de classificao:
( )
( )
( )
( )
( )
(

|
.
|

\
|

(

+ = D P P DMP
i i i
2
1

2
1
2 1
(11)
onde:
( )
( )
( ) ( ) ( )
( )
( )
(
(
(

|
.
|

\
|
|
.
|

\
|

=
G
x x x x
P
i
i i
i
2
' '
1 1
) (
2 1
) (
1

,sendo
) ( ) (
2

'

i i
S G = .
2.4 Medida de influncia para a probabilidade do erro de classificao com a
aproximao de Taylor
A proposta de Fung (1992) uma medida alternativa equao (11) considerando a
aproximao de segunda ordem do polinmio de Taylor, em torno de
D
2
1

, dessa forma
tem-se a medida
i
DMP para a i-sima observao:
Rev. Bras. Biom., So Paulo, v.29, n.3, p.493-511, 2011 499
( )
(
(
(

+
|
|
|
.
|

\
|
|
.
|

\
|

|
.
|

\
|

2
2
2
2
2
2
1
4
1
1
1 4
2
1
i
i
i i k i
D
d w
n D
D
DMP


(12)
onde:
( )
( )
( )
( )
|
.
|

\
|
|
.
|

\
|
=
k
k
i
k
k
i i
x x S x x d
'
2


( )
( )
' '
|
.
|

\
|
=

k
k
i i
x x


( ) k
i
x a i-sima observao do grupo k , onde . 2 , 1 = k
2.5 Medida de influncia para os escores da funo discriminante
Fung (1995), props uma medida para os escores da funo discriminante de Fisher,
seguindo a metodologia proposta por Cook e Weisberg (1982), com base na quantificao
do efeito da omisso de uma observao no vetor de parmetros, considerando-se a
relao de equivalncia entre os coeficientes da funo discriminante de Fisher e os
coeficientes do modelo de regresso linear mltipla de Johnson3 (1987), onde:
( ) ( )
|
.
|

\
|
+
2 1
'
2
1
' x x x

so os escores da funo discriminante de Fisher, representado como
x
'

, onde :
( ) ( )
(

|
.
|

\
|
+ = ' , '
2
1 2 1
'
x x , [ ]
' '
, 1 x x = ,
( ) i
: o vetor , em que se omite a i-
sima observao do grupo 1.
O efeito da i - sima observao avaliado atravs da diferena dos escores da
funo discriminante, com e sem esta observao, ou seja, a diferena:
( )
x x
i
' '
.
Fung (1995) fez a proposta da seguinte medida:
( ) V t t E + + =
2
2
2
1

. 1

. 2
(13)
onde:
n
n
t
1
=


3
Referncia em Fung (1992)
Rev. Bras. Biom., So Paulo, v.29, n.3, p.493-511, 2011 500
( )
( ) ( )
( )
( )
( )
( )
2
'
2

1 1
2 1
'
1
|
.
|

\
|

|
.
|

\
|

|
|
.
|

\
|

=
i i
i
x x
x x

( )
( ) ( )
( )
( )
( )
( )
2

1
1
2 1
'
2
|
.
|

\
|

|
.
|

\
|

|
|
.
|

\
|

=
i
i
i
x x
x x



( ) ( )
|
|
.
|

\
|

|
|
.
|

\
|
= i i S V
'
.
3 Materiais e mtodos
Para o presente trabalho foram utilizados os dados de 100 amostras de
Minthostachys tomentosa que foram coletadas na Provincia de Cajatambo do
Departamento de Lima, no ano 2005 (ver Figura 1) .


Figura 1 - Folhas de Minthostachys.
A amostragem foi feita entre janeiro e junho de 2005, a uma altitude de 2800 a 3600
m nas comunidades indgenas de Rancas e Cruzjirca localizadas em Cajatambo. As
coletas dos dados ocorreram durante a estao chuvosa, janeiro-maro e durante alguns
meses de seca, abril-junho. As amostras foram inventariadas segundo o catlogo das
Angiospermas e Gimnospermas do Peru (Brako; Zarucchi, 1993), que mostra a seguinte
distribuio do gnero Minthostachys no Peru. (Figura 1) no Laboratorio de Etnobotnica
e Botnica Econmica do Museu de Histria Natural da UNMSM, em cujas instalaes
foram feitos os estudos de taxonomia e sistemtica das amostras pelo sistema de
classificao de Cronquist.

Rev. Bras. Biom., So Paulo, v.29, n.3, p.493-511, 2011 501
Tabela 1 - Distribuio das especies de Minthostachys no Per (Brako;Zarucchi, 1993)
As amostras foram divididas em dois grupos conforme a classificaao obtida atravs
da anlise de componentes principais no estudo realizado por Gomez et al, (2008) sendo
que o grupo 1 rene 51 amostras de Minthostachys com pubescncia abundante
(pubescentes) que so representadas de 1 a 51 e o grupo 2, rene 49 amostras de
Minthostachys com pouca pubescncia (no pubescentes) representadas de 52 a100.
Para realizar a anlise discriminante considerou- se as seguintes
variveis:
1
X =Comprimento do pecolo (cm);
2
X =Comprimento da folha (cm) e
3
X =Largura da folha (cm), conforme descreve a Figura 2.















Figura 2 - Partes da folha de Minthostachys.
Espcies
Altitude
(msnm)
Localizao Geogrfica
Minthostachys glabrescens
(Bentham)
2500 - 4000 Apurimac, Cajamarca, Cuzco, Junn.
Minthostachys mollis
(Grisebach)
500 - 3500
Amazonas, Arequipa, Cajamarca,
Cuzco, Huanuco, Junn, Lima, La
Libertad, Piura.
Minthostachys setosa
(Briquet) Epling
1000 - 1500 Puno
Minthostachys tomentosa
(Bentham)
2000 - 3500
Amazonas, Cajamarca, Cuzco,
Huanuco, Junn, Lima, La Libertad,
Ancash.
Minthostachys andina
(Britton) Epling
2000 - 2500 Cuzco
Minthostachys mandoniana
(Briquet) Epling
1000 - 1500 Ayacucho
Minthostachys salicifolia
Epling
2500 - 3000 Ayacucho

Comprimento do
peciolo

Comprimento do
folha

Largura da
folha

Rev. Bras. Biom., So Paulo, v.29, n.3, p.493-511, 2011 502
A anlise dos dados foi processada com o uso software estatstico SPSS Statistical
Package for the Social Sciences, verso 17 e o Matlab - Verso 7.1, foi adotado o nivel de
5% de significncia.
4 Resultados e discusso
A Tabela 2 apresenta as estatsticas descritivas para cada uma das variveis
univariadas e a anlise de varincia simples para cada uma das variveis univariadas. Os
valores da estatstica F e as probabilidades associadas (p valor ) permitem rejeitar a
hiptese de igualdade de mdias de cada uma das variveis univariadas ao nvel de
significncia de 0,05.

Tabela 2 - Mdia aritmtica e desvio padro das variaveis e resultado do Teste de
igualdade de mdias para cada varivel
Minthostachys
Variveis (cm)
com abundante
pubescncia
com pouca
pubescncia
F(1,98) P valor
Comprimento do pecolo 0,4750,125 1,2020,507 105,35 < 0,001
Comprimento da folha 3,2430,551 3,6710,769 10,30 < 0,001
Largura da folha 1,7260,349 2,1670,524 23,56 < 0,001

A Tabela 3 mostra o valor de Lambda de Wilks, a relao entre a soma dos
quadrados intra grupos e a soma dos quadrados total, o teste compara os vetores de
mdias multivariados ou as mdias das funes discriminantes nos dois grupos e,
transformado em uma varivel que assintoticamente tem distribuio qui-
quadrado
( )
|
|
.
|

\
|
|
.
|

\
|
+ = ln ) 2 (
2
1
2
k p k n
. Postulou-se, a hiptese de que as Minthostachys
com abundante pubescncia e pouca pubescncia, vir de populaes com vetores de
mdias significativamente diferentes, ou que as mdias das funes discriminantes so
significativamente diferentes. Observando-se o valor da estatstica Lambda de Wilks
(0,457) ou o valor de qui-quadrado, apresentados na Tabela 3, se rejeita a hiptese de
igualdade de vetores mdia entre as Minthostachys de pubescncia abundante e as
Minthostachys de pouca pubescncia. Ou seja, as diferenas dos vetores de mdias so
estatsticamente significativas ao nvel de significncia de 0,05.

Tabela 3 - Teste das funes discriminantes ou de igualdade de vetores de mdias
multivarida
Teste da Funo Wilks Lambda Qui Quadrado df P valor
1 0,457 75,468 3 <0,001
Rev. Bras. Biom., So Paulo, v.29, n.3, p.493-511, 2011 503
A seguir apresenta-se os resultados, os vetores de mdias e as matrizes de
covarincias segundo a notao da anlise discriminante :
( )
(
(
(

=
736 , 1
243 , 3
475 , 0
1
x
,
( )
,
167 , 2
671 , 3
202 , 1 2
(
(
(

= x

,
122 , 0 061 , 0 015 , 0
061 , 0 304 , 0 017 , 0
015 , 0 017 , 0 016 , 0
1
(
(
(

= S
,
275 , 0 344 , 0 186 , 0
344 , 0 592 , 0 259 , 0
186 , 0 259 , 0 239 , 0
2
(
(
(

= S

(
(
(

=
1971 , 0 1998 , 0 0989 , 0
1998 , 0 4449 , 0 1352 , 0
0989 , 0 1352 , 0 1252 , 0
S
,
onde;
2
) 1 ( ) 1 (
2 1
2 2 1 1
+
+
=
n n
S n S n
S
O vetor de coeficientes da funo discriminante linear de Fisher,
=
|
|
.
|

\
|
=

) 2 ( ) 1 (
1

x x
S
(
(
(

3566 , 0
,0795 1
2491 , 7
, onde segundo a equao (1),
3 2 1
36 , 0 08 , 1 25 , 7 X X X Y + + = , a funo discriminante linear.
Da equao (3) temos o valor da Distncia de Mahalanobis igual a 4,65 e a probabilidade
do erro de classificao de acordo com a equao (4) teve o valor de 0,1405 conforme mostra a
Tabela 4.
Tabela 4 - Valores das estatsticas com todas as observaes
Vetor dos
coeficientes
Distncia de
Mahalanobis
Prob. de erro de
classificao
% de obs.
classificadas
erroneamente
observaes
classificadas
erroneamente
(
(
(

3566 , 0
,0795 1
2491 , 7

4.65

0,1405 9%
53 62 74
75 90 91
98 99 100.

Cada observao ou cada uma das 100 amostras de Minthostachys foram avaliadas
na equao (6) dando origem aos escores discriminantes. As maestros Minthostachys com
pouca pubescncia (2-Grupo 2), com os cdigos 53, 62, 74, 75, 90, 91, 98, 99 e 100,
foram classificadas erroneamente como Minthostachys com pubescncia abundante (2-
Grupo 1), representando 9% das amostras.
Na Tabela 5 apresentamos, parte dos resultados da anlise discriminante. O nmero
da amostra, o grupo verdadeiro ao qual pertence o indivduo, o grupo ao qual os
Rev. Bras. Biom., So Paulo, v.29, n.3, p.493-511, 2011 504
indivduos foram atribudos de acordo com a equao de classificao (2) e as pontuaes
dos escores discriminantes para cada Minthostachys.
Tabela 5 - Estatsticas da classificao
No. da amostra
Grupo
Verdadeiro
Classificado ao
grupo
Escores
discriminantes
1 1 1 -1,16
2 1 1 -1,43
3 1 1 -0,96
4 1 1 -0,81
5 1 1 -1,25
47 1 1 -1,19
48 1 1 -1,03
49 1 1 -1,82
50 1 1 -1,67
51 1 1 -1,35
52 2 2 1,93
53 2 1 -0,78
54 2 2 0,33
55 2 2 1,88
62 2 1 -0,31
74 2 1 -0,54
75 2 1 -0,16
90 2 1 -1,20
91 2 1 -0,45
98 2 1 -0,16
99 2 1 -0,10
100 2 1 -1,04

A Figura 3 mostra os escores da funo discriminante linear de Fisher para cada
uma das 100 observaes.










Figura 3 - Escores da funo discriminante linear.
1
2
3
4
3
6
7
8
9
12
13
14
13
16
17
18
19
22
23
24
23
26
27
29
30
31
32
33
34
33
36
37
38
3940
41
42
43
44
43
46
47
48
49
30
31
32
33
34
33
36
37
38
39
60
61
62
63
64
63
66
67
68
69
70
71
72
73
74
73
76
77
78
79
80
81
82
83
84
83
86
87
88
89
90
91
92
93
94
93
96
97
98
99
100
-3.000
-2.000
-1.000
0.000
1.000
2.000
3.000
4.000
3.000
6.000
0 20 40 60 80 100
Rev. Bras. Biom., So Paulo, v.29, n.3, p.493-511, 2011 505
Removendo uma observao ou seja com 99 observaes cada vez, encontraram-se o
vetor de coeficientes da funo discriminante linear de Fisher, a Distncia de Mahalanobis
e as observaes classificadas erroneamente. Este procedimento repetido, gerando para
cada uma das repetioes os coeficientes de funo discriminante, a Distncia de
Mahalanobis, a probabilidade do erro de classificao e as observaes classificadas
erroneamente. Entre todos os casos, as maiores mudanas nas estatsticas relacionadas
com a anlise discriminante foram para as observaes 64, 90 e 100, conforme mostra a
Tabela 6.
Tabela 6 - Estimativas das medidas relacionadas com a anlise discriminante com a
omisso das observaoes: 90, 100, 64
Omitindo a observao
Medidas
90 100 64
Vetor de coeficientes da funo
discriminante linear

(
(
(

2986 , 0
9011 , 0
5909 , 7

(
(
(

2710 , 0
,9712 0
5371 , 7
(
(
(

3888 , 0
,2666 1
1096 , 8

Distncia de Mahalanobis 5,1191 5,0498 4,9960
Probabilidade de erro de classificao 0,1290 0,1306 0,1319
Porcentagem de observaes
classificadas erroneamente
7,1% 8,1% 9,1%
observaes classificadas erroneamente
53 62 74
75 97 98
99
53. 62
74 75
90 91
98 99
53 62
74.75.
89 90.
97.98. 99.

A Tabela 7 apresenta os valores das observaes identificadas como potencialmente
influentes de acordo com a medida de influncia avaliada. Os valores mais altos para a
medida de influncia da equao (7) correspondem as observaes 53, 64, 90 e 100; para
a medida de influncia da equao (8) correspondem s observaes 53, 90, 100
(positivo), 64 e 94 (negativo); para a medida de influncia da equao (11) correspondem
s observaes 21, 62, 90 e 100; para a medida de influncia da equao (12)
correspondem s observaes 21, 62, 90 e 100 e para a medida de influncia da equao
(13) os valores maiores correspondem as observaes 64, 90 e 100.
Tabela 7 - Medidas e observaes identificadas como potencialmente influentes segundo
as diferentes medidas de influncia (MI)
Observaes Medida de
influncia
21 53 62 64 90 94 100
Equao(7) 8,467 18,459 12,77 18,58 24,509 10,565 21,99
Equao(8) 0,112 0,208 0,158 -0,422 0,256 -0,342 0,237
Equao(11) 0,324 0,226 0,341 0,216 0,665 0,157 0,399
Equao(12) 0,178 0,137 0,192 0,127 0,405 0,091 0,253
Equao(13) 0,014 0,017 0,014 0,099 0,058 0,025 0,035
Rev. Bras. Biom., So Paulo, v.29, n.3, p.493-511, 2011 506

As Figuras 4, 5, 6 , 7 e 8, mostram as pontuaes.
1
2
3
4
S
6
7
8
9
10
11
12
13
14
1S
16
17
19
20
21
22
23
24
2S
26
27
28
29
31
32
33
34
3S
37
41
43
44
47
S2
S3
S4
SS
S6
S7
S8
S9
60
62
64
6S
66
69
70
71
72
73
74
7S
76
77
78
79
80
81
82
84
86
87
89
90
91
92
93
94
9S
96
97
98
99
100
0
3
10
13
20
23
30

Figura 4 - Medida de influncia para a Distncia de Mahalanobis.
1
2
3
4
6
7
8
10
11
12
1S
16
20
21
22
23
27
28
29
30
33
34
3S
36
37
41
42
46
49
S1
S2
S3
S4
SS
S6
S7
S8
S9
60
61
62
63
64
6S
66
67
68
69
71
74
7S
76
77
80
82
83
87
88
89
90
91
92
93
94
9S
96
97
98
99
100
-0.3
-0.4
-0.3
-0.2
-0.1
0
0.1
0.2
0.3

Figura 5 - Medida de influncia para a probabilidade do erro de classificao.
Rev. Bras. Biom., So Paulo, v.29, n.3, p.493-511, 2011 507
3
S 8
10
14
18
19
20
21
22
2S
28
30
32
33
40
41
43
46
47
48
S0
S3
S4
SS
S6
60
61
62
63
64
6S
66
69
70
72
73
7S
76
77
78
79
80
82
83
84
8S
88
89
90
91
92
93
94
9S
98
99
100
0
0.1
0.2
0.3
0.4
0.3
0.6
0.7

Figura 6 - Medida de influncia alternativa para a probabilidade de classificao errnea
23
6
10
11
17
19
20
21
22
23
28
29
32
33
36
40
46
47
S2
S3
S6
S8
60
62
63
64
6S
67
70
72
73
78
79
80
82
83
8S
89
90
91
92
93
94
97
98
99
100
0
0.03
0.1
0.13
0.2
0.23
0.3
0.33
0.4
0.43

Figura 7 - Medida de influncia segundo a aproximao de Taylor.


Rev. Bras. Biom., So Paulo, v.29, n.3, p.493-511, 2011 508
3 S
8
10 14
18
19
20
21
22
2S
28
30
32
33
404143
46
4748
S0
S3
S4
SS
S6
60
61
62
63
64
6S
66
6970
72
73
7S
76
77
78
79
80
82
83
84 8S 88
89
90
91
9293
94
9S
98
99
100
0
0.02
0.04
0.06
0.08
0.1
0.12

Figura 8 - Medida de influncia para os escores da funo discriminante linear.
Os coeficientes de correlao de Pearson obtidos entre os valores com as diferentes
medidas de influncia indicam uma relao muito boa, ou seja, todas as medidas
coincidem em identific-las as mesmas observaes como observaes potencialmente
influentes. Os resultados so apresentados na Tabela 8.

Tabela 8 - Medidas de associao entre diferentes medidas
Pontuaes das medidas Coeficiente de Correlao
Pontuaes das equaes (7) e (11) 0,899
Pontuaes das equaes (7) e (12) 0,8286
Pontuaes das equaes (7) e (13) 0,6187
Pontuaes das equaes (7) e (12) 0,9963
Pontuaes das equaes (7) e (13) 0,6031

Concluses
Aplicando a metodologia da anlise discriminante, as Minthostachys com pouca
pubescncia, 53, 62, 74, 75, 90, 91, 98, 99 e 100 ou seja 9% das amostras foram
classificadas erroneamente como Minthostachys com pubescncia abundante.
Considerando-se todas as medidas de influncia representadas nas equaes (7), (8), (11),
(12) e (13), as amostras 21, 53, 62, 64, 90, 94 e 100 foram identificadas como
potencialmente influentes.
Rev. Bras. Biom., So Paulo, v.29, n.3, p.493-511, 2011 509
As maiores mudanas nos valores das vrias medidas envolvidas na anlise
discriminante, cada vez que ocorre a eliminao de uma observao, ocorreram quando
foram retiradas as observaes, 64, 90 e 100, cujos valores so apresentados na Tabela 6.
Assim, pode-se concluir que essas observaes foram influentes.
Os valores dos coeficientes de correlao entre os escores obtidos com as diferentes
medidas de influncia so maiores de 0,6 e h um caso com valor de 0,99, Tabela 8,
indicando que h concordncia muito boa entre os escores das medidas de influncia.
Agradecimentos
Os autores agradecem ao Consejo Superior de Investigaciones de la Universidad
Nacional Mayor de San Marcos- Per, pelo apoio financeiro.

CAARI, D; GMEZ, D.; SOLANO, O.L.; QUINTEROS, Y.; ALBAN, J. Identification
of influential observations on Minthostachys gender samples. Rev. Bras. Biom., So
Paulo, v29, n.3, p.493-511, 2011.

ABSTRACT: This paper explores the possibility of identifying influential observations in
discriminant analysis framework, 100 botanical specimens of the genus Minthostachys,
pubescent and pubescent not collected in the province of Cajatambo department of Lima. The
evaluation of morphological variables in the main branch of each Minthostachys being studied
were: length of petiole, leaf length and width of the blade. Taxonomic and systematic studies of
the samples were performed at the Laboratory of Ethnobotany and Economic Botany of the
Natural History Museum and the determination of the species are held in the herbarium of the
San Marcos University, using the Cronquist classification system, which marked 51 plants such
as non-pubescent and pubescent 49. For the full sample and removing each time one of the
samples or observations, we calculated the value of the Mahalanobis Distance, the probability of
misclassification, the weightings and scores of discriminant function of Fisher (Campell, 1978;
Fung, 1992 , 1995). Comparison of the values of the estimates, with and without the observation
under evaluation, it was concluded that observations 64, 90 and 100 were identified as
influential.
KEYWORDS: Influence measures; influential observation; linear discriminant analysis; Gender
Minthostachys.
Referncias
ANDERSON T. W. An introduction to Multivariate Statistical Analysis. 2. ed. New York:
Wiley e Sons, 1984. 373p.
BECKMAN, R. J.; COOK, R. D. Outliers. Technometrics, v.25, n.2, p.119-149, 1983.
BRAKO L.; ZARUCCHI J. Catlogo de Angiospermas y Gimnospermas del Per.
Missouri Botanical Garden. USA. 1993.
CAMPBELL, N. A. The Influence function as an aid in outlier detection in discriminant
analysis. Applied. Statistics, v.27, n.3, p.251-258, 1978.
FUNG, W.K. Diagnostics in linear discriminant analysis. Statistics and Probability
Letters, v.13, p.279285, 1992.
Rev. Bras. Biom., So Paulo, v.29, n.3, p.493-511, 2011 510
FUNG, W. K. Some diagnostic measures in discriminant analysis. J. Am. Stat. Assoc,. v.
90, p.952-956, 1995.
GOMEZ, D. et al. Determinacin de patrones de variacin morfolgica del gnero
Minthostachys en Unchos y Cajatambo mediante mtodos estadsticos multivariantes de
reduccin de datos. Pesquimat - Revista de investigacin de la Facultad de Ciencias
Matemticas de la Universidad Nacional Mayor de San Marcos, Lima, Per, v.11, n.1,
p.53-66, 2008.
HAMPEL, F. R. Influence curve and its role in robust estimation. J. Am. Stat. Assoc. v.69,
p.383-393, 1974.
INEI - Censo de Poblacin y Vivienda. Instituto Nacional de Estadstica.2005.
MANLY, B. Multivariate statistical methods. 3.ed. New York: Chapman & Hall/CRC,
2005. 214p.
MUOZ, J.M; MORENO, J.L; GMEZ, T; ENGUIX, A. El sesgo condicionado en el
anlisis de influencia: una Revisin. Facultad de Matemtica, Universidad de Sevilla.
Questii, v. 25, n. 2, p. 263-284, 2001.
SCHMID, T.; LEBUHN, A. N. Ethnobotany, biochemistry and pharmacology of
Minthostachys(Lamiaceae). J. Ethnopharmacol. v.118, n.3, p.343-353, 2008.

Recebido em 01.04.2011
Aprovado aps reviso em 20.01.2012

Rev. Bras. Biom., So Paulo, v.29, n.3, p.493-511, 2011 511
ANEXO- Banco de dados utilizado no estudo.
Comprimento
do pecolo
Largura da
folha
Comprimento
da folha
Grupo
Comprimento
do pecolo
Largura da
folha
Comprimento
da folha
Grupo
0.50 3.60 1.80 I 0.40 3.40 1.50 I
0.30 3.00 1.20 I 1.50 3.90 2.50 II
0.50 3.30 1.50 I 0.50 3.00 1.30 II
0.50 2.90 1.80 I 1.00 3.80 2.30 II
0.50 3.70 2.00 I 1.40 3.50 2.00 II
0.50 3.30 1.40 I 2.10 4.00 2.50 II
0.30 3.70 1.50 I 1.20 3.60 1.80 II
0.50 3.10 1.60 I 1.60 3.50 2.00 II
0.50 2.80 1.50 I 1.30 4.60 2.70 II
0.70 3.10 2.00 I 1.20 4.40 1.90 II
0.70 3.50 2.00 I 1.40 3.00 1.90 II
0.40 3.20 2.20 I 0.60 2.80 1.10 II
0.40 3.90 1.30 I 1.30 3.30 2.10 II
0.40 3.50 1.35 I 2.40 4.10 2.80 II
0.50 3.30 1.30 I 2.10 4.60 2.60 II
0.60 3.00 1.90 I 1.70 4.60 2.50 II
0.70 4.40 1.90 I 1.70 4.60 3.30 II
0.70 4.70 1.90 I 1.50 4.50 2.10 II
0.40 3.00 1.80 I 1.00 3.10 1.80 II
0.60 2.80 1.20 I 1.10 4.50 2.50 II
0.60 2.10 1.80 I 0.90 3.00 2.00 II
0.70 3.70 2.70 I 1.00 3.50 2.10 II
0.40 2.90 1.80 I 1.20 4.40 2.60 II
0.60 3.40 2.10 I 0.60 3.10 1.60 II
0.50 3.90 1.80 I 0.70 2.90 1.90 II
0.60 3.30 1.80 I 1.30 3.60 2.50 II
0.30 2.70 1.50 I 1.10 4.20 2.80 II
0.60 2.40 1.45 I 1.10 4.50 2.60 II
0.60 3.80 2.05 I 1.20 4.60 2.70 II
0.40 1.90 1.50 I 1.40 4.80 2.90 II
0.60 3.80 1.80 I 1.20 4.10 2.60 II
0.40 2.00 1.10 I 2.10 4.50 2.40 II
0.50 2.80 1.50 I 0.90 3.30 1.80 II
0.35 3.60 1.70 I 1.10 4.20 2.50 II
0.50 3.60 1.90 I 0.80 2.80 1.40 II
0.50 2.70 1.30 I 1.20 4.10 2.40 II
0.40 3.90 2.10 I 1.60 4.00 2.40 II
0.50 3.30 1.80 I 0.80 2.60 1.50 II
0.30 3.30 1.90 I 1.00 3.00 1.70 II
0.40 3.90 2.00 I 0.20 1.90 1.10 II
0.50 3.20 2.20 I 0.50 2.30 1.40 II
0.30 3.10 1.50 I 1.20 4.60 2.50 II
0.20 2.80 1.30 I 1.10 3.10 2.20 II
0.60 3.70 1.60 I 2.20 4.10 2.90 II
0.40 3.00 1.50 I 1.50 3.10 2.30 II
0.50 3.00 2.70 I 1.10 4.00 2.40 II
0.40 2.90 2.10 I 1.70 4.40 2.40 II
0.40 2.60 2.00 I 0.50 2.30 1.30 II
0.30 3.50 2.00 I 0.80 3.30 2.40 II
0.30 3.40 1.40 I 0.30 2.20 1.20 II

Você também pode gostar