Você está na página 1de 160

.

1 SGfPt ('
i. .:,....:. ·• . ·~ . :• ... . '· . '· ,-- <. r •.,•; . 1. •• "·.i: . ...·•

~t~u \f }?\
•'
.·•·:· •,;11 .... ~\.
' ' .. ... ·· ~.: ' • :" .1 •

Análise M ultivariada
~\

\ Lúcia Pereira Barroso


' Departamento de Estatística
\
Universidade de São ·Paulo
~
e
\

\ Rinalc.Io Artes 1
-\ Ibrnec/SP
\

\
\
\

-1
-,
\

-,
_,

\
\
, 1
Licenciado do Departamento de Estatística da Universidade de São Paulo

~
\

\

~ { .

~
\

'\
•·.
1
48 llcun ido da llBH.AS e 10ª SEAOllO - 7 o. li de Julho de 2003,

Pre fácio

Estas notas foram escritas com base em material utilizado e~ aulas min-
istra.das no Curso de Análise Multivarida do Departamento de Ei:,tatística
da Universidade de São Paulo e do Ibmec/SP e sã.o adequadas para alunofl
de graduação de diversas áreas como Estatística, Agronomia, Biologia, Ad-
1
ministra ção de Empresas e outra.8. Esse texto .poderá servir como uma
' 1 leit ura introdutória a outros textos da área. citados na lista de referência.s
bibliográficas .
-----
\
1
.. . Dada a limitação de tempo e da carga horária do minicUI3o, tivemos
que seleciona.r alguns tópicos da área. Escolhemos· a.queles que sã.q mais
utilizados e que formam a base da Análise Multivarjada. ·
1 '
'1 Agradecemos · à Comissão Organizadora do 10º- SEAGRO - Simpósio de
Estatística Aplicada à Experimentação Agronômica e 48~ Reunião Anual
da H.egiü.o Br asileira da Socieda.9e Internacional de Biometria pelo convite
a apresentar este minicurso e pela edição deste texto 1 ·•

Lúcia Pereira· Barroso

Rinaldo 'Artes

Lavras, julho de 2003

1
Este t rab alh o fui parcialmente .financiado pela Fnpesp (Projeto Tumá.tico 99/10611-8}
e pelu CNPq (PROHE X 76.97.1081.00)

U11i v cr ~i d n.d c Fcd ern l d i: L11 vr t.CJ - DepadnmeuLo de Ci~od ll' Eratn.s .. Lav rna-Jvi G 1
~91 l:•unill<> da Rllll.AS e 100 SEAORO - 7 " 11 de Julho de 2003

Univtrald..d. l-wd.n.J de L ..vrM - Ocp11Zt11.111enlo de Cilnciu Ru.t.u - Lo.vr1L:J-MO 2


---,

Conteú do

1 Análise de Agrupamentos 7
1.1 Conceitos básicos . . . . 8

1.2 Notação e medidas de parecença 14

1.2.1 Variáveis quantitativas . .. 14


1.2.2 Va.riávei.B categorizadas 16
1.2.3 Variáveis categorizadas e quantita.tíVCJB . 19
1.2.4 Outra.'.! abordagens .. 20
1. 3 Aigoritmo::: de agrupamentos 21

L::U Métodos hierárquicos aglomera.tivas 21

1.3.2 Métodos de partição 28


1.4 Comparação do8 métodos 35
1.5 Validação e interpretação 37
1.5.l Correlação cofenética . 37
1.5.2 Gráfico da silhueta 39
1.G Interpretação . . . . . . . 40

1.6.1 Representação gráfica. de Cél.'30S · 41


1.7 Aplicações . . . . . . . . . 44
48il llc uuiLo d& lllillAS e i()ll SEAOltO - 7 " 11 de Julho do 200:1

1. 7.1 Método do vizinho mais longe. 44

1.7.2 Método das k-média.s . . . . . . 45

2 Análise de Componentes Principais 53

2.1 Introdução . . . . . . . . . . : . . . . 53

2.2 Como obter as componentea principais 54

2.3 Propriedades das_componentes principais 57

2.4 Comentá.rios gerais . . . . . . . . . . . . . 61

3 Análise Fatorial 71

3.1 Introdução . 71
3.2 Constructos 72

·3_3 Análise fatorial ortogonal . . .- 75

3.3.l Cargas fatoriais .. 77


3.3.2 Matriz de cova.riância de x 77
3.3.3 Comunalidades e especificidades 78

3.3.4 Padronização das variáveis 80

3.4 Métodos de obtenção de fatores . . 81


3.4.1 Método das componentes principais 81

3.4.2 Método da máxima vermrnimilhança 87

3.5 Rotações ortogonais . . . . . . . . . 89

· 3.5.1 Escolha do número de fatores 91


· 3.6 Escores fatoriais 94

3.6.1 Método dos mínimos quadrados ponderados 94


3.6.2 Método da. regressão . . . . . . . . . • 95
' , ...
'\)ni~i:~aldo.<lo Pwdu..t do L"vn.11 - l>eµll.OIW\UlltO de Cilucil>B Esi.t&U - L1>vr ... ·MO 4
f áf.o J. %JcjJcMv.J {
com~ u.u
~slullillcei v-?9.C·tt~

~8 1 l\enn;&o da ll.DRAS e 10• SEAGRO • 7 a 11 de Julho de 1003

3.7 Estudo da viabilidade da AF . 95


3.7.1 Matriz anti-imagem . 95

3. 7.2 KMO: Kaiser-Meyer-01.kin . 96


3.7.3 MSA: Measure of sa.mpling adequacy . ' . 97
3 .8 A vc1.liação do aju.ate do modelo ·. 98
3 .9 Análise fatorial confirmatória 100
3 .1 O Comentários gerais 101

4 Análise Discriminunte 105

4.1 Introdução . . . . . . . 105

4.2 Análise discriminante para duas populações 107

4.2.1 O Método de Fisher . . . . . . . 110

4.2.2 O problema geral de· classificação . 115


4.3 Análise di:;crimin.a.nte para mais de duas populações 124

4.3.l O Método de Fisher . . . . . . . 125

4.3.2 O problema geral de dassificação 129


4.4 Avaliação da função de classificação 132

4.5 Aplicação . . . . . . . . . 135

A Resultados sobre distribuições de vetores aieatórios e sobre


álgebra de matrizes 141

B Dados aberrantes multivnrio.dos 145

B.l Valores aberrantes unidimeIIBiona.is l46

B.2 Valores aberrantes bidimensionais . 146

B.2.1 Distância de Ma.haJanobi.s . 148

U11ivcroidadc Fcdcro.J da LavrM • Dcp..,.truncnto de Oi3ncio..i ExatM • LavrM-MO 5


,ai ll~uuíw d" ILBJtAS e Ú>º SEAOILO - 7 11. 11 de Jullio de 200!1

B.3 Valores aberrantes multidimensionals . 150

B.4 Comentários de ordem prática. . . . . . 151

Bibliografia 156

U11lver•idi1d~ l"uderul de L1&vr11.11 • Dup1>rt"10e11lo .d• Oil11ci..a Ex"I"". L uv r""·MG 6


:Jdl:ioJ. 'Jf:ci:J~
CONRf ;r621
Ellofíillco 9">9l-•<rZ9

'
1

~ Capítulo 1
\

Análise de Agrupamentos

Análise de Agrupamentos é o nome dado a um conjunto de técnicas uti-


lizada.'3 na identificação de padrões de comportamento em bancos de dados
atra.vés da formação de grupos homogêneos de casos. Essas técnica.8 têm !
aplicabilidade em vá.rias área.s do conhecimento. Apresenta.mos abaixo u.l-
guns problemas cuja solução pa.s.sa. pela. aplicação de métodos de aná.Ii.3e de
agrupamentos 1 . ·

Problema 1: Uma empresa deseja conhecer o perfil de seua co03umidores.


Pa.ra tanto, elabora uma pesquisa na qual é feito o levantamento de dados de
uma grande amostra. A análise dos dados ger~ algumaB dúvidas: os consum-
idores têm um perfil homogêneo, em relação às caracterfoticas levantadas?
Se o perfil não for homogêneo, é possível identificar grupos homogêneos?
Quantos grupos existem?

Problema 2: A Pesquisa Emprego-Desemprego do DIEESE/SEADE é um


levantamento amostral realizado· na . Região Metropolitana. de São Paulo.
Na tma fase de planejamento, coD.Btatou-se que os municípfos da Grande São
Pu.ulo e os dü:1tritos administrativos da capital não eram homogêneos em
relaçã.o a da.dos sobre o tipo de ocupaç.ã.o da. população residente. Levar
em conta a heterogeneidade da amostra num plano a.mostra,.J aca.rreta um
aumento n a eficiência doa estima.deres. Uma maneira de consider'a.r essa.
heterogeneidade é realizar uma amootra estratificada. Cada estrato seria
formado por municípios (ou distritos a.dmin.Wtrativos, no caso da c.:api ta.I)

1
Os problemas abaixo foram extraídos do relatório de iniciação cieat!.fica YruLamoto,
2002. Esse trabalho também foi utilizo.do no dcscovolvi.mento de parte deste ca.pít1úo.

7
-~
· I

41f~ ll<:imit.u d& llli llAS e lOg SEAOltO • T " li de juJho de 200~

cuja,s pGpulações tivessem um perfil ocupacional semelhante. _É necess<Í!..~.9


. ent~~ .saber como definir estrato~, quantos estratos existem e quais são os :.....,.

~.

municípios (distritos) de cada estrato. (ver Bussab e Dini, 1985).

Problema 3: Um arqueólogo tem dados sobre a localizaçãD de restos de


cer~ca encontrados em um sítio arqueológico. Para conhecer como era a
organiz<Lção espacial da tribo que lá habitava. 1 ele necessita ter uma idéia
mais precisa da dispersão dessas peças. Há. locais com alta concentração de
peça!i? Quantos? (ver Ta.nuka e Matos, 2000). ·

1.1 Conceitos básicos

Para ilustrar os conceitos b<íf>lcos comllllil aos métodos de análise de agru-


. pamentrn~, considere o exemplo a seguir.
Exemplo 1: a Tabela 1.1 mostra as taxas de delitos por 100.000 habitantes
por Deinter (divisão territorial das políciUB) do Estado de São Paulo, ob-
. ser:v'cLda.'l em 2002. Admita que se deseja dividir os dados em 4 grupos de
r.egiaes que sejam homogêneas quanto à incidência de Homicídios dolosos e
Furtos.

Uma vez que coruiiderarnos apenas duas variáveis, p0demos visualizar


08 dados através da. construção de um diagrama de dispersão (Figura 1.1).
O primeiro passo da an.á.li..':le é definir um critério para a formação dos gru-
pos. Um critério que parece ser razoável é considerar a prax:imidade entre os
. pontos. Pontos próximos representam regiões com comportamentos semel-
hantes rio que se refere às variáveis do gráfico 1 ou seja 1 regiões que podem
fazer parte de um mesmo grupo. Através de uma simples inspeção visual
percebemos que podemos formar os se.e;uintes gru.pos: (Santm1), (Bauru, RP,
SJllP), (Campinas, SJC) e (Sorocaba, SP), conforme pode ser visualizado
na Figura 1.2 .

No entanto, percebemos que a.a distâncias no sentido vertical sã.o muito


maiores ·do que no sentido horizontal (Figura 1.3) 1 o que reflete o fato da
variabilidade da variável Furtos ser muito maior do que a de Homicídios
.dolosos (Tabela 1.1). Em termos práticos, a V"diiável Homicídios dolosos
çontribuiu muito pouco para a defini<;ão dos grupos. E se quiséssemos dar
igual importância às duas variáveis?

Há várias maneiras de lidar com esse problem~ Uma das mais popu_=-

U11ivt1r~idu.dt J.'\dt:r~I du Luvru.a • D~pllrt.u..uu.uato de Ci6nci11B Exlitw. .. L.a.vru-MG 8


'
\
<1a• ncunillo dA RBRAS • 1 CJ.D SE A ano - T .. 11 d« Julho de '.1003

i
1
,i) .~ ;rr.;~o;,T'y,~:
1

.)~~~\;~-~\'iji;J\ l
1
~:~:·~

·.· ~ · : :~.y~·?.;;~:#:Y1 ~:.·:.


· ·o .
1

'· ~.' ;
· u.. . ... . ··.· i •' ...
:t ;1;) U, Ç-U.! ~ .: '
. f:"~~-f

' l,:1~~~1'~:++;~~i
1§:.~~i~.·~ ~;,,,.,"'"'";m~:·::;~~1~~::.~~~~::J~~t:;;,~·::··~~·::;~~,'.

Figura 1.1: Diagramu de dispersão das Deinter

Figura 1.2: Diagrama de dispersão das Deinter

Univu:o id ade Fcderl\l do Ll\VTM - Dop&r\1UI1anto do Cinnciu fü<&L.U - L&vro.5-MG


. ,. .

·I

':
°'ªª Jt.eurl)~ c!.idU31lAS t JOD SEAOllO • '1 & li d11 Julho de 200!1

' ' .1 ;

· Tabela · Ll: Taxa de delitos por 100.000 habitantes por divisão territorial
das poJícias do Estado de São Paulo (Deinter), em 2002

. . Deiuter Homiddio F\irto Roubo Roubo e furto


>
doloso de veículos
~ SJIU'. · 10,85 1.500,80 149;35 108,38
~·nP 14,13 1.496,07 187,99 116,56
··Bauru 8,62 1.448,79 130,97 69,98
'r Campinas 23,04 1.277,33 424,87 4::S5,75
1" Sorncaba 16,04 1.204,02 214,36 2ü7,0G
0SP 43,74 '1-190,94 1.139,52 909,21
~SJC 25,39 1.292,91 358,39 268,24
.si.Santos 42,86 1.590,66 721,90 275,89
Métli.n. 23,0B 1.375,Hl 415,92 298,90
DP 13,69 152,05 351,62 273,35
foute: Secretaria de Segurança Pública do Esta.do de SÜL.l Paulo
http ://www.ssp.sp.gov. br/e~ ta tistica.s/criminai3/, uc~ada cm 11/02 /2003.
SJR.P: Siio José do ruo jlreto
R.P: Ribeir:i.JJ Preto
SP: $fio Paulo (capital)
S;JC: São José dos Campos

lares é ci uso de va.tiáveis padronizadas 2 • Os dados padroniza.dos podem ser


vL'iua.l~u.dos na Tabela. 1.2 e · Figura 1.4. Nota-se a gora, que as distâncias
no senti.do vertical e horizontal 1:1ão da mesma ordem de grandeza (Figura
1.5), o que garante que as duas variáveis estã.o sendo consideradas com im-
portâ.oc.:ías egulva.lentes.

Ag~ra, a.O dividk os pontos em quatro grupos, obtemow (SP), (Santos),


(CampSnM, SJC, Sorocaba), (Bauru, RP, SJRP). Note que esses grupos
diferem dbs anteriores. ·

Baseado nesse exemplo, identificamos as etapa.9 da aplicação de uma


análise. de agrupamentos,:

1. Escolha do critério de parecença - Nessa etapa, deve-se definir se


2
Por exemplo, subtrnindo-ae de cadu vurió.vel :rna média e dividindo ~e o re:mltado pelo
desvíLJ.-pudrii.o.

\Joiver;ido.<l• l"l:dtri.J da L"vr1'11 - U•vurtu.ic1mtu do Ciéuci"" Exlit11:> - Luvru.a-MO 10


~n• Reuni li.o d A RliRAS e 1 oa SEAORO - 7 a. l l d• Julho de 2003

Figura 1.3: Diagrama de dispersão das Deinter ·

Figura. L4: Diagrama de dispersão da.s Deinter - dados padroni"iados .

Vnivcmiid..de Federú.l <la W.vrM - Dero.rtamento de Ci6nclM Ex&lM - La.vrM-MG 11


~~ .
~.
.
•Bª llc1.rnir.o da llliRAS e 10ª SEAOnO - 7 .. 11 de Julho do 2oos

Figura 1.5: Diagrama de dispersão das Deinter - dados padronizado8

Fígl.lra 1.6: Diagrama ·de dispersão da.S Deinter. - dados padronizados

Uuiver~id&d~ r'tderu.I do L"vr""' - Dop11rt11.J11e11to d• Cióociua Exüt...,. Lllvr 1U-MG 12


<B• Heurii/lo da IUIIlAS e 10° SEAGRO - 7" 11 de Julho de lOO!l

Tabela 1.2: Taxa de delito::i por 100.000 habitantes padroniza.da.s


(
Deinter Homicídio Furto
Doloso
SJRP -0,89 0,83
"
RP -0,65 0,80
Bauru -1,06 0,48
Campinas 0,00 -0,64
Soro caba -0,51 -1,13
SP 1,51 -1,21 •
SJC 0,17 -0,54
Santos 1,44 1,42
Média 0, 00 0,00
DP 1,00 1,00
fonte: Secretaria de Segurança Pública do Estado de Siío Paulo
/""\

éL.' i ~~s~~~ n.izada.'3 e o critério que :ierú. .uti-


fo~ a<lo illL
deterrnin.aça.o dos gr upos; no caso, proximidade dos pontos ,
(distância euclidiana entre as observações).

2. Definição do n úmero de grupos - O número de grupos pode ser


definido a priori, através de algum co~ecimento que se tenha. cobre
os dados (por e.xempb, se os dados referem-se a. característica.a de
espécimes de insetos e sabe-se que existem três espécies , o pesquisador
pode forçar a criação de triis grupos), conveniência de análise (aa seg-
mentar um mercado, o pesquisador pode, pQr simplicidade, e:;taJ" in.-
tere3sado na construção de apena.a doi.a a.grupamentos) .~ ainda pode
ser definido a poBteriori com ba.se nos resultados da análise. ·

3 . lffir:~ç~~3Jl.9s - Nesta etapa deve-se definir o ~~e__


~~o na identificação dos grupos.

4 . ~icl~ç_ií~~ - Deve-se gara.ntrr que de fato as varia.vem


têm comportamento diferenciado nos diversos grupos. Nesta etapa, é
comum supor que cada grupo seja uma. amostra alca.tória de alguma.
imbpop ula.ção e ~c~er ~~ para compará-las.

5 . Interpretação dos grupos -Ao final do proce3SO de formação de grupoti


· é importante caracterizar os grupos formados. O ~t.®s.tl.9JB~

\ l11 i v cr:iidB-de F e deral de l..n.v râ.3 ·. Dcpn.rt&mento de Ci6ncia.s Exn..Lft..1 - f,avru--MO . 13

..
48~ iteuul&Q da IUlllAS e 1ou SEAOHO • 7 11. 11 do Jullio de 2003

descriti~ é r,ecomendado para esta fase da análise.


-~

· O exemplo utilizado foi bastante reduzido permitind0 a identific:açã.o de


grupos através apenlli:i de uma inspeção visual. O que fazer quando temos
urriâ. grande amostra, ou um número maior de variá.veis? Obviamente a
visualização dos dados estará prejudica.da o que dificulta a coru;trução de
gr~p os através de procedimentos tão ingênuos. É necessário então uma
maior formalização do problema para a aplicação da técnica. a uma grande ·
variedade de situações.

1. 2 · Notação e medidas de parecença

As medidas de parecença têm '. um papel central nos algoritmos de agrupa-


mentos. Através delas sã.o definidos critérios para avaliar se dois pontos
estão próximos, e portanto podem fazer parte de urn mesmo grupo, ou não.

Há doíS tipos de medidas de parecença: medidas de similaridade (quanto


maior o valor, maior a semelhança entre os objetos) e .m edidas de dissimi-
laridade (quanto maior o valor, mais diferentes são os objetos).
Seja Xi = (Xi1, · · ·, Xip) T o vetor de observL1.Ções do indivíduo i, i =
1,. , :, n, no qual Xij representa o valor assumido p ela vc1.riá.vel j no indivíduo
i. Por razões didáticas, dividiremos o estudo das medi_das de parecença para.
dados numéricos, dados categorizados e conjuntos de dadmi c.:om variáveis
numéricas e variáveis categorizadas: .

1.2.l Variáveis quantitativas

As distâncias são a.s medidaB de dissimilaridade mais utilizadas no estudo


de bancos de-dados com variáveis quantitativas.
Uma. medida lÍ.ik representa uma distância entre os pontos i e k se

a) do. ~ O para qualquer escolha de i e k;

- u -~-O·J
b) "··

U11iversi da.d1 fi:deral de Lavrll.l.I. Dep~a.me nlo d e CilncilfJI EXll.l.U. Lii.vr...,.·MO 14


\ .

...
~ 8 1 Reuni ao d" RBRAS e 1 Oº SE AG llO - 7 n. 11 d• J ulho de ~003

A distância euclidiana. entre os indivíduos i e k é dada por .

p ·:
L (Xij -
j=l
X~j) •
··.
2

A idéia básica é considerar cada observação como um ponto num e::ipaço


\ euclidiano e, desse modo, a fórmulél. acima nos dá a distância. física entre os
pontos.
' Uma outra. d.Wtância utilizada em an.ál.ise de agrupamentos é a distância
Manhn.tta.n ou quarteirá? ( city block). Essa distância é definida por
p
d~i) = ~ 1 Xii - Xki 1.
j=l

Kaufman e Rousseeuw (1990) comentam sobre a origem deBse nome. Imag-


ine uma cidade na qual os quarteirões sejam quadrados de largurçi. 1 (Figura
1. 7). Na Figura 1. 7 se· q uisennos n(Js mover entre os pontos A e B percor-
reremos 1 no mínimo, uma distância 3, u.ma vez que não podemos cruzar um
quarteirão. Esse valor é obtido através da expressão a.cima.

Figura 1.7: Distância quarteirão entre os pontos A e B

Td.Ilto a distância euclid.i..a.n.a como a quarteirão são CMos particulare::i da

V11iveroid...d• F•dern.I de Lnvr"" - Dopo.rta.mento de Ci~ncio.o Exntu • LavrM-MO 15


41l~ Hcuull.o d• IUHtAS e lOU Sll:AGnO. 7 u li de Julho de 200.s

distância de Minkowsky que é dada por

p
d~r;1) = m I:; (Xij - Xk;·)'n 1 m ~ 1.
j=l

Alternativamente às medidas de dis'tância, outras medidas de similari-


dade ou di.ssimilarida.de podem ser utiliza.da.ci. Na Seção 1.7.l apresentamos
l.lill· exemplo no qual utilizarse o coeficiente correlação como medida de de
similaridade.

1.2.2 Variáveis categorizadas

Exe mplo 2: a Tabela 1.3 tiaz informações sobre clientes de um posto de


gasolina. Ao a.nallimr as V'cJ.riaveis desse cadastro 1 notamos a presença. de
V'cJ.r1áveis qualitativas nominais (Combustível e Modelo), ardina.is (Classe
imcial e Potência) e quantitativa.':! (Idade e Número de carros). Apresentare-
UJOl:l1. nesta seção, medidas de parecença para V'ariáveis quaJitativa.B. Analis-
. aremos separadamente as V'ã.riáveis nominais e ordinais.

Tc;beJa 1.3: Canastro àe cJjentes àe um posto àe gasoll.na

N. de . Classe Oombus-
Cliente Idade carros ,social Potência tível Modelo
1 20 1 A Baixa Gasolina Esporte
2 37 3 :
A Alta · Gasolina Luxo
3 22 2 B Média Gasolina Esporte
4 26 2 e· B Alta Gasolina . Esporte
5 45 2 o Média Áleool Standard
6 42 1 D BaiXa Álcool Standard

,O tratamento básico das variáveis qualitativas consiste na codificação


de suas respostas através de V'c1Ii<iveis indicadoras (dummieii) . Desse modo 1
podemos ter: ·

N _ { 1, se Gasolina N 2 = { 1, se Esp_orte N = { 1, se Luxo


1
~ O, se Álcool · O, se Nao 3
O, se Não

Uuivei-uidu.dc l~dc.r.a.l de LuvrlL!I - Dtl!J>~ü.mcm~o de Ciênciu Bxo.lU-3 - Lu.vr1U-MG 16


-

18 ~ lleunlllo da RllRJ\S e 1 o• SEI\ ORO - 1 a 11 de Julho de 2003

01 = { 1, se Cl~se A 02 = { 1, se Cla~se B O
3
= { 1, se Cla:J~e C .
O, se Nao O, se Nao O, se Não
1
í

O _ { l 1 se Potência Média ~ { 1, se Potência Alta


4
O, se Outra potência
05
- - O, se Outra potência

A Tabela L4 traz os d ados codificados segundo aB variáveis indicado~aa


recém definidas.

Tabela 1.4: Codificação das vc:.Lriáveis qualitativas

Cliente N1 N2 N3 01 02 Ç)3 04 Os
1 1 1 nV 1 o o o .O
2 1 o 1 1 o o o 1
3 1 1 o o 1 o 1 o
4 1 1 o o 1 o o 1
5 o o o o o l 1 o
6 o o o o o o o o

'
Para coillltrução da.s mcdidM de parecença,·iremos resumir aa observa~ões
de dois indivíduos conforme indicado na Tabela 1.5.

Tabela 1.5: Comparação entre oa indivíduos i e k

CHente k
Cliente i 1 o Total
1 a b a+b
o e d e+ d
Total a+c b+d m

UnT-.....sidA<le F'eder&l de Ll>VT M - D ep!V"tamento de Ci&nciM Ex&lM - LavrM-MO 17


"' •

·11!1 llcu11i&o d& IUlllAS e Wª SEAGltO - 7 • 11 de Julho de ~003

· ra.c)ocíllio 1 podemos sugerir 1 respectivamente 1 as scguinteP medida.s de simi-


laridade e dissimilaridade:
a+db+c
Sjk =-m
-
= --.
m
e óik

Note que Sik é a proporção de concordânciii-9 entre aB V"Miáveis indicadoras e


Dik à de di.Bcordâ:ncias. Em Bussab et al.{1990) e Kaufman e RoUBseeuw (1990)
são apresentadas outras alternativas para mensurar a parecença entre variáveis
qualitativas.

·A Ta.bela. Lo traz a comparação entre os indivíduos 1 e 2. Note que das


oito combinações 1 5 encontr<l:m-se na diagonal principal e 3 na secundária.
A simil;Ú-idade entre esses indivíduos pode ·aer dada por s 12 = 5/8 = 62, 5%
e a dissimilarída.de por 012 = 3/8 = 37 1 53.

Td.bela 1.6: Comp~ação entre os indivíduos 1 e 2

Cliente 2
Cliente 1 1 o Total
1 2 1 3
o 2 3 5
Total 4 4 8

Note que se calcularmos a distância. euclidiana entre a. primeira e segunda


linha da Tabela 1.4 teremos exatamente o numera.dor de 012. Podemos, ·
então, interpretar óik corno sendo a distância. euclidiana a.e quadrado média
entre os vetores de variáveis indicadoras dos indivíduos i e k.

o método acima apresent~ alguma.9 deficiências n.o. que se r efere à8


variá.veis ordinais. Note que ao não levar em conta a ordinalida.de da v-c1.riável,
a.o compara.r 1 por exemplo 1 um indivíduo da classe social A com um da B
teremo1:1. uma. medida de similaxidade menor do que entre um indivíduo da
classe A com D. No entanto, A e B sã.o mais parecidos do que A e D. Uma
maneira de cbntornar esse problema é utilizar a ordinalidade das variáveis
na. CGD.$truçã.o .das variáveis indica.doras. No exemplo, poderíamos ter

0 1.. = {·1, se Classe A o•=


2
{ 1, se B ou A O ~ = { 1, .se C, B ou A
3
O, se Não O, se Não O, se Não

A T.i.bela 1. 7 compara as variáveis 0 1 , 0 2 e 03 com a criadas segundo o


critério acima. Considerando apenas esses dados 1 se nã.o leva.rmos em conta

Univcraldu.dc l'l:dcr.U de Ll4vr...., - De111U111.Wc11iu de Oihu:l11:1 Exll.41>:1 - L&vru.a-MO 18


'
\ ~a• Reunil\o d& Rl:lllAS e· tOO Sk~AO fl.O - T & 11 d~ Jlllho do '.lOO!l

a ord.i.nalida.de da variável {três últimas colunas da tabela), teríamos que


a dissin;.ilariàade entre alguém da cia.sse A e B ser~a 2/3 e entre pessoas
das clMses A e D seria 1/3, menor do · que a dissimila.ridade entre A .e ·B.
Levando-se em conta. a ardina.lida.de (três primeiras colunas da tabela), entre
A e B ter.íamos uma dissimilaridade de 1/3 e entre A e D 3/3.
' •, .

Tabela 1.7: Codificação das Vru-iáveia ordinaiH

Cliente Oi 02 03 01 02 . 03
1 1 1 1 1 o o
2 1 1 1 1 o o
3 o 1 1 o 1 o
4 o 1 1 o 1 o
5 o o 1 o o 1
6 o o o o o o

1.2.3 Variáveis categorizadas e quantitativas

Na Tabela 1.3 temos tanto variáveis categorizadas como quantitativas. Nesta


seção, discutiremos como determinar uma. medida de parecença que envolva
os doi.Y tipos de variáveis.

Na seção anterior, afirmam mi que Ôik era a distância euclidiana ao qtiadrado


média entre os vetores formados com as varjáveiB indicadorá.s. Uma solução
para a mistura de vari.áveiR encontrada. nesses dadosJ seria calcular também
a distância euclidiana ao quadrado média utili.Zarido as va,riáveia gua:ntita-
tivcLS e ponderar o resultad~ com a diatâ.ncia obtida utilizando as ~iá.veí;
indicadoras. O problema é que Ôik eBtá re::itrita entre zero e um, o qué.?J'.10 é
comparável com as distância.s ba.seade.s m.s va,riáveia Idade e Nú.mero de car-
ros. Uma saída é _:padronizar as variáveis quantitativas atravé::i da seguinte
fórmula:
'rV _ X - min(X)
- ma:x(X) - min(X) -
, · Idade - 20
Note que O ~ W ~ 1. Para a. va.riavel Idade, teríamos W1 = _ e
45 20
para Número de carros, :W2 = i:-
,~-· A Tabela 1.8 traz e31l~ cák~lo::i.
v - J.

Univeraida.dc Fed eral de L~vrM - D~p:..:ta.mento ô~ Cii!ndM ExatM - Ln.vro.3-MG 19


1a1 · nu111il.o d11 ll.llllAS e 100 Si::AGfiO . 7., 11 dr Julho de 2oos

Tabela 1.8: Cadastro de clientes de um posto de gasolina

N. de
Cliente Idade carros W1 W2
1 20 1 0,00 0,00
,. •'· 2 37 .. 3 0,68 1,00
3 22 2 0,08 0,50
4 26 2 0,24 0,50
5 45 2 1,00 0,50
6 42 1 0,88 0,00
mínimo 20 1 o o
máximo 45 3 1 1

A partir da Tabela 1.8, determinamos que~ distânc.:ia euclidiana. padroojzadél:.


entre os clientes 1 e 2, com base em W 1 e W2 é da.da por

d2 . = {O, 00 - O, G8) 2 + {O, 00 - 1, 00) 2 =


0 , 731 .
pl2 2

Anteriormente, havíamos concluído que


ó12 , =O, 375. A questão que se
coloca é como definir uma medida de dissimilaridade que leve em conta q e
~- Uma ·p ossível solução seria coIUJtruir uma. distância ponderada do tipo

dik = WqÓik + Wnd;iki


. onde Wq é um pe.':.lO atribuído às V"d.IÍIÍ.Veis qualitativas e Wn UID peso atribuído
às numéricas. Uma sugestão de ponderação seria utilizar o número de
va.riáveis de cada tipo no banco de dados, assim, teríamos

dik = 4Óik + 2d~};·


Note.que ao p onderar a pa,.rte referente às variáveis qualitativa.'.!, coruiderou-
o
se .apenas. número de variáveis originais e não o número de variávei.B indi-
cadoras. A distância entre os indivíduos 1 e 2 seria. dada. por d12 = 2, 962.

l.2.4 Outras abordagens

Há outras maneiras de obter med.ida.s de similaridade ou de dissimilar.idade


que não pressupõem a existência de um conjunto de variá.veis. Pode-se, por

20
~a• ncuni!l.o d,. nBRA S e 100 SE A G rtO - 7 a li do Julho de 200.:l

exemplo, apresentar os objetos aos pares e pedir aos entrevistados que ava-
liem o grau de semelhança ou dissemelha.nça entre eles através da atribuição
de um escore. Desse modo, é possível construir para cada elemento da
amostra uma matriz de parecença. Para a amostra como um todo, pode-
se utilizar uma matriz de parecença. média utilizando os dados de todas a.s
pessoa.s, ou de pessoas que pertençam · a grupos uniformes (por eXemplo,
residam numa mesma á.r:ea). Métodos de a.grupamento podem ser apl;cados
a essas matrizes.

1.3 Algoritmos de agrupamentos

A maioria àos algoritmos utifuados na formação dos agrupamentos pode ser


classificada em duas grandes famílias de métodos: hierárquicos e de partição.

1.3.1 Métodos hierárquicos aglomerativos

Nesses métodos os .agrupamentos são formados a. partir de uma m();triz de


parncr-mça. Num primeiro pa..'lso, a matriz é utilizada para identificar.o par
de objetos que mais se parece. A partir desse instante esse par é agrupado e
8erá. considerado como sendo um único objeto. Isso requer que se defina uma
nova matri7. de parecen_ç~ em seguida identificarse o par mais semelhante,
que formará um novo grupo, e assim sucessiYa.mente até que toàos os obje.tos
estej am _reunidos num mesmo gr upo. Através da a nálise do histórico do
~_grupamento, ·pode-se definir a posteriori o número de grupos existentes nos
d ad os.

O que diferencia esses métodos é a. reEQ:a. para a redefinição da ma:triz de


parecença a cada união de pares de objetos. Neste texto~ veremos '.algumas
da~ mais comun.s. Como ilustração do método !a.remos uma aplicaçãO passo
a pa:;so de uma dessas técnicas , aos dados das cinco primeiras linhM da
Tabela 1.2. Na. Tabela 1.9 são apresentados os dados. Serão utilizadas as
variáveis padronizadas.

A T abela 1.10 traz as ilistâncias euclidiana.s cu.lculu..da.s entré QS p<u-es


de D einters. O primeiro passo da análise é identificar os ~,xµ· is ~tl:.
h· tes. Observar-se a. menor drntància entre SJH.P e Bauru (ü,55). Lóbo es::lél.':l
duas regiões farão parte do primeiro agrupamento e serão consideradas como
sendo urri.a ünlca a.té ·o final do p~nio. ·

Univcroid!>dc Federtl.l de Lavrn.o . D ep11rtn.menlo de Ci~ncirui Exatiu • Lavr..,,.MO 21


~\
~ai ILcunilM> d" IUHl.AS e 100 SEAGRO - 7" 11 de Julho de 2003

Tabela 1.9: Ta:X:a de delitos por 100.000 habitantes padronizada.s

.Dados brutos Dados padronizados


De inter Homicídio FUrto Homicídio Furto
doloso .. doloso
SJRP 10,85 1.500,80 -0, 66 0,85
RP 14,13 1.496,07 -0,07 0,81
Bauru 8,62 1.44-8,79 -1,07 0,47
Campinas 23,04 1.277,33 1,53 -0,79
Soro caba 16,04 1.204,02 0,27 -1,33
Média 14,54 1.385,40 0 ,00 0,00
DP 5,55 136,Hi 1,00 1,00 .
fonte: Secretaria de Segurança Pública do Estado de São Paulo

Tabela 1.10: Matriz de Distâncias

·Deinter SJR.P RP Bauru Campinas Soro caba


SJRP o,oo
IlP 0,59 0,00
Di·mru 0,55 1,05 0,00
Ca.mpina.s 2,74 2,27 2,89 . 0,00
Sorocaba 2,37 2,17 2,24 1,37 0,00 .

.O próximo passo é obter a nova matriz de distâncias. O problema est4


em definir a distância entre o grupo (SJRP, Bauru) e as demais cidades.
'lbme, por exemplo, · RP, temos que d[SJRP, RP}= 0,59 e d[Bauru, RP} =
1,05. Como podemos definir d((SJRP, Bauru), RP)?

É, neste ponto que os métodos hierárquicos se diferenciam. Sejam G 1


e G2 dois)çrupos de objetos, com 91 ~ 1 e 92 ~ 1 objetos, respectiva-
mente. Abaixo apresentamos a definição da distâ.ncia d[G 1 > G2] segundo
alglins' métodos hierárquicos de agrupamento.

L fyfétodo do vizinho mrus próximo: A distância é a menor distância


-entre um elemento de G1 e um elemento de G2, ou seja,
d[G1, G2] = min dik·
iEG1 kEG:i

Univer>idiuie l'ederll.I de L~vru. DcµIU"tiunen~o do Ciluciu Ex!Ltu - La.vrll4-MC 22


'
\

48" Rcunillo d11 RBRAS • 1 o0 SEAGno - 7 a 11 d~ Julho do 200:1

2. Método do vizinho ruais longe. Define-se a distância como a ina.ior


distância entre um elemento de G1 e um elemento de G2, ou seja,

3. Método das médias dl.15 distâncias. Nesse caso caJcuJ~,se a média


das distâ.nciM entre os elementos de G1 e os de G2 .

4. Método da centróide. Este método define a coordenada de c:ada


grupo como sendo a média das coordena.das de seus objetos. Uma vez
obtida essa coordenada, denominada centróide, a distância .entre o:;
grupos é obtida através do cálculo das distâncias entre M centróides.

5. Método de Ward. A alocação de um elemento a um grupo é feita


de modo 'L minimizar uma medida de homogeneidade interna. ·

A seguir construiremos os grupos utili..Zando alguoo dos ruétodo::i descritos


'""" acima.

Método do vizinho ma.is longe

Retomando o Exemplo 1, temos d[SJRP, RP] = O, 59 e d[Bauru, RP] =: 1, 05,


logo, d((SJRP, Bauru), RPJ = ma.x{O, 59; 1, 05} ·=
1, 05. Procedendo desae
modo, eucontramo's a nova matriz de dissimilaridades reproduzida na rabeia
.. '
1.11.

Tabela 1.11: Matriz de Distâncias

Deinter SjRP,Bauru RP CampinaE. Sorocabà.


SJHP, Bauru 0,00
IlP 1105 0,00
Caro pi.nas 2,89 2,27 0,00
So.roc.aba 2,37 2,17 1,37 0,00 (

2:.l
.' .r.L·
•'. .;~'"'··
~ ·"
~Jff:9: ~
' .· ·1'

t'.1 ..;. :::1 ~~~~



i; .. ...... ,,,;;11~
<~ª IU:uni ll.tl d" IWllAS e 1ou SEAGJlO - 7" li de JuJJ.o de 2003

Analisando a i:l.OV"à. matriz 1 temos que as regiões ma.is próximas são (SJRP, '
Bauru). e RPi que passam a fazer parte do mesmo grupo. Redefinida a ma-
triz de distâncias (Tabela 1.12), not amos que a menor distância é 1,37, entre
a.q regiões de Campinas e Sorocaba, doravante agrupadas.

Td.bela 1.12: Matriz de Distâncias

Deinter SJRP1 Bauru, RP Campinas Sorocaba


SJRP1 Bauru1 RP 0,00
Campinas 2,89 0,00
Soro caba 2,37 1,37 0,00

Por fim, agrupamos todas ás regiões a ~a distância de 2,89.

Para definir o número de grupos existente nos dados, podemos comtruir


um resumo do procedimento ('l'c:1.bela 1.13). 1\g_a.Ila.Jisp.r Q...hj.Btór ieçt,,p9.tarp.,0!3
u.i:p g~4e.. i~emiz;ito..n9'-dist_ij,__ncj_a e;üre 9s p_a.ssos_ 3 e,A_. ;tsso ~Rocle ~:q_dicµ_
gue a J1!1Itir dÇLpasso 4_co:r:µe,çamos a -ªgnn?ar r~giQ.es ~e.tergg~n~ª'1J,,v.9U S5=ja
q~e~d.!:!v~r.(a.Il!.os_J_~r___en~n:.ª'32-0~ ~x:·tmo~no---.p ~sg ~3. Somos lev-<Ldôs a
formar dois grupos (SJRP, Bauru, RP) e (Campinas, Sorocaba).

Tabela. 1.13: Resumo do procedimento

. Pruiso Grupo Distância.


l SJRP, Bauru 0,55
. .2 SJRP; Bauru, RP 1,05 ~'"'
,. ,-1'

3 Campinas, Sorocaba 1137 J 1


L •}..~, ; ~· 1

.. 1. SJRP, Bauru, RP, Campinas, Sorocaba 2,89 .,~ .

Para facilitar a identificação do número de grupos, podemos lançar mão


de um procedimento gráfico denominado dendrograma (Figura 1.8). Neste
gráfico, dispomos no eixo das u.bscllisas os objetos (preferencialmente n a
ordem em que foram agrupados) e no eixo das ordenadas as distâ.ncia.s em
que llil uniões se realizaram. A altura das barrru:i coincide com a distância
do agrupamento. Ao analisar
'
o gráfico, 1:__.,~----J
bUBcamos Ahservar grandes saltos.
"--.r-'°'' - . ' - '
Esses saltos indicam a união de objetos heterogêneos . .

24
48• Jlt11ni1J.o da JlBRAS e 10• SE/\G 110 - 7 o. 11 d• Julho de 200~

' 1

'
'

·;

' ,•

Figura 1.8: Dendrograma

Método .de Ward

A cada etapa do método de Ward, ~, unir objetos que tornem os


agrup ntos formados os ~o.Q!.og~e s p.os_si:v~_l. A ~Q­
~n~e utilizada baseia-se na ~a~de~qu~a,Qç,s-t.Qia.lde~
~d~D.Ç,.ÍiJ. . .Como il.ustração, coDBidere apenM a primeiru. vi.U"iá.vei
do vetor de observações (X1 ) e admita a formação de k grupos. Nes.;e caso
.•'" a partição da soma de quadrados total será '.d ada por:
. \:,~1.t. ~-l'l'\, .llt"
,1'.J V

SQT(l) = SQE(l) + SQD(l)


k 2 k k 2
I: :L (xn -X1) = L:ni (x11 -x1)2+ I: I: (xn - X;1) .•
j=I iEG1 j=l j=l iEG; . : · :,

onde SQT(l) denota a soma de quadrados total da variável 1, SQE(l) a


soma de quadrados entre grupos da variável 1, SQD(l) a soma de quadra-
dos dentro de grupo da variável 1, Gj é o conjunto que indica. os ele.l..Gentos
do grupo j, n1 é o número de elementos do grupo j, X 1 sendo a média
da variável Xi · e Xj 1 é a média da variável 1 no grupo j. Nessa partição,
29lJJJ, mede o a d ho og~dade....Uit~@s.._gr_up_g~l~ã..q_,a_
Xi, enquanto que ®E-(1}.J;,xJ.e e o g a.u e heterogen id@e nt~s.,,_g~ .
~_,_ Desse modo, uma boa partição, para X 1 ~aquela que ~ ·
~e, consequentemente~ e S • 1 . Para. considerar todas a.~

Univcr>idu.de Federal de Le.vro.,, - Depl\rta.monto de Ci~nciM ExnLM - LnvrM-MG 25


18~ ll•uniAü' d1> lllilLAS • 100 SBAGHO - 7 lL 11 d• Julho de 2005

variáveis simult'aneamente define-se a soma de quadrados da partição como:


p
SQDP = l:SQD(i). (1.1)
i=l

O primeiro passo do procedimento consiste na construçã.o de n-1 grupos,


sendo n
o número total de observaç.ões. A Tabela 1.14 traz a soma de
quadrados da. partição para os possíveis agrupamentos obtidos para os dados
do exemplo. Note que no agrupamento 2 obtemos a menor SQDP, o que nos
leva a unir SJUP e Bauru.

Tabela 1.14: Primeiro passo do Método de Wa.rd

Agrupamento Grupos SQD(l) SQD(2) SQDP


1 (SJRP,RP}, (B), (C), (S) 0,1~4 01001 0,175
2 (SJRP1B) 1 (UP) 1 (C), (S) 0,081 0,073 0,154
3 (SJRP,C), (RP), (B), (S) 2,410 1,347 31757
• .. 4 (SJRP,S), (RP), (B), (C) 0,437 21375 2,812
5 (SJRP) 1 (11.P,B), (C), ($) 0,492 0,060 0,552
6 (SJRP), (RP,C), (B), (S) 1,287 1,290 2,577
7 (SJRP), (RP,S), (B), (C) 01059 2,300 2,359
8 (SJRP), (RP), (B,O), (S) . 3,372 0,793 4,165
9 (SJRP), (RP), (B,S), (O) : 0,893 1,616 2,509
10 (SJllP), (R.P), (B), (C,S) 0,795 0,145 0,940

Os próximos passos consistem na formação de (n-2), (n-3), ... , 1 grupos,


sendo que o critério de seleção é a escolha do agrupamento com menor SQDP
. em cada passo. Retomando o Exe~plo l,' à Tabela 1.15 descreve 08 pa~rnos
rest antes do procedimento.

A' Ta.bela 1.16 resume a aplicação dQ 1 método ao exemplo. A escolha


'do númer.'o de grupos é feita de maneira, ~im.ila.r à, indicada no método do
·· · vizinho mais longe. No ca.so, notamos que . ~ so ~o um salto muito
ai_or~9_p._g_3.e~s~J..CL nos as os an~erior e . Isso ~~olha & 2
. gr_!!P~_(S.&,-1~11J1m.J1l?-)~(-Ca_mpim!S Sor:oc@a).
Pi:lia. a colll5truçã.u <lo <leudrogru.mu. (Figuru. 1.9) optirmoH por colocar na
a
ordena.da raiz quadrada da SQDP de cada passo. Essa opção garante que
a e:::;cala de medida <la distância seja a m~sma d as obsA.rvações origina.is. Não
há, no entanto, a obrigatoriedade de se .proceder desse modo .

Unive~id 11 de l'tderAI de L1>vr"" • D•pllrt~ento


. .
d• Cifnciwi Eu.tu - Lnvr..,.·MG 26
--
\

~aa lleu nil\o dn nBR.AS o IOQ SEAGRO • i"' li do Julho do WO.:l

Tabela 1.15: Demais passos do Método de Ward ·

Passo 2 Grupos SQD(l) SQD(2) SQDP


1 (SJRP,B,RP), (C), {S) 0,498 0)089 . 0,587 .
2 (SJRP,B,C), (RP), (S) 3,908 1,475 5,,383
3 (SJRP1B,S), (RP), (C) 0,940 2,709 3,649
1
4 (SJRP,B), (RP,C) 1 (S) 1,368 1,363 2,731
5 (SJRP,B), (RP,S) 1 (C) 0,140 2,373 2,513
5 (SJRP1B), (RP), (C,S) 0,875 0,218 . 1,093 ·.
Passo 3 Grup os 1 SQD(l) SQD(2) SQDP
1 (SJRP1B 1RP,C), (S) 3,908 1,782 5,690
2 (SJRP,B 1RP 1S), (C) 1,068 3,213 4,281
3 (SJRP,B,RP), (C,S) 1,292 0,234 1,5.27
Passo 4 Grupos SQD(l) SQD(2) SQDP
1 (SJRP,B,RP,C,S) 4 4 8

Tabela 1.16: R esum o da aplicação do método de Ward

Passo União SQDP y!SQDP


1 SJRP, Bauru 0,154 0,3!12
2 SJ1lP, Bauru, RP . 0,587 o, 76() .
3 Campinas, Sorocaba 1,527 1,236
4 ..SJRP, Bauru, RP, Campinas, Sorócaba 8,000 2,82S

-, Comparação dos métodos hierárquicos


..
étod _d.Q,"Y:'. • ." ó maia 0~ 1~d a E m~s ~h mogê os.:-do
, ue o~éto.do a v· inb....!?_, ·s ertg. Isso se deve ao fato de ser um critério
bastante rigoroso. Note que uma distância pequena. entre doi3 grupos implica
na proximidade de todos os elementos desses grupos. A primeira coluna. da
' Figura 1.10 representa a distància entre dois grupos de objetos calculada peb
critéri o do vizinho mais longe. Para que os dois grupos sejam consiqeradoa
próximos, é necessário que n. linha que os une tenha comprimento pequeno,
o que só aconteceria se todos 06 pontos representados por círculos est~~essem
próximos aoo pontos representados por quadra.dos. Já na segunda coluna.,
representamos a distância obtida pelo método . do vizinho mais perto, note·

U 11iversida.d e J.'c<l ie r.G.1 de Lavoe.:: · Depa..rta.m:nto de Ci~ncio..! E:satM .. J, av ru.-MG 27


49a ll.cuuilo d" llliJlAS e tOR SEAGllO . 7 " l l d• Julho do 2003

; .

Figura, 1.9: Dendrograma

que apúsar da distância ser pequena há pontos, nos dois grupos, que diferem
m,u ito entre si. O método das médias das distâncias posiciona-se entre os
dois .

. O Mét odo de Ward, é atraente por basear-se numa medid a com .[g.rJ,e
~o.__e por g~iQ)l.P.J>l:l que, assim como os do método vizinho
ma.is longe, possuem uma alta homogeneid
_,- ~
e interna. ~_,,...

1.3.2 . ·Métodos de partição

·considere a existência de 4 objetos: A, B, C e D. De quantas i;g~a{!.


~~~Q~__çjis~~ co , to_~o~ ~~bJ~o,s? Cada uma dessas
maneiras ~~IDJt~pgt1ç~ . A Tabela 1.17 apresenta toda.s as
partições possíveis desses quatro objetos.

Intuitivumente, podemos realizar uma análise de agrupamentos avaliando


todas as pos's íveis partições e identificando a melhor dela.R segundo algum
critério de. qualidade. A aplicação de tal mét odo sempre levaria à melhor
divisão em
grupos. Apesar de eficaz esse processo é extremamente inefi-
ciente, uma vez que o número de partições a serem avilidas é 2n - 1, sendo
n o número de objetos em consideração. Desse modo, para uma amostra
pequena, com apenas 10 objetos, terí.amos que avaliar 1C23 partições; se a
amostra fosse de -40 objetos, o número de partições a serem avaliadas é da

\Júiveraid..<11 FtdrruJ do Luvr..a • Oep""1u.mo11to de C lD nci"" Ex..ta.a - L"vr1U-MG 28


·.

,.

~si Rwnl&o de. llDRAS e lo• S!!;AGHO • 7" 1 l de Julho d• 2003

·q· ::\f:
r

!l "tit~
::.: ~, [:: :. ::·.~-;,.~~:~ . .::~·.:·::.::::: ;l.:~:i.:.:.:-. :;:·:~ :l~: :n~~:.:.;.;.:;i;~(~i.:..\';.r.i,:·
\
1 ~~rckJi1*1'.
; ,;,.J,l=,,,~~····~"'"'·'·"'""~''·
' Y·~·,.:~·.~:.'i1·;?:·:...~.,~:,:;.·rt~i~.·;:~·...,':·1.·:.·•1(:·.~,. -:1·i.,~1·. ·c.g~:·~·,_f·~t·;.~:·;~~·,:.·;1.·.·~.~·.~:.:.r~. 1.:~.·~.?.{.;,;;~.·~·.·~.~:6.t.;r.1·.:il. 1.~.:1 !J}j~~Eiir~f~qít~t~~rd.·.
1 1
~~\~1t\~~\~H~:~&~~~~w~n~~~~
1
. ....
·.1·:··.·..'J . .•. ..... . . .i:.::..
~;,, .. . ·.
: ,.

Figura 1.10: Distãncia entre do is grupos calculadaº'3 pelo método do vi.únho


mais longe e pelo méto do elo vizinho ma.is perto

ordem de 10 12 • Do ponto de vista computac~ona.l, tal método é de aplicação


inviável para a.mostra.g não muito grandes. ·

Os métodos de partição resumem algoritmos que permitem é!- identi-


fic.:a,ção de boas partições segundo critérior; de qu.alidade específicos.

Método das k-méd.ius

Para diminuir o espectro das possíveis partições, o método das k-média.s


~zy, que se estipule a priori o número de grup~~ que devem iier gerados.

. · .. ,
~ '
,
!
Critério de qualidade da partição

Denote por Xi= (Xi!, ... , Xip) T o vetor de observações do objeto i.

Os métodos de partição buscam encontrar a partição cujos . ~ ap-


resentem alta homogeneidade interna (observações parecidas) e que sejam
diferentes entre s1. Os critérios -de qualidade procuram a.valia.r essa. pro-
priedade.
O critério empregado pelo método das k-médias basei0rse na. partição

UnivoTOidade Federe.! do Lavra.o - o ·opnrtn.monto de Oi,ncin.o Exalas • Lavr..,,.MO 29


,.

~ .. ' '

-'8~ R.e1rnílo d6 JlBltAS e 10• SEAOJlO - 7 & li de J11JJ.o de ~003

'. Tabela 1.17: Partições de quatro objetos

Partição Grupos formados Número de grupos


1 {A} {B} {C} {D} 4
2 {A,B} {O} {D} 3
3 {A,C} {B} {D} : 3
4 {A,D} {B} {C} 3
5 {B, C} {A} {D} 3
. .l fi {B, D} {A} {O} 3
7 {O, D} {A} {B} 3
8 {A,B,C} {D} 2
9 {A,B ,D} {O} 2
10 {A,C,D} {B} 2
11 {B 1C,;D} {A} 2
12 {A,B} {C,D} 2
13 {A,C} {B,D} 2
14 {A,D} {B,C} . 2
15 {A,B,C,D} 1

da soma de quadrados total de uma análise de variância, tal como empre-


gado ~o Método de Ward. O critério de qualidade adotado no método das
k-médiaB baseia-se na minimização da soma de quadrados da partição, tal
~ definida em (Ll). Uma partição será considerada ótima se minimizar ;
SQDP. ·

Algoritmo de fonnação dos grupos

Pàra ilust~ , um algoritmo utilizado no método das k-médias, considere


.
<:.,,
os dados padrori:iza.dos
• .
da 'rã.bela 1.9. •Admita que desejdl'.Oos formar dois
grupos.

O algoritmo começa com a .formação d~ uma p~tição inic·al. Uma


maneira de obter essa partição é adotar ~___,-@~ co~E.QP-~ ~
,~t-id~,_.,t-ax.@ém~~n.Q_~i.n.a.@.s- sementes (por exemplo, as duas primeiras do
banco de dados 1 no caso, SJRP e RP). A partição in icial é obtida a partir
das distii.ncias entre cada observ-d.Ção e a.'J sementes. Desse modo, cada ob-

U11íverald1>de F\?denu de L1>vr..a - Depiu-tD.meuto de Ci!11ci"4 Ex11t..., - W.vru.o -M C 30


.--,.

' ~a• ll cu n; llo da nBRA S e 1 o 0 SE A GllO - 7 a 11 de Julho d e ~ 003

1
1 :-;ervação pertencerá ao grupo com a semente mais próxima. · No . exemplo,
SJRP gerará a formação inicial do Grupo 1 e RP do Grupo 2. As distânciaB
' euclidianas entre cada p onto e as sementes estão na Tabela 1.18.
'
Tabela 1.18: Distâncias entre os pontos e a:i. sement~s

Distância euclidiana. Grupo mais


Região. d(ponto, SJRP) d(pouto, RP) próximo
'
\ Bauru 0,55 1,05 1
CampinM 2,74 2,27 2
Sorocaba 2,37 2,17 2

A análise da Tabela 1.18 sugere a segulnte formação dos seguintes grupos:

Grupo 1: SJRP e B <J.uru,

Grupo 2: RP, Campinas e Sorocaba.

A Tabela 1.19 apresenta um resumo dos grupos formados. A SQDP


corre~pondente é 5,30. P or se tratar de um grupo inkial, é bem poss(vel que
· tam partições melhores do que essa. ü~g~~p~o~
~~-- -----
por bas§__a d ~tância entre e a obs rvaçª9.-_e os_Y.etores médias dos gru o ,
~ ,...- .____ ~
denominados de centróides. A Tabela 1.20 traz esses dados.
r---.---...___- ~,,.--.-

Tabela 1.19: Análise da partição inicial

Grupo 1 Grupo 2
Região Z1
'7
ú2 Região Z1 Zz
SJTI.P -0,66 0,85 RP -0,07 0,81
Bauru -1,07 0,47 Campinas 1,53 -0,7U
Soro caba 0,27 -1,33
Média -0,86 0,66 Média rr,-1..0°,') -r 010-r
Variância 0,08 0107 Variância 1,,2~. ' Y,lU ~
n 2 2 D.
1
'3 3
SQDU) 0,08 0,07 SQD(j) 2,57 2,58
SQDPa.rt 0,15 5,15

Un; vcrnidnde Feder1>I de J,iivr""' - D cp<U't o.mcnt o de Ci!ndo.:i E x 1>to.o - L1>vTM-MG 31


48ª 11..,1.rnilo dlL llB'llAS a 100 SEACfiO - T" 11 do Julho de WOS

Tabela 1.20: D.istfi.ncirui entre os pontos e as centróides

Distância euclidiaru.L Grupo Grupo mais


: ;<
RegiãD até a centróide próximo
G1 G2
SJRP 0,28 -1-,ê-3- lI 23;
1 1
IlP 0,81 };-J:-4- O, ?-11 2 1
Bauru 0,28 -i-;-s-s- 1, (:,., 1 l
Campinas 2,80 l-;-1-4- I , s~ 2 2
Soro caba 2,29 -1-,42 1, 1)) 2 2

Notamos que R.P está. mais ,próxima da centróide do Grupo 1 do que da


centróide de seu próprio grupo' (Tabela 1.20), o que sugeri.! que ela está em
grupo errado. A Tabela 1.21 resume o que acontece a.o rnuJar IlP de grupo.

···.Tabela 1.21: Análise da segunda partiÇão

Grupo 1 Grupo 2
Regifw Z1 Z2 Região Z1 Z2
SJilP -0,66 0,85 Campinas 1153 •.·-O 179
Bauru -1,07 0,47 Soro caba 0127 -1,:33.
IU) -0,07 0,81
Média -0,60 0,71 Média 0 ,90 -1 OG
' .
· Variância 0,25 0,04 Variância 0,79 0,14
n 3 3 n · 2 2
SQD(j) 0,50 0,09 SQD(j) 0,79 0,14
SQDPart 0,59 0,94

~o~p o2 -élQl-9 -Qru_P-o_l, notamo31 urna grande di}nÍJ}ui__ç~o


e.a SQD.P,_que p~sa de _5,3.Q_p,ara:.1 ,53. Isso indica que a nova partição é,
melhor do · que a anterior. ·
O próximo passo da análise é procurar identificar nov·cU:l mudanças que
possam levar a uma melhora na partição. Para tanto, calculamos a distância
entre cada observação e as centróides dos dois grupos. A análise desses
dados, Tabela 1.22 1 não sugere nenhuma alteração adicional.

Univeroidi.dc l'"~dcrll.l do 1.·..vru.:i. Dop1ut1W1t11lo de Cii n ci.., &:at&W. l.&vru-MC 32


~a~ lleunill.o dn llDllllS e IOg SE AO H.O - 7 " I l cc J u lho de 200J ·

..
Tabela 1.22: Distâncias entre os pontos e as centróides da segunda partição
1
Distâ.ncia euclidiana Grupo Grupo maia 1
1

Região a,té a centróide próximo 1


G1 G2 .,
1
.,
SJRP 0,15 2,47 1 1 i
RP 0,54 2,11 1 1
Bauru · 0,52 2,49 . 1 1
Campinas 2,61 0,69 2 2
Soroca.ba 2,22 0,6!) 2 2

A escolha do número de grupos

Urna r estrição na aplicação do método dM k-médias é a nece~mid~de de


He d efinir a priori o número de g.!:.!:!QOS a serem formados, o que nem :-iem-
pre acontece em sit uações rea.is. O que fazer quando não sabemos quantos
grupos existem nos dados?

ara identi.fi.~ do núme o--.......__...


~-...._..r
de upos a serem formados é...nec
_____,,,,,,- __,,
sári
---
~
it i 1iza ção do a.1 oritmo para a obtenção de nartições com diferentes nú.roer.os
' - - --- -- ------ ~ ---- .- .t-"'--._....- ~ ,/ -- - ~
e grupos.
forme
Em seguida, ~
...~ ,,_ --....~
aumenta-se
- ~alisar
sugere-se - .........._,q
o número de J.:'nartiç·ões.
comportamen~o
- _,
~.
·-
da SQDP
- CQ.ll-
.
---. - __.,,.- ,,.,,,,. _,,. ...._

Método das k-medóides

O método das k-medóides 3 é um método de partição baseMlo numa·' matriz


de di:;tância entre objetos. A medóide de um grupo é definida coi:no o
membro do grupo que possui a menor distância euclidiana média:. em relação
a.os deroa.IB membros do grupo. O critério de qualidade utilizado no método
consite na. minimização da soma da.s diBtâ.ncias entre as · observa.ções . e as
respectivas medóídes.
Sendo k o número de grupos a serem formados, o algoritmo l.>usca. iden-
tificar k pontos que sejam representativos dos grupos (medóides). Desse .·

3
Kaufrn:ui e Rousseeuw (1990) aprezentam uma boa descrição do método.

U>1iveroido..de Federo.! do Lnv r M - Dc p M\o.mcn\o do Citnciru Exatu • L 1wriu-MO 33


4Bii Jltuioil.u ·d"' llllllAS e 1()11 SEAOllO - 1 .. li de Jul ho d• ~ o os

· rnodo,·p critério de qualidade do método é dado por:


n
G= 2.:Gj
j=l

onde O é o critério de qualidade e dlm1, j] representa a d!stância entre a


.n;i~dqid,ç i (mi) e a observaçãoj. Uma vez identificados essu> pontos, aloca-
8e cada objeto ao grupo de med6ide mais próxima. ·
Apresentaremos o algoritmo descrito na Seção 2.1 de Chu et al. (2002).
Ilustraremos o algoritmo util.i.zando os dados da Tabela 1.10.
Admita que desejamos formar dois grupos. O primeiro pa.'lso consiHte
num chute inicial para as 2 medóides. Admita a escolha de Campinas e
Bauru. A Tabela 1.23 traz as distâncias entre cada observcLÇão e as medóides,
a distância mínima e a indicaç~ do grupo a que cada obsel-vaçãoperte~ceria
se adotássemos essas medóides.

Tabela 1.23: Distâncias entre cada observação e as medóides inicia.is

Me d ó ide Distânc ia ,Grupo


Região Campinas B;LUru mínima a.locado
SJllP 2,74 0,55 0,55 2
H.P 2,27 1,05 1,05 2
.Bauru. 2,89 0,00 0,00 2
Campinas 0,00 2,89 0,00 1
Soro caba 1,37 2,24 1,37 1
e 2,97
- -

Por se .tratar de uma escolha inicial, é possível que existam agrupamentos


melhores d'o que o apresentado. Para checar isso, sugere-se <tva.liar a. escolha.
de c<tda .medó+de separada.mente. Inicialmente, manteremos Campinas como
medóide e subs.titu.iremos Bauru pelas outras regiões. A cada substituição,
determlllil.IDOS (]. Caso encontremos algum Vã.lar menor do que 2,97, deve-
. mos substituir Bauru pela região que acarretar. o menor C A Tabela 1.24 .
ilustra ~sse processo.

AnallBando os dados da Tabela·l.24, vemos que a escolha de SJRP como


medóide minimiza C. No próximo passo, mantemos SJRP cprno medóide e
~mbstituiinos Campinas (Tabela 1.25). ·

U11ivoroidud• l"rdor ..1 de Lllvr"" • DcµurtlUn~nto d• Ci!lncilUI l':x11t1U1 - Lnvrna -MG 34


\ ·

\
\
\ 48ª Rcunillo da llBilAS e l e>ll SEAGJlO - 7 a l l do Julho do 1003

1
1 Tabela 1.24: Substituição da primeiréJ. medóide
\
Medóide Distância Grupo
, .
Região Campinas SJRP mm1ma alocado
SJRP 2,74 0,00 0,00 2 .,
RP 2,27 0,59 0,59 2 .,
Bauru 2,89 0,55 0,55 2
Campinas o,oo 2,74 0,00 1
Soro caba 1,37 2,37 1,37 1-
e 2,51 (
Regiã,o Campinas RP
SJRP 2 ,74 0,59 0,59 2
RP 2,27 0,00 0,00 2
Bauru 2,89 1,05 1,05 ' 2
Campina.3 0,00 2,27 0,00 1
Soro caba 1,37 2,17 1,37 1
e 3,01
Região Campinas Sorocaba
SJRP 2;74 2,37 2,37 2 ·
RP 2,27 2,17 2,17 2 ..
Bauru 2,89 2,24 2,24 2
Campinas 0,00 1,37 0,00 1
Soro caba 1,37 0,00 0,00 2
e 6,78

Observa.ndo a Tabela 1.25 nã.o observa.mos nenhuma melhora em relação


às medóides anteriores. Na verdade o valor de C para M metlóides SJRP e
Sorocaba é o mesmo observado para CampinM e SJRP. O que nos· fkul~a .
escolher qualquer um desses pares como medóides. Note que os grupos ·
formados sobre as dlli.l.3 e3colhas são· exatamente iguais.

1.4 Comparação dos métodos

· A cada passo do método da.s k-médias o algoritmo checa se os objetos estão


alocados da melhor maneira possível, se não estiverem eles podem 3er re-
alocados. Essa é a principal vantagem do método, que nã.o é compa.rtilha..da.

Univorsidu.do Fodcrrd de LnvrM - Dop<U"~o.monto de Oillncio.o ExatM • LnvrM-MG 35


• 1
1 '
i
· I
411ª lle'uull<> d~ llUHA!'l e 10ª SEAOILO • T"' 11 de Julho do 200!!

Tabela 1.25: Substituição de Campinas como m2dóide

Medóide Distância Grupo .


. Região SJRP Bauru mínima alocado
SJRP 0,00 0,55 0,00 1
IlP 0,5!) 1,05 0,59 1
Bailrti 0,55 o
00 ' o,oo 2
Campinas 2,74 '
2,89 2,74 1
Soro caba 2,37 2,24 2,24 2
e 5,5 7
Região SJilP RP
SJIU) 0,00 0,59 0,00 1
RP 0,59 0,00 0,00 2
Bauru 0,55 1,05 0;55 1
Campinas 2,74 ' 2,27 2,27 2
Soro caba 2,37 2,17 2,17 2
e 4,99
Região SJRP Sor o caba
SJRP 0,00 2,37 0,00 1
RP 0,59 2,17 0,59 1
Bauru 0,55 2,24 . 0,55 1
e Ulllpi na.s 2,74 1,37 1,37 2
Soro caba 2,:n 0,00 0,00 2
o 2,51

pelos métodos hierá.rgulcos. Nos métodos hierárquicos, uma vez que dois
objetos são agrupados, eles passam a . pertencer ao mesmo grupo até o final
do procedimento. Não se leva. em conta que a introdução de novos elementos
nos grupos pode fazer com que um ponto acabe ficando ma.is próximo a um
agrupamento vizinho.

Os métodbs hlerárqllicmi, por sua vez, não requerem que se conheça


a priori o número de grupos a serem formados. Essa vantagem sugere a
, utilização de um método hierárquico de agrupamento pa~·a determinação
de um número inicial de grupos, para a posterior utilização do método das
k-~édi~ ; Nesse cMo, ·recomenda-se que a adoção dos métodos do vizinho
mars longe ou de Ward, uma vez que esBes tendem a formar grupos mais
ho~ogêneos interna.mente. O método de Ward tem a vantagem adiciona.! de

U11iv•roid~s"FwdcriU d• L"vru • DepU\IUllenlo de Clincill.ll ExAt._.. 4vraa-MO 36


· 1a> llcu11ilio da IUJRAS e 10° SEAGllO - 7 11 1 J de Julho de 2003

' utilizar como critério de agrupamento a mesma medida que é utilizada. pelo
' método das k-m~clia.s.

O método das k-méclias é mai.s sen.sível à presenç.a de .valores :1berrantes 1


faze ndo com que sua prévia identificação seja necessá.ria.

A éLplicação de métodos hlerárquicos a gra.ndes massas de dado;· pode aer


proibitiva, tanto em termos computacionâis, como, muitas vezes, nu. análise '
dos resultados obtidos. Nessas circunstãncia3 o método da.s k-médi;L1 parece
:;er mais indicado.

Uma recomendação que deve ser seguida por aplica.dores da.~ técnicas de
agrupamento é, na. medida do possível, utilizar ma.is de um método sobre
um mesmo conjunto de dados. Posteriormente, através da comparação dos
grupos formados, pode-se adotar a solução que se apresentar melhor.

1.5 Validação e interpretação

Validí:!.r o agrupamento significa. certi.ficar_.se de que os grupos realrnenté


diferem. Nesta etapa da análise, podem ser empregados vários tesks es-
tatísticos desde univariados para comparação de médias até testes multi-·
variados, como por exemplo a MANOVA (ver John.sou e Wic.:.hern, 1998,
por exemplo), no qual busca.se verificar se há diferença estatisticamente
:significante entre os vetores média de cada grupo. A análise discriminante
é uma outra técnica multivariada que pode ser utilizada na yalidaçãu dos '·
: o.grupamentos.

1.5.1 Correlação cofenéti ca

A corrcl;1ção ·cofenética. é uma medida de vc1,lidação utilizada, principalmente


nos métodos de agrupamento hierárquicos. A idéia bá..'3ica é realizar uma
campa.ração entre as distâncias efetivamente observad as entre os objetos e
distâncias previ'3tas a partir do processo de agrupamento.

Para ilustrar a obtenção da. distância prevista 1 considere a Tabela 1.1:3,


que resume a aplicação do método vizinho mais longe aos dados do ExemÍJlo
1. Observe que SJRP e Bauru foram unidas a uma distância 0,55, essa será
é1 di::itância previtita entre essas duas regiões. No Passo 2, RP foi unido ao
grupo anterior, isso faz com que a distância prevista entre RP e SJil.P e

U11 ivc r!t idadc Fo-dera.l de L-Avra.o - Oeput a..m e nto de Ci~nci&.'\ Exala.a .. LavrM-o-MG 37
-- \

~
---;. d,
,.

48 1 llcunill-o elo. RBll AS e 10• SEAOltO • 7 o. 11 de Julho de 200:1

entre RP e Bauru seja de\05. Procedendo desse modo, podemos conatruir


a Matriz Cofenética (Tabela 1.26) que resume todas as distâncias previstas.
\
Tu.bela 1.26: Matriz Cofenética
' Deinter SJRP RP Bauru Campiri~., S.o rocaba
SJRP 0,00
RP
Bauru
1,05
0,55
º)ºº
1,05 0,00
Campinas 2,89 2,89 2,89 0,00
Soro caba 2,89 2,89 2,89 1,37 0,00

Num bom agrupamento espera-se que a.s distâncias previstas respeitem


a ordem determi.ruLda pelas distâncias observada.s, ou seja, se duas ob-
servações estão próximas, espera-se que a distância prevista entre elas seja
pequena. Para avaliar a ocorrência desse comportamento, ·define-se a .E2l:
relação cofenética como sendo a correlação entre as distânCÍ(J..'l efetivamente
observadas e as previstas.

A Tabela.1. 27 apresentu, lado a lado, a distâncias. obs~rvadas no e.xemplo


(Tabela 1.10) e as a.presentadas na matriz cofenétíca. No ca.':lo, a correlação
cofenética foi de 0,95, indicando um agrupa.menta de boa qualidade.

Tabela 1.27: Comparação da matriz de distâncias e a matriz cofenética

Região distância distância prevista


SJilP RP . ·. 0,5!) 1,05
SJRP Bauru 0,55 0,55
SJRP Campinas 2,74 2,89
SJilP Sorocaba 2,37 2,8!)
RP Bauru 1,05 1,05
IlP Campinas 2,27 2,89
IlP Sorocaba 2,17 2,8!J
Baur u Campinas 2,89 2,89 .
Bauru Soro caba 2,24 2,89
CampinaB Sorocaba 1,37 J ,37
Correlação cofenética 0,95

Univcr9ida.de F'cdcrn.l d e LnvrM - Dcµartn.mcnlo de Ci~uciti.3 Exaln.n - Ln.vrU!J-MO 38


\ ·IA 1 fl.cunil\o d" RBRAS e IOQ SEAGRO • 7 & 11 de Julho de 200!1

'"" 1.5.2 Gráfico da silhueta

O grcí.fico da silhueta é um procedimento descritivo para verificar a qualidade


dos agrupa.mentas form.a.dos 1 . A idéia. do método é verificar se um ponJ2_
está mais próximo dos elementos do Beu próprio giupo ou de elementos de
!QUPOS vizinhos. Ele baseia-se no cálculo de duas medidas: ~a distância
média entre o objeto i e os elementos de seu próprio grupo e b(i), a distância
média entre o objeto i e os elementos do grupo mafo próximo do de i, que
não seja o seu próprio grupo.

Seja G( i) o grupo que contém. o objeto i, admita a existência de nG(i)


observações ne8te grupo. Temos então que

:z= t41
') jEG(i), jf:.i
a (t = - - - - - -
. nG(i) ~ 1

onde chi é a distância euclidia.na entre ol:! objetos i e j.


Para cada grupo difere nte de G(i), determine a distância média entre
sem; elementos e i. Defina o grupo H(i) como o de menor distância média
entre seus elementos e o ponto i, admita que a cordinaJidade de H(i) seju.
n H( i). O grupo H( i ) é denominado vizinho de i. Assim, temos

:z= dij
b(i) = jEH(i), jf;i
nH(i)

O valor da silhueta no ponto i é definido 2or

.. b(i) - a(i) .' .


s(i) = max:{a(i), b(i)} ·

Essa medida reflete quão adequada foi a alocação de i em sem grupo. Note
que s(i) é um número que varia entre -1 e l. Valores próximos de 1 indicam
boa aJocação do ponto, uma vez que, nesse caso, b(i) >> a(i); por outro
lado, valore3 nega.ti vos sugerem uma.
má. alocação, uma vez que o ponto .
e:;tá, em média, ma.is próximo dos elementos do grupo vizinho do que de seu
próprio grupo.
~um bom texto sobre este gráfico é S-plus(2001).

Univcr~idndo Feder&! de Lavna • Dopo.rtlllllor.to de CiõnciM . EJtiltM • L~v1M-MO :m


•8ª fu:un il.o. dA fiBllAS ~ !!)li SEAGJtO - 7 a. .11 dt Julho de 200!1

Coxri.o' ilruitr~ão, retomemos o agrupamento obtido pelo método das k-


medóides. Tínhamos a formação dos seguintes grupos: G1 =(SJRP,RP,Bauru)
e G2=(Campin.as, Sarocaba).

A Tabela. 1.28 apresenta o resumo dos cálculos necessários :para a deter-


JJ?.inaç[q, da silhueta. Por exemplo, para SJRP, temos

a(SJRP) = O, 59 +O, 55
. 2

Tà.bela 1.28: Cálc.:ulo da silhueta

Região a(-i) b(i) s( i)


SJRP 0,57 2,56 0,78
U.P 0,82 2,22 0,63
Bauru 0,80 2,56 0,69
Campinas 1;37 2,63 0,48
Soro caba 1,37 2,26 0,39

Analisando a Tabela 1.28, percebemos que todos os valores da silhueta


sã.o positivos, o que indica uma boa a.loca.ç ão da.s regiões aos grupos.

Em grandes amostras, pode ser inviável a aruí.lise de cada valor de sil-


hueta encontra.do. Nesse caso, recomendarse a construção de um gráfico que
permita a análise geral dos resultados.

O gráfico da Figura 1.11 é denominado de gráfico da silhueta. Para ~ma


construção·, devemos dividir os opjet'o's em grupos, de.acordo com o re~ultado
da análise de agrupamentos. Em ca.da grupo, ordenamos os objetos em or-
dem decrescente segundo o valor da silhueta. Cada objeto será representado
por uma barra horizontal, cujo comprimento é o valor da silhueta. Entre
um grupo e outro, reêomenda~se deixar um espaço. Analisando o gráfico,
chegamos a coridusões equivalentes às tiradas da a.rui.li.se da tabela:

1.6 Interpretação

Na fuse de interpretação dos resultados, busca-se obter u..ma caracterização


dos grupos . Nesse momento deve-se ressaltar as diferenças e semelhanças

40
~ó~ llcunil!D da HERAS < JOU 3E:AGHO - 7 " J l de Julho de 200:1

~:;J,.f?:pii'
·' s.~~ro(f
\eRi')
. .. ·:.·,

.
.sciocabâ
:. :. ·:· -~

~~.·~~i.:.'

Figura 1.11: Crú.fico da silhueta para os dados do Exemplo 1

encontradas nos diferentes agrupamentos. Para isso, é necessano lançar


mão de técnicas descritivas (medidas descritivd..S e gráficos) e eventualmente
utilizar os resultados . dos testes de validação como ba.li~a da interpre!a,çã.o.

' 1.6.1 Representação gráfica de casos

Para facilitar a interpret<LÇão dos grupos, pod~se utilizar representações (


gráficas multivariadas das médias observadas para as variáveis em cada
grupo. Como ilustração, ut ilizamos os resultados da aplicação do método do
vizinho mais longe aos dados padronizados, obtidos a partir da Té.Lbdri: 1.29.
?oram forma.dos três grupos: Gl:(GSP, SP), d2: (SJRP, RP 1 Bauru, SJC 1
Campinas, Sorocaba) e G3: (Santos). A Tabela 1.30 apresenta <Ui. uiédias
observd.da.s em cada grupo. Através da. aná.lllie desses dados, notam<?::i'.'
1
que

o.) G 1 caracteriza-se por possuir as ma.is altas taxas médias de Homicídio


doloso, Roubo e Roubo e furto de veículos e a mais balx;:i. de Furtos.

b) G2 possui a..5 menores incidências médiCLS de crime, exceto para l'lirto.

e). G3 destaca-se por possuir eleV(.Ldas ta.xas de Furto, Homicídios dolosos e


Roubo, mas apresenta t a.xa relativa.mente baixa de Roubo e furto de
veículos.

Univenid..de Fedcr&.I de Lavn_, - Depart&monlo de Citncill.:! Exala.a - Lo.vro.a-MO 41


:.1 ·

,• :

!ª~ lw'!t11t.o ~ JlBILAS e JOO Sl~J\GllO • 111. 11 do Julho de 2003

Quando o número de variáveis é muito alto, fica difícil interpretar uma


tabelà ·c oma a 1.30. Nesse contexto, a utilização de gráficos de representação
de casos facilita a observação de semelhanças e di.ssemelhançaB entre os gru-
pos~ ' ;SerãÓ apresentados dois tipos de gráficos, em ambos é conveniente que
os valores máximos de cada variável não difiram muito. Para garantir a
igualdade dos v.i.lores máximos, os gráficos serão construídos com os dados
da 'I~abela 1.31, que foram obtidos dividindo-se o valor de _cada média, pela
maior média observada para a variável.

Ta.bela. 1.29: Tà.xa de delitos por 100.000 habitantes por divisão territorial
das policias do Estado de São Paulo (Deinter), em 2002

Deinter Homicídio Furto Roubo Roubo e furto


dolo::io de veículo::i
SJRP 10,85 l.500,80 149,35 108,:58
PJl 14,l:l 1.49ü,07 187,99 116,66
Bàuru 8,62 1.448,79 130,97 69,98
Campinas .23,04 1.277,33 424,87 435,75
Soro caba 16,04 1.204,02 214,36 207,06
SP 43,74 1.190,94 1.139,52 . 909,21
SJC 25,39 . 1.292,91 358,39 268,24
Santos 42,BG 1.590,66 721,90 275,89
GSP 42,55 797,16 520,73 602,ú::l
Média. 25,_25 1.310,96 427,56 332,64
DP 14,3(i 239,48 330,76 . 275,01
fonte: Secreta.ria de Segurança Pública do Estado de Síi.o Paulo
http://WUJUJ ..ssp .sp.gav.br/estatisticD.3/criminais/, acessada ew 11/02/2003.
S.JRJ>: Sã.o José do Rio Preto
RP: 1Ubeirã.o Preto
Sl)_: Sã.o Paulo (capital)
SJC: São José dos Ciilllpm1
._ OSP: Grande São Paulo, exceto SP

G~á6co de perfil

No ·gráfico de perfil a.s observações de cada grupo 1:Jerão repreBentadaB sep-


arada.mente. No eixo x indicamos as variáveis. O eixo Ja.s ordenadas traz

42
,-

'
\ ~8"' llcur.õ&o da RnrtAs e 10° S G/\G T1.0 - 7 11 11 de Julho de W0.1

.Tabela 1.30:· Médias segundo grupos

Variável Gl G2 G3
Homicídio doloso 43,15 16,35 42,86 '
Furto 994,05 1369,99 . 1590,66
Roubo e furto de veículos 830,13 244,32 121;'90
Roubo 755,n 201,22 275,89

as escalas de medida. Cada. média é reprcBentada por um ponto nos el:xos


cartesianos. Unindo-se os pontos obtêm-se os perfu de cada grupo (Figura
1.12) .

Figura 1.12: Grifico de perfis para os dados da Tabela 1.31 .

A Figura 1.12 ilustra bem as conclusões tiradas anteriormente.

Gnífico radar

O gráfico radar deve ser construído a partir de um círculo. Cadn. V'J.riável


é representada por um raio, esses raios devem estar distribuídos tiniforme-
mente. O valor da vari.á.vel será. o comprimento elo re5pectivo_raio.
A ·Figura 1.13 ilustra o gráfico radar conatruído para ao ip.édias dos 3
grupos. Quanto maior o raio, maior a incidência do crime.

Uni'lcr>id&de Fodou.l do La.vrn• - Dép!Utn.l'lltnlo do Gitncfo~ E>eP.ta.:i - La.nM-MG . 43


.i.s.i. llcuniil.o do. RiHlAS e 10° SEAO llO • T " 11 de Julho de '.:!005

Tabela 1.31: Médias reescalonadas

Variável 01 . "02 03
X 1 : Homicídio doloso . 1,00 0,38 0,99
X2: Furto 0,62 0,86 1,00
X:;1: Roubo e furto de veícufog 1,00 0,27 Ll,36
X4: Roubo 1,00 0,29 0,87

·····~~<

:i3,ég:~e.'',~,;1g:ªgé~.;x·~.\E;.:

Figura 1.13: Gráfico radar para os dados da Tabela 1.31

1. 7 Aplicações

Nesta seção apresentamos algumas aplicações de análise de agrupamentos à


solução de problemas reais.

1.7.1 Método do vizinho mais longe

Apresentu.inos a análise de dados executada por Barroso e Gabriel, (1996),


que uti1izou o coeficiente de correlação como medida de similaridade.

Define-se como agricultor familiar moderno a unidades de produção


voltadas prioritariamente para o mercado interno e cujo tra.balho é exercido
predomina.ntt:meHte por membros de uma fumília. Neste exemplo, deseja-

Univer~id ..de Poder") <l• L11.vrll.!I - Depu.rtllJnentu d• Cilinci11a Exc.tiu • Lu.vr....,...MG 44


,.

48' lleuniA.o da llDTlAS e l oP SE/\GHO • 7 o. 11 de Julho de WO:l

se identificar tipologia.s cJ e agricultores f.a.rniliares mugua.ios em função do


uso de estufa. Um aumento no uso da estufa represento. uma melhora rui.
produçáo, uma vez que essa. tecnologÍiL leva, via de regra, a um aumento u.a.
produção. .

Há dados di.9poníve.is :mbre 40 agricultores da região de Salto (norte do


Uruguai), que foram pesquisados ern 1990; 1992 e 1994. Para esses agricul-
tores, obervou-se a ár('.<i. cultivada (m 2 ) sob estufa nesses três períodos.

O objetivo da pesquisa era identificar padrões de comportamentv, U."l-


i;irn, mais importante do que o ta,ma.nho da área cultivada é saber o padrão
dei>sa variável ao longo do tempo: Por exemplo, dois agricultores que apre-
scmta.'>sem um crescimento na área cultivada ao longo do tempo, poderiam
fazer parte da mesma tipologia. Devido a isso, utilizou-se como medida de
8imilarídade o coeficiente de correlação de Pearson: quanto mais próximo
de 1, maior a similaridade entre os agricultores e quanto mais próximo de
-1 1 maior a d.i..s8imilarida dc5.

A análise foi realizada com o a.UX11io do aplicativo SPSS. O deudrogru.rua


(Figura 1.14) :rngere a e:xistência de três grupos.
Admitindo a solução com três grupos, o primeiro grupo conta com 23
agricultores e, em geral, apresenta um crescimento na. área plantada sob
estn:f..'1 (Figura 1.15). O 8egundo grupo é formu.do por 12 agricultores que,
em geral aumentaram a área plantada em )!J92 em relação a l!J90, ma.s
diminuiram essa área em 1994 (Figura 1.16). ' Por fim, o terceiro grupn., com
5 agricultores, a.presenta, em geral um decrescimento na área plantada sob
estufa, principalmente quando se compara. 1992 e 1990. A Figura 1.18 traz
oo comportamentos médios dos três grupos.

\ 1. 7.2 Método das k-médias

Defi.ne-8e como cultura organizD.cion.al de uma empresa os mecani.smo8 de


adaptação e comportamento adotados para lidar com os problema.s de ajuste
ao ambiente externo e de integração interna. E8tá ligada a.O clima existynte
no ambiente d8 trabalho.

5 Para transformar a correlação numa medid.n de ~imila.rid;i.<le b~ta efetuar a segulnte


operação d= 3 - (r + 2), onde ré o coeficiente de correlação. Fn:zendo assim, tem.;s que
rJ V<lria entre O e 2, :iendo O quõ.lldo r = 1 e 2 quando r = -1.

Uni v cr!lidn.dc F'cdcrn l de LnvrQ..!) .. Oepnrto..mc11to do CianciM Exatõ.5 - Lnvro.a-MG 45


~ 8 "' flcunill.o dn ltBltAS e 100 SEA GltO - 7 a 11 de Julho d • 2 0~

.:·-i.
' ~ -~
- ~'<ii

A'i~-
i;_:L°~:
-:.;.~
.. '!i-•
.· .-::rj
··~~·~ ~ "• ' '' · 1.
<~
': · :~~·
·:;:;;:

. ·-~l-!~
j- "1l
": ":!'f-

(: 1;~ ' 1"


:;:;.'Ili:: .:'" •: .. :. r.
:.:.-::: ·-:*·:.- ~-
;s&
. :~f
·-. ;:~ ç~ -~:~:.;
,-~ ~­ :·:~:;.,. ;·:;,:tw $~ ~( .,.: ) ,_ ~ •:
. . :4 . . :. : ~;:.: ,: ... . ...: ·<:::.·· ·;:. •''. ;. ~. : ~: ··• . l
·- ~ -?-:

;/vi
· :·~r; :
. . .i...~:
..:;·
. -:;~' '.
...;:,
:\. :~:;
r:
·t :
" i
·; ·.~".~ .:<·f .
.::J.:. ~

r
T

l~igura 1.14: Dendrograma

U11iwr~id..de l~dorul de L1wru:i - DeplU"tll.lllunto de Ciaucill.!> l:.'l<ll.tllJI - 1.-uvru..:.-MG 46


~ 8 ~ llcuniiio da l1. 8 fl.AS e lOQ SEAGllO - T" 11 do Julho ac JOO:l

1
l
1'
!.
1


1
1
l

Figura 1.15: Gráficos de perfis para. o Grupo 1

r.
'l
.: 1

!;
j

r
l:
----------,-·---~-..,.,.-.,,--,....-..:·-
. .-.-
.. ---------------'
Figura 1.16: Gráficos de perfis para o Grupo 2

Univcroidl\dc Fedcro.J d• L11nM - Doptu"tlllnont o de Ciê!nciM l~x11lll..'l - L11vrM-MO 47


48' Jluu11Jll.o d1o JlUJlAS • 10~ S E AOltO • 1 o. 11 d• JuJl10 do ~003

r --, ~--· - · ·-·- . . ...... . . ... .


,~-·;~, ~ .
~ ~·~·~~-~;..~.~~~~~~~.,.;...,. , .,,;,;.,,;..:.:. ;..;.~;.;.;;.:.,.M,:.:....:..;.;;... ... _ ..... ..:_..;_;..,,,;;;,,.,'r~-._..,,;;...,..,_ .. _ _ ,;;_~,.,-· ........1
i \~pç;ç;):·i·:·.'·· · ....... '". . '. "'""". "···•. ····•"'"···"·"'"'"'""""••• .... ..'''"'"·"'"·········"·-'•'". .!"
.! .>• •·· . .. 1:
·l ~~89,9,9;': 1 1:
·.~!
1i ~t.. *-i':~\909\:j"
~;,q ,f,
.i&ki: J.· ·.:'::·· .
."!
.i, •

·i ~~ 1

1
!
~~si.~.•
f. \t4'-·-"- ·--·.~ .
•[ } :r -::T---- _______... :.: .- i,,"

i
! ::. \ .•OOQi. f 99"''.>-
tAJ;;g ~·-
' °E)9 4 ;

L.............. _.,,,_................._,....,,__ . .,___,,......,_______,_____,__,,,,,_,..,...- .........______,,.,,,,..,_,___________,,,,,,,, ,J .

Figura. 1.17: Gráficos de perfis para o Grupo 3

Figura 1.18: Perfis médios dos grupos

Uui voroiduda Jo'odoro.J de I. uvrl4.0 • Dop1>rlum~nto d o Ciõncill.!I Ex atllJI - 1.u vrlL!l-M...; 48


<a~ ncuniJ\.o dn TlBllAS • JOA SEAGno - 7 11 t J de Julho de ~003

~,

Há. uma teoria que fala. sobre a existência de quatro tipos de cultura
organizacional: :
1

a. Cultura Grupul: tratarse de uma cultura voltada principalmente para 1


1

o ambiente interno, tem como caracterfatica.s gerais a fi~ibilida.de com-


binada com a preocupaçiio com o ambiente interno. S~aa meta.s são
o de!3envolvimento do potencia.! humano e pleno desenvolvimento do
indivíduo.

b. Cultura Sistêmicu: esse tipo de cultura caracteriza-se pela flexibili-


dade e pela preocupação com o ambiente externo. Visa o crescimento
da empr.esa, a aquisição de recursos e a adaptação ao ambiente externo.
Suas metas são o crescimento, desenvolvimento de novos mercados e
aquisição de recursos.

e. Cultura Hierúrquica: caracteriza-se pela preocupação com o controle


e com o ambiente interno. Ela objetiva. o controle das relaçÕC>~'l e dos
processos e visa a estabilidade.
d. Cultura Racional: também caracterizarse pela importância dada ao
controle, mas suas preocupações voltam-se ao ambiente externo. Tem
como meta.s o planejamento e a produtividade.

Diz a teoria que um íJ.mbiente organizacional saudável é obtido quél.ndo


as quatro cultura.ci co-e...'Cis tem de maneira ÍD;tensa.

Barroso, Artes e Kurauti (1991) analisaram dados de uma pesquisa re-


alizada com membros do corpo gerencial de 13 empr~as do setor têxtil
com açõe5 na BOVESPA. A amostra foi composta por 478 funcionários que
deveriam preencher um questionú.rio. AtraYé3 da. análise do questionário
mediar-se o grau da. presença das quatro culturas (de 6 a 30) que era perce-
bido pelo respondente. Nosso objef;ivo é identificar grupos de funcionários
que tenham percepções semelhant.es sobre suas empresas.
A Tabela 1.32. traz aJgumas medidas descritir"'8 para as va.riáveis de
interesse. Note que suas variâncias são muito próximas indicando que. é
desnecessário padron.i.zar <J.5 va.riávei3 para a aplicação do método de ae;ru-
pamento.

O primeiro probk..ma do método das k-médias é a. de.finiç5.o do número


de grupos. lima maneira de :fazê-lo é obter soluções paro. vú.rior~ números
de grupos e através da soma de quadrados da partição decidir se vale a

Uniyeroida.de FcdcreJ de l~tlvrM. Dcµnrtl\1Denlo da Ci6nci e..a E.xata.:s • LavrlJ.3.-MG 49


~ai lleLHoiil<> d11. TlllltAS e 100 SEAOJlO • 7 "' 11 d• Julho de 2003

Tabela 1.32: Medidas descritiv-d.S por indicador de cultura

Cultura Mínimo Máximo Média. Va;-iii.ncia


Grupal 6 30 20,0 19,2
Sistêmica 6 30 20,6 18,8
Hierárquica. G 30 23 ,1 16,0
Raciona.l 6 30 21 ,3 17,6

pena aceitar um número dt:!. grupos mais alto. P ara fazer essa comparação,
utilizamos o seguinte índice

G = SQDP(k) ,._. SQDP(k + 1)


, SQDP(k + 1) '
no qual, SQDP(k) é a soma de quadrados dentro dos grupos da partição
para uma solução com k grupos. Quanto menor o valor de G menor é a
vantagem de se trabalhar com um número maior .de grupos.

A 'I'abela 1.33 traz informações sobre soluções com diferentes números


de grupos.

Tabela 1.:13: Comparação de agrupamentos formados com diferentes


números de grupos
1
1 '
1
1
Grupos SQDP G
1 34.156,5
2 16.109,9 1,12
3 ll.175,0 - 0,44
4 . 9.761,7 0,14
5 9,040,8 0,08
6 8.078,3 0,1 2
7 7.549,0 0,07
8 6.837,6 0,10

A Figura 1.19 ilustra o comportamento do índice G. Note que G estabi-


liza., ao redor de um valor baixo, a partir de. uma sol ução com 4 grupos, isso
indica pouca vantagem ao se passar de uma solução de 4 para 5, 5 para 6 e
ill:i:Ürn :mcei:rnivamente. Isso nos levd a adotar uma sol uçã.o com 4 grupos.

U11iversidl>de F"dernl de Lnvrl1S ·- D e pnrtum~nto de Cibnc\1e> Ex..tu,a - i...v,w;-M C 50

(.
.r \

" 1

48~ Rcuni1l<> da TlBilAS e J o<> Sl':AG llO • T" 11 de Jullio do 2003

Figura 1.10: G él.nho na soma de quadrados da partição

O passo seguinte é éJ. ,-,ü idação ela. a.Ilálise. Para isso, coru;idera.nc.lo cada
grupo t:omo uma. v.most;rQ. de 1.1 .illa. população, aplicou-se um teste F de com-
paração de médias para. w dü. variável. Todos os níveis descritivos. foram
inferiores· a 0,001, indican do haver difercnça1i entre as rnédi;1s dos grupos . .

A Tubela 1.34 traz a.lgnmas medidas descritivas pa.ra auxiliar na inter-


pretação dos grupos. A Figura 1.20 é o gnílico radar construído·com as
médias das variáveis.

Tabela 1.34: Comparação dos grupos - (média± desvio-padrão)


..
Va.dú.vel
Grupos Grupa.l Sistê.mica Hierárquicu Racionai n
1 16,6 ± 2,2 16,9 ± 1,9 20,1 ± 2,3 17,6 ± 2,5 105
2 24 ,6 ± 2,4 25,4 ± 2,4 27,0 ± 1,!J 25,6 ± 2,5 137
3 12,5 ± 2,5 13,7 ± 2,4 15,6 ± 2,7 15,2 ± 3,5 . 44
4 20,4 ± 2,3 20,7 ± 2,2 23,6 ± l,!) 21,7 ± 2,1 192

Observando a Tabela 1.34 e a Figura 1.20 concluímos que os grupos


diferem no nível da presença das quatro culturas. ·Assim, o Grupo 2 é aquele
com os fun cioná.rios que percebem uma forte presença das quatro culturas
e o Grupo 3, no outro extremo, é forma.do por gerentes que, em média, n.iio

Univcr!lido.de Federal d~ LavT M - Dap&T\o.Jlltm\.o de OiOnciD...! T-.::.xntn:J - Lo,vro.!>-MG 51


18• JleuuiiUJ d,. lUIRAS e JOU SEAOJlO • 7 a 1 l de Julho de 200~

identificam a presença das quatro culturas de maneira forte.

1
1

Figura 1.20: Ganho na soma de quadrados da partição

Univcrsidw:lc Fndor..i do L11vr..,, - Deµu.rt1Ulle11lo do Cif11cill:I E:<11l"3 · !.11vrll:l·MC 52


,-

Capítulo 2

i\ _nálise de Comp onentes


Princip-ais

2.1 Introdução

A nálise dP. Gomponente:J Pr-incipai.s é urna técnica, estatística que trans-


formi'1 linearmente um conj unto de p variáveis em um conjunto com um
número menor (k) de variáveis não-correlacionadas, que explica uma parcela
substa.ncial das inforrnaçõçs do conjunto original. A8 p variáveis originajs
(X1, ... , Xp) são trll.IL.'lforrnadas em p va.riá.vé.is (Y1, ... , Yp), denominada.s
componentei; principais, de m odo que Y1 é ;:i,quela que explica a maior parcela
d a variabilidade total dol3 d ados, Y2 ex.plic;:i. a segunda maior parcela e assim
por diante. ·

9s principais objet ivos d a a.ná.lise de componentes ~pa,í s sã.o:

e ~dJ;lÇ - da~~~~~51dO;l_j

e Q__~ç~d liO-@..b.i~ -- es inter-PretáVJ!Ís.--9as,sariáv.el§.;

n 9~~3~n-dlgJe-n-to_d ; es aj_m~~ de_.C9_r!,~la ~~~-.,;eis_.

A análise é realizada com o intuito de resumir o padrão de correlação


entre a.s vrl.riáveis e muita.s vezes é possível chegar a conjuntos de Ya!:iá.veis
que sejam não correlaciollél.dos uns com os outros, levu.ndo assim a um agru-
pamento delas.

53

"
4 8 ~ llcu11i~u du HIJllAS e JOU SgACrtO • 7,. 1 l de Julho do 200~

Algebricamente, as componentes principais siio combína.~ões lineares das


variá.veis origina.is. Geometricamente, as componentes principais sã.o as co-
ordenadas dos pontos amostrais em um sistema de eixos obtido pela rotação
do sistema de eixos original, na direção de vcJiiabilidade máxima dos dados.

A- análiBe de componentes principais q_f!Q~gg ~_s_C?,!P.~E~.Aa ma~riz de co-


va.riância (:E) ou da matriz de correlação (p) de X:1 , ... , XP:.. Não requer qual-
quer suposição sobre a forma da distribuição multivariada dessai; Vdiiáveis .
Segundo Tabachnick e Fidell (2001), se a norm alidade existe, a análise é
engrandecida, i;eniio ela ainda vale a pena.

As demonstrações
deste capítulo sã.o baseadas no texto de Johnson e
Wichern (1998), onde maiores detalhes podem ser encontra.dos.

2.2 Como obter a.S component es principais

Seja x o vetor elas p variáveis originais x T = (X 1 , ... X p), com Cov(x) = :E.
Considere p combinações lineares de X 1 , ... , X P

Yí = l{ X = l11X1 + l12X2 + ... + /ipXp


Y2 = ll X = l21X1 + l22X2 + .. .'+ l2pXp

Entiio ar Yi) = l ~).!J;;;.:. lf ~ 1:Jr-e, :: ê)'e.l ~ , e.',e,.


QçrvJt"i.,_:i:.i·.)._= .9._9_~(!{ x, zJ::51..::=J[E!.i-: ""'- \ ;~) - \e'· t", z... ti l.J ;- "'
(' I
,,,
, 1

As componentes principais são as combina~'.Ões lineares Y1 , ... , Yp não


correlacionadas, cujas variâncias são as maiores possíveis.

· A primeira componente principal_é a combLru.LÇão linear l "[ x que maxi-


miza Va.r(l{ x) sujeita à restrição l{ l 1 = 1. Se essa restrição não é imposta,
pode-se ra;er a V'Miâ.ncia de Yí tiio grande quanto se queira.

A seg_End'!- componente principal é a. combinação linear X que maxi- zr


miza Var(lix) sujeita às restriç.ões tih= 1 e Cov(l[x,lJx) =O.

A i-ésima componente prht~ipal é a combinação linear l"[ x que maximiza


Var(lf x) sujeita às restrições l[li = l e Oov(l[ x, lj x) = O, para qualquer
j < i.

Un ivi:rsidude FodtnJ d• LuvrlUI • Dtµurla.roe11to de Ciêuciua Bxnt "" • Luv rua- M G 54


1
~a• 11.ouniãc d.a 11.BllAS e 1 o0 SE A ORO - T " 11 do Julho de 200l 1
• "Q . !
)<ex · 1
.. ,< i·, · r , ,.-r{', '.
l_. (' • J

Essas restrições garantem que a soma das variâncias das variávei:J origi-!l
p "'/' . o 'j lf
na.is seja igual à s.oma da.s va.riéi.ncia.s das componentes principais e que estas1·
sejam não correlacionadoE. ·
r ~:, ( l r\ e..'11 r , J)
r)'
Seja. :E a matriz de c:ovariâ.n6a associada. ao vetor de variáveis aleatória.s º"'
x. Seja.m (.\1, 0:1), ... , (/\p, o:p) os autovalores e os autovetorr-s ortogonais
padronizados, associacloo> éJ, Il, ordenados de modo que À1 ;:: , À2 ;:: ... ;::
>.P ;::: O. A i-ésima componente principal é dada por

Yi = cxl x = Cl'. i lX1 + Cl'.i2X2 + ... + OipXp, i = l, 2, ... ,p.


Com esta escolha,
- 'J
Var(Yi) = a:T:Eo:i = Ài, i = 1, 2, ... ,p Jo.-1 /) - ; ·,
Cov(Yi , Yj) = o.[:Ecr.i =O, i -:f=j
, , h ;, c-cn\~oco<-.., c1.·,'CI~ oC,·, (!;) ,.· ('(, ;~~'"Ô
J

Para mostrar esse re:; nltado, coruidere a decoID;pOsição espectral da mar


triz :E (ver Resultados 5 e 6 do Apêndice A), isto é,

:E= rArT.

Pode-se escrever a ma triz T, 112 como LJ 1/ 2 = rA 112 rT_ Considere ainda


que.! O vetor ID ::;eja dado por ID = I'Tl. Àssim,

zTIJJ zTr,l/Zr:,1/21 zTrA 112 rTrA l/ZrTz m TAm


lF{ - lTz zTtrTl - mTm .

=
>-:~=1 >.,m7
\-.p 2
wi= l mi


ou seJa, o -v(l..l.or
-1 ' •
max.rmo •
de l T :El
-yrz e' -"1
' •

Considere agora que l = 0:1. Nesse caso

zT:E.i a:T:Ea1 o.T À10:1


7fT = o.! ª1 = o:"[ 0:1 = >.i,
ou seja, o valor má.ximo ocorre quando l = 0:1.

__ , (_: d LT:El ' ' d .


A nalogamente, o vc.W.Or IDililIDO e LTL e "'P que ocorre qua.n o " = O:p-

Pa.ra ·<ili componentes intermediárias, digamos a k-ésima dela.::i, 2 :::; k ,:::;


p - 1, lembre que ela é ortogonal a toda.s as anteriores. I::lse> implica.em que

Unívcrai dnd.c FcdcroJ de L.o.vl'D..1 - Dcptu ln.mcnto de CiandM Exat:M - LClvr~MO 55


1a• Jhu11ilo da JUlnAS e 10º !JF;ACHO - 7 ~ ll de Julho dt 2000

a!Zk =mi= O, para todo i < k e que portanto, .


[ T :El '\'P )... . 2 "P ,\. Z "P 2
_ L..-i=l 1mi _ L..-i=k 1mi < ,\ Lli=k m; _ ,\
-T- - '\'P 2 - '\'P . 2 - k '\'P 2 - k,
l l Lli=l mi .t...,i=k mi .t...,i=k m;,
que ocorre quando lk = ªk·

Para terminar a prova., basta observar que


Var(Yi) = c:t[":Eet; ~a[ ÀiCti = Ài

e que ·

Ass~_, as componentes p.r incipais são não corelacionadu.s e têm va.riâ.ncia.s_


iguah; aos autovalores de :E.

Se todos os autovalores de 2:; são distintos, os autovetores sã.o ortogonais.


Se nem todos Hão distintos, é possível escolhê-los ortogonais

A magnitude de O:ij mede a importância da .'.j-ésima variável para. a i-


ésima. componente principal ..

Volta.rido ao Exemplo l do capítulo anterior, sobre as taxa.'! de delitos


por 100.000 habitantes por Deinter (Tabela 1.29), considere que as variáveis
sejam deuotu.das por X1 a X4, de acordo com o seguinte:

X 1 = Homicídio doloso;
X2 = F\irto;
Xs =Roubo;
X 1 = TI.cubo e furto de veículos.

O vetor de média!! e <L matriz de covariância de x T =


siio da.dos abaixo:
206 -1526 4Hl0
25, 25) 3156)
1310, 95 -1526 57353 -20612 -41428
µ = (
427 56 e :E=
(
4190 -20612 109401 802'12 .
' '
3~2:64
. '
3156 -41428 80242 75628
A dc~composiçiio espectral da matriz :E apresenta as seguintes matrizes de
autov-d.lores e autovetores
188433 o
'
A= O
o
51813
o
o
2327
o
o
J e
(
o o o 15

Unl"l'cnido.dc P\Odcr11I de Luvrl13 - Depurtamento de Ciêuc;""' E:.:,r .:iu - Luvri.b-MC 56


~U 1 llcunillQ dJL IUlllAS e 1 oD SJ;;AG RO - 7. 1\ 11 de. Julho de ~OOJ

...
·r =
O, 029
-01 :no
O, 006 O, 117
o, 8GG -o, 389 -o, 050
-O, 993 J
(
o, 716 0,484
0,496 0,082 .
o, 624 -o, 12.S -0, 768 -0, 073
Essa decornposiç.ão implica em que as quatro componentes principais sej<un
1 dadas por y = r T x, ou eeja, · ·'

1 O, 029X1 - O, 310X2 +O, 716X3 +O, 624X1


O, 006X1 +O, 866X2 +O, 484X3 - O, 125X4
O, ll 7X1 - O, 389X2 +O, 496X3 - O, 768X4
-0, !J93X1 - O, 050X2 +O, 082X3 - O, 07:JX4

1 em que Cov(y) =A.

Já era esperado que oo coeficientes da.s vcl.tiáveis Roubo e Roubo e furto


· de veículos na primeira componente principal fossem grandes, em relação
aos demais, pois as variâncias dessas vadáveis são muito maiores do que a.'3
variii.ncias da.e; outras v-c.J.riáveí.s. Elas representam 453 e 313 da. variância.
total, respectiva.mente.

------ 2.3 Propriedades das componentes principais

Qua.ndo a transformação propoata. acima é v.plicada às vcLriáveiB originaia, a


va.riiincia total (:5oma da..s va.riâ.ncias das variáveis) não se modifica,· isto. é,

au + a:n + ... + O'pp = À1 + À2 + ... + Àp 1


\ .
P .P
L Var(Xj) =}: Var(Yi)-
j=l i=l

Para provM que essa igualdade é válida, considere A a. matriz diagonal


dos autovalores de :E e r a matriz cujas colunas são os correspondentes
autovetores padronizados. Pela. decompmiiçã,o espectral, :E = r Ar T (ver
Rc~ultados 5 e 6 elo Apêndice A). A matriz r é ortogonal, isto é, rTr =
rrT = I. Usando o fato que tr(AB) = tr(BA), temos que
p
2.: Var(Xj) = tr(Il) = tr(rArT) = tr(ArTr) = tr(A)
i=l . .

57
(!;> ltouuil<> du. IlBflAS e !O" SI::AGHO - 7" l i do Julho de 2003

= ..\1 + ..\2 + ... + Àp = 2.:Var(}i).


i=l

Esse resultado implica em que a Vd.l"iâ.ncia total é a mesma, quer para


a.s variáveis originail:l quer para as componentes principais, e portanto a
proporção da Vd.riância total devida à i-ésima COIDpOnente frÍncipaJ é dada
por
i=l,2, ... ,p.

Então; se urna porcentagem substancial da V'd.riabilidade total for expli-


cada pelas primeiras k cor.npo~entes principais, diga.mos 803 ou 903, pode-
se usi-la.s no lugar das va.ri:iveis originais sem perd er muita informação.

R~a_matriLck_@VILriâQd_a d~_ ~ tem p_os_to__r < --p ,_el'.ltão__ a_va.rlª'-ç_ii.o--t.o.tal


·pod_e_serJ_nJ_e_i.:r:a.m_en_te_e:lceplka..dJi p_eJas_r p_rimeiras compg_gente-ª-J1tlgcip_a,La_.

Voltando ao Exemplo 1, temos que as proporções da variância total ex-


plicada pelas quatro componentes principais são:

188433
3 explicada por Yi =
242588
= O, 777
51813
% explicu.da por Y2 - 24.2588
-- . o 213
l

2327
3 explica.da por Y3 - 242588 = o, OlO
15
% explicada por Y4 = 242588
= O, 000

isto é, a primeira componente principal explica 77, 73 da vcLriabilidade total


dos dados, as duas primeiras componentes principais juntas explicam 99,0%,
as trê8 primeiras componentes principais explicam a totalidade da variância,
nada. restando para a quarta componente principal.

Coruiidere as componentes principais dada8 acima, ou seja, Y1 = x, ... , a!


Yp = a:J
x, então a correlação entre a i-ésirna cow ponente principal e a j-
ésima variável é igual a

Corr(Yi,XJ)= ~i,
cx··./>:i i,j=l,2, ... ,p,
. Cfjj
.____ /

isto é 1 Ctij é proporcional à correlaçiio entre Yi e Xj.

Univ~r:1iUu.dc J·Cdc:nJ d~ Lavru...!I - Dt!µ1.1rtu.wt11to de Ciõuciu.a EJ11Cu.l~ ... Luvnw-MG 58


. f:· ..

~ r' ' ' . ,. .' : '· .:.·· . . , . ',1,., .·


.. f . •,
.. ··.·'.
! ... ~· \ • ."

~a• neunillo da RBRAS ' c le>l' S E AO.RO - T /\ 11 do JulL.:u , de WOJ


· ~~~~~~~~~~~~~~~~~~

Para calcular essa corrrd él.ção, observe que


\

'
\
~ÇXi~ = .À" ~(&)~, e fJ~i,--= ,.\. o:k
.1
i
lJ
Seja Xj = x, com l sendo o vetor de dimensão (p x 1) com o valor 1 na
posição j e zero lliL8 demais posições. E,ntão
1,:.
(,.

1~
·-·
Cov(X,,~---..,,------
Cov .
=
(lTx
... o:! x' = LTL:a- = [TÀ·a:· ='.(!a
~~.....__.,./--... ~J.,...,- 1-- t .
· =' .\ ·a··
1)1 ·J--' t-....._ _ _,. l""' ...JJ ...-
· r \ • '•'
•.

'), f v• •
()V
Logo,
-.

No Exemplo 1, as correl'.l:Ções entre ~s variáveis originais e a.s C.:OIDE..ü;


nente::i principa is são dada.:1 por

y1 Yz Y;:i Y4
X1 0,877 0,095 0,393 -0,268
X2 -0,562 . 0,823 -0,078 -0,001
Xa 0, 940 0,333 0,072 0,001
X1 0,985 -0,103 -0,135 -0,001

As componentes princip ü.Í3 também podem ~er obtidu.s a. partir da.s va.riá;,,eis
pa.dronizadaB, ou seja, a p c.n tir da. ma.triz de correlação. .

Ai-ésima componente principal das variá.veis pél,dronizadas z T = (Z1, ... ,


Zµ) com Cov(z) =pé dadv. por ·

oude·V 112 = dia.g(CT 1 , 0"2, •.. , CTp)i êi .é o aut ovetor de p associado ao i-ésimo
autovalor /i-
Além disso, Lkl Va.r(Yi) = p e a correlação entre a j-ésim.a. variá.ve!
original e a i-ésima componente principal é.

onde E:ij é o j-ésimo elemento elo i-ésimo autovetor.

U n iv cr:1id o.d e FedcnV de Lo.vr no - D cpn..rln..rn.anto de Ci~ncia.a Ex l\lM - Ll\Vt"M-MG 59


48ª T!.eu:>illo du RBHAS e J()ll SEAOllO - 1"' 11 de Julho de 200S

··: . • ')
·l ''

Aproporção da V-d.fiabilidade explicada_pela i-ét:lima componente princi:


pai é !i/P·
Para provar.esse resultado basta aplicar os resultados anteriores à matriz
de correlação p.

N.o Exemplo 1, a matriz de correlação do vetor de variáveis aleatórias x G


é dada por

1,000 -0, 444 O, 882 D, 800 )


-0,444 1,000 -O 260 -O 629 .
' l
p= ( 0,882 - -0,260 1,000 0,882 -
0, 800 -0, 629 0,.882 1, 000

Os autoY'd.lores são /1 = 3, 01; 12 = O, 80; /3 = O, 19 e 1 4 ,= O, 01 e · os


autovetore!l correspondentes

0,533) 0, 213J
. -0, 361 0,870
ci = 0, 526 > . 0,440 )
( (
o, 557 -O, 056

0,769) .
-0, 108 '( 0,283)
o,:n1
( -0, 586
-0, 233 .) e4 =
.
-O, G90
o, 586
.

Com isso, as componentes principais, bMeadas nas varhh:2is padronizadas,


são:
Y1 - O, 533Z1 - O, 361Z2+ O, 526Z3 + 0, .557Z4
Y2 - O, 213Z1 + O, 870Z2 + O, 440Z:i - O, OS6Z4
Y3 - O, 7G9Z1 - O, 108Z2 - O, 233Z3 - O, 586Z4
. Y4 - O, 283Z1 +O, 317Z2 - O, 690Z3 +O, 086Z4
em que Z1 ~ {X1 - 25, 25)/14, 36; Z2 = (X2 - 1310, 96)/239, 48; Z3 -
(X3 - 427, 56)/330, 76 e Z4 = (X4 - 3::l2, 64)/275, 01.
O...:u:oeficientes....p.arecidos_das var.iá.v:eis...Homicidio dolo.s..Q,_Ro.uho_.e_RGuso
e__iur:to_de veículw:t...na_pcimeil:a_.componenle_principal _era.ru_ es p erad_os_p.o~is
a.<Lv:ariáv..ei.s_for.a.;w._p.adx.onizadas .e-M-coi:r:elações..entr.e_a.s_~~s variá Yci.s,-duas
a .d ua.~ 1 sãQ..p.lt.IUl..J-Lprôximas, A segunda componente principal apresenta o
maior coeficiente parn Furto.

Uuivor.iidu.de f'l!dci-u.I dt Luvr..,, - D~µtirt..,,-.•nto do Ci~nciAS E.x11t"" - Lu.vru~ -MC GO


- 1

48 1 Reuni ll.o d .. RJ3!U\S e 10'0 SC: AOHO; T " 11 do Julho d e ~OOJ

As porcentagens da Y(l.riü.ncia total explicada pelas quatro compOii!:!ntes


principais são, respectiY<J.mente, 75,2%; 20,0%; 4,6% e 0,2%, aendo ~' por-
centagell.8 acumulada.s de 75 12%; 95,23; 99,83 e 1003 .

. A~ c~rre~;i,ções entre as va.rirJ.veis originais padroniza.da.s e as comi:one~te~


.Jlnnc1pa.is sa.o_

Yi
01924 0,191 0,331 0,025
-0,626 0,778 -0,047 0,028
0,912 0,394 -0,100 -0,061
0,966 -0,050 -0,253 0,051

2.4 Comentários gerais


\

As componentes principais derivadas da. matr:iz de cova.riâ.ncia :E sã.o, em


geral, diferentes das componentes principais derivada.s da matriz de cor- ll
r elação p. Um conjunto de componentes príncipaiB não é uma simples função)'
do outro. ·

Na prá tica, as componentes principais são obtidas a partir da matriz de


covaríânci.a (S) ou da m atriz de correlação (R) amostral e os autovalores
e autovetores obtidos são, na verdade, estimativa.s dos verdadeiros. Se os
d ados seguem uma d~~ ~~r@_al !PJ.illiy.µ:ia4~, OS---ª'-11-0-'@l~ íJ
~isJintQS. e a ~á!is.e~de._com.~nteLpr.i,gçipaJ_~é__fç i a co.m _,,b ~no
E~~a .Y..ei.:Q@Í-m i llliJ.IJ çg.___d a-:Q;!;:J.tr~_de--co_'[Q.ciâgçia.__( iJ), _çgj;.@
a estimativas do~ut~V?-~es---~a~~ey:!~a.s~ as~~~vas Q__e
~ssim.ilba.r:_~ ão mesmas e~co~~nter~g_ de_J)___.

Qu a ndo é melhor usar u p ad r onização?

1. quando as variáveis são medidas em escalas diferentes, · é ma.is natural


u.sar as variáveis padronizadas;

2. se o objetivo é agrupar indivíduos, uma análise de agrupamentos segue


a análise de componentes principais. Daí, diferentes unidu,des de me-
dida podem não ter importância;

Ulliveroidl><le l'ederoJ de LtlvTõ.1 • D e pru-\n.rnen\o de Ci ! nciM ExntM • Lnv r11<1-MG 61

\
4gi lltuniJW <li. llnllAS • JOD SBAOJlO • 7 1>. 11 do Julho do '.JOOS

3. . i;e o objetivo é ~~es (muito comum Illl8 á.reag de Economia


e Biologia), a análise estatística termina com a obtenção da.a compo-
nenteti ·principais. Nesse caso, ?.- ~e!~ ,Q.e -~~ela das componentes
principais é a combinação linear das variá.veis utilizadas, que devem
'-.../
mesmas.
ser as_,,..... ,---,~

Como obter as vnrió.veis originais a partir dns componentes prin-


cipais?

As. componentes principais sã.o combinações lineares das variáveis origi-


nais, dada.e; por :\ '\
y = r T X. '\._ ~ \ \
x" ~ !Y

• l;rt)
Pré-mnltiplica.ndo por r, tem6s , ,__,,- ·
:._f) lJ
ry = rr T x. 'Ç 0\.,.11cJ'·vrid1t t'2.. 1 .i. ..L
C{e' e>-t>-/OV<"i'V-t.V>

e portanto f °'- Jiroy11 2.cJc../ D=>


x=ry,
ou seja, a j-ésirna variável original é dada pela c:ornbinaçã.o linear

011 seja, é a c:ombinaçã.o determinada pelos elementos da. posição j de cada


um dos autovetores.

Assim, as variâncias das VJ.rrnveis ongmai:; podem ser escritas corno


fw+çã.o das variâncias das componentes principai.8, ou seja,
p p

Var(Xj) = 2: O:fj Var(Yi) = 2: alj·\,


<.___, '--" ~' i=l i= l
...... ~.r---J ......

p_s.orjp~~n:elaci naQ..as.

Então, . a-.........;- orcenta1rem da v.e.riâ.ncia


º~""-~
de . . . .um
__......_ "'. . . . . g,_f.l
. - -a~ariiveis
- originai r~ X.;.)
-..._,,.,r / _ __.......-.....__... J

~licadu.
........__....
por urna das...,. .c-....
~.......--......_....--
om,eonentes principais
~..__.r _,,..... ..
~-
(Yi) é dada por

azjÀi l \

Cljj J
ou seja, é o quadrado da correlação entre Xj e }i .

Uuivenid&U.ie ).~der~ de Lo.vrQ.S - Ot:partu.mcuto dà Cié·nciu Ex&ta.ã - 1-Avr~ - MO 62


\ ~8• lteunillo da RBnAS e 1 o• SEA G llO - . 7 n 11 de Julho d• 200!1

\ No Exemplo 1, as porcentagens das variâncias da.'3 variá.veis origina.is


explicadas pelas componentes principa.is (as porcentagens acumuladas estão
entre parêntesis) são (em 3)

Y1 Y2 Y3 Y4
X1 76,9 0,9 15,4 6,8
(76,9) (77,8) (93,2) 100,0)
X2 31,6 67,B 0,6 . 0,0
(:n,6) (!J9,4) (100,0) (100,0)
X3 88,3 11,1 0,5 0,1
(88,3) (99,4) (99,9) (100,0) .
X1 97,0 1,1 1,8 0,1
(97,0) (98,1) (99,9) (100,0)

Para as variáveis padronizadas, são


"\ T
,, 1 Y2 Y3 Y1
Z1 85,4 "3,6 10,9 0,1
(85 ,4) (89,0) (99,9) . (100,0)
'Zz 39 ,2 60,5 0,2 0,1
(39,2) (99,7) (99,9) (100,0)
Z3 83,2 15,5 1,0 0,3
(83,2) (98, 7) (99,7) (100,0)
Z4 !J3,2 0,2 6,4 0,2
(9:J,2) (93,4) (99,8) (100,0)
- \
Quantn..s componentes p rincipais usar?

Uma decisão a ser tomada diz respeito ao nfunero de componentes prin-


cipais que deve ser r etido na análise. Se e.'3 se ~~ o é muito equeno de
ha.Y,_~~~~~agerada da dimensionali.d~s._ G_+n~t;:i.jiífQSm~!9 p ~,.d~
~ er ._p__,e tcii®-
Se o número é grande, pode-se não atender aos objetivos de
redução. Na verdade, essa r edução depende das correlações e da.'3 vcLriânciaa
da.s variá veis originais.
N a literatura existem virias critérios que auxiliam nessa tomada de de-
cisão, ma.'3 estes podem levar a resultados diferentes. Citamos abaixo algum;
de les:

-, e Critério de Ka.iser (1958). Esse critério sugere manter na a.ná.lise a.9


componentes principa.is corrCGpondentes aos autovalores maiores do

Unô v cn idadc F ed or&! de Lan iu - Oep o.r hm onto do Ciõnci M Ex ~\M - Lavr..,,.MC
. \

•s• lteunil!.o du IWHAS e J(}ll S.EAGHO - 7 u 11 de Julho de 2003

que a média dos autov.Uores, se a análise é baseada na. matriz de co:-


,_V'<l.l"i:lncia, ou as componentes principais corre8pondentes aos autow.1-
ores maiores do que 1, se a matriz de correlru::i"'to é u8êLCia. Seguindo esse
critério, pode-se descartar componentes principais com contribuições
importantes;

i;; reter o número de componentes principais que acumulem pelo menos


certa porcentagem da variabilidade total dos dados, digamos 703;

"' reter a.s componentes principais que acumulem pelo menos uma certa
porcentagem da variabilidade de cada uma <la.s variáveis originais, dig-
amos 50%. .

Uma ferramenta que pode auxiliar na escolha .do número de componentes'


principais a reter é o "scree lo ". Nesse gráfico representam-se 08 a utovaJ-
ores. Oommneute, a diferenÇa entre os primeiros autovi.Llores é grande e
diminui para. os últimos. A sugestão é fazer o corte quando a variação pass'!-.
a ser pequena.

Qualquer que Heja o critério adotado, deve-se sempre fazer UBO do bom
senso e avaliar se alguma componente principal com contribuição importante
está sendo descartada.

No Exemplo 1, se o critério pura determinar o n úmero de componentes


principais u. serem retidas na análise fosse o critério de Kaiser, ou o de
explicar pelo menos uma porcentagem da variabilidad e total, digamos 80%,
ou ainda o de explicar pelo menos uma porcenta.gem da variância de cad a
uma da.s variáveis originais, digamos 503, o número de componentes retidas
seria o mesmo tanto para a análise baseada na matriz de covariância como
illl.. análise baseada na matriz de correlação. Esses critérios levdiiam a reter
1, 2 e 2 componentes, respectivamente.

As Figuras 2.1 e 2.2 são os "scree plots" da.cl !:lolu~:ões com base nas ma~
trizes de coz.aríâ.ncia e de correlação, respectivamente . Ambos mostram um
forte decaimento até o terceiro autovalor sugerindo o uso de 2 componentes
principaiB.

Como interpretar as componentes principais?


A interpreta.ção das componentes principais é feita ~ béille º U cor-
relações entre as V'cl.riáveis origi.naí~- e .as componentes _Erincipais ~ nos coe-

Uulvcr~jdMfe }):dc:ru) de Luvru.s - Dc:pu.rlu.rnc:u~o de Ciaucill.!I Exn.tll-9 - Lu.v nu-M C 64


-1-8~ Jlounillo d" RBRAS e 1 OQ SEAO RO - 1 n 1 1 dn Julho d e 2003

·1
l
,,5"; :1
i

Figura 2.1: Scree-plot da matriz de cov-c1fiânci;1

,il
1 ;;,,;,º·,~ ·~ : : :-: ~:,::~:~~:: :::::::::::=:: : ~ :=::·:::; ;~! 'i
"' ~ .-~· ~f~D~ '. j
l· , 'o 5 · .l: ·· ·· .... '<:~'!,~:.:~-., +
j. ·..'r.;;J:._.;,,.,.,. ;;.,,i;,,'''··•·"-:...-.;<:-'·-::.,,:.::::=:·. r;;;;i~·::,!"'.;;•"'f'i"";;.. <"'...-':.....:.;,C; •i
1 .}?,; ft .,z'. i ~:::3', '.-1 ;,§., l
l:. . ,~ . .. . . .. . .... . . . ~~~~~L':~?~:~: . . . . . . ~~~~~J
.....,_

Figura 2.2: Scree-plot da matriz de correlação

U ni v cr3id e..de Fcdc r ti.l de Lnv r~ - Dcpa.rl n.m c nto de Ci ~ ncia..:1 Ex o.t:a,., - La.vra.3- M O 65

. .....,
'48• l~uniila do. IlilllAS o IO'I SEAOHO - 1o.11 de Julho de 2005

ficientes dados pelas combinações lineares que lev~ às componenteB prin,:


dna.is. As correlu.çõeS
~ ~
são medidas as contribuir:Q_es.,...
·~,,,.--...._,.,--......
-._,.-.......,,..-"-,,..__
i ndividuajs ,.de arl_
Jo- ......._,,.- ~
""-/
a """ _/ __,,.

·~el~e~O.t!:'JJ9-ê.S a CQB.tJ:il&ç<io_ .mJJltlY.-Mj ada d· de ~~.......~Jª'vs_i§ ;


cís ·oefi -lentes sã.o ..,-.-medidas
"'--- -~ ,..,.
das ~ contrlbui .ões
-
Wic.hern (1998) sugerem que as interpretações sejam fPibts com base nas
---
_m ulti_v,a.ri.a,da.s.
......._.... ......
~----
Johnson e --
duas medidas, proporcionando a.a visões univatiada e multivaríada. Esses
autores indicam que, na prática, não é comum encontrar-se diferenças im-
portantes.

Voltando :to Exemplo 1, a primeira componente principal obtida por in-


termédio da decomposição -da matriz de covariância pode ser interpretada
como ui:na média entre as vdJ:.iáveis Roubo e Roubo e furto de veículos. A se-
gunda componente principal é praticamente a variável Furto. Se utilizarmos
somente as duas primeiras componentes, a Vd.fi;í.vel Homicídio doloso será
descartada da análise uma v~z que não é importante para a composição
dessas componentes. Isso ocorre porque a V-Mii.neia de Homicídio doloso é
bem menor do que as variâncias das outras três variáveis.

Se a análise for baseada na matriz de correla.ç:Io, a primeira. componente


pode. ser interpretada como a média de Homicídio doloso, Roubo e Roubo
e furto de veículos, os três crimes que incluem a pre.s~!nça da ·v ítima na
ocorrência do mesmo (note que X4 não separa roubo de furto). A segunda
componente principal seria interpretada como a Vd.fiá.vel Furto.

Como, em geral, se utilizam sarnentes as primeiras k componentes prin-


cipais eru uma análllie, a magnitude das últimas componentes determinam se
as primeiras componentes principais se ajustam b e m~ observações. gu· te.
,meµor Jor_9.-PE9~esp....z:ez_~d~1 ....melho.r ..é-QJ1ijµste.

Gráficos das componentes princípais podem mi..xiliar na detecção de prob-


lemas. Muitas vezes a Ll..I Já[ e es_t_atj~tlca..pmssegQ~LJ~Q~ a obj.ê.,.nc;ª9.J:1ª13 com-
.Q.s>~tes p_f inc.ip_ais_e _técnica.s...,q,uc;;._~.xigem...a~ s.uposiçã.o_ü.e_,nor:ma!i,çlªçle, por
exemplo, podem ser de aplicação desejada. Gráfiçps_ do_tipo _Q.=.Q~ploLdq..s
2r~ira.!i_co10p.o.nentes~pr.incipais · po.dem..a~..ness~4.s_~,g.tido. ~ª'-~~J1tar
dete_ç_§L.QJ:úi.er.vações-co_m_gg_mpQrtamen.t-ºª....dife~ciag p,!J ,_po.d~ ~~r~w_o:e a- ·
gráfieos._g~_di~p_eI:são-das...última.s_comperaentes-p r-i.ncip.a.is~-

E:x:em plo 3: os dado:; deste exemplo foram gentilmeute cedidos pelo Prof.
Fábio Gurgel do Departamento de Biologia da Universidade Federal de
Lavrus e doutorando do Departamento de Cíência.s Exatus da mesma uni-
versidade, sob orientação do Prof. Daniel Furtado Ferreira e são referentes a

66
1
\
~8~ ltounillo da RflllAS o 10° SE/\OHO - 1 n 11 do Julho do 200J
'
j
um<L pesquisa que o mesmo está desenvolvendo sobre plantações de melões. 1

As unidades amostrais siio conjuntos de meloeiros, para as quais foram 1


tornadas medidas da.::i :'lcgl.iintes variáveis: NFT (número total de melões 1
por hectare), PT (peso m{:dio dos · melões - em kg), PROD (produção - em
kg por ha), NFP (número médio de melões por planta), IF (ín,dic(; de for-
mato = diâmetro tran.svenial dividido pelo diâmetro longitudinal ideal) e ·
BlUX (teor de açúcar - em graus bríx).
'\ Foram observadas 288 unidades. Os dados de 10 unidades sã.o apmmn-
tados abaixo para que o leitor tenha uma idéia da magnitude dos mesmos.

Tabela 2.1: Algu ns Dados sobre Plantações de Melões


NFT PT PROD NFP lF BRIX í
26250 1,2 28701 1,1 1,1 7,0 \

28750 0,5 16113 1,2 1,1 6,1


35000 1,5 47943 1,4 1,1 8,2
13750 0,8 19366 1,0 1,2 7,3
21250 1,2 24628 0,9 1,1 5,6
22500 1,1 23773 0,9 1,1 7,0
11250 1,4 13526 0,5 1,2 6,3
8750 1,..,r; 11303 OA 1,1 6,3
43750 1,3 51096 1,8 ; 1,2 ti,1
35000 1,1 38023 1,4 ·1,2 6,3

O vetor de médias e as m a trizes de cova.riância· e de correlaçfw a.mostrais


são dados a seguir.

xT = (36300; 1, 37; 3!},451; 1, 48j 1 J l9j 8, 40))

(
tl0866797 -4tJU 80415798 3553 -77 2406 \ .

-4990,077 2009 -O, 021 0,001 0,144


804157!)8 2009 304.001559 3098 39 8811
S= 3553 -0, 021 3098 0,141 -0, 003 0,086 '
-77 0,001 39 -0, 003 o, 006 -0, 027
2406 0,144 8811 0,086 -o, 027 2,458

Ullivcroido.de Fedcra.I do Lovrrui. D eplU' tnruc nto 'do Ci6nci"" Exal"" - LnvrM-MG 67
4~a H.eunilU> d._ Jl(j llAS e lQU S~AGllO • 7 u. 11 de Julho do 200S

1,000 - 0, 18Y 0,48-1 o, 903 - o, 103 O, lGl


- o, 189 1,000 0,416 -0,202 0, 057 0,331
0,484 0,416 1, 000 0,473 . 0,029 0,322
R=
0,993 -O, 202 0,473 1,000 -0, 101 o, 147
- 0, 103 0,057 0,029 -0, 101 1,000 -0, 223
0, 161 0,331 0,322 0,147 -0,223 1, 000

Observando a matriz de covariância, podemos nota.r que a maior va.riância


é a da variável PROD, seguida da variável NFT e estas sã.o muito ma.ioreH do
que as demais. Isto significa que, se fizermos a análise com base netisa ma-
triz, a. primeira componente principal será dominada pela va.riá.vel PROD e a
segunda. pela Vdiiável NFT. Nesse caso, as porcentagens da variabilidade to-
tal explicada por essas c.omponentes seriam 83,83 e 16,23, respectivamente,
explicando a totalidade da Vd.riância. Todas a.s outras variáveis seriam ex-
duida.s da aruí.J.ise. Além disso, eis unidades de medida são diferentes e por
. isso, farem os a análise com baBe na matriz de correlação.

A Tabela 2.2 apresenta os autovalores e um resumo das porcentageDB da


variância total explicada pelas componentes principais. ·

Tabela 2.2: Autovalores e Explicação da Variii.ncia. Total


CP Autovalor Explicação Explicação Va.r:iaçã.o da.
(%) Acumula.da Explicação ,.
1 2,438 40,o 40,6
2 1,572 26,2 66,8 14;4
3 1,101 18,4 85,2 7,8
4 0,583 -9,7 94,9 8,7
5 0,299 5,0 99,9 4,7
6 0, 007 0,1 100,ü 4,9

A Figura. 2.3 é o "scree plot" dos autovalores. As diferenças entre os


pontos correspondem ;).s Vd.riações da porcentagem explicada da.'3 variâncias.
A Ta.bela 2.3 mostru. os coeficientes das componentes principais , ou seja
os autovetores, que devem ser aplicados à.s variáveis padrónfaada.s. A Tabela
2A dá. a.::i correlações entre as va.riáveis originais e as componentes principais
e a Tabela 2.5, as porcentagens das variâncias individuais explicadas pelas
componentes principais.

U11iv~r~idü.de F\:cltru.l de LuvrA!J. Oepu.rtn..Jnen\.o de Ci.lnciv.u Exw..t~ - Luvrlit.!t-MC 68


, .

4Jli ·n~unillo d" RDTlAS r. 10ª SF.A GrtO - 7 n li de Ju lho do 2003

Figura 2.3: Scree-plot

Tabela 2.3: Coeficientes das Componentes Principais


Variável Y1 Y2 Y3 Y4 Ys }/°G ·
NFT 0,598 0,249 0,055 -0,015 -0,274 0,708
PT 0,024 -0,713 0,162 0,331 -0,596 -0,005
PROD 0,459 -0,360 0,267 0,317 0,6 99 -0,004
NFP 0,5D5 0,262 0,057 -0,013 -0,276 -0, 706
IF -0,114 0,006 0,872 -0,475 -0,039 0,001
BIUX 0,254 -0,480 -0,370 '.-0,751 0,068 -0,008

Tabela 2.4: Correlações entre as Vn.riáveis e as


Componentes Principais
Variável Y1 Y2 1~1 Y4 Y.5 YG
NFT 0,934 0,312 0,058 -0,012 -0,150 0,058
PT 0,037 -0,894 0,170 0,253 -0,326 -0,001
......,.
PROD 0,717 -0,451 ' 0,280 0,242 0,382 -0,0.01
NFP 0,929 0,329 0,060 -0,010 -0,151 -0,057
IF -0,178 0,008 0,915 -0,363 -0,021 0,000
BF-TX 0,397 -0,602 -0,388 -0,574 0,037 -0,001

Univ c r:1i.do.de Fcdcrl\l de Ln.vr~ ... Dc p a.r t a..rncnto de Oianciu...i gxn.tn.a ... Lnvru.a-MG 69
.;~\;
. · .....:'!'.
·~'\~r.;\: .
.d~;,·~~~~1tv.ti.
~~
'
481 Ju.unil!..o d .. RBRAS r 100 SEAORO - 7 & 11 de Julho de ~OD3 ~

Tabela 2.5: % Explicada das Variü.ncias Individuais


(acumuladas entre parêntesis)
Variável Vi Y2 Y3 Y1 Ys YG
NFT 87,2 9,7 0,4 o,o 2,3 0,4
(87,2) (96,9) (97,3) (97,3) (99,6) (100,0)
PT 0,2 79,9 2,9 6,4 10 6 ·
l . 0,0
( 0,2) (80,1) (83,0) {89,4) (100,ü (100,0)
PROD 51,4 20,4 7,8 5,8 14,6 0,0
(51,4) (71,8) (79,6) (80,4) (100,0) (100,0)
NFP 86 ,3 10,8 0,3 0,0 2,3 0,3
(8ü ,3) (97,l) (97,4) (97,4) (99,7) (100,0)
IF 3,2 0,0 83,7 U,l 0,0 0,00
(3,2) (3,2) (Bô,9) (100,0) (100,0) (100,0)
BIUX 15,7 36,2 15) :32,9 0,1 0,00
(15,7) (51,9) ! (67,0) (99,9) (1 00 ,0) (100,0)

· Conforme mostra. a Figura 2.3, os autovd.lores vão diminuindo gradati-


va.mente, com aproximadamente a mesma diferençn, entre eles; não existe
nenhum ·g rande salto no gráfico. A Tabela 2.2 mostra que, se c:oru;iderarmos
as três primeiras componentes principais, explicru:emo!::l 85,23 da variabili-
dade tot91 dos dados, o que parece bastante razoável. Se a es:::olha do número
de componentes a serem utilizadas fosse baseada no cr itério de Kaiser, esse
número também seria ·o mesmo (somente os três prim eiros autovalores sã.o
maiores do que i). Esse número também parece bom se tomarmos como
referência a Tabela 2.5 , onde verificamos que, com três componentes princi-
pais, a ~enor porcentagem de variância individual e)..-plicw:ia é a da variável
EH.IX, com 673 . Note que se mantivéssemos somente duas componentes, a
variância da v-ariável.IF teria somente 3,2% de explicação.

A interpretação das componentes pode ser feita com base nas Tabelas 2.3
e 2.4. A primeira componente principal apresenta altos coeficientes (e altas
correlações) com as variáveis NFT, PROD e NFP e p ode ser interpretada
corno mn indicador da produção das plantas. A segu nda componente tem
os maiores pesos nas variáveis PT e BRJX e poderia ser um indit:ador das
c.:aracterfo ticás de sabor dos frutos pois um melão mais suculento tende a ser
mais pesado. Por fim, a terceira componente pode ser int erpretada como um
indicador das características fuicas dos frutos, é o próprio illdice de formato.

U11i vc,.idudc Fl:dor"I de Luvr"" - Doµ .. 1 ·~tuacnlo do Ciii11ciB.O Exatll8 - L • vrlUl · M G 70


~ ,

Capítulo 3

\ A nal"l"1se _,rr-a·t or1a


. 1
'
3.1 Introdução

Análise Fatorial (AF) é urna técnica estatística que tem como objetivo de-
screver a estrutura à.e dependência de um conjunto de variávei3 através da
criação de fatores, que iião va.riáveis que, supostamente, medem aspectos
comum.

Historicamente, a origem das técnicas de análise fatorial está. ligada a.


estudos da á.rea de psicologia. Sua criação data do início do século, quando
Speanna.n (Spea.rman, 1904) desenvolveu um método para a criação de um
índice geral de inteligência. (fator "g") com base nos resultados de vários
testes (escalas) que refletiriam essa aptidão. }'ratava-se de .um p:c:imeiro
método de AF, adequa.do para a estimação de um único fator. O desenvolvi-
mento inicial <le métodos d e AF esteve muito ligado ao problema da avaliação
de e::icalas cognitivas e foi responsabilidade de uma série de pe!)quisadores
da área de psicologia (Spea.rman, 1904, Thurstorie, 1935, 1947 e Burt, 1941,
por exemplo). No início, o:; métodos apresentavam uma característica mafo
empírica do que inferencial. Em 1940, com Lawley, surge um primeiro trar
balho com um maior rigor matemático, o que fez com que se aumei;ita.sse a
aceitação dessas técnicas, nesse meio (Lawley, 1940).
Uma situação comum em vá.rias área.s do conhecimento é aquela na qual
observa-se, para cada elemento amostral, um grande número de variáveis.
Essas variáveis podem ser, por exemplo, caracterí:;ticas demográfica.:;, um

71
48~ JlcuuiiLo du JUlJtAS • J(}ll SEAOHO • T 11o l l de Julho de 200!1

: conjunto de itern3 de uma escala ou mesmo os resultados obtidos por um


indivíduo em diferentes escalas de avaliação: · Diante de um quadro como
esse, o pesquisador enfrenta dolli problemas:

a) como caracterizar a amostra levando-se em conta um conjunto eventual-


mente. grande de variáveis e

b) como descrever a inter-relação existente entre essas variá.veis, eventual-


mente explicitando uma estrutura de interdependência subjacente aos
dados.

A AF vem resolver esses doiB problemas. Rei.E (1997) de5ne a AF como


"um conjunto de técnicas estatísticas cujo objetivo é representar ou descrever
um número de variáveiS i.niciais '. a p3.rtir de um m enor número de variáveis
hipotéticas". Trata-se de uma técnica estatística multivariada que, a partir
da estrutura de dependência existente e~tre a.s variáveis de interesse (em
geral representada pelas correlações ou covariância.s entre essas variáveis),
permite a criação de um conjunto ~enor . de. vd!iáveis (variáveis latentes, ou
fatorei;;), obtidas a partir das originais. Além disso, a técnica possibilita saber
o quanto cada fator e!:1tá. associado a cada variável ~ o guauto o conjunt'?_
de fatores explica da varia.bilidade total dos dados originais. Note que isso
vem ao encontro da resolução do problema (a), haja vista que, quando a
AF é bem sucedida, o pesquisador pode trabalhar com um número reduzido
de Vdriáveis sem uma perda muito grande de informações. O problema. (b)
também é solucionado, ji que cada um desses fatore.s pode representar uma
característica. subjacente aos dados. Tome por exempfo Spearman (1904),
que interpretou o fator "g" como uma medida de intelig.}ncia que estaria
implicitamente ligada aD desempenho de um conjunto de testes. Esse é o
espírito das técnicas que abordaremos neste capítulo.

3. 2 Constructos

Um dos pontos incifils de qualquer pesquisa científica é a definição das


variáveis de interesse. A definição do que· medir e ·com o medir eBtá intrinsica-
mente relacionada aos objetivos de uma pesquislL Em alguns casos, o como
medir .é um problema menor. Por exemplo; se uin cientista. deseja avaliar o
efeito de um medicamento do controle~ da diabetes, ele pode medir a taxa de
glicemia no sangue antes e depois do tratamento com o medicamento e, a

Univatuidu.de FederQ.J de La.vrn.,:,. - Deµll.rtuuento de Cilnci~ B.x&U:b.:t - 4.vr~ -J...{ 0 72


45• ltcunillo d" RllTlAS e l o0 SEl\GRO - 1 " 11 de Julho do 200~

partir daí, tirar sua.5 conclusões. No entanto, há situações em que o interesse


da pesquisa não está ligado a variá.veis tiio concreta.s. Exemplos:

a) Um administrador es tri interessado em avaliar o nível de a.n.sieda.de de


sellil funcionários após a implantação de uma política de demissão yo-
lun tá.ria e suas comequência.s na produtividade da empresa. . Neste
exemplo, nos de:pa.ta.rnos com a dificuldade de medir a aD.::liedade de
um funcionário. Ansiedade é um conceito abstrato que não pode ser
medido diretamente.

b) Deseja-se avalia.r a satiBfaçã.O dos habitantes de um "!11Wllc1p10 com a


administração municipal. O que é e como medir satisfação?

e) Deseja-se medir a variação no bem-estar de pacientes subrnetidcs a rnr


dioterapia. Como definir bem-estar?

O aspecto comum nesses exemplos é que em todos 12recisamos mensu-


ra.r um conceito abstrato. A esses conceitos denomina.mos constructos. (ver
Pedhazur e Schmelkin, 1991 , por exemplo). Muitas vezes, um constructo
não pode ser medido através da observação de uma única va..riável. No caso
da aru;iedade, por exemplo, a Ta.bela 3.1 traz os iteoo de um questionário
denomiu,."ldo IDATE-T utilizado na mensuração de traços de ansiedade ex-
is tentes em Uma. pessoa. DeYe-se avaliar c3.da ira.se, atribuindo-se uma nota
entre 1 e 4, na qu~ 1 indica que aquilo que a frã.se descreve nunca oco:-re e. 4
indica. que ocorre quase sempre. A medida de ansiedade é obtida a pu.rtir da
soma das nota.s (escores) de cada fraae (para as fraaes que indicam aspectos
positivos, utiliza-se 5-nota na soma).
~,

Uma das utilidades da análise fatorial é a. identific;11ção dm1 com1tr.idos


~xi:>tcntesem um conjunto de dados.

Exemplo 4: utilizamos parte dos . dados de Andrade et al. (2001), que


<1plicou a escala IDATE-T a. uma amostra. de 1.110 estudantes univernitá.rios.
brasileiros. Considere, um primeiro momento, os itens 1, 9, 10, 11, 13, 16117
e 18 e denomine por Xi o escore atribuido ao item i. Observando a Ulatriz
de correlação entre essas variáveies (TtJ.befo. 3.2) percebemos a formação de
dois blocos de variáveis com a.lta correlação entre si e baixa correl;1ção com
<LS variáveis do outro bloco: (X1, X10, X13 1 X15) e (Xu, X11, X11, X111). A
e,-.;:istência de correlações relativamente alta.s entre as variá.veis de um mesmo
bloco, nos faz crer que esses itens medem algo em comum, ou :;eja, então

Univcritidõ.de Fcdcnd de Lnvra.J - Depo.rlo..rnonto da CiõnciruJ Ex.e.lo.ti - Lnvrll!S-:-..lG


481 neunilo da. n.BftAS • JQU SEAOllO • 1 a l i do Jull10 do '.JOOS

Tabela 3.1: Escala Idate

Item .Descrição
1 Sinto-me bem
2 Canso-me facilmente
3 Tenho vontade de chorar
4 Gostaria de ser tão feliz como a.s· outras p essoas parecem ser
s Perco oportunidades porque não consigo tomar decisões ripidéLS
(j ; Sinto-me descaru;ado
1
1
7 . Sinto-me calmo, ponderado e senhor de ro.im mesmo
1 8 · Sinto que a.s dificúldades estão se acumul a ndo de tal forma
que não as consigo resolver
1 9 Preocupo-me demais com as coisas sem importância
10 Sou feliz
1 11 Deixo-me afetar muito pelas cüisâs.
i
12 Não tenho confiança em mim mesmo

i 13 Sinto-me seguro
14 Evito ter que enfrentar crises e problemas
15 Sinto-me deprimido
16 Estou satisfeito
17 As vezes idéias sem importância me entram na cabeça
e fic<1Ill me preocupando
18 Levo as coisas tão a sério que não coruigo tirá-las da cabeça
19 Sou uma pessoa estável
20 Fico tenso e perturbado quando penso em
problemas do momento

ligados a um'· mesmo contructo. As Vdl"iáveis do primeiro bloco estão ligadas


a,oWil.':itructo Satisfação Pessoal e a segunda ao constructo Dificuldade em
Lida1· co1Ti Problemas.
Essa análise permite a identificação dos colli:ltructos subjacentes ao con-
junto de Vdl"iáveis, mas não nos mostra como m edir tais constructos. _A_
análise fatorial nos permite, não só identificar constructos, como também
nof:I fornece meios para rnedí-los.

Uuivor•idade J.\•cernl de LuvrlL'I. Dt-p..rt1Une11lu de Ciência. Bx~tlLll. Luv n ...,·MG 74


,.

16' llounião d" JUJH.AS e 10° . SJ·:,\GllO - 7 1\ 11 de Julho dr. 200J

'"J'a.bela 3_2: M~tri.z de correlação

X1 x.J. ,) -..r
.11..13 X15 Xg X11 X11 · Xia
Xi 1,000
Xrn 0,576 1,000
X13 0,385 0, 4 7:\ 1,000
Xw 0,513 O,G Gl 0,541 1,000
X9 -0,137 -0,162 -0,308 -0,224 1,000
Xu -0,204 -0,2<10 -0,376 -0,322 OA59 1,000
X11 -0,182 -0 ,203 -0,325 -0,251 0,525 0,456 1,000
xl8 -0,324 -0,330 -0,367 -0 ,398 0,401 0,480 0,478 1,000

3.3 Análise fatorial ortogonal

Os modelos de a.ná.l.ise fa.t orial buscam explicar o comportamento cja.s variei.veis


observadas em relação LLO comportamento de um conjunto de variá.veis não
observa,da..c; (variá.veis Ia.tentes ou fatores).
Dc::;sa forma, seja x = (X~ , ... , Xp) T o vetor de variã°veis observadas.
Seja E (x) = µ = (µ1, ... , µp) T o vetor média de x. Um modelo de aruilise
fatorial ortogonai é da.do por

X1 - µ1 = c/J11F1 + · · · + c/J1mFrn + e1
X2 - /J,2 = <P21F1 + ... + <P2mFm + Ez

.--...._

no qu<11, F 1 , ••. , Fp são OB _futores (ou fatores comuns), t: 1 , ••• , Ep sào o::;
fatores específicos e c/;ij i i = 1, . ._,p, j = 1, ..-,m, são as c.:arg:.ui futoria.is.
Uma interpretação possível para; os componentes desse modelos é que se
pretende ex-plicar o padrão de respostas de uma pessoa através do valor qne
ela tem nos collStructos que atuam nos dados (fatores comuns), a.s c.:a.rgas
fatoriais indic<1ID ·a importância que cada collStructo tem na determinação
do v-d.lor de cada variável e os fatores específicos diio conta da parte de cada
variável que não é explicada pelos fatores comuns.
~ A Figura 3.1 ilustra as relações existentes nesse mo.dela. Trnta-ue de um
"' diagrama de caminho no qual as va.riáveis observcldas sã.o representadas por

UuivCT:aida.de Federal de Lo.vrllll - Dcpl\rln.mento de Ci~nda..:1 Exo.tM .. L&vrn.s-MO 75


<B• fi•uuilo dn IU:lllAS e JOO SEAOllO - 7 11 l l de Julho de ~005

retângulos; as v..t.riáveis latentes por círculos; os erros nã.o têm uma repre- .
senta.Ção gráfica e as uetas partem de uma variável independente e atingem
uma variável dependente. Além disso, possíveis correlações devem ser indi-
cada<:: por arcos (não há. nenhum nesta figura).

Figi:ira 3.1: Diagrama de caminho de um modelo de a.nilise fatorial ortogonal

Matricialrnente temos

x - µ = ~f+ €, (3.1)

if;11
</J1m)
:~:
<hm
. .
(
h
c/Jp2 tPpm
Perceba tjue todo o segundo membro de (3.!). é desconheciJo.

No modelo usual de análise fatorial ortogonal , fazemos a.s seguinte3 ~


posições EJobre f: E (F1) = O e Var (Fi) = 1, i ~ 1, ... , m. Além disso, num
modelo ortogonal, admitimos:

n) Cov (f) = Im, onde Im é a matriz identidade de ordem m,

b) E(e) =O,

lJnivtr~ icULdt! FtderuJ dt1 Luvru~ - De:part.&Uilento d~ Ciénciu.:t E::l'Ut.4&.b .. l .. uvrU!.l~MO 76


,_.., .

48ª fleuniA.o da RDllAS e 100 Sl,AO RO - 7 ~ 11 de Julho de 2003

e) Cov(e) = '*' =diag{v'.11 , ... ,'lf;p},


d) Cov (f; €) = Q_

A partir dessa.s :mp o::iições , é possível analiaa.r o modelo proposto C! ju-


terpretar sua.'l componentes. '·

3.3.1 Cargas fatoriais

A interpretação da.s ca.rgas fu.toria.5 ·advém de Cov (Xi, Fj). Temos

Cov (Xi, Fj) = Cov (r/JnF1 + ... + r/JijFj + · · · + rfaimFm + Ei; Fj) -
Aplicando a.s suposições (a) e (d), vem que
.\

.d e onde se conclui que a.s carga..'3 fator.i<his são M covo.rÜ).ncin.::i meclld2'3 entre
r.1s V-d.fiáveis observa.da.':! e os fo.tores comuns_ ·

Pa.ra fa.cilit(J.I" a in~crpret ação de um fator comum, podemos· medir a


correlação existente entre o fator e cada variável obserVcLda. Dessa forma
temos
(3.2)

3 .3.2 Matriz de covariância de x

A pa.rtir de (3.1), temos

I1 = Cov (x) = Cov(<Pf + i;).


Aplicando as suposições do modelo, chegamos a

(3.3)

A expressão (3-3) é uma maneira alternativa de expressar o mo:.ielo de


análi.'3e fator íal, que será útil na estimação de seus parâmetros.

Univcreaide.clc FcdarrU da Lo.vrn.o - D ep o.rt.o.w.cnlo àe Ci~ncin..a .exn.tM - La.vre.a-MG 77


4si !leunill.o <.lo. !lUILAS e ioo SEACHO - 1 " 11 de Julho de !WO~

Um resultado importante é que se q> satiBfaz a relação (3.3), então há


infinitas matrizes que também satisfazem essa relaçiio. Para verificar isso,
c.:onsid~re T uma matriz ortogonal1 qualquer_ Seja <f>" = <l?T, então,

A ei;;c.:olha de. uma boa solução será diBcutida posteriormente.

Exemplo 5: suponha que um conjunto de dados a.presente a matriz de


covariànc:ia

0,80 1 l (i8
2, lG)
IJ
Cºº
= o, 80
1,68
2, 16
2,00
0,44
0,96
0,44
2,00
1,32
1,32
0, 96
2,00
(3.4)

A partir de (3.4) vem que

1 60 0,40)
1,20 = C'o,28
0,00
0,52
0,00
0,00
D,DO)
0,00
<I>= ( Úo tli' 00
o 00 e
. 1,00
1,20
0,20
0,60
0,00 0,00
0,00 0,00
0,96
0,00 i: 80 ..

Dai vem que

X1 - µ1=l,60F1+0,40F2 + éi

X2 - p2 =O, 20F1 + 1, 20F2 + c: 2


X3 - /13 = 1, OOF1 +O, 20F2 + é 3
X4 - µ4 = 1, 20F1+0, 60F2 + é 4·

3.3.3 .Comunalidades e especificidades

Va.rno!:I estudai a variância das variáveis obserV"adas . Para Xi temos:

a[= Var(Xi) = Var(X, - µi) = Var (ifJnF1 + .. . + tPimFm + éi), e Q


•t-....r I ' (

das suposições (a), (e) e (d) vem que ,<o à."' ' : e-""°' ("" ' · ' ,~-'"" ,._~-
r'V (~ ,{'rr- 9. r '- i' r) l ( t \' t ' \1 ,..,..._

Va.r(Xi) = <PI1 + ... + c/J~m + 'lj1;. ,~'-\ c<V"> (3.5)


~~~~~~~~~--~~

1
ou !leja, TTT = 'I'TT =IP

78
48!' Hcunião d& Rl3RAS e 10ª ST>AO RO • 7 a 1 l do Julh<> do 2003

Nesse c.::•so temos que a_parcela: da variância de Xi que é explicada pelos .-------~
?f
f~t~res com~9 é dada por éf ~ rfi[1 + ... + m e 1/;i é a p~cela não ~~cada. \ e l ~ tpi -= ij
ci e denorruno,d;J. de comunalidade da va.navel Xi e 1/Ji e sm especltlc1dí1Cle. ' '
1

t
Num bom modelo de a.n.á.li.se f.a.torial i esperamos. valores altos para cl.

Para t;cilitar a interpretação da.s comunalidades, sugerimo9 a utilização


de e~= e~ . A vantugem de tal medida. é q~e elu assume valores ~o intervalo
ai
[O, 1], podendo ser interpretada como a proporção da. vc11"iabilidade <le )~i que
é explicada pelos fatores comuns. Quanto maia próxima. a 1 (1003) melhor
é o ajuste do modelo.
\
Para. os da.dos do Exemplo 5 temos
\

Va.r(X1) = (1, 60 2 +0,40 2 )+1, 28=2,72+1, 28,

onde 2,72 é a comunalidade de X 1 e li28 sua especifiddade. Sabemos então


que 683 (= 2, 72/4) da. variabilidade de X 1 é explicada pelos dois fatores
comuns. A Tabela 3.3 t ra.z as comunalidades e especificidades das quatro
variáveis . Note que a YiJ,riável pior e."'<plicadn. pelos fatores é X3 (52%) e a
· melhor explicada é X1 (903).
p
Defina o? = L uf a, vu.riabilidade total dos da.dos_ (no e.,"'{emplo c4 ~ 10).
i=l
p
DesRe modo, L éf rP.presenta a parcela de O'? .que é explicada pelo conjunto
i=l '
p

2:ct
de fatores. Reln.tivizando, temos que i=
1
2
é a proporçiio ela va.riab~lidade
·- O'T
total dos dados que é explicada pelo conjunto de fatores comu!l~. No exem-
plo, temo8 que os dois fo.tores conjunta.mente explica.m 70,43 da va.riabili-
dade total dos dados (Tabelo. 3.3).
Um rac:iocício aná.logo pode ser des8nvolvido com cada fator 8eparada.;. (
mente. De (3.5) tP,mOS que rPfj é a. parcela da variância de xi que é explicada
p
pelo futor j. A88ÍID, ÀJ = L rPtj é a parcela. de CT~, explicad;1 pelo fator j.
i=l
p
\ ~,,!.,?- .
L..J 'l'i;
\ Ero termos relativosi temos que '= 1
_?. · é a proporção da w.riâncin. total dos
°'i'
U nivcroi do.dc Fcdcrru do J, nvrc.o • Dc1rn r t nmcnto de CiõnciM Exl\ll\.!I • LnvrM-MG
'(Y
"ª2 lt.euuil:..o d" HlillAS e JOD SEAGRO - 1 a. 11 do Jufüo de 200~

dados que é explicada pelo fator j . No exemplo, o fator 1 explica 50,43 da


variabilidade t otal e o fator 2, 20,03 (Tabela 3.3) .

Tabela 3.3: Comunalidades e especificidades para a a.ruí.füe dos da.dos do


Exemplo 5

Variável <Pt1 r/42 Cf1 3 explicação 1/Ji


X1 2,56 0,16 2,72 68 1,28
X2 0,04 1,44 1,Li-8 74 0,52
X3 1,00 0,04 1,04 52 0,96
X4 1,44 0,36 1,80 90 0,20
À·J 5,40 2,00 7,04
% de explicação 50,4 20,0 70 ,4 1

3.3.4 Padronização das variáveis

Um dos principais obj etivos de uma análise.fatori al é a. repre!::lentação da es-


trutura de dependência dos ·d ados. Ao-realizar a análise sobre um··conjunto
de d ad os com yariá.veis com variâncias de magnitudes diferentes, podemos
estar introduzindo dificuldades na explicitação dessa dependência. Alguns
métodos de estimac,;ão são muito seruíveis às diferenças entre a<J variâncias
(por exemplo o método das comp onentes principais, Seção 3.4.1). Nos casos .
~m que exista l+IDª grande diferença entre as vari f~n cia.s das variáveis origi-=
nais, sugere-se que a análise seja realizada sobre 11.'J variáveis padronizadas:
Nesse caso, as covariâncias correspondem às correlações entre as V'd.l'iáveis
originais. Desse modo, a decomposi~.ão sugerida em (3-3) deve ser feita so-
bre a matriz de correlação dos dados e não sobre i.l. de c.:ova.riância, ou seja,
teremos
p = cJ?q>T + '1i'
onde p é a _m atriz de correlação dos da.dos origina.is.

Ao rea.J.izu.r a. u.nálise sobre a matriz de c.:orrclação temos as seguint~


adaptações de resultados anteriores:


a- De (3-2), tiramos que as cargas ·fatoriais são as correlações entre as
vuritivei.s originais e os fatore:; comuns: Corr(Xi,Fj) = (Pij·

Un iv~niidud t: F~dc:ruJ Uc J..uvrLUJ - Dt:µu..rt1uut11 Lt.1 d~ CiAnciu.a B x uliu - Luvru!l-11.iG 80


"""'\ .

-ui> Rcuniilo do RBTlAS e I o0 SBAClRO - T ~ J J de Julho de 2003

b. Uma vez que analisar a matriz de correlação equivale a trabalhar com


v-d.riáveis padronizac1a..s, de (3.5), temos Va.r(Zi) = 1 = c/Jz1 + .. . + c/Jfm +
1/Ji, is8o faz com que as comunalidades possam ser interpreto.das como a
proporçã6 da variabi lidade das va.riáveis padronizadas explicadé:l. pelos
fatores.

e. Como as variá.veis estão padroniza.das, temos que uq~ =p e, ~nBequente-


'
men t e, /\j L -<P~j e'
= +.- - d a va.nanc1a
a proporçao . - . to t-c1J.l cxp 1··
1ca<1a pc: 1o
i=.l p
fator J. Note que tratar-se da média de cPfji i = 1, . .. ,p.
d. Outra. consequência. do f.atci de CTf = p é que a proporção da variabili-
dade total dos dados padroniv1dos explicada pelo conjunto de fatores
e' - c7 , ou
I:f-1 . ' 'i· d as cornun·al·d-..l
seja e a meow. I <LUes.
p

3.4 Métodos de obtenção de fatores

~\
Há na literatura vários m~ todos para a obtenção de fatores. Aborda.i:emos
rl.nis dos m;i.is populares: il.nálise fatorial via componentes principais e ·11a
método de máxima verossimilhança.

3.4.1 Método das componentes principais

Um dos métodos mais utilizados para estimação de um modelo de análise


fatorial baseia-se na análise de componentes principais. A V'cJ..Iltagem -desse
método é que não há a. ressup osi~..Q.g!l · dade da.s_variáveis ;.,nvR!_vi-
Q_g,s._ Nesta seção estaremos sempre nos referindo à ma.triz de covà..i:'-iància
populacional, uma. vez que a. extensão pa.ra. a matriz de covariânc..:ia. amostral
é direta.
No capítulo anterior, c;itudamos o m étodo das componentc.'i principais.
Vir.nos que
Cov(x) =:E= r.ArT,
na qual A é a. matriz diagonal co.:n os autovalores de :E e r = (o: r, ... , o:µ)
é ;1 matriz com os respectivos a.utovetore:;. Desenvolvendo, terno8

Uni v o r:1ido.do Federal de Lnv rn..:J - Depnrlo..me.n lo de Cidncil\.3 Ex&tn.3 · L.nvro..o-MO 81


(
. lf{fJ;& .
d..~ li-iÍ\; ~
~k>'X;f..[ -
~~ - '7,) . .
481 Ileuuillo d &. Jll:lltAS e JOD SEAGHO - 'l" 11 do Julho de 2005 "··· .. . . .. ·· r . . , ·.

· Ao comparar a expressão ac.:ima com (3.3), o método das componentes_


principa'is fi.iz a seg;u.int/e aproximação

r"r
Além disso, : coru;trói lJ1 tomando a diagonal principal de :8 - ili~ ou seja
· m
'11 = diag cri - ~ </J1j, ... ,
{
)=l
m } ·
a; -
~ </>pj • Desse modo, chega a
J=l

Daí tiramos que

<I> = ( ~a1, .. ·, ~am) = (<P11 · · ·, c/Jm),


com tPj = (rp 1j, ... , rj>11J·) T _
j
.th p
Note que uma vez que os autov-µ'ores sã.o ortonorma is 2 , temos que L cp~j =
i:::: 1
(A ai) TAcq = ÀJ· , ou seja, o autovalor e?CRressa a parcela. da varia.bili- · I
~.,,,,,..._ ------ - - - - - ----- _,,-- .........--- _.,..-. V
dade tot~ que é _exFliC.ª-da el g_,f~r j_,
Uma maneira de av-d.liar a qualidade da solução é a travP.s da construção
da matriz residual. Essa matriz é definida por Res = IJ - ( <I>cl)T + ~ ). Um
resultado interessante sobre essa matriz é que a sorna de quadrados de sell5
componentes é menor ou igual a ~-1-1 + · · · + ~· E si;e resultado pode ser
utilizado, por exemplo, na. escolha do número de futores do modelo.

. ( 1, 00 o, 61 o, 63)
Exemplo 6:_ admita 1:.: = O, 61 1, 00 O, 45 . A Ta bela 3.4 tra:z os
O,ü3 0,45 1,00 ·
autovetores e o.s autovalores de ::8.

Temos então ~ue

:E=
. (Fia2,
,. Aa:2, JX;a:3) .Aa3
(Aª1)
. y'X30:3
o, 89 0,03 0,45) (0,89 0,81 o 82 )
= ( 0,81 -0,50 -O, 20 O, 03 -O, 50 o'.s1 .
0,82 0,51 -0, 30 o, 45 -0, 20 -0,30
~ou seja., o.To:;= 1 e o:! ai= O, !le .i :f.j.
U11ivcr:1iclu.dv J.\:Ut:1u..J <lt1 Luvru.s - DcµurttuDt:nto de CiêucÍtLB Exu.liLB - Lu.v rM -MU 82
~ 8 ~ Ttcu ni il.o da TtB llA S r. Jo D SEAOnO - 7 n l l de Julh o de 200J

T abeléi. 3.4: Autovalores e autovetores de :E

Componentes
1 2 3
A u t ovalares 2,130 0,550 0,319
% de explicação 71 % 18% 11 %
0,613 0,035 0,789
Autovetores 0,555 -0,730 -0,309
0,562 0,682 -0 ,467

Portanto, para urna solução com dois fo.tores , a.'.l cargas fatoriai s são dadélS
por
o, 89 0,03 )
q} =
( o, 81
O, B2
-0 ,50
0,51
.

éJ? <'.i? T =
0,80
·0,71
0,71
0,95
0,75)
0,39
(
o, 7.5 0,39 0,93
consequentemente,

'I1 =
0,200,00
( o, 00 0,05
;o:oo
oºº) .
,o, 00 0,00 0,07

Retome o Exemplo 1 da. escala, Idate. Aplicou-se uma a.nálise - ~.atorial


à matriz de correlação apresentada na. Tabela 3.2 3. Na Tabela 3.5, temos
os autovalores obtidos a p a.rtir da decomposição espectral da matriz de cor:-
rclaçã.o. Note que a.'l duas primeiras componentes juntas explicam 63,43 da
variabilidade total da..'l mr iáveis padronizadas.

A Tabela 3.6 traz a,.'.! comunalidades e cargas fatoriais estimadas pelo


método da componente principal, para uma solução com dois fatores.
Note que o primeiro fator d á conta. de uma. parcela. de 3,SU4 da vari-
é.l.bilidade total dos dados (a0 = 8) e o segundo 1,479. Isso f;)..l. com que a
3
Lcmbre q_ue isso eql.Úva..le a reõl.izar a anállile .sobre a matriz de covariiiocia. d~ Y-1.Úiárci!l
padronizad(l.3. Vide Seção 3.3.4", para uma justificativa.

U niver!Jidnde Federal de Lnv ro....'I - Dcpn.rlnmcnlo de C itnciõ..!J Exatn..'l - LnvrQ.!J-MG 83


~ 8• Jl.:unil\.o du IUJJtAS • 1(}0 SBAGJ"tO - 7 li. l l do Julho do !?003

Tabela 3.5: Autovalores da matriz de correlação

Cor!). ponente Autovalor 3 da Variâ.ncia. % Acumuladé1


1 3,594 44,9 44,9
2 1,479 18,5 G3, 4
3 0,622 7,8 71,2
4 0,579 7,2 78,4
5 0,504 6,3 84,7
(j 0,450 5,7 90,5
7 .. o. 443
) 5,5 %,O
8 0,320 4,0 1,00

so!uçã,o wm dois fatores explique em torno de 633 da variabilidade total


dos dados ( (3, 594 + 1, 479)/8). O primeiro fator traz uma explicação de
44,93 (3,59t!/8) e o segundo de 18,53 (1,479/ 8). Repare que esses valores
coincidem com os apresentados na Tabelo. 3.5.
·.
Ao coruiderar cada Vd.riá.vel separada.mente, notamos que 75, l % da VJ.IÍ-
abilidade de .X1 o (Sou feliz) é explicada pelos dois fatores (\rariável melhor
explic.:a.da). Em c.:ontrapartida, a va.riá.vel X 1:.i (Sinto-me seguro) é a pior
explica.da, 53,7% de sua variabilidade é explica.ela. pelmi dois fatores.

Quanto às cargas fatoriais,_ notamos que o primeiro fator (F1 ) possu


fortes correlações com pratica.mente todas as v·ariá.veis. Para as variá.veis
que expressam senfr;nentos positivos, o si.n.al da.s correlações é positivo, paro.
as outru.s negativo, temos então um contraste entre dois constructos: Sen-
timentos positivos e _S~n.t im'entos negativos. De qualquer modo, trata-se de
um fator de difícil interpretaÇão. -Ü ~eisun'êió~rà!:or, por sua vez, nf:w possui
correlações alta8 com nenhuma variável. A conclusão a que se chega é que a
solu~:ão encontrada não é de fácil ·interpretação, apesar de ter um poder d e
explicaçãç} razoável. A Figura 3.2 illliltm essas cargas fatoriais.

Como vimos na Seç.ão 3.3.2 há mlliB de uma única solução possível pant
wna. aruilise fatorial. Veremos na Seção 3.5 como obter uma solução com
ma.ior potencial de
interpretabilidade.

!;.o aplicar este método, as variáveis com urna maior variabilidade (vari-
â.ncia} podem predom~ar na construção dos fatores,_mascarando, eventual··
..mente, a presença de vu.ricí.veis com menor variabilidade._ Pa.ra ilustrar esse

UuivtrbÍUüde F\:dcrnl do L"vrt1'< - Dcµ1utu1acnlO d~ Ci!11ciu.. E:~ullUJ - Luvr<U-MO 84


AS~ Jlr.uni/lo dn ll81lAS e 1 o 0 ~;f,/\OTl O - Ta li de Julho de ~0-0.1

Tabela 3.6: Com1.W.a.lidade3, cargas fatoriais e porcentagem de explicação


do:; fatores para uma solução com 2 fatores

Vv.riável Comunalidades Cargas fatoriais


Fi Fz
Xi 01625 0,623 01487
XD 0,638 -0,577 0,552
X10 0,751 0,6!J5 0,517
X11 0,5fü) -0,653 0,404
X13 01537 0,717 0,151
Xt6 0,725 0,750 0,404
X11 0,651 -0,622 0,513
Xrn 0,559 -0,707 0,243
À·J 5,073 3,594 1,479
3 de explic;.u:-, ão 1
63 4.S 18

fato, considere o exemplo abaixo.

Iletome o.s àa,dos do Exemplo 4. Repetiremos u. an.álisG uti.!izn.ndo as


variáveis na escala origin;iJ, exceto por .X1 , que terá seus valores mutipli°cados
por 1.000 (Xi = l.OO OX1). A Tubeia. 3. 7 traz algumas medida..'3 resumo
'\ desses dados. Note que o desvicrpadrão de Xj é muito maior do que o das
demais Ya.riáveis. Qual o efeito disso m~ au'álise futorial?

Tabela 3.7: Média. e desvio-padriio das vc1.riáveiH do Exemplo 4

Varíe:í,vel Média Desvio-padrao


xr
V"
·3168,2 822,3 )~ : .

./l g 2,1 1,0


X10 .3,0 0,9
Xu 2,6 1,0
.X13 2,6 1,0
V"
..l}.. 15 2,8 1,0
X11 2,1 0,9
X1 a 2,1 1,0

As Tabelas 3.8 e 3.9 trazem os resultados da análi:;e fatorial pelo método

Univo r.!lidad e Pcde ro..J de LavrQ.!J - D cp nrl(VlJcnto de Ci êncin.:1 Exa.tM - l.1a.vrM-M G 85


411 " lU.uui?..o d11. ltlllLAS • JOU SBACltO • 1" l I du Julho da 20LJ~

. .:.-·.-~1

!
·· .:X10
·v .. :
1
Af .

Figura 3.2: Cargas fatoríais para o Exemplo 4, da escala Idate-T

das componentes principais a.plica.da aos dados.

Tabclu. 3.8: Comunalidades para uma solu ção com 2 fatores

Variável Comunalidades % d ~---~ )..'"µlica\;ão


x; 676.280160 100
Xg 1,07 5G
Xio 0,88 42
X11 0,99 57
X1s 0,91 44
Xrn 0,91 <1-5
X17 0,89 55
XJB 0,98 55
-----

Vimos b.o capítulo anterior que o método da.s componentes principais


busca construir variáveis (componentes) de mod o que as primeira.a sejam
as mais Informativas no sentido de explicar uma waior parcela da variabili-
dade totaJ dos dados. Note que a variância de Xi (676.280,6) é praticamente
igual à Yd.riablidade total dos dados (676.287 1 2). Desse modo, é de se esperar
que a primeira componente principal seja, a menos de um fator de escala ,
aproximada.mente igual a Xi. Isso juBtilica o porquê da explicação de a.prox-
irnadameute 1003 da. v-Miabilida<le de X~ (Tabela. :J.8). Além disso, note que

Un iv<rs'idude J.\:denJ tk Luvn1'1 • Dti.owtiuueutv de Ci ei:ciU> E:roL"-'. Lu vrl>.:l ·MG 86


~ ·

~ô~ HcunilW da lUlRAS e !OQ SEJ\0110 - T" 11 cir. Julh o de 2003


- - - - - - - - - - - - - - - - - - - - -- - - · - - - -·-- - -

Tabela 3.9: Cargas futoria..is e porcenta~em de explicação dos f.a.tores para


uma. soluçã.o com 2 f.atores
..-
Va.riivel Cargas fatoriais Correlações
-
F1 1'2 F1 1!2
·Xi 822,36 0,001 1,000 0,000
X9 -0,142 0,760 -0,137 0,734
X10 0,540 -0,281 0,576 -0,300
Xu -0,202 0,725 -0,204 0,72!J
X13 0,367 -0,515 0,385 -0,540
X15 0,43D -0,412 0,513 -0,432
Xl7 -0,172 0,675 -0,182 0,716
XJB . -0,321 0,663 -0,324 0,66g
.À. 676.281,46 2,513
J
3 de explic.-J,çã,o 99,999 0,000 1

as correlações entre F1 e as variáveis oríginrus (Tabela 3.8) são pratirameti.te


idênticas às observadas n;;. primeira coluna d.a ma.triz de correlação dos dados
(Tabela 3.2), o que confirma. a. proporcionalidade (aproximada) entre Xi e ~P
F 1 _ Isso nos leva a. contrninàicar o método de componentes principa.is sobre. "r"-i., j/'-'
a ma.triz de covariância_ ~e conjuntos de dados q~possuam variáve.iB com ..r<'~ /
variâncias muito díspares, já que as de maiores va..riâ.ncia.s tenderão a. r.re- ' 1 •

dominar nos primeiros f.atores. Nesses casos, re~omendarse a padronização \li


pn~via. das va.riáveis .

Em termos de interpretação o prejuízo não .foi muito grande pdlli a es-


trutura de correlação e.."'<istente l!OB da.dos é muito clara. Em conjuntos de
dado8 onde isso não ocorre, a interpretabilidade dos fatores t:UDbém pqde
fica.r comprometida..

3.4.2 IVlétoào àa rr0.xima veros~imilhança

Um método bas tante conh~cido para a obtençio dos fatores é o da m<ixima.


ve rossimilhança (ver Johnson e Wic.hern, 1998, por exemplo), onde, em :rn,,1.
versão usua l, supõe-:-ie que as variá.veis envolvidas sigam uma distribuição .
normal. Esse método, em geral, n.ão-~d.i@dg~~QLQ.Uti a- .SJJ-
oosi_~:- de · ormalid~dª3_~i~olv~teja...Ji atisfeita . .

UnivCT:a id n.dc Fedcrn..I de 1..avrt\8 - Dcp , rt r.monto ·dc ·Ciõncinn Ex11lM - LnvrllO--MG 87
4 8~ 1u, .,;,l i1.o d~ llUH.AS e 100 SEAOltO - 'f a 11 da Jullao do 200!1

Admita x ,...., Np (µ,:E), com 2: = <I?<I? T + '1<. Um problema com esse


modelo é que ele é não identificivel 1 urna vez que há infinitas matrizes <I?
que o satisfazem. Isso exige a introdução de restri ções de idcntific:~1bili d a de .
Uma restrição conveniente do ponto de vista computa.cíonal é, por exemplo,
<f> T w.-
1 <J? ser uma matriz cliagonal.

· Cor.IBldere uma amostra x1, ... 1 X-ri de · vetores i11dependentes de x. As


estirhativd.9 de máxima verossimilhança de µ, <I> e \II são obtidas a partir da
ma.xiuü'..laçã.o da função de verossimilhança abaixo

Não há. uma solução explíci.t a p ara os estimad or es, o que exige o uso d e
métodos numéricos para a maximização da função acima. O estudo de tais
métodos está. acima do uível deste t exto (vide Anderson, 1984, para maiores
detalhes).

A vd.Iltagern de se trabalhar com estimadores de m á.xi.ma verossimilhança


é q~aestafistica nos arânte_ylla conyjStência e normahaade
assmtótica, o_q_ue permite a ~con;itrnçµo de jnte~los d e -confiança e t êStes
-----
e h ipóteses, Qara. grandes a.mostras.
. -......_ .......... .
_.,,,,--...._ -- --- ---------
Um teste . de interesse refere-se à avaliação d a escolha do número de
- , fatores. Trata-se de um teste de razão de verossimilhança.s que considera as
''! seguintes hipóteses
Ho : :E = cJ?cl? T + 'Ii'
H1: :E f- <f>q?T +\II.

TI ( Xj-X -)T
-)(Xj-X -- T - - -
Sej am Sn = ~ e :E = <I? <'É + w, onde <l? e '11 são
i,,;,l n
os estima.dores de máxima verossimilhança de <l? e \ri , res;.iectivamente. A
e8ta.tístic:11 do teste é dada por

TRV = -2 ln 1:t1) .
( ISnl
Sob a. hi.pótese nula., TH.V. segue l,lma ..cti.stril?.ttlç.ilo. q1ú-quadrado ..com g =
' ~ { (p - m f - p - m} gntuH de liberd ade. . · · ·· · ·· ..

U11ivcroid~d• Ftderal de l .~vr"-' - Pupw-tl>lllenW de Ciõuciu.5 Exw."" - Lavr ..,.MC 88


~s• Jlcunil!.o da RBllAS e 10° SEAORO - 7" 11 de Julho do l003

3.5 Rotações ortogonais

Como vimos na Sey.1.o 3.3.2 , l:le ill é umayossível solução parn b mcdelo de
a.n.álise fatorial, então ili " = <I>T também o será, onde T é uma matnz orto-
gonal. Geometricamente, <1. operação de pós multiplica~ a mattiz <.!? por uma
matriz ortogonal equiva.le a fazer uma rotação de eixos. Em tei'mos práticos,
esses novos eL'trnl equivalem a novos fatores (fatores rotacionado:;). Ec;:ie re-
sultado é útil principalmente quando a solução inicial de uma análise htorial
não for facilmente interpretável. Nesse caso, podemos procurar rotações que
nos levem a melhores soluções. Por ex:emplo, na Figura 3.3 temos as cargas
fatorials da. Tabela. 3.6. Note que CJ.S ca.rgaa são fortes (dillta.ntes de iz;e.ro)
para o Fator 1 e fracé13 para o 2. Isso dificulta a interpretação da solução.
No entanto, se a.piicásscmos uma rotação aos dados de modo a obter os eixos
tra.cejados, os respectivos fatores seriam ma.is facilmente interpreta.dos, uma
vez que cada um dele.:i ter á. carga. fatorial forte com um conjunto de vcLriá'lt!is
e fru.ca com as demais.
Nesta seção estudaremos rotações ortogonais..) ou seja os fatores rota-
cionados continuarão a ser não correla.cionados . Nessas rotações· a..s com u-
nalidades e especificidades das variávei.s estão preserv<LClas.

i.
.,.

r .! .

~,

,.

Figura 3.3: Cargas fatoriais para o Exemplo 4, da esc:a.la Ic.late-T

Há uma VcJiiedade de rotações que geram fatores correlu.cío~ado:i - rotações


ob líquas (ver Rumme1 1 1970 e Johnson, 1gg3 por exemplo) - e que niio sedio
enfocadas neste texto.

Univcroidtulc Fodcrn.J de l..nvro.:s - Dcpe.rtl'men\e> de Ciêncfo.o E"•Üll<I - L ..vr,,..,.MO 89


48~- H.,.unill.D da. llliltAS e 100 !lEAGJlO - T n 11 d< Julho de 200!1

· Rot~.Çã9
' .· '
'
varimux

A rotaçiio va.rima.x: (Kaiser, 1958) é uma das rotações ortogonais mais uti-
l~adas em auálise fatorial. Intuitiva.ment~ e.Ia busca_sol}!çôes nas quais s~
~us. ~'.· m~m.i.zar as correlações de cada Y!_lriáx_~s~m apenas um fatCE;_

Sej.~ êtii' i = 1, ... ,p, j = 1, ... , 71i as cargas fatoriais rotacionadas.


·oefi.n'3.
e /3 J. = ~ (3;j •
~
i=l p
Note que f3ij pode ser interpretada como a proporção da com~nalidade de
X1 que é explicada pelo fator j. A matriz de rot açã.o T será escolhida de
sorte a. maximizar

V· =~
p (/3i•'J - (JJ·) 2
(3.6)
J ~ p

Deta,llws sobre o IJrocedimento numérico de maximização Giio será.o aborda-


dos neste texto .

. Note que Vj é a variância amostral de f3ij, i = 1, ... ,p. Logo a.D max-
imizar V caminhamos no sentido de ma.ximar a.S Yj. Idealmente, Vj as-
sumirá 11~ .v-d.lor alto qua.udo tivermos valores muito alto.s para algunB /3ij,
i = 1, . . . ,p e baixos para os demais. Isso tenderá a fuzer corri que as cargas
fatoriais (em módulo) sejam ou mui to altas ou mujto baixas, o que facilita
a. interpretação dos fatores, na medida em que , um conjunto de -·va.riáveis
teria c:orrehiç<1o alta com o f.ator, enquanto que as dem:ús tenderiam a ter
correlações baixas. É claro que numa situação r ea.l, na qual os constructos
nã.o sã.o muito claros, esse comportamento esperado pode não ocorrer.

A T a.bela 3.10 traz a rotação va.rimax aplicada a.os dados da Tabela 3.6.
A Figura 3.4 é uma representação gráfica dessas c.: a.rgru:i.

Aos 11mi.li!:;Ú a Ta.bela 3.10, notcrmos que a. coluna. das comunalidades não
Hofreu alteraçã.o 1 o que era espera.elo, uma vez ·q ue a solução rotacionada .
não rutera as especificidades. Já ao analisar cada fato r separadamente, suas
p orcentagens individua.is de explicuçã.o sofreram alterações. No que se refere
às cargas futoriais, note que o primeiro fator tem forte correlação com os
sentim,cntos positivos e o segundo com os negativos. Logo devem estar rela-
donados, respectívd.roente, a.os constructos Satis/a r-ão pessoal e Dificuldade
em lidar com pT'oblemas.

U u ivcr ~ idtWO l~ dcru.l de: l..u.vru.!J • Dupu..rt.auu:nto de Ci!nciu.tJ J~xu.t.~ - L.a.vr wi-M G 90

e.
'~ . ·.

~a• ncunill.o d" nBnAS o lo• SE/\Gl\O • T" 11 do Julho de 2003

Tabela 3.10: Comunalidades; ca.~gaB fat oriais e porcentagem de explicação


dos fatores para uma solução com 2 fatores
1
1
Variável Comuna.Udade:J Cargas fatoriais
F1 Í'2 1
xi 0,625 0,787 :..o.: '069
Xy 0,638 -0,045 0,7D7 1
X10 0,751 0,861 -ü,OD6
Xu 0,589 -0,202 0,741
X13 0,537 0,627 -0,37!)
X15 0,725 0,823 -0,216
X11 0,651 -0,105 0,800
X1s 0,559 -0,352 0,660
Àj 5,073 2,610 2,463
3 de e:x.-plicação
.. .
63 33 :.n
.. - -·- ~- ~ ..
1· .

3.5.1 Escolha do número de fatores :. ·.

A escolha do número de fatores é uma da.s tarefas roais importante.s de uma


anili::ie fatorial . Ha..ir et aL (1998) discute que, se o pesquisador opta por
um número muito reduzido, ele pode nii.o identificar estruturas importantes
"'· existentes nos dados e, por outro ia.do, se o número é excessivo, ele pode vir
a. ter problema.'l de interpretação dos fatores. Existem, na literatura; ~árias
critérios que auxiliam na. determi.na.ção do número de fatores que, invariavel-
mente, quando empregados em um mesmo conjunto de dados, conduzem a
resultados diferentes. Como regra geral, o analista deve procurar uú com-
promisso entre o númer o de fatores (que, <i. princípio, deve uer o · ,IIl.Cnor
possível) e a capacidade de interpretá-los. É comum, em situaçõe!:I prática...<J,
simpleiimente comparar soluções com um diferente número de fatores e fazer
a escolha com ba.se no bom senso do usuário da técnica. Nesses ca.sos , os
critérios apre!:lentados na seqüência, alguns já mencionados no capitulo an-
terior, podem ser utilizados como ponto de partida para a obtençiio de uma
solução final.

Para ilustração doa métodos, considere a análise fatorial descrité.l; no Ex-


emplo 4. Os métodos de escolha, que passamos a descrever, têm um caní.ter ·
<Lpenas indicativo, nã.o ex istindo urr;.a. hierarquia entre eles.

Univer!Jidndc Federal do Lavra.4 - Ocµru-lo.mcnt.o de CiõncÍNJ Eic.o.tM - Lnvr~MG Yl


48~ lteuulll.o d 11 lltillAS e JQU SEAGILO - 7 ~ U d.t ,Julj10 ,d e,W93 .

. ·.
~

Fignra .3.4: CC:Lrgas fatoriais rofacionadaa (varimax) . para o Exemplo 4, da


escala Idate-T

a . Critério de "Kaiser - Esse critério, desenvolvido por Kaiser (1958),


também conhecido como critério da raiz latente, determina que, no
caso ·d e análise de dados· padronizados, Q_n~nero de f.atores deve ~
igmtl ao número de Àj 4 maiores ou igUais a IDE: Nesses casos, o valor 1
corresponde à variância. de cada va.riáv.el pad ronizada e, consequente-
mente, esse critério descarta os fatores que tenham um grau de ex-
plicaçã.o inferior ao de uma variável .isolada. ~Quando a análise é re-
alizada sobre a m atriz de covariância, sugerimos que a.o invés d e 1,
. adote-se co~o ponto de corte a média das variâncias das variáveis
analisa.das. Na Tabela 3.5 são apresentados os autova lores da matriz
de correlaçã.o descrita na. Tabela 3.2, como apenas os dois prímeiro8
autovd.lores sã.o maiores do que 1., nos a.teríamos a uma soluçã.o com 2
fatores somente.

b. C r itério da porcentagem da variân cia explicada - O número é de-


terminado de modo que o conjunto de fatores comuns explique uma_
;e9 rcentagem pré-definida da varia.bil:idade global,_ por exemplo, dese-
jamos explicar pelo menos 703 da variabilidade total dos dados. Nesse
ca..s~, se esse cri térío (703 de e:i-.rplicaÇã.o) fos se aplicado aos dados da
Ta,bela. 3.5, o método nos levaria à escolha de 3 fatores.

•coincidem com os autovaJore~ da matriz de .co~elaçü.o q_u ando se aplica o método das
compon eute:i principui:i

Uuivuoicl...do l•\:c\oru..I do Luvr\UI - Dopu.rtll.lncnlo de CicuCÍIUI E'Xu.tu.. - Lllvrtw- MC. 92


,,

-1 a • fte u ni.k:. d ::. lUJlv\S e i Oº sr::A G llO - 7 " ll do Julho de WOS

e. Critério scree test - É comum que a. diferença. de explicação entre ds


primeiros futores de uma AF seja gra.nde e que tendtt a diminuir com
o aumento no número de fatores. Por este critério, o número ótlm,o de
fatores é obtido quwdo a va.ri~:iio da. explicação entre fatores consecu-
tivos pa.ssa a ser pequena. A Figura 3.5 traz uma representéi,Ção gráfica
dos autovalores eh Tabela 3.5 que facilita a. aplicação deste método.
Tal gráfico recebe o nome de scrce-plot. Na. ordenada repren.entamos
l os autovalores e na. abscissa o número da respectiva componente. Note
que ão passar de 1 para 2 ainda temos um ganho razoável, no enta.nto
' a partir daí, o ga.nho se mantém pratica.mente constante. Isso nos
levaria a adotar uma solução com 2 fatores. ·

d. Métodos inferencinis ·· Outros métodos foram desenvolvidos para os


cas os ond e as vari áveis originais seguem uma distribuição nor-m~ .
Esses métodos coru;i3 tcm no desenvolvimento ele Leste:; estatístic.:o:o que
se alicerçam na. sup osição de normalidade e, dessa. forma, náo são,· em
princípio, adequados à anáfue 'de dados não normais. Apesa.r.. disso,
e:Jsea métodos podem ser utiliza.dos com um fim pura.mente indicu.~ívo,
sendo que a significâ.nc.i.a obtida nessas situações niio pode si:!r .·inter-
pretad a ao pé da letra .. Dentre esses testes destacamos o de Ba.rtlett
(r.1.presentado na seção :J.4.2) 7 que verifica. a adequaçã.o do modelo tle
AF estimado (pelo método da máxima veros;iimilhança) pa.ra repre-
:Jentar a estrutura de dependência dos dados .

. ·.cti .,
6 ·.1;5.'. \ -. ,, . .

,..._,
~oi'.\ :;
'~.. :· . .
.·o :.~ ::·::::·.::..::::.:·.:: .'. : ::~·~..: . .·,...::.-..:..::;:-..:·:. :.~.t~.~,. ..:.~:~'-•·~ -~:::·... .::.·...... ;...... ~:1....:.:-·1~~~u.:.:.: .:.~ ••.:. .:.·:-·-~ :<

Figura 3.5: Scree-plot

u 11 iver:.idru:ic F c der n. 1 de Lo.vr.!1!! · D'p1u l c. mc r.. ~o tlv Cit\ociM Exn.tM - Lo.vrn..:»-MG


' ' ·93

• 1
: i ',· ;'

,,..~~
.Jvl
?.: ·. ·.,
óàlr{r/ ··
~-~ · ·,
~!!• llouu ill.o du llllHAS • 1ou SIMG/lO • 'T" 11 de Julho de 2005
i.:rtttl'i 1 ~'l\'ll.«:t
'(; · 1~
;-; )f'.· . • . · i;;;;;,

3.6 Escores fatoriais

·. Q_t1;µido o objetivo final da análise de dados é a descriçü.o e o ent endimento


da C -!sfrutuia de correlação das variáveis, o que vimos sobre an;µise fatorial
pode levar às respostas desejadas. Outras vezes, entretanto, os objetivos da
p esquisa. podem envolver análises posteriores aplicadas aos fato res identifi-
cados iios dados. É suposto que clli:la indivíduo na. amostra tenha um valor
p ara. cada um dos fatores comuns, que, como já foi. dito , u.ã.o são diretamente
ob8erv;ivcis. Esses va.lores são os chamados escores fato riais que, :no exemplo
· desenvolvido por Spea.rman (1904), sã.D os vu.lores do futor g (índice geral de
inteiigência) para os indivíduos submetidos à análise. Nósso objetivo agora,
é prever os escores fa.toriai.s individua.is. Apresentamos os dois métodos d e
previsão dos escores fatoriais: o Método dos Mínimos Quadrados Pondera-:_
~....8.. e o Método da Regressão:

3.6.1 Método dos mínimos quadrados ponderados

R etc)mcmos o modelo de análise fatorial ortogona.i, temos para a obHervaç ão


i qu e:
Xi - µ = cpfi + éi ·
Queremo8, para cada elemento amostral, prever o valer de fi. Para isso,
i:i.dmitirnos que µ e q? sejam conheddas 5 . N ate que encara.do dessa forma, o
modelo adma assernelh.a.-se a um modelo de regressão linear , no qual Xj - µ
desempenha o papel da variável dependente, <L: o da matriz de variáveis
indep rmdentes, fi o do vetor de parâmetros e c:i o vetor d e. erros.

Lem;b re que Cov(Ei) = '11, ou sej a , fazendo uma analogia com modelos de
reg resBão, os erros são heterocedásticos. Em situa.~X> e:i como essas, admitindo
'11 conhecida , recomenda-se a utilização do método dos mínimos quadrados
ponderados ao invés de mínimos quadra.dos ord.iruírios. Nesse método, o
previsor d,e' fi será aquele que minimizar

lJ
O J~~:::_isor será dado por:

~Nu. p rátic u. utili..'.lamos UH estimativas, mas nã.o fazemos neu hu rua correção adicional.

U 11jv l!n:iid11d~ 1"\:dt:ru.l de L1wru!I - U eµnrluine ulo dt Ci~n cilUI Ex ~ttl.!:i - Lu.vru,.j ·f..10 94

(
.r ·.

• 1 • • •

i:

•111 2 llounil\o da RBRAS o 10º SIO:J\ORO - 7 n 11 d~ Julnu de :1003

'"""\ 3.6.2 Método da regressão


""'\
~sse método prevê fi ?-tt;wés d~ ~era.nça condicional de (dado Xj. Para
tanto, supomos µ, w e 11! conhecidos. Uma outra suposição exigida pelo
método é que f e E sejam normalmente diBtribuídos. Do Resultado 3 do
Apêndice A, temos que

e rv JV.p (O, "'1.') => (€)


f
rv N
p+m
(o (~O·
1
O \)
Irri } ) 1

além disso, do item e do Resultatj.o 2 do Apêndice A vem que

Daí,

(x-µ) f . ,...., Np +m
(O; ( LJ ImW)) ,
'\'PT com :E= q,q, T + w .~ .
Como f e xi seguem um a. distribui~:ão normal, temos que (item c do D.~ ul­
tado 3 de Apêndice A)

Portanto o previsor de fi será da.do por

3. 7 Estude da v iabilidade da ·AF f. : .. -


,,

Nesta seção apresentamos algumas medidas adicionais para a.ferir a viabili-


dade da aplico,ção de um a aná.li.se fatorial a um conjWlto de dado's. · ·

3.7.1 Matriz anti-hnagem

Urna da!:! premissas de uma análise fatorial é que exista uma estrutura de
dependência clara entre as variáveis envolvida.s. No modelo estudado, essa .
estrutura é expressa através da matriz de covariância ou de correlação. A ·
existência de to.l estrutura implica. que uma variável pode7 dentro de certos

Univor!lidn.dc Fedc r.o..l de Lnvrnn - Depru-tamcn to de Ciõnciu E;irl\.lo.a - La.vra.n-MG 95


{8~ R.cu11ilí.o da RHllA9" 10a SEAOHO - 7 a 1l de Ju llio du 200~

limites, ser prevista pelas demais. Para verificar esse fato, pode-se calcular
os coefic:ientes de correlação parcial entre os pares de Vdiiáveis, eliminado o
efeito das demais variáveis. Espera-se gue os valores obtidos ~~ja..m. b<~_?s.
A matr q, anti-imagem é construída com esses coeficientes com sinais i.n ver-
1
.. tidos 6 •. · · ·

A Tabela 3.11 é a matriz anti-imagem da matriz de cmTel~ da Tabela.


3.2. Note que os valores das correlações parciais sã.o baixos, indicando a
adeqill1ção da aplicação da análise fatorial aos dados .
.,.
· '·

Tabela 3.11: Matriz Anti-Imagem


= "'r
1 .
X1 Xg X10 X11 X13 )(15 X11 X1a
X1
Xg -0,029
X10 -O 344
' . -0,024
X11 -0,002 -0,220 -0,015
X13 1 "0,076 0,090 -0,138 0)35
X16 :-0,154 0,003 -0,434 0,071 -0,263
X11 : 0,002 -0,341 0,002 -0,165 0,082 -0,016
X1a 0;114 -0)08 -0,032 -0,237 0,032 0,121 -0,243

3.7.2 KMO: Kaiser-Meyer-Olkin

O coeficiente KMO (Kaiser, 1970) parte do mesmo princ:ípio da Matriz Anti-


imagem, ou seja, que as correlações parciais entre pares de variáveis elimi-
nudo o efeito das derna.is devem ser pequenas se o modelo for adequado. o
coeficiente é dado por
p p
"\:""' '\:""r?.
LJ LJ tJ
KMO = i=lj=1
p p p p
. I: z r'fj + .L I:: azj
. i=l j=l i=l j=l

onde ªij é ~~ correlação parcial entre X; e Xj, elimina.do o efeito da.s demai!:l
V"d.ríáveis.
ºMuitas vezes, coloca-se na diagonal principal dessa matriz os indicadores lvISA;, ap-
resentados da Seção 3.7.3.

Uuivcr::ddu.<lc l·~ dc:ru.J de Lavr~ - De::purtu..weuto de Ciênciu.a E.x.u.t.~ - L.o.::,.,rü..:1-MC 96


\

~llA Reunilto d& RBRAS e JOº ; SEAG RO - T n. 11 de Julho do 200l

Na. Tabela 3.12 apresentamos a.Iguma.s sugeBtões extraíd<J.S da. literatura


e8tatística para auxiliar na interpretação do KMO. A prirneiru. parte da 1
· I
tabela foi proposta por K aiser e Rice (1974). · ·:

Ta.bela 3.12: Interpretação da l{MQ

KMO Inter.pretação
0,90 - 1,00 Excelente
0,80 - 0,90 Ótimo
0,70 - 0,80 Bom
0,60 - 0,70 Ucgula.r
0, 50 - 0,60 Ruim
0,00 - 0,50 Iuadequ.ado
0, 80 - 1,00 Excelente
0,70 - 0,80 Ótimo
0, 60 - 0;70 Bom
0,50 - 0,60 Regular
0,00 - 0,50 I rn:1 u.ficiente
i
1

1
Para os dados da escala. Idate 1 temo8 I-<M0=0,841, indicando uma boa \
perspectiva na aplicação d a a.náli._.cic fatorial aos '.dados.

'
' 3 . 7.3 MSA: Measure of sampling adequacy "! '

E Hs a medida é ba.stante similar ao KMO. Nova.mente, de:Jejamo:J veri.fitár ·


<1 p ossibilidade de existir uma estrutura fatorial nos dados. Na verdade, a
_NIS A deve ser calculada. sep<J.ra.damcnte para cada. Vcl.riáveJ, vide (3. 7). · Ó
objetivo é verificar se urna dada variável pode ser explicada pelé1S demais (o '
que é esperado num modelo fatorial. _Yalores baixos de MSA, são indícios d(~
9~w~ a respectiva variável pode ser retirada da auáJise sem maiores prejuizos. ·-.
Note que a medida é bastante similar a.o KMO, apresentando uma lógica
semelhante. Esse índice pode ser interpretado utilizando os mesmos limites
descritos na Tabela 3.12.

Un iv cr>ida.dc Feder&! do La"""' - Deputl>.mcnln do OiônciM Exnto..:J. !,nvr...,..MO !)'(


~a• llcu11iã<> di. fillfiAS e 100 SEAO!lO - 7" li tia Julhu"dc 2003

p
~r?.
~ tJ
j=l
MSAi = P P (3.7)
~r?iJ· + ~
~
~a~·
lJ
j:=l j=l

A Tabela 3.13 traz os valores de MSAi para o Exemplo 4, da esc<Ja Idate.


Note que todos os valores são bastante aceitáveis, o que indica que existe
um potencial da análise fatorial explicar bem tod as u.s variáveis.

Tabela 3.13: MSA

Variável
Xi 0,853
Xg 0,818
X10 0,789
X11 0,8G5
X13 . o,899 .
X15 0,8 20
X11 0,820
Xrn 0,878
Média 0,843

Ap.e nas como medida resumo, podemos calcular a média dos M SA 1 para
termos uma idéia do desempenho do conjunto das V"d.riáveis,

3.8 Avaliação do ajuste do modelo

A avaliação da qualidade do ajuste de um modelo de an.ál.ise fatoriil . passa


inidalmente p'ela. análise das comunalidades. Altas comunalidades para to-
das as variáveis já prenunciam um bom aju.gte. Nesta seção, apresentamos
urna abordagem complementar que tem sua inspiração nú estudo de mode-
los de regressão. Em geral o ajuste de um modelo de regressão é avaliado

Univcrnidl\tlc Ftdcru.l de J... uvrt.ui - Deµu..rt.'1-tne11LO dt: Cién ci l\..S ExMu.u - Luvru.a-MC 98
~B~ llcunillo da JUJ11AS " l OQ '.;~; Ao no - 7 " 11 do Julho de WO:J

(Ltrav&i do comportamento de seu resíduo. Essa idéia foi adaptadr.í. para


modelos de análise fatoi-ial.
.,
Para verificar a qualidade do ajuste de um modelo de o.n6.lise fatorial_
podemos comparar a p:ia.t:rlz de ~riâ.nJiliL_Q11.s.erva,da com a previst~ pelo
modelo dado em (3.8). ··
(3.8)
Caso haja um bom ajllilte, espera-se que os valores previBtos estejam próximos
aos observa.dos. Note que ao utilizar (3.8) a diagonal principal da mo.triz de
correlação estará sendo prevista sem erro. Uma prática. comum é ar,rei;;t;:b.~
.as comunalidades na dia_gonal da. matriz 1 ~u sej<1, utiliza-se

:E= <i><í/.
E~~a estratégia de análise pode ser utilizada qua.ndo desejamos cowparar
diferentes ~aluções de uma análise fatorial, quer sejam obtidas por diferentes
métodos, quer se refiram <L soluções com diferentes números de fa.tctres. No ·
último caso, deve-·se leva.r em conta que sempre que tiv~rmos ma!s fatore$, lj/
esperamos melhores resulta.dos, de3se modo deve-se analisar se a meltora. aojir-
se acrescentar um fator 6 substancial.

A Tabela 3.14 traz a matriz de correlação prevista da análise fatorial.


apresentada no Exemplo 4. Essa matriz deve aer comparada com a ma.triz
de correlação original (Tabela 3.2).

Tabela 3.14: Matriz de correlação previst;_i,, com comunalidades na diagonal


principal

X1 Xo X10 X11 X13 X15 X11 xlB


X1 0,625
Xg -0,091 0,638
X10 0,685 -0,115 0,75í
X11 -0,210 0,600 -0,245 0,58g
X13 0,520 -O,;JJl 0,577 -ü,407 0,537
Xrn 0,663 -0,210 0,730 ·-0,326 0,598 0,725
X1r -0,138 0,642 -0,168 . O,G14 . -0,369 -0,260 0,651
Xrn -0,322 0,54.2 -0 ;.366 0,560 -0,471 -0,432 0,565 Q,55!.l

Para facilitar a análise da matriJ: prevista, define-se a ma.trih res i cl ucJ.l

Univcrnidu.dc Fcdcrn..1 de Lo.vro.D - Dcpo.rlruncnto de Ciêncin..!J Bxnto.a - Ll\vrõ..!,1-MC ; !)9


; '
...... '
48~ Jleuuil!.o du. Jt!lllAS e 1 o• SEAGHO - 7 11. 11 de Julho do 2003

como .
R ea = }J - :Ê.
Numa situação de bom aju~te, esperam-se vct.lores pequenos para a matriz
Iles:
.A Tabela 3.i5 t~(lf os r~íqt;tos cor:r:espondentes da arullise do Exemplo
4. Ao analisar essa matriz percebemos valores pequenos para boa parte dos
componentes, embora. existam valores ao redor de 153, indicando um ajUBte
de razoável mediano.a
Tabela 3.15: Matriz de resíduos

X1 Xg X10 Xn X 13 xlG Xn Xia


X1
Xg -0,046
X10 -0,108 -0,046
Xu 0,006 -0,141 0,005
X13 -0,105 0,022 -0,103 0,031
x16 -0,150 -0,014 -0,069 0,004 -0,058
X11 -0,044 -0,117 -0,035 -0,157 0,043 0,008
Xrn -0,001 -0,141 0,036 -0,080 0,104 . 0,034 -0,087

Para resumir as informações da matri2 residual, Sharma (1996), sugere


a construção de um indicador denominado raiz do quadrado médio resíduaj
(RQM R), dado pela média dos resíduos ao quadrado:

p p

:2:.2: (Pii - Pij)


2

. i=l j=l
RQMR=
p(p - 1)/2

Aplicada aos dados, chegamos a RQM R =O, lOG indicando um erro (ajuste)
mediano dada a magnitude das correlações originais.

3.9 Análise fatorial confirmatória

O que foi _d ito até este ponto, aplicarse a uma modalidade de análise fatorial
que poderia ser .denominada exploratória. · Uma análise fatorial exploratóri:;

Uni ve r•idw.lc Ft:dertLl de Lavrll:I - Departa.mcnlo de C iêu ci11t1 Ex11tu - Lavrwi -.~ G 100
.r

~B_. Reunillo d~ R DRA S e 1o 0 S CAGnO - 7 l\ l J d r. Ju lho de lOOJ

(AFE) não exige a formul ação de hipót eses a priori a respeito da estrutura. de
dependência dos dados. Essa estrutura, se existir, será um dos resultados da
AFE. Em alg;u.mas situ~•ÇÕe:'I , o pesquisador quer verificar se os itens de uma
escala comportam-se segundo uma e:itrutura predefinida. Às vezes, estudos
anteriores podem mdicar, por exemplo, a existência de 2 futores em uma
e:scala. e quais itens associam-se a cada um desses fatores. Essa' é. a situação

' ideal para a aplicaçã.o de uma AF confumat6ria. (AFC_L_O que diferencia


uma. AFE d e uma AFC é que na segunda. o usuá.i:io indica que l:!strutura ele
' imagina existir nos dados e, através da aplicação da técnica, terá in:liciosj\\
obj etivos para concluir ::;e aquela es trutura. é ou não aceitável para explicar
o comportamento dos mesmos.·

Retorne o Exemplo 4, da escala Idate-T. A Figura 3.6 traz os diagrtl.Illas


de caminho da AFE executa.da. e de uma. possivel AFC. Note que na AFC,
tentamo~ isolar os itens a.p ena.9 nos fator~ que eles atuam. Uma vantagem de
to.l análise é a existência de testes e medidas de ajuste. Um livro intro<lut6rio
:;obre esse a..5sunto é Long (1983).

1
1

1
!
1

Figura. 3.6: Diagrn.mas de c<miinho p arr1 a AFE (esquerda) e AFC .(direito.)


do Exemplo 4, elo. escala Ida.te-T

3. 10 Comentários gerais

Uma análise fatori<Jl envolve a estimação de um grande número de pv.râmetroll


e, para que isso seja _feit o com um m ínimo de qWJ.lidade, é neces8ú.rlo um

U l\ivcr:Ji<lG-<ln Fcdcrkl de Lavro.:J - D cpo.rtnmc nto do CiõnCns Exo~n.n - L(\vrn.:J-MG 101


'fl
1
..il

!.·'
48~ llcu11íl'><> de.. ltHllAS e JOU sgACllO. 7 ._ 11 dt Julho do 2{){)3

tamanho amostral relativt.1.ID.ente grande em c.:omp;iraçã.o ao mímero de v.lriivei8


envolvidas. Há, na literatura estatística 1 uma série de sugc<itões para a cs-
càlh<.L ·desse tamanho amostral. Em geral, essas opções baseiam-se na ex-
periência pessoal dos diversos autores que, em alguns casos, ~mgerem um
tamanho amostral da ordem de 20 vezes o n ú mero de variá.vei.B envolvid '.:lS
(ver Hair et al., 1998). Reis(l997, pg. 274) e Hair et al. (1998) sugerem
que o número de observações deva ser àe no mínimo 5 v2zes o número de
variáveis, além disso, indicam que preferencialmente a análise seja feita corn
pelo menos 100 observcLções. Hair et al. (1998) enfatiza que ela não deve ser
utili2ada em amostras inferiores a S0.9bservações.

O sucesso de uma análise fatorial está dir eta.mente ligado n.o!-l obj et ivos
iniciais do pesquisador; por exemplo, se a i.ntençü.o é a. simples r edução do
.1 :
! ;
número de variáveis, ela será bem suceclida se for possível determinar t:m
:i pequeno conjunto de fatores que consiga expli car llir?-ª parte considerável da
. variabilidade do conjunto original de va.riávei::J . De quaiquer modo, há a.i gu-
rnas propriedades que sã.o desejáveis a um:i soluc.:2.o de uma anilis e fator i:.d_~ ( '

a. encontrar um número relat ivamente pequeno de fatores que possuam um


alto grau de explicação d(L VJ.riabilidad e original dos dados;
• 1

b. encontrar fatores interpretá.veis.


~
: 1
1:

\1 Deutre as ra.zõcs que explicariam o insucesso de uma. arnUise fator ial 1 desta.-
. carnas:
1
t/1
:1·

li i. . tamanho insuficiente da amostra - uma am ostra pequena pode nã.o con-

l:Uil
i
seguir refletir de maneira precisa a estrutura de interdep end ência dos
:i
dados;
.. .
• •I

ii. vari.áveis com urna fraca. interdependência - por exemrlo, c.:on.sidere uma
.,
1
écala composta por itens, onde cada item mede um aspecto difer-
. ente do constructo de interesse, nesse CL"LSO é poss fvel qüe uma análise
fatorial não consigl:L identificar fatore s com um grnu rii.2oável de in-
terpretação. Ha.ir et al. (1998) discutem que para o sucesso de umô.
a.ná.l.ise fatorial é necessário que existu. um número ra..zoá.vel d e cor-
relações superiores (em íngdulo) a 30%, caso contrário a estrut~;:.~
de interdependência será muito tênue p a.ra produzir resultados aatis-
fatórios;

Univcnidn.dc l"'~dcru.I d.: Lu.vr~ - llepQ.f'tl.Ullculv da Cil:uciu..:i: EJC'1tu..:i. - Luvnu.1-MC 102

(
- \

•ti!• llr.uni llo da H ll JlA S r. 10~ ST::AGllO - 7" 11 tlr. J ulho de 2003

m . a estrutura de dependência pode não ser homogênea em toda a amostra


- cousidere, como ilustração, iteus de uma. escala. que se a.'>6ociam
diferentemente (possuem estruturas de dependência d3forentes) para
homens e mulheres, nesse caso, uma análise fatorial aplicada apenas a
um dos sexos pode ser bem sucedida., rna.s aplicada à amostra total não-
P a.rece razoável quc 1 no caso de immcesso e quando existírem razões
teóricas para isso, se fo.ça uma análise fatorial para cada. sub-grupo de
interesse de uma amostra_

Discutimos, nes te texto, a.spectos essenciais ligados a uma análise futo-


ria.l ortogonal (exploratória)._. Sugerimos aos interessados na aplicação dessa
técnica a leitura. de Ha.ir et ai. (19!J8), que descreve a análise futorial de modo
baa tante informa.l; o livro trata, basico.mente, da análise fatorial basead a UéJ,
matriz de correlação (que parece ser a mais utilizada n.a prática). O livro
de Reis (HJ97) também traz umn, interessante introdução à técnici.1 com wna
a.bordagem um pouco mais forma..L O texto de Reyment e Jürcskug (19g6)
é indicado para aqueles que já possuem bons conhecimentos btl.s icm; ::,obre
AF e desejam a.profundar-se no assunto. Para quem busca. um textv um
pouco malli formal do ponto de vista estatístico, ma.s com boas ilustrações,
sugerimos os livros de Johnson e Wichern (1998), JohnBon (1998), Dillon e
G oldstein (198 4) , Mardia et al. (1989), Ha,wkins (1982) e Sha.rrna (1996).

Uni vcr!lidn.de Fodcrnl de Lnvrnn - Dcpru-trul'lo nlo do Citncliu ExntM - Ls.vro.,,..MO 103
4U2 lltuni1'<> dll. TlDJlAS i: 10ª SEAGHO. 7 u. 11 d< Julho do 200S

Univer!iido.dc H::dcru.1 de Lu.vru..a - D.::pu...rtn.munto de Cil:ndu...:t l-.!x4i.t~ - Ltw n.:.:'" J ~i:G 104
Capítulo 4

,,..1 ...
A I1.a11se n" . , ,.
Ju.1scr1m1nante
\

4.1 Introdução

Análise Discriminante é uma técnica de An.álise Multiva.riada ·freqüente-


mente utilizada com o objetivo de diferenciar populações e/ou cléllisificar
objetos em populações pré-definidas.

Uma das diferenças entre análise discriminante e análise de agrupamen-


tos é que na an.á.lise de n.grupa.mentos deseja-se formar k grupos homogeneos
na amostra, sem o conhecimento a priori da alocação dos objetos no1:1 grupos.
Na análise d.iscriminante 1 conhe~se a priori a. quais populações pertencem
os objetos d.a amostra. Para a a,plicação de uma análise de agrupamen-
tos é necessário ter uma amostra para a qual foramobservadas p variáveis
aleatórias. Para a análise discriminante) uma amo::itra de cada uma de g
populações é coletada e além das p va.ri{weis observadas para cada objeto
das amostras é preciso saber de que população cada amostra provém. Esses.
doi::i métodos são atualmente largamente utilizados como ferramentas de
Data Mining. A análise discriminante é um dos cha.ruados métodos supe;.-
vision.aclos e a análise de agrupamentos é um método não supervi.'3ion.a,do.

Como vimos no Capítulo 1, a análise de agrupamentos pode ser aplicada


a arno::itras para as quais tenbarn sido observa.da.a variáveis de diferentes
tipos (quantitativas, nomina.is e ordinais). Neste capítulo, con.5ideramos
que as p va.riá.vcis observadas são qu.a.ntita.t.ivJ.S. Para. atingir 06 objethos da.
a.uá.foie discriminante com variáveis mistas é mais com~ utilizar a regressão

105
481. Jtcu11ill<> da. ltllllA!J e 1 QD SEAGJtO - 7 ~ 1 l de Julho do 2003

lo~í.stica'
º , as árvores de classific·aç.ão ou as redes nem a.is artwcia.i..s. Com-
p<'ü<'..Ç~ emre e::.-:>:l.S t.écuic.ss p.o-de.m ser enronlr:.\d~·.s em Fe.rreir",<. (1.999\
Rosa (2000) e Ohtoshi (2003).


·0,g, principnW. olfjetiv.Qs
t!> '-.../ - <::::::>
da a:g_ális~ discriminante .sã.o:
<:> :::::::::> <=> .........., --- ---.,,. '-' ~

111 ~~ç§Q_: que consiste em ~~ as '"J.rÜÍ.ve· ob-


serva.das (funções discriminu.ntes) que sã.o responscí.veis ou que possam ~
explicar a8 diferenças entre as g popula.ções; · -1 (';' • "'

~ c}agsi ca - o a ·e ~: que consiste em determin:..r funções das


~
V<Lriáveis observcLdas que permitam classificar novos objetos em uma
das g populações.

Na prá.tica us funções discriminantes sã.o deter minadas wm base na


a.mostra e são utilizadas para fazer a classi.ficaç1io de objetos extra-amostra
em uma. dru; populações.

Apre.Sentamos abaixo alguns problemas er;n que a análise düicrirninante


poderia ser utilizada..

Problema 1: · Uma das atribui~:ões do Banco Centn'-1 d o Brasil é focalizar


as instituições financeiras do país com a .finalidade de d e tectar possíveis
problep:ias de solidez e d~ comportamento. A idéia é d esenvolver métodos es-
tatí.sticC?s que possihilitem classificar essas i.ru!tituições como "com" ou "sem"
·problemas e alertar o Banco Central para uma fiscalizaçfi.o mais rigorosa a
instituições classificadas em ucom problemas"_ Esse estudo foi tratado na
dissertação de mestrado de Oliveira (2000) onde 17 in clicadores econômico-
fi.nanceiros foram utiliza.dos e no trabalho de iniciação científic;1 de Vincen.zi
(2002) 1 que se ba..':leou em apenas 5 desses inclicadorc~,; .

Problema 2: ·A concessã.o de crédito a consumidorc'S é uma prática real-


izada por bancos, supermercados, loj:JE de varejo e out ras organizações. A (J
dec:iHã.o sobre a concessão ou não a um novo cliente é usualmente baseada
em té cnicas de classificação e consiste em rotular o client e como "bom" ou
"ruim" de crédito. As variáveis que em geral sã.o observadas e nas quais
são baseadas as decisões são variáveis sócio-econômica.s 1 como por exemplo,
. . .
1
Es;;e trabalho foi utilizado no desenvolvimento de parte des te capítulo.

U11i vf' r!i idudt: Federu.J de Lu.vr~ - Dtpu.rtu.mentu dt: Ci!ucili-6 Ext1l~ - Lt1vrWJ- Lt0 l OG
·18 l Hcunill<> d<> llD/LJ\S e 10° SE/\ GHO - Til J 1 do Julho d o 200.J

Estado Civil, Nível Educ;.Lcional, Se..."i:o, se o cliente é proprietário da casa .em


1
que reside, etc. Esse pro blema foi trn.f:a.do w,s dllisertaçõe11 de westrado de
Rosa (2000) e Ohto3hi (2003).

Problema 3: No Exemplo 3 do Capítulo 2, os da.dos coletados oobre as


plantações de melões reforem-se a frutos com 9 genótipos diferentes. Uma
questão que poderia ser de interesse é verificar se seria possível prever o
genótipo dos frutrnj tendo como base as variáveis observadas, isto é, o número
total de melões por heda.re, o peso médio dos meloos, o peso total médio
por hectare, o número médio de melões por planta., o índice de formato e
o teor de açúcar. Isso poderia ser tentado por meio da a.plicac;ão cie uma
análise discriminante. Se eBSWl variáveis discriminam bem as Y populações,
ela:; pode.riam ser usadas para classificar novos frutos e a..ssim prc'ror seu
genó tipo.

4.2 Análise discriminante para duas populaçõ~s

Nesta seção consideramos <J, discriminação e a claBsificação quando o número


de populações envolvid<J.'.-i é igual a doía, como noa Problema3 1 e 2. Den· a-
_plO::i ess o~ões -~ ·Na Seção 4.3 consideramos o problema \)• .;e . .:,e
mais geral de discriminação/ classificaçã.o para ma.is do que dua.s populações. ~(vfc/':>

Conaidere que o vetor x de variáveis aleatórias viudo de uma das du.a.'3


populações T 1 e T 2 , cujos vetores de média.s ~matrizes de=: covariânci<L sejn.m
dadoa por

µ1 = E(x 1 Ti) : vetor de médias de uma observação rn1J..JtiYrJ.riada de TJ,


µ2 = E(x J r2) : vetor de médi~ de Uilla. observação multivariada de 72,

:E 1 = Cov(x ma triz de COVClriância de uma observação


1 71) :
multi varia.da. de T1,
:E 2 = Cov(x / T2) : matriz de covariãncia de uma obserY-d.(jiio
rnultimriadn. de Tz.

Suponha. que e·aru sekcio da.a uma. ~s~d~co.da


~~fi•.11-1:- e ...:l:l'.z,, respectivamente.

Univ crai do.dci Fcd cr A.l de Lnv r~ - Dcµ nrt o.rncnt o de Ci ~nciM E::a.tn.o - L11vra..'.J-l\-1 G 107
4gl l~uni!U> d1L JtllHA9 e JOº SJ::AGRO - 7 ~ J J de Julho do 200~

1
Exemplo 7: uma. parte dos .dados do Problema 1 estão apresentados na
Tab ~la 4.1 e sã.o aqui considerados para ilustração da.H técnicas. N essa
tabela, há informação de 4 indicadores econômico-financeiros x = (X 1 1 X2,
X 3 , X 4 ), especificados abaixo, de 20 instituições, 10 com problemas e 10
sem problemas. Os dados foram coletados no p eríodo de agosto de 1994 a
agosto de 1998. A medida considerada é a que representa a pior situaçiio
da ÍnBtituiçã.o financeira entre as seis últimas observadas. Para o grupo d e
bancos "com problemas'', os dados foram coletad os até o período ill1terior à
intervenção do Banco Central. Admita que queiramos obter uma regra de_
discriminaçãl? com base nessas quatro variáveis.

Tabela 4.1: Indica.dores econômico-Bnanceiros


Banco Condição X1 X2 X3 X4
Banco Real ,1 0 ,8888 0,7'.5 91 1,0255 0,3U38
Banco Garantia 1 1,6655 0,7268 0,8780 0,0004
Citibank 1 2,2111 0,01G 6 0,9492 0,3420
Chase Manhattan 1 1,4351 0, 9133 0,9577 0,2325
Unibanco 1 2,1414 0,0020 1,0245 0,3966
Santander Noroeste 1 1,1920 0,4.972 1,0340 0,3095
Banco Itaú 1 1,5895 0,25 93 1,0453 0,5570
Francês e Brasileiro 1 1,3272 0,-1126 1,0448 0,3482
Banco Sogeru.l 1 1,8847 0, 3880 0,9864 0,03 37
Banco Ita.marati 1 0,5229 o ,~Jtt73 1,1244 0,1180
Banco Banorte 2 0,4922 O, :.nG6 1,1127 0,1628
Banco Est. Alagoas 2 1,<1427 O,UD89 0,9019 0,1355
Bancu Econômico 2 0,54:38 0,:J '.:!58 1,0300 0,1481
Banco Nacionul 2 0,19 04 0, 7087 0 , 9~17 0,2625
Banco Progresso 2 0,1102 0 ,?~~ 7 8 1,0280 0,0783
Banerj 2 2,0060 O,ü:í l4 1,0321 0,0816
Banco Rosa 2 0,2321 0,9:23'1"' 0,975 3 0,0045
B u.nco Open 2 0,9019 0 ,1G 34 ] ,1414- 0,5485
füi.nesp,u: 2 1,9757 O, JJ % 0,9997 0,0751
Bu.nco Bamerindus 2 0,7276 o , ~1 13 9 1,1077 0, 2957
Fonte: Oliveira (2000)

Os indicadores utilizados nesta análise sã.o:

X 1: Liquidez Imediata;

U nivoroitll>d o Floderu.J tle Lavmo • P eµu.rtlUilt lltC <!e Ci~nci"" Ex~lb!I - Lh ·n co - ~.<G 108
)

'
'
' ~a > Rcuniil<> dn TI.UH.A S • 10° Sl:: A Q TI.O. 1" 11 de Julho de 20()3

X 2: Participação dos D epósitos Interfina.nceiros .no Total Op eracional;


X 3: Participação das Exigibilidades no Ativo Operacional;
X i: Pa.rticipC11fa:i da.s Rendas de Pre:itação de Serviços em Relação às De-
spesas Administrativa.s.
1
As definiç~s desses indicadores podem ser encontradas em OLlv;eira. (2000). ?°'\?Q/\ c-úool--
As condições 1 e 2, indicam o seguinte: J.. ?Se"0\\e 'rY\. e'"'\ x.
o.Jis1c\e
1: banco sem problemv.s; ./
2: banco. com problem a.'l (sob interveuçiio do Banco Central).

A princípio ·considcr <.u nos oomente os indicadores X 1 e X 2 • Para vi:m-


alizar esses da.dos, um diagrama de dispersão é apresentado na Figur a 4.1.
Pode-se verificar que se cowiidera.rmos somente a variável u.Ieatóri<J. Liquidez
Ime dia ta (projeção dos dados no eixo das abcsi.ssas), as ill8tituiçõcs dos dois
gr upos ficam misturadas e é difícil discriminá-las. O mesmo ocorre se con-
siderarmos apen.a5 a Pv.rtici.pação dos Depósitos Interfinan.ceirbs no Total
Op eracional (projeção no e.L-co da.s ordenadas). Seria possível obter a tepre-
~entação d e dados em al~um outro eixo de modo que as 2opula0,es pudef.lsem j
ser discrimjna.da.5 ?

...

Figura 4.1: Diagr<.1.Dla de dispersão dos Bancos

A Figura 4.2 mostra o mesmo diagrama de dispersão da Figura 4.1,

Un ivcr:i idõ.de F edera..I ele L.nvr ll.D · D oµl'rt N'Dcnto de Ci~ncin.LJ E.x o.to..a .. L llvra.:>-MO 109
48'- llt.unill.D d11. HllfiAS e 100 SgACHO • 7"' 11 de Julho de 2003

entretanto nesta a projeção dos dados é feití1 em um terceiro eixo onde


M instituições com e sem problemas sã.o melhor dÍllcriminadas. Essa é a
idéia do .M~to.Qo .Qe ,E.isher descrito abaixo: pb t_s;r 1b,ll Jt.Qvo,..gixp, qQe é cum ~
~;ombin~ãOJini'a;:,,das variáveis .QrigiJ111is, o;"cie ~ po pulações Pôss'ã:fn ãêr
:nlelhor dI!erenêrnda.s~ <:::> = ,_.., -

,
·:...
' '·',:~;;ir,

Figura 4.2: Diagr'ama de 'dispersiío dos Bancos

4.2.1 O Método de Fisher .. .. ·

O método de Fisher ba.seiw-se na intuição e req uer apenas corno ~


gue as matrizes qe CO)lUii,â,gcip.__çio yetur )Ç_ P<<.]JJ,_as,.4uc.;L PO,J2 ula.s,:õe.sr ~'!:rn _
lguais, :E1 = :E 2~= fS'. ', - ~ . . _, "'--"' .__,
. _, . . . . _, . ~º .
Considere uma combinação linear di.L'3 vMiá.veis em estudo, Y = zT x . .As
. y para as d uas popl!l.U\{Ot.-:'i
me' d.ias oe - . ~~o ~ .~ í.tS po.::
- OiJ.,U " J -~ 1

i
. '

A varianci.a de Y é

e é à mesma para quaJquu· da.s duas populaçê\1;s.·

Univer:sidu.de l~d c n:.1 dei Lc.vru.a - n, µutu.mt:u t o de Ci~i.iciUJJ ExntLll - L u. vru. !J - h{ G 110
' ~8 2 Hcuni!W dn H.HP..AS e JO" Sl> l' GilO . 7 n ll ele Julho dr. 200.'.l

'

Figura 4.3: Distribuições

Os grá.ficos da Figura 4.3 representam o comportamento de Y para duas


populações em três si tuações hipotéticas. ~~~ll_D..9 indic<.1.m r.f;!giões
cm que é difícil diferenciar as dua.s populações. Note que e.s.':la..s regiõe.1 .dimin- ~

uem qu do as mé~dgj'.'.:.._pa.r as m,as~pJl].a õe~c:; entre


si compare A e B) Q9.-Q.~ a i~ eia eJ:::..-é~ll~ (compare A e C).
Com isso em mente, ~tp.Q,o Ji€ lJ.i@.q busca. eucontrnr a melhor def:iniçfu?
de Y (r.m .E-aja.; i) ~ .')J5:Qt, ijq_ d . 11, ~ m,id i~.,
·~m~=SJ.@ ~!z!J1la;le. . = =

A idéia é ~.9"'11" da.s va.riávefo que melhor discrimine


;1s duas popuiações, ou ::pelhor,
.
obter a combinação linear que JDaximizp..,a.
e:> cs

!. ·.

(distância ao quadrado entre a.s médias de Y)


r, va.n;uJ:Cia.
.. ' dY) e 1:

i-·' . ! 1

onde ó ~· (µi - ,:. t 2 ) é a d!farençc. entre o.s· Yetc!"efl de mP.dié).,::J.


. : ~ . . ~ i:, 1'!11': '

Univcrsido..dc Fcdero.l de Lo.vr:l..1 - DqJ nrl l\.lDcnto dr. Cit! ncio..:> 1-:.X R.tl\.:I - Lnvr..o!)-MC 111

.• ! '\ 4 .'f .... :.. . .•• 1 /11 ·:· · • • ,.


4Rl Hounill.o d11 llBltAS e JOU SEACllO - 1 a li de Julho do 2003

2
ou se\ a 1 ((T Ó) é maximizada por (óT:s- 1 o) ou cinda (lT ó)_:_ é igual ao
· J · l r :El · ' , ~l
vd.lor má.x.ímo quando l = c:E- 15 = c:E_ 1.(µ 1 - µ 2) em que e é uma constante
diferente de zero. Tomando e= 1, temos a combinação

~ T:E- lx , (4.1)

.._,.dJ...s::@in@ te JineUf---,de J~:_is~r.


que é chamada :f.un,ç_,,ão

Vamos considerar agQ_ra a questão de cla.ssilica r,:ão . Como a fun~:ão ( 4.1)


poderia ser utilizada para clas~ifi.car uma nova. o b ~ crro,~:ão (x 0 ) em uma d as
duas populações?

Corn;idere vo corno o valor da vari.á vel transforma.da para essa nova. ob-
i:;erva.ção, Uito é, (µ 1 - µ 2)T:E- 1x:o e seja ~t~ 'dio ~7--as
vo =
duas m 'dias- o _ aci nalli de
' -./ - ._/

1 . 1
m = 2(µ1y + /.L 2y) = 2(ZT µ1 + zT µ2)

= ~(µ1 - µ 2)T:E- 1 (/.L1 + J.i. 2)-


Pode-:->e mostrar que

E(Yo 1 T1) - m = E((µ1 - µ2) T::s~ 1 xo 1 T1) - ~ (1-< 1 - µ2) T::s-i (f.t1 + µ2)

1
= (µ1 - µ 2)T:E-l /.J.1 - 2(µ1 - µ 2) T I:: -l (µ1 + µ 2)

= -1(µ1 - µ2 )T>:-1(
_,__, µ1 - µ '2 1\ :::: O.
2

Ana.lagamente E(Yo 1 T2) - m <O.


Isto significa gue su~e ção~~e à. po r~l a~~-7.:.1.J8.P0 -s -qu_e
yo se,lli,...m_~ QU i u a m e se per::t~ce.___à p.o ~a!,,~~ _,."T-2-,._§-J?-Cra- ~ se.W,
. menor--~q:n~-~ Essa condusão leva à regra d<: a.locru,:ã.o que consiste nq_
seguinte:

Uuiven1idh..de J~deruJ de Lt.vr b!J - Üef,J tu"tu..m.euto de C iã nci b..8 Ex1u a.,, - L.u. v r h!l - }.{0 112
·1~ > 11.eunil\Q oc. JUJRAS o l Oº SBA OHO - 7 " 11 elo Julho ele 2003

ou, de modo alternativo,

Na prática os parámetros da população não são conhecidos e sãà sub-


stituídos por suas estimi.J.tivas amostrais :X. 11 x2 e Sp que é a combinação linear
de S1 e Sz. Assim, se temos amostras de n1 e n2 observações das populações
T1 e r2, resp ectiva.mente, os estimadores dos pn.râmetros das populações são
dados por

..·..~~
~ .

(n1 - l)S1 + (n2 - l)S2


ni + nz - 2
~ ~---
~~~}@~ e é largamente utilizado na aplicação
de técnicas estatístiC<l.'3 que pressupõem igualdade da.s ma.trize::i de cova.nâucia.
Assim, na. prática, a fun_s.ão discriminante lineaI de Fisher é dada por

--- (~ o _ponto médio !'.:!:. entre as clua..s médias univa.riadas amostra.is é ~ado por
. . '

-
rn = -l (-
Yl + Y2- ) = -J. (·-
x1 -
_· )Ts-1(-
x2 P :x:1
-1- x2
- ).
2 · 2 ~_r-

i.J1,lvcr:J i do..d c FcdcTo.l de I..c.vr0-3 - D(;pn..rt. r.mc: nto dr:: Gi~ncitt!J Exn t nJJ - La.vrn.s-J\..CG 113
48~ JU.unil-0 da Jlf:lllAS o !QD SEAGllO • 7 11 11 de Julho de 2003

Q_Y4:! , . d - CZTó)~
'LlOr maximo a__razao
~ -..__,; ~ l
n2..,. =._./LlS) ;'.1~Y
T :El e,. ___.JYJ- - )Ts-1
- X2 . r.
..._/
-
X1 -
- 2 qne e,
X2
- -../"'

~ma.d r da Distância de Mahalanobis ent ~151-!(_J)...2 (ver a definição na


Seção B.2.1 do Apêndice B) e pode ser usada pura testar se µ 1 e µ 2 diferem
significantemente.

· Voltando ao Exemplo 7, da Tabela 4.1 e considerando somP.nte as dm.s


primeirn.s variáveÍB, Liquidez Imediata e Partid.paçã.o dos D epósitos Interfi-
nanceiros no Total Operacional, podemos obte r as estima.tiva.s dos vetores
de médias da.q duas populações e dé1 m<Ltriz de covariiinc:ia c:omum, que siio

o, 28!1 -0, 070 )


-
Xi=
( 1,486 )
Ü,580 1 81 =
( -0, 070 o, 101 l

:X:2 = ( 0,862 ')


0,414 '. ' S2 =
( 0, 506
- .O, 164
-0, 164 )
o, 091 l

0,395 -0, 117)


s, = ( -0, 117 o, 09ü .·
Os vetores (x1 - :X:.2) e (x 1 + :X:2) e a inveniu. da m a triz SP sã.o

- - ( 0,
o, 166
624 ) - - ( 2, 348 )
X1 - X2 = , X1 + X2 = Ü, !)!) 4 '

s-1· = ( 3, 9ül9 4, 828 5 )


p 4, 8285 16, 3014 .

.A função discrimina.nte linear de Fisher é_ 3, 274X1 + 5, 719X2 e o valor de


m é 6,681.
A Tabela 4.2 e a Figura 4.4 mostram os v-alores da função disc.:r iminante
para cada banco. Observe que a. representação nesse ei.."'.:o disc.:rirnim1, as d lli!.s
populações bem melhor do que a representação nos eixos oríginai.9. A TcLb ela
4.2 mos~ra também as condições e a populaç:?1.0 em que cada banco seria
alocado caso sua condição fosse desconhecida. Note que os todos os bancos
na condição 1 (usem problemas") seriam aloc::.i.dos e.arreta.mente. Quanto
aos bancos na condição 2 ("com problem1Ls.!'), d ois seriam chl!.lsificadoll e.amo '
usem problemas", são os bancos Banerj e Banespa.

Uma observação importante é que todos esses bancos tinham sua condiçlo
conhecida e foram utilizados para determinar a função discriminante. As-
sim, essa alta ta.xa de acerto pode ter sido iniluenciad a por ess e fato. U ma

Univoreidude l•\idert>I de Lnvnu - Deµo.rtAmon ' o de Ciclncill.l l::xu(llll • Luvrw1-MO 114


~8~ Rcnnll\.o clA RUltJ\ 3 < l Cº !.HO: A 0rt0 - 7 "' 1 1 d<> julho ci e 2003

maneira de contornar cri:m questão é a utilização de procedimentos do tipo


"cross-v-dlida.tion" que Ecrã.o aborda.dos no final deste ca,pítulo. ·

Tabela 4.2: Valores da Função Discriminante e Classificação


Banco Funçã.o Condição Cla.s~ifica.do
Discriminante em
B a.nco fü:•..oJ ·-
7,137 1 1
1 B o.nco Garantiu 9,609 1 1
Citibank · 12,481 1 1
' Cha.se Manhat tan g,!)22 1 1
' Uni banco
Santander N oro ~s1.e
7,022
ú,746
1
1
1
1
Banco Itaú 6,68'{ 1 1
Francês e Brasileiro ·{), 705 l l
Banco SogeraJ 8,390 1 1
Banco Ita.mara.ti 7,130 1 1
B<J.nco Banortc 3,422 2 2
BCLnco Est. Alago;.i.s 5, 050 ,2 2
1 Banco Econômico L!,845 2 2
Banco Na,ciona.l 4,676 2 2
' Banco Progreaso
Ba.nerj
4,580
6,804 '
2
2
2
1
Bn.nco Rosa 6,041 2 2
Banco Open 3,887 2 2
Ban~pa 8,410 2 1
Brt.nco Bamerindu8 4,177 2 2

4 .2.2 O problema geral de classificação

U rua outra maneira de cWicriminar .d uas populações é fazer uma partição do


espaço a m ostri11 D cm duas regiões, R1 e R2, que favoreçam as populações 71
e 7 2 , respectivamente. D efinidas essa.s duas regiÕ€s, ela.s podem ser tisadas
para class ificar um n 0vo o bjeto ~orno pertencente a uma das duas populações
(se x 0 E R 1 , concluímos que ·a_, observação vem de r 1 , caso contrário, vem de
Tz).
A questão é como determinar ess~ dua.s regiões e, para isso três pontoB
podem ser comiderados :

\J 11i vcroido.dc Fcdcrn.1 de i.o.vrn.:J · OtJpl\.rt o.rocnlo de Cianci°'4'J E xnlM - J.. u.vr"-'>-MG 115
48~ IU.uniil..o du. flDltAS e i ou SEAGftO - 1 o. 11 de Julho de !1003

Figura 4.4: Funç~o Dist:riminante de Fisher

"' pode haver sobreposição da.s duas populaçõc-:o e é possível se come--


ter erro de classificação (claasifi.ca.r a observaçã.o x 0 em Ti quando n a
verdade ela é de T2 e vice-versa);

" um dos erros de classificação pode ser bem mais grave do que o outro;
por exemplo, no Problema 1, do ponto de vista. do governo, classificar
um banco "sem" problemas como tendo problemas levaria somente a
uin endurecimento da fiscalizaç.ão a essa instit uição pelo Banco Cen-
tral. O oposto poderia levar o Banco Central a rela.xar na fist:alizaçã.o
e trazer grandes prejuízos futuros;

,. uma população pode ser bem maior do que a outra, ou seja, a proba-
_bílidade de urna observação pertencer a uma população pode ser bem
ma.ior do que a probabilidade d ela pertencer à outra; ai.nda. no Prob-
lema 1 sobre a fiscalização exercida pelo Banco Central, h;i um número
muito maior de instituições com boa saúde fin anceira do que insti-
tuições apresentando problemas.

Esses três pontos podem ser .levd.dos em coru>iden 1J,:i:"w no problema geral
de clu.ssifieação. Pode ser incorporado na regra de alocação um custo para
cada tipo de erro, podendo-se incluir um valor de cus to muito maior para o
erro mais grave.

A questão de uma população ser muito maior do que a outra pode ser

U11ivi.:roidn.<le l·\odcrul c.ic LllYTl~ - D e pn.rttunenl.O de Cil!nCil\..8 Exu.tu - Lavrn.s- ~\ ~ e 116


45• ncunill<> d .. fiBHAS e 10° S.EAOJlO - 7 n 11 de Ju lho de 2005

tnlduzida pela inclusão de probabilidades a priori de uma observaçiio per-


tencer a cada populaçiio. A maior delM poderia ter um maior valor para
essa probabilidade a priori.

A idéia é levar tud o isso ern consideração e obter a partição .do espaço
a.mostral que leva ao menor custo esperado de chwsíficação errada. Vejamos
como isso pode ser fei to.

'
~

Figura 4.5: t{egra de Fi:iher

A Figura 4.5 ilu..'ltra o comportamento de,Y ern duas populações e mostra


o ponto de corte sugerido pelo método de Fi1Jher. Se adotarmos esse ponto
de corte, a probabilidade de cla5si.ficação errada dado que o objeta ·pertença
à População r1 é a mesma de cla.ssi.6.cação P.rràda dado que o objeto pertença
à População r 2 . Imagine uma situação na qUa.l os tamanhos das Juéi5 pop-
ulações sejam iguais, m<ts onde cuatos de cla5sificação errada sejam difer-
entes , por exemplo, o cu.ato de cla:rnifica.r um elemento na População r2
quando ele é da População 71 for maior do que o outro. Pará manter um con-
trole do. custo total, a probabilidade de classificar um objeto ern T2 quando
ele p ertence à -r1 deveria ser menor do que a apresentada. Isto é fa-ito se
des locarmos o ponto de corte para baixo.

Uma outra sit ua,ção seria aquela na qual os custos são iguais, ma.'3 urna
das populações (por exemplo a. T1 ) é muito maior do que a outn... Nesse
caso, a manutenção do p onto de corte no local indicado faria coro que a,
ta;-ca. geral de erro fml3e muito êJ.lta. Dcmia. forma, ae o intcm~3:>e for controlilr
a taxa de erro total, o ponto de corte tamMm deveria ser deslocado pa.r<1

Univensido.de Fe<lernl de La.v rl>.l - D eµMt nmonlo do Ciilncillll Ex!Ur.o - LnvrM-MO 117
48~ lt.euniil.D d .. nBilAS • JQD SI·:AOnO - 7 a. li d• Julho de :100:>

baixo.

Sejam fi (x) e f2(x) as funções densidade d e probabilidade de x para a.a


populações T1 e T2, respectivd.filente. Sejam p(i!J') a probabilidade de se clas-
sificar um objeto em Ti quando nLL verdade ele é de Tj· Essas probabilidades
sã.o dadas por

e,

P(lj2) = P'(x. E Ri j T2) = f h(x.)dx.


ln1
Também podemos definir as probabilidades de se classificar um a ob-
servação na. popula~:ão Ti quando ela é mesmo de Ti, ·i = 1, 2

P(l/1) = P(x E R1 / r1) = ( fi (x)dx


ln1

e
'

P(2/2) = P(x E R2 J r2) = • f _ f2(x)dx.


j R2-fl- Il.1

·Seja Pi, i = 1, 2, a probabilidade a priori da observaçã.o pertencer à pop-


ulação Ti· Temos que PI + P2 = 1.
Considere os custos de classificação errada_ e a..s p robabilidades de cla.ssi-
ficaçi:io com" as seguintes notações:

Custo de cla.saificaçã.o errada


população p revist a

população r1 o c(1/ 1)
verdadeira T2 c(ll2) o

Uuivoraid!We Ftdernl de Lavrtl'J • DcplU'tarncuto de Ci~ucillJl Bxhtll.ll • Lo v r u~-MG 118


'
\
·1 8 ' Jlcunii\ô do. R!JRAS o !Oº sr; .~ Q l!. O . 7 ~li dn Julho d o 2003

'
isto éi c(2j1) é o cu.sto de clrurnificaç5.o de um objeto de r1 em r2 e c(l 12) o
'
\
mverso e

' Probabilida.de de claBsifi.cação


' população previsto.
Tz
população T1 P(li 1) P(2i 1)
verdaclci.ra Tz P(li 2) P(2, 2)
'
'
'""'\ Assim 1 a probabilidade de se classificar uma observação corretamente em
'""'\ T1 é dada por

P(li 1) = P(c1a.'3sificar corretrunente em T 1 ) = P(obRervação pertencer a


T1 e ser classificada em r1 ) = P(x E R1 ) ri)P(r1) = P(ljl)P1i

Ana.logamente 1
P(li 2) = P(cla.ssificar incorretamente em ri) = P(observa.çã.o pertencer
a Tz e ser classificGLd a. cm r1 ) = P(x E Ri /. r2)P(r2) = P(l/2)P2i

P(2i 2) = P(classificar corretamente em r2 ) = P(obsei-vaçã.o pertencer a


T2 e ser classificada em r2) = P(:x: E R2 l r2)P(r2) = P(2j2)P2i

P(2i 1) = P(cla5silicar incorretamente em r2) = P(observação pertencer


a r 1 e ser classificada em r 2) = P(x E Rz 1 T1)P(r1) = P(2jl)p1.

O cu1.lto esperado d~ erro class.ifica.tório (CEEC) é dado P-2,!:

CEEC - c(2) l)P(2i 1) + c(1)2)P(li 2)


c(2/l)P(2)1)p 1 + c(l/2)P(lj2)pz.
,·cd_.
A regrftde classifica.ç;-:-w consiste errf determinar R. 1 e Il2 que minimizem
o CEEC e sã.o dada.a por

U ni ve:r:litlMlc Feclc:ra.1 óc Lo.YTllll · Dcpartn..rncnt o de CiônciM E::alns - Llwr~MO · 119

~\
45> n.ounil>.o d .. Il.llflAS e lQD SEACRO - 1 s. 11 da Julho d• 2003

R
2
• h (x) < c(1J2) P2
. f2(x) c(2jl) Pt.

Para provar esse resultado basta perceber que

CEEC = c(2\l)P1P(2\1) + c(1J 2)p2p (l\2)


=c(2jl)p1 r fi(x)dx+c(ll2)p 2 j r h(x)dx
j R2 Ri

e escrever essa quantidade: em função de R 1 , ou seja,

CEEO = c(2jl)p 1 + f (c(lj2)p2f2(x) - c(2 jl)pif1 (x)] dx . (4.2)


}R1

Sahemos que p1 1 p2, c(lj2), c(2/1), fi(x.) e fz(x) siio quantidades não
negativas e que somente as dua.s últimas dependc~rn d e x. Assim, o CEEC
será míriitno quando R 1 incluir todos os valores de x para os quais o inte-
grando da integral em (4.2) é menor ou igual a zero, isto é, R 1 é o conjunto
de valores para os quais
fi (x) c(lj 2) P2.
- ->---
h(x) - c(2jl) P1

e R2 é o conjunto complementar de R 1 em D, ou seja, os v-d.lore.:i d e x para


os quais

fi (x) c(l j2) pz


--<--- (4.4)
h(x) c(2jl) P1 ·

Classificação para popula'ç ões ·nurmais ·· ..

Consideremos agora que os vetores de variávei.B a.lea.tór:a.s x: de ambas as


populações tenham distribuições normais multivariadas de parâmetros µ 1 ,
:B1 e µ 2 , :B2, -respectiva.mente.

Univer•idb.d• l•'l!dernl de Lo.vrM - Depa.iis.n11mto do Ciêoci..., Exu.lll.ll - L....vr...,...MG 120


'
\

18' llcunilln d~ Il.BllAS o 1o0 Sl, AGil.O - 7 ~ 11 d e Julho da 2003

Para se obter a regra de classificação para esse ca.'30, basta substitwr na


r egra geral (4. 3) e (4.4) il função. deruiidade de probabilidade da dlstribuiçiio
uormal multiv-cJiiada, ou ::;eja,

'1 Para simplificação das expressões pode-se tomar os logaritmos o.aturais


sem que as desigualdaclc0 sejn.m afetadas.

Simplificando a.s expre::isões encontradas pode-se chegar à seguinte regra


de alocação: . classificar uma observação x 0 em Tl Re x 0 pertencer · à região
\ R t dada por ·
\

onde

A região R2 é dada pdo con;ipfo.:tnenta.r de R 1 no espaço amostral. Como


na r ealidade os parâmetros da população são descanhecidôs, a regra. prática.
de alocação é: ·

( a.locar X{) em T1 se .
-~xJ (s1 ., 7 .;,s.~ ~~xo + ,~[~;f 1~~. .:!;f )~xº - r. ~ln($!~~~}
1

l a locar XQ em '12 caso contrário;


• f.

1
. (4 _6)

em que k =~ln +~ (ts;-1)


x1 -xrs2 x2). (xis1 1 ..

E ssí'l. regra úm a função qnadd.tirn de x, conhecida como funçã.o d:acriml-
uant e quadr át ica ._
Se é possível supor, como no método de Fisher, que as matrizes de co-
va.riância dM du.ae-.popula,çõe3 :;ao lghai.:3, a expressão ( 4.5) tem o primeiro
termo cancelado, o que icvar.ia à regia d e alocação linear dada por

Un iv c.r :J id a<l \? Fcder a.l d e Lnv rn...'1 - D apl\ rlR.mento do CianciA.!l Ex.l\tM ... LavrM-MG 121
que podr. ser simplificada para

e que mi prá.tica. é usad11 como

alocar xo em r1 se
(x 1 - :X:2) T.s; 1
xo - ~ (x~ - 5:2 ) T s.;
1
(~1 -t x2 ) 2: ln [$IR·;~ J ,
{
a.locar xo em r2 caso contrário.

Usando a notação de Fisher, essa regra pode ser escrita como

a.locar xo em r 1 se
Yo 2: m +ln [~Hm~J,
{
alocar xo em r2 ca.so contrár· o.

A quantidade ln [~gm ~ J é o quéillto se d esloc!L o limite ele Fisher: Jeva.ndo-j '


t>e em conta os custos de classificação errada e as probabilidades a priori das 111
populações. Se os custo8 e as prioris são iguais, a r egrn é igual a de Fisher; se
c(2/1) > c(1!2) e as pr:iori.s.sã.q_iguais,_ o.J~.mi.t~,~. çies)ocud.o _para u esquerda;
se ]J2 > p 1 e o~ custos forem iguais, o limite é deslocado para a direita.

Voltando ~s dados do Exemplo 7, ma.'3 agora usandu toda.s as quatro


Y'd.riéi~~~; o~ vetores de médias e as matrizes de covc1.riwcia estimadas são

1, 48G \ ( 0,.284 -0, 070 - 0, 021 0,008


- o, 004
-,. _
Xl -

.
(
O, 580 )
1 , 007
o, 273
1 81
= -0, 070 O, 102
-0, 021 . -0, 004
o, 008 -0, 022
O, 005
0, 004
-0,.022
0,004
0,0 31 )·
U11iveruh.lb.d& Ji\~iJcrul" c.!t1 l .. .a.vrt\.9 - Dc:porta111011to de Cit:ncitu l:.1ic~tü.B - Lnvru.!J- M C 122
~ íl 2 llcunilío dn lllJllAS e 10° Sl': AO rtO - 7 ~ l l de Ju l ho d e ~003

( O, 862 ) ( O. 505 -o, 164 -O, 051 -0, 012 ) ·


o, 414 -o; 164 o, 014
l
(, _ O,O!H -0, .016
) ·J '.(. -
1, 082 -O; 051 0,014 0,030 0, 002 ·'
' o, 179 . -o, 012 -o, 016 o, 002 ~o, 025

'
' o, 395
- o, 117
-0, ll ~ -o, 036 -o, 002
o, 096 o, 005 -o, 019
)

( - o, 036 o, 005 o, 017 0, 003 .


\ - 0, 002 -0, 019 o, 003 0,028

Os vetores (x1 - X:2) e (X.1 + :X:2) e as inversas da5 matrizes S 1, S 2 e Sp


tii:W

_. ·- ( 0,624
0,1G6 J - - 0,994 J
c·348
X1 - X 2 = -0, 075 , x1 + x2 = 2, 089 '
0,091 0, 452

( 86,970
,568 6,970
17,286
43, 907 -2,930)
38,725 5,472
s-1
l
-
-
43, 007 38, 725 448,795 -41, 757 ' .
- 2, 930 5, 472 - 41, 757 42,286

( 8, 141 16,302 5,3'o4


13,916)
s-1 - 302 46,355 3,600 37,204
l(j
2 -
! 5'.304 3,600 40,563 1,605 '
\ 13, 916 37, 204 1,605 70, 302

( 5 , t105
6,9 64
61 !J G4
21,452
8, 659
5,893 14,423
4,184)
3-l. =
p
1 8, 659 5; 893 76,050 -3, 531 .
\\ 4 l 184 14, 423 - 3, 531 46,178

Neste exemplo, es tamos supondo que u. distribuição dos dados, ta.nto da


p opulaçã.o 1 como da. população T2 1 é a dintribuição normal mulfrrcJ.riada.

Se considerarmos custos de classi.fic;içiio errada e probahilidwe1' a ,priori


ig uais, a função d iscrimina nte lincilf é 4 , 273X1 + 8, 820X2 + O, 346X3 +
a, 611X4 - 11, 933 b é usa:da·'se a suposiçã.o da igualdu,de das matri:,es de
U ni v c~idn.<lc Fed croJ d o Lb.vrn.J - Dcpt\r l rim cnlo de Cíància.!I Exa.tM - Lav ra.o--M G 123
48• Jlcu11iíli:> ·da Jlllit.AS e 10° SEAGltO - 7" l l de Julh o de 2005

c..:ovariância é válida. Essa função é a mesma que a fonção di.scrimínante de


Fisher .

.A função discriminante qua.drcí.tica é -0, 214.Xi+14, 535Xi -204, ll üXj+


14, 03BXl+9, 332X1X2-38, 603X1X3+1G 1 84GX1X1- 35, â5X2Xs+31, 732
X2X4 + 43, 362X3 X4 + 38, 194X1 + 17, 076X2 + 478, 004X3 - 73, 41 5X.1 -
273, 77C e ·deveria ser usada quando as matrizes de cov~1.:1~i.~::_cia s~ diferente!!.:._

A T.ibela 4.3 contém os valores das funçõ es discrim inantes linear e qua-
drática para cada banco, suas condições e populações em que seriam aloca--
dos na.s duas situações. Nota-se que no ca.so linear, somente um banco foi
classificado ·e rroneamente, é o Banespa que teria sido u.loca.do na população
r1. Já no caso quadrático, os baneos mal classificados forai:n Banco Op en e
Banespa; ambos da população r2, alo cu.dos na populaçilo r 1.

O melhor resultado sob a regra de cla.ssifi.ca.ção li near pod e ter ocor-


rido porque as matrizes de cova.riâncí a amostrais das dua_s populações são
próximas, indicando igualdade das correspondentes ma trizes populacionais.
Nesta ilustração a suposição de normalidade multiva.riad a n ão foi verificada
pois as arilostras são muito pequenas (apenas 10 unidad es em cada amostra ) .
Segundo Johnson e Wichern (1998), a_regra quad rática é wa.is afetada pela
falta de normalidade do que a regra linear. Por esse mo tivo, a regra linear
pode apresentar melhores resultados do que a qun.drá tic a mesmo que ::Lll ma-
trizes de covariância sejam diferentes. Lembre que a normalidade marginal
(univa.riá.d a) de cada uma das variáveis consideradas 11 ão garante a normal-
i ~~ ~nju nta (multiva.riada). Quando essa suposi1Jc0 não está satisfeita
pode-se transformar as variáveis. Uma discussão amp la sobre ;1 não ob-
:;ervância das suposições e o uso de tra:asform a,ções p od e !ler encontra.da em
Oliveira (2000).

4.3 Análi?e discriminante -plli~a m àis de duas po p-


ulações

Ne:;t11 seção considerc.u.llol:i o problema mais geral de dil:!cri..minaçã.o e cla.s-


sific11ção quando o número de populações envolvidas é maior do que doi.s,
c..:omo no Problema 3.

Seja g o número de populações, den otadas por rl; -r'.2 , ... , r 9 • Como uma
extensão do caso anterior, considere os vetores de m é,Ji as da.<:: g populações

124
.,
\ denotados por p 1 , ;~, ... , µ 9 e as matrizes de cova.r.iância por ::E 1 , Ll 2 , . .. , :E9 .

~ Tabela 4.3: Va.lores da Função Discriminante e Classificação


Banco Condição Regra Linear Regra Quadrática
Fu.nçao Grupo Função Grnpo
Banco Real 1 3,336 1 6,329 .. 1
Banco Garantia J. 2,701 1 4,108 1
Citibank 1 10,223 1 27,940 l
Ch.ase Manhattan 1 5,825 1 13,043 1
Uni banco 1 1 1,403 1 2,861 1
Santander Noro~te 1 1,425 1 3,046 1
B anco Itaú 1 1 3, 146 1 6,822 1
Fra.nc~.s e Brasileiro 1 1,539 1 3,359 1
Ba.uco Sogeral 1 0,635 1 1,247 1
Banco Itamarati 1 1,222 1 1,151 1
.., -1,808 2
Banco Banorte .{, -4,740 2
Banco Est. Alagoas 2 ··3,570 2 -5,130 2
1
Banco Econômico 2 -2,514 2 -2,313 '.l
B él.D.CO N ac i anal 2 -1 ,223 2 -4, 802 ?.
Banco Progresso 2 -2,862 2 -39,071 ·'.G
Ba.nerj 2 -1,832 2 -1,397 2
Banco Rosa 2 -1,400 2 -3,083 2
B an co Open ')
,e, -0,792 ; 2 0,713 1
B anespa. 2 O,U45 1 1,411 1
B<1nco Bam erindu.s 2 -2,484 2 -1,175 2

Começa.mos pelo Método de Fisher para dépoís tratar do problerpa geral


de cl ass i.fi cação.

4 .3.1 O Método de Fisher

Como no caso de duas populações, a aplicação do Método de Fisher não


reguer que o vetor de variáveis aleatórias x provenha de uma populaç:io com
distri buição normal multivariada. Entretanto, a .~osição de igualdade das
matrizes de covo.riâ.ncia _continua sendo requerida, ou seja., :E1 = ::E2 ~- .. : , =
Í:g = :E
Seja µ o vetor de média..s das médJ:is das g populações e Bo a so-..na de

Vnivt!rojdnd c l'cderal de Ln.vrr-o ... Depr..rtarnento C!o Cj~.aci 46 Ex o.lo.:> .. Lo.vrn.ll-MO 125
48~ RtL1air.o da. llilllAS e 10° SEAGllO - 1 a. 11 de Julho de wo~

produtos cruzados das g populações, isto é,

1 g g
P= - ~µi e Bo = 'I)µi - µ)(µi - µ)T.
g i=l i=l
Note que se os vetores médias forem iguais, não há diferença entre as pop-
ulações e Bo = O.
Considere uma combinação d a s variáveis em e stu~_ 7 Y = rT x .
A média e_ a. variância de Y para a i-ésima população são dadas por

Var(Y) = Var(l T x) = l TVar(x) l = l T ~ l.


Podemos também definir a média em Y da9 médias das g populações,
ou seja,

jjy =-
1 9
~µiy = -
12= ~9 T
l µ; = lT (1 ~'J
- ~ J.L;
) T
= l j1.
g i=l 9 i=l . 9 i =l

A idéia é a mesma do caso de duas populaçõ e~~ ' isto é, obter combinações
lineares que melhor discriminem as g populações, no sentido de maximi.za-s
a s~guinte ·ra:.zão·' . . ·· ' · · ' ' ·· · ·· · · · · ·

soma das distâncias ao quadrado entre as médias )


( em Y de cada população e a média global de Y ).9 ( - )2
~-------------------"--- - ,_,;-1 µiy - µy
(variância de Y) a~

Lf~1 (IT µ; - zT jj,)2 l T [I:f=l (µ; - jj) (µ i - JL) TJ l


(4.7)
- zT:El lTEl

Os coeficientes da primeira função discriminante são os elementos do au-


tovetor padroniza.do de :E- 1Bo, associado ao maior autovalor dessa matriz.
O vetor l que minimiza a referida razão s ujeito à restrição Cov(l[ x, zI x) = O

Uuivur:iidt\do Fl!dor..l de La.vr"-'I - Dupa.rta.monto ~" Cifnci"-'I Ex.;t._. - L c.vr M- MO .:'.: 126
18' Rouclll.o d"' R.BR.AS o 10° 3!:~J\Gll 0 • 7"' 11 do Julho do 1003

é o autovetor padronihn.do associa.do ao segundo maior autovalor de :E- 1 B 0 e


a combinação linear resultante é chama.da. de segunda. função discriminante.
Assim , a. k-ésima. função dis criminante é l[ x, onde l1; é o correspondente k-
ésimo autovetor pCJ..droniza.do sujeito à condição Cov(l"[ x, ll x) =O, i < k.

A demonstração. d~:Jsc. resultad~ scg-ue a mesma idéia usada, para. obter///


a.s Componentes Pnnc1pa.1s do Capitulo 2, somente as matrize3 são outras. ·

Assim, peb decomp osição espectral de :E, temos que .: E= rT Ar, onde
A é a matriz dia.gonél.l dos autovalores positivos. Seja a o vetor 2] 112 L. Então,

'\ é o denominador da razão que queremos ma.x.imiza.r, e


\

é o numerador da. mesmé\. . Assim, max.i mizar ( 4. 7) equivale a ma.ximi~á.r


-~

Adaptf).Ilclo os resultado::i já. apresentndos nó Capítulo 2, o valor máximo .


de (4. 7) é o maior autovalor ele :E- 112 B 0 :E- 1 l 2 , e ocorre quando a é o au-
\ tovetor p adronizado correspondente.

Para. completar essu. pél-r te da. prova basta. notar que as matrizes :E:... 1Bo f/Jl
e :E- 112 B 0 .:t:- 1/ 2 ~êm os mesmos autovalores e os autovetores de :r;- 1 Bo são lri.
igua.is a. x,- 1 / 2 vezes os i.•ut ovetores de I::- 112 B o2J- 1l 2 . ,. ~ ·

A prova para a.s outras funções discriminantes segue os mesmos r~ulta­


dos do Capítulo 2, com as J.daptações acima.

O número de funções cliscriminantes s é igual ao número de autovalores


uâ.o nulos e é no m áximo igui.\l ao menor valor entre p, o número de v<l.riá.veis
observadas e g - l, o número de populações menos 1.

Considere y o vetor de dimensão s x 1 cujos elementos são a.s 8 funções


discriminantes e µ iY o correspon dente vetor de médias na. i-ésirua. população.
· A regra de classificação consiste em alocar x na população Tk se a distância

127
48:Z. fuunll!.o d11. RBRAS ~ 1()11 SEAGJlO - 111. 1l de Julho d • 2003

· ao quadrado entre y e µkY for menor que a mesma distância entre y e µiy,
para todo i =f. k 1 ou seja,

alocar x em 71; se

!I · il 2 s 2
2
I;(yj-µkYj) ... ~[l](x~µk)]· ~-L [lJ.(x-µi)]. i

j=l j=l j= l

para todo i =f. k, onde lj é o j-ésimo autovetor padronizado de :E- 1 B 0 •


Como µi e :S são, em geral, desconhecidos, são su bstituídos por suas
esti mativas amostrais obtidas de X: 1, x2 , •.• x 9 e Sp, que é a combinação
linear de S 1 , S21 • •• S 9 e são dados p or

g
Ê0= ZC'X-i - x)(xi - x) T,
i=l

g g n;

W = 2:(n; - l)S i = L L(Xij - X;)(Xij - xi) T


. i=l i=l j=l

1 .
e Sp = VI , que é o estiméi-dor de ::8.
ni + n2 + ... + n 9 - g

Não é necessário utilizar todas as s funções discriminantes, somente aB i/


/
primeiras delas poderiam ser usadas para fazer a alocação de novos objetos /1L
em u ma das g populações. . .:..,.

Ui:dvcnjdll.dc J.'~dtrb.l de I..ta.vnu - Ucpw1.zunen lo do C i~ndt...U Exu.tu.a - L.u.v ri.~ -MO 128
1 •til ~ ncunil\o da RBRAS e 10° SEA G HO • 7 a 11 de Julho d e :1003

'
1 4 .3.2 O problema g eral de classificação ·

Seja fi(x) a função d ensidade de probabilidade associada à população Ti,


i = 1, 2, .. . ;9· Sejam:

!li Pi: a probabilidnde a priori da. observação pertencer à população


Ti, i = 1,2, ... , g ;

o c(kli): o cu.sto de claasíficaçã.o ele um objeto de Ti em Tk (para k =


i, c(iji) =O), i,k = l,2, ... ,g;

·'.'!> Rr.: o conjunto dos x classificados em ,,.,., e

e P(kji): a probabilidade ele se classificar um objeto em 1-,, quando na.


verdade ele é de Ti .

P(k ji) = )R;;.


f fi(x)d..-v:.,
p arai , k = 1, 2, . .. , g.

O custo espera.do d e erro ao classificar x de r1 em r2, r3, ... ou r9 é

CEEC(l) = P(2 jl)c(2/1) + P(3/1)c(3jl) + .. . + P(g/l)c(g/l)


g
= L P(kjl) c (k/l)~ ·
k=2
Este CEEC ocorre com probübilid~le Pl· Assim, o custo esperado de erro
cbssificatório (CE E C) é dado ifor

CEEC = p1CEEC(l) + IJ2C.T!7EC(2) + ... + p9 CEEG(g) =

~p 1 (t, P(i•Jl )c(1'Jl)) + ... + p 9 (E P(kJ9)c(kJ9))

~ ~Pi CE~, P(kJi)c(kJi)) .


Unjvcr:iide.dc F ~croJ de Lõvrn.s - DapnrtN"ncnto ela Ci~aciM BxMM • Lnvr°'"'""M G 129
49& n,,unil>o da llDTlAS o 100 SEAGflO - 7 1õ J l de Jull,o de 2003

A regra de classificação consiste em determinar R 1, R2, ... , R 9 que mini-


mizem o CEEC acima. Tal procedimento consiste em alocar x na populaçã,o
Tk, k = 1, 2, ... , g para a qual

9
I:: Pifi(x)c(kli)
i=l,i;l:k

é menor. Se ocorre um empate, x pode ser classifi cado em qualquer uma


das populações para as quais o empate ocorre.

Supondo que todos os custos c(k)i), k, i = 1, 2, ... : g, sejam iguais, basta


alocar x na população Tk em 'que

9
:L Pifi(x) (4.8)
i=l,i:;é k

é menor. Mas essa quantidade será. menor quando o term o excluído p 1,!J: (x)
for maior. Assim, a regra de classificação do CEE C m ínimo com custos
iguais por falhas na classificação é:

alocar x em Tk se

PkÍk(x) > PiÍi(x) para todo i ·~ !:,

ou, alternativamente,

alocar x .em Tk se

ln(pkh(x)) > ln(pdi(x)) para. todo i i= k. (4.9)

Classificação/ para populações normais

Se os vetores de variáveis aleatórias x de tod!l.S a.'J pcpulações têm dis-


tribuições normais multivariadas de parâmetros µ; e 2J;, i = 1, 2, ... , 9 ou 1

seja,

i=l,2, ... ,g,

130
48 ' R~uoiM d& R8Í1AS r. 1 0 ° SEAORO • 7 ~ 11 de Ju lho de ~003

e tivermos ainda c(?:/i) = O e c(k/i) 1, k =!= i; k, i = 1, 2, ... , g, temos, de


(4.9), a seguinte regra:

alocar x em TJ..; se

•'""""'\
lnp1; - ~ ln(27r) - ~lnj:b1.:i - à(x-µk)T:E;.- 1 (~-µk)
IDJ.,"'l: i ln pdi (x).

Como a constante (p/2)ln(2íT) é a mesma para todas as populações, ela.


pode ser ignorada. Na pr á tica, definimos o escore quadrático de clas:Jijicação
Qi(x) para a população T i como sendo .

{4.10)

Para. vá.rias popula.çõ c~ normais, a regra de classificação consiste em

alocar x em rk se

QJ.,;(x) = mp..""<Qi(x), i = 1, 2, ... ,g.


\

No caso cm que J.S mc:\ tri~~ en de covariD.ncia de todas as populações são


iguais (:Ei = :E, i = 1, 2, . .. , !J), os termos que dependem de :Ei e não de µi
sã.o constant~ para as g p opula.çõeB e podem ser ignorados. Nesse caso, o
e.5 core de classificação passa. o. ser linear e é dado por

(4.11)

e a regra de classificação consiste em

ô.loca r x em Tr. se

er.(x) = max:li(x) , i = 1, 2, ... 'g.


1

U n ivc roi dl'dc Fede rol de L<>vro.:i • Dcp1>rt1uu cnlo ele Ci~oci.u ExnlM • LavrM-MG 131
-t81 fuiun.ito d• RllRAS o IOº SEAORO - 7 " 11 de Julho de 200!$

4.4 .Avaliação da função de classíficaç.20

Neste capítulo vimos algumas maneiras de se obter funções discriminantes


que podem ser usadas para a classificação de novos obj etos e além dessas,
outras mais exi3tem. Assim, umn. questão que se coloca é como avaliar o
desempenho de uma função de clas~ificação.
Na amostra, a população de or igem de cada observ2.ção é conhecida. ·
Então se usarmos a função de classificação para alocar os elementos da
amostra, saberemos quais deles foram classificados corretamente ou não. As-
sim, pod.e mos ça~ ~.ões · e et·
que denomina.remos Taxa Estimada de Erro (TEEl e eé iea~ 'mati ~
da ·'I"J..Xa de Erro verdade' Uma boa regra de alocação deve levar a uma

Entretanto, a EE._pode ter uma valor subesti~ pois a mesma amostra


é usada para determinar a função de classificação. P ara c0ntornar esse prob-
lema pode-se usar um procedimento de validacão cruza.d a (cross-validation),
sugerido por Lachenbruch e Mickey (19G8). Esse procedimento consiste
em dividir a amostra em pequenos grupos. Retira-se o primeiro grupo da
amostra e com os restantes determina-se a funçã.o de classificação que é usa.da
para ruocar esse grupo. Devolve-se o primeiro grupo à amostra e retirélrse
o segundo grupo e assim por diante até que o último grupo seja retirado.
Quando cada grupo é formado por apenas uma observação o procedimento
tem o nome de leave-one-out (100).
A TEE pode ser calcula.da a partir da "matriz ic confusão", dada por

classificado em

onde

TLij =número de observações de Ti classificadas em rj;


fL1 = ·número de observações classificadas em Ti;

U.Ldvcr!jich..do Pedcru.J ds Lnvro..s - D e µu.rtu.mculo de Ciéncic..5 E'x~th.~ - Lb.vrh..:J -1 .-t C 132


--., .13• Rounilfo d" RBRAS e 100 SF.AüllO - 7,.. 11 de Julho <le ~OO!J

ni =número de observações de ri;

n = número total ele observações na amostra.

A T EE é calculada então da seguinte forma

TEE = n-"'!! L,1=1


n··u
(4.12)
n
Essa taxa de.erro é geral e engloba todos os tipos de erros .~ de classi-
fica.çD.o que podem ocorrem. Como já comenta.do anteriormente algum erro
pode ser mais grave do que outros e é possível estimar a taxa de erro de qual-
quer um àeles. Por exemplo, ne quisermos calcular a TEE de se cla..ssifica.r
'
·' \ uma observação da população Ti na população rj, teríamos

,.,,EE(j"\
J. 1 ' 1.") =nij
-. (4.13)
ni

Além disso podemos também calcular a TEE de se classificar umâ ob-


servação da população T j incorretJ.mente. Essa seria da<la por

TEE(i) = ni ~ nii. (4.14)


n-i

Retomando o Exemplo 7, as matrizes de confusão, para as regras linear


e quadrática, simples e com o uso de "cross~val.idation 11 , são apre3entadas
na.s Tabelas 4.4 a 4.7. Como era. esperado, as Taxas Estima.d.as de Erro
são maiores quando são calculadas sob o esquema de ''cross-vafülation.".
No te também que as maior es ta..'Cas de erro ocorrem exatamente no·pior erro
(TEE(l/2)) , ou seja, classificar um banco sob intervenção <lo Banco Central
corno se não tivesse pro blemas.

Tabela 4.4: Mv.t riz de c.o nfusão simples - regra linear .

1 ~Msifica~~ em 1 total
popula.çc'.io r1 10 O 10
verda...cl.cirn r2 l
~~~1---~~~~~~+--=-::--
9 10
total 11 9 20
. .
T EE =O, 05, T EE(l/2) =O, 10 e T EE(2/l) =O, 00.

Uni vcr:üdadc FtderrU de Ll.\YTM - D cp~rta.rn aato de Ci~cci .c-5 ExA.ta.s - La.vrN>-MO 133
48~ ItouuiC.U do. TtDRAS • 100 SEAGRO • 7 a. l l do Julho de WOS

Tabela 4.5: Matriz de confusão cross-valid ation - regra linear


classificado em
r1 T2 tot?l
população ri 8 2 10
verdadeira 72 2 8 10
total 10 10 20

T EE ~ó, 20, TEE(l/'2)':.::o·, 2'0' ê' TEE(2/1) ~O, 20.

Tabela 4.G: Matriz de confUBão simples - r egra. quadrática


1 clá.ssificadú em ·r
Tt 72 total
população T1 10 o i 10
verdadeira T2 2 8 10
total 12 8 20

TEE =O, 10, T EE(l/2) = O, 20 e T EE (2/ l) = O, 00.

Tabela 4.7: Matriz de coniusão cross-validation - regra quadrática


classificado em ·r -
r1 r2 j total
população 7 3 10
vcr<l a.d eira 2 8 1' 10
total 9 11 1 .20

T EE =O, 25, T EE(l/2) =O, 20 e T EE(2 / l) = ü, 30.

134
·IO' Rounill.o dn RBRAS e 10° :m,; ( ;J t Q - T 1\ !l do J ulh o Oc ~0 03

1 4.5 Aplicação
~

\ Nesta seção ô.presenté.l.1JJ.os a aplicação da análise discriminante aos <lados do


Exemplo 3, d~s plantações de melões. Para simplificar a .anáüse consid er-
amos ~wmente M amostro.s de 3 genótipos (indicados por 1, 2 e 3); a a.plicaçã.o
para as populações dos 9 genótipos seria .análoga. Aplicamos a análise com
1 bél3e na.s variáveis PT (produç,.=\o - em
kg por ha.), NFP (número médio de
~ melões por planta), IF (índice de formato) e BRIX (teor àe açúcar). A
arullise foi feita no pacot e SPSS. ·

O tamanho da amont.rn . de cada popnbção é 32. Os vetores de médias


elas amostras d(l..S poplllação são:

1,203) 1, 503 ) 1, 244)


1, 553 1, 497 1,431 .
Xz = 1,269 ,
1, 125 , ( 1, 256 . .
( (
8,753 8,313 8, 438 .

O teste Lambda de vVilks (veja Mard ia et al. (1989)) de igualdade


de médias ap resentou os p-valorcs 0,000 (PT); 0,398 (NFP); 0,000 (IF) e
0,537 (BRIX), indicando que as médias da.s populações são sigrúfica.ntemente
diferentes para. ~ \ra.richeis P T e IF ...
As matrizes de covariâ.ncia e·stimaHa.s para~ cada Uma das populações e a
mató"' de cova. riâ.ncia ponderada são: ·:..

. o, 0732 -o, 0079 o, 0044 o, 2310 \


= -o, 0079 0 1400 1 -0 1 0114 o, 0487 !
81 o, 0044 -o, 011 4 o, 0071 -o, 0272 ) '
(
o, 2310 o, 0487 -o, 0272. 2,5840
( o, 0674 -o, 0342 -o, 0035 0,0916 )

l
-Ü 03 L
12 0, 1440 -0, 0014 0,0526
S2 = ' ., .. 0,003 5 -0,0570 '
' .'- .:;. . -0;0035 ··:.....O,OOliJn
· ,. · O, O!J J.G O, 0525· ···-O, 0570 2,167
( o, _0 7.5~ i -o, 0143 o, 0007 0,2220)
. " . '·~ ·e;<..:.,.. - 1-Q, J).143' · · 0, 10,PD. ~ ,0, 0121 0,0682
. ·,·, S3'' O, 0007 -0 O'f2i_~\I~· -" O, 0071 -o, 0341 '
\ O, 2220 O, 0682 -O, 0341 3, 1540

Univc roidll.do Fcdc rn.J de Lnv ro..:J - Dcpn.rln.rn c nt.o do Cí~ocinn E~o. la.o - Lo.vr~]\.{G 135

,,
48• Il<lunil:.<> d11. RBRAS e 100 SEAGllü • 7 11. 11 d• Julho de :?00.'!

s =
o, 0720
-0, 0188
-0, 0188
o, 1280
o, 0006
-o, 0083 0, 181ü
0,0564
J
p
( o, 0006 -0, 0083 0,0059 -0, 0394 .
0,1810 0,0564 -o l 039ti 2,6350

O Teste de Box (veja Ma.rdia et al. (1989)) de iguald ade das matrizes
de covariância apresentou p-valor igual a 0,237 1 ~2~t.srí nd o a utilização da_
regra linear para a classificação de novas unidades. r.L'anto esse teste quanto
o de Wil.kB baseiam-se na. distribuição normal multivariada dos dados, que
foi suposta com base na inspeção dos histogramas d as variáveis.

Os coeficientes das funções discriminantes_, obtidas do w étodo geral_com


prioris e custos de classificação errad a iguais são:

Variável População -r1 População -r2 P opulaçã o T3


PT 5,704 10,GlO 5,593
NFP 27,842 29,803 28,3Gü
IF 272,778 298,485 297,471
· BRIX 6,415 6,251 G,G61
Constante -207,663 -24ü,757 -239,827

Os coeficientes das f~~es discrirrilnantes canô n.ic_~J. ?btidas do Métod~


de Fisher são:

Variável fi(x) f2(x)


PT 1,773 3,800
NFP 0,79G 0,957
IF 12,174 -7,064
BRIX -0,031 -0,385
Constante -18,068 5,438

Note que os •maiores coeficientes são os das variáveis PT e IF, exatamente


as duas qu e apresentaram médias signifi cantemente diferentes.
O gráfico da Figura 4.6 mostra a representaçiio dos valores das funções
canônicas para as observações e centróides das três p opulações. As coorde-
nadas dos centróides são: Cl = (-1,278; 0,176 ), C2 = (0,973; 0,416) e C3
= (0,305 i -0,592).

Unlveroidada F~doral do Lavr"" • Dopi>rta.rnonto do CIOncJ..., Exkt"" - L..vn.>·hl O 136


113 > Rcunit!.o d~ H.BRAS e 10° S EAGRO • 7 a. 11 de Ju.lh o de 2003

' Figurn. li. (): Din.grnma ele dispersão h x h.

A Figura 4.7 a.presenta os centróides das três populações e três pontos


mal classificados. O ponto A tem genótipo 1 e foi cla.ssi.ficado como tendo i
1
genótipo 2; o B tem 2 e foi cla.ssificaclo como 3 e o D tem 3 e foi dq..ssifi-
1
ca do como 1. A classificação é feita. com base nas distâncias do ponto aos . 1
1
centróides: é classificado na população para a qual a distância é menor. 1
!

As matrizes de confusão,e simples e por cross-validation, .para a método


ele Fisher sã.o a.presentadas naz Tabel~ 4.8 e .4.9.

Tabela 4.8: Ma.tri z de confusão simples - regra de Fisher


classificado em
r1 r2 1"3 total
populaçM 71 23 4 5 32-
verdadeira T2 o 21 11 32
1"3 4 g 19 32
total 27 34 35 96
em porcentéi.gem
populaçao r1 71,9 12,5 15,6 100
verdadeira 72 0,0 65,6 34,4· 100
T3 12,5 28,1 59,4 100

~ TEE = 34? 4%, TEE(l) = 28, 13, TEE(2) = 34~ 43 e TEE(3) = 40, 6%.
137
48~ Il~uoiã.o di. rtf.lllAS o 100 SEAOftO • 1 " 11 de Jul!Jo de 2003

Figura 4.. 7: Diagrama de dispersão / 1 x f2

Tabela 4.9: Matri?. de confusão cross validation - r egra de Fisher


classificado em
T1 T2 . r3 total
popula{:ãD T1 22 4 G ::l2
verdadeira T'2 1 21 10 32
T3 4 11 17 32
total 27 36 33 96
em porcentagem.
população Tl ô8,8 12,5 18,8 100
verdadeira. 72 3,1' . 65 ) 6. 31,3 . 100
T3 12,5 34,4 5~,1 100

TEE = 37, 53, TEE(l) = 31, 33, TEE(2) = 31·, 43 e 1'EE(3) = 46, 93.
Pelas Taias Estimadas de Erro (TEE) e pela Tabelas 4.8 e 4.9, podemos
concluir que a regra de classificação não é mq.ito b oa, sugerindo a introdução
de novas variáveis, sendo que os maiores erros ck classi.fica.çã9 ocorrem n a.
População r3. As populações que mais se confundem são a r 2 e a r 3 , como
também pode ser visto na Figura 4.4.

Discutimos neste capítulo aspectos bás;ç:ps da anáríse dise.r;.iminante. Sug:-


erimos a leitura de Hair et al. (HJ.§.8), Sharma (19 96) e Dillon e Goldsteiti
(1984). Outras técnicas também podem ser usadas com o objetivo de classi-

Uu i v~raidt~d c í-'i.~ d cnd d ~~ Lo.v ru..:J - Dt:purttuu e.ulo do Cl ! DcJh!J Exu.tb.8 · LtJ. vru.s~ MO 138
-1a• Rounlii.-0 dn RBRAS o 10º SI:~ ,\OltO • 7 n 11 de Julho dt 1003

\ fi ca.ção. Entre ela.3 cita.m o3 a regressão logística, as árvores de classificação


e o.s redes neurais. Esses <J.3suntos podem ser encontrados em Hosmer e
' Lemeshow (1989), Breiw.an ct al. (1984), Hopfield (1984) e Abe (1997).

·•.

'"\

Univcraidadc f:edc r!U de Lo.vro.n - D ep o.dAJT1ooto de Ch\nciM E;"C.n.tM • Lavra.o.-MO 139


~B·~ Reunila du rtnnAS e 10° SEAGno - 7 1J. 11 de Julho de wo~

140
• 1
1

_Ap·ê ndice .l~- -

n "t-'- .
l--teSU~- LaOLOS so . .
1 b re
d~istrilo.L1ições de vetores
aleatô,rio s e sobre álgebra de
1

I1i.c:1trizes

Neste apêndice resumim os uma série de resultados utiliza.dos no decorrer


do texto. Maiores detalhes sobre os resul~ados podem ser encontrados em
Johnson e Wichern (1 998), Ma.rdia, Kent e Bibby (1989) e Dillon e Gold-
stein (1984) , por exemplo.

Definição í Seja x = (.X1, ... , Xp) T um vetor aleatória com E(Xi) = µ;)
Var(Xi) =o}, Cov (Xi, Xj) = O'ij e Corr (Xi, Xj) = Pij· Definimos

. . . d ex:µ= ( /.11 ·-·,µp )T .


n. Viclorméciw 1

v2
12
b. Matriz de ~ovariância de x: :E=

141
f :

lp
1s> llouaill.a d" RDRAS e 100 SEAGllO • Tu l l de Julho do 2003

P1p)
( P~2;
P12
1 P'2p
e. Matri~ de con-elação de x: p =

P1p P2p p~

A seguir, apresenta.u1os alguns re.sriltados sobre esperança. e covari5.nci a


de vetores aleatórios.

Resultado 1 Sejam x e y vetor-es aleatórios de dimensão p com v etores


média µx e µv respectivamente e com Cov(x) = ~x e. Cov(y) = :Ev. Sejam
a e b vetores de constantes de dimensão p e A uma matriz de constant es
de dimensão m x p. Então

o.. E (aT X + b Ty) = aT µX +b T µ11.


b. Cov (Ax) = A:ExA T.

Definição .2 Diremos que um vetor aleatório p-dímensional x segue uma


dist~·ibuiçii.o normal multivariada com vetor médi a µ e matriz de covariância
:E, positiva definida, se sua função densidade de p 1-oúabitidade for dada por

p(x; /t, .E) = (2-rr)P/; l:E\l/2 exp { ~(x - µf'- ~-1 (x - µ)} .
Denota-se x ,....., Np (µ; :E).

Resultado 2 Seja x,....., NP (µ;:E), a um vetor p-dimensionat de. constantes


e A mna rnalr-iz m x p de constantes, então

a. nT~,.....,N(aTµ;aTj:J~r

b. x +o. ,.....,,.Np (µ+a; :E).


e. A T x,...., Úm (AT µ;A T:EA).
T
Resultado 3 Seja x = (x[, xJ) , com x1, x2 de dimensã o m x l e q x 1,
respectivamente e p = m + q. Assuma que x,...., NP (µ;:E), com

U11ivcrsidn.de F'cdc1rul d~ Lu'vrll.!l - Depo.rtn.mento de Ci~ncÍb!J Exhtb..!!. Luvru.::i:-MC 142


~8" Rauni M da RBH.AS o lO~ S EAGitO - 7 ~ ll de ,Jul ho de ~003

sendo que µ 1, P2 1 ::D11 1 2J22 e :E12 = :E!i


são, respectivamente, de dimensão
m X 1, q X 1, 1n X m: q x q em x p, então

a. x1 "-' Nm (µ 1 ; :E11) e Xz "-' Nq (µ 2; :E22).

b. x1 e x2 são independentes se e somente se :E 12 =O .


e. A distribuição wnclicional de x 1 dado x 2 = u é normal m variada com

Resultado 4 Se x,...., Np(µ, ::B), com j::Ej > O, então

Resultado 5 Seja A uma matriz quadrada qualquer de dimenaão (p X p).


Os autovalores de A, denotados por Ài, ... , Àµ, são as raízes da equação
IA - >.Ii = O. Para co.da i = 1, ... ,p, exi:Jte um vetor não nufo ai, que
satisfaz Ao:i = ÀiO'.i . O vetor O:i é chamado autovetor de A assoviado ao
autovalor Ài.

Resultado 6 Decomposição Espectral. Seja A uma matriz simétrica de


dimensão (p x p). A mo.t-riz A pode ser escrita como

A=rArT,
onde A é a matriz dia gonal dos autovalores de A e r é a . matriz cuJas
colurws são 0 3 c. ·v.tcv cto res ori.vgonais padronizados de A.
!•

.~_.:

·- .
-e.
:i1- - ·

~~ 143
VnlvcrnidMlc Fcder"1 da L ~vrM - Da p.-rt. ., monto de ClcloclM EJ<"\"" • L"vuG-MG
48~ Il.eunl~o da nBRAS o 10ª SEACRO - 7 • 11 do Julbo do WOS

;.

Univeniidu.de l·'edcrft.1 de Luvrb.S - úcpa.rtiuuo1ito de Ciéoci u Exa..t"'-!j - L.aVru.u- MC 144


-------\

J-\pêndice

Dados

Um problema. comum em análise de daclos é a presença de pontos aberrru;i.tes.


Entende-se por ponto aberrante (outlier) a uma observação que apresenta
um comportamento atíp ico em relação ao restante dos dados. ,_
. ' 1. .:

Quando se tem uma. única variável, o valor aberrante caracteriza-se por


assumir UID valor muito Dais alto OU muito mais baL'CO que OS demais. '
Há várias causas possíveis para a ocorrêµ cia de va.lo.re8 aberrantes:

a . erros de m edid2.;

b . erros de transcrição ou digitação;


-.:. e. erro ao coruiiderar um.:i. unidade amostral. que não pet-tence à. populà 6ão
1

"\ de interesse 1 por exemplo, num estudo com portadoren de determin.a:da


moléstia, observo.çõcs d~. p~cientes ~5.s ~.ortadores, erroneamente in-
' cluidos no estudo por erro de dia.gnóstÍc;p, podem res~tai cx:n valores
......._
aberrantes;
'\
d . vo.ria.bilida.de na.tura.1 dos da.dos .
\ :}'"~ ··~r- ~·~
::··
\
Com exceção do item (d), todas as demais ca usas estão re1âéi'dti;;aas
--,.,,,
a erros e, consequentemente,
· 1 1
a. identifica.çã;o I
de valores aberrantes nessa.s
\ situações exige sua. retirn.dh. da: ·é.Jinost,ra·fi:ri31.
.... .... .
,~:· ·d
----
-.,.

"\

\
-...
'
""
-""'\
·18> fi•uoíl!.a do. R.IHlAS o l()ll SEAOflO - 7 ~ ll de Julho do 200S

Neste apêndice falamos sobre valores aberrantes multidimensionais e


métodos de identificação.

B.l Valores aberrantes unidhnensionais

Conforme j á mencionamos um valor aberrante uni dimensional caracteriza-


se por situar-se longe da massa dos dados. Há. vários m t'! tod0s de iden-
tificação de valores aberrantes. Iremos ab ord ar mé todos que focil.it arão a
compreensão sobre a identificação de valores aberra ntes multidimens.ionais.

Seja X uma variável aleatória com média µ, pelo exposto, um valor


aberrante deve se localizar distante <la média. Uma maneira ingênua de
i<lentifiec1.-los é, por exemplo, calcular as distâ.ncías ele todas a..s observações L
em relação aµ, caso urna delas séja muito maior elo que as <lema.is, estaremos
diante de um possível valor aberrante. Pode-se ~ldota.r , por ex-:mplo, a
dístância euclidiana (D), ou a distância euclidiana a.o quadrado:
D2=(X-µ) 2.

Seja X~ N(µ, a 2 ), temos então que

D 2 = (X - µ)2 rv z_ · · (B.l)
M O" ••. X1

Podemos utilizar o conhecimento sobre a d.istribuiç:lo d e D'f.1 para identi-


ficar possíveis valores aberrantes. Nesse caso, para c1tda elemento amostral,
calculamos para cada obserY-J.ção x1, ·i = 1, . .. , n a p robabilidade

P (n~f ~ x;),
s~essa probabilidade for muito pequena, haverá. indícios d e que o ponto é
um possível valor aberrantes. Note que não se trata de um teste de hipóteses
no sent ido usual, é apenas uma regra-de decisão. Como ponto de corte , Hair
et al.(1998) sugerem a utilização do valor 0,001.

B.2 Valores ab errant es l:J.idirri:~nsi o n a is

·Admita uma situação onde temos clruis variáveis que: serão estudadas con-
juntamente. Nesse ·caso, em que sitn:a&_ões um ponto ~ atfp1co 't

Un ivoruldudc l"udcrt>.l de J.nvru.u • Dcpu.rlw neu to .du Clé':"lü.kBxll.!"6 - l..~vru.o-MO 146


~3~ Htunill.o d" Rl3llAS o 100 SF. J\ GRO - 7" H de Julh n de 2003

A Figura B.1 aprrc;;cnta um diogra.ma. de dispersão no qual foram iden-.


.,......, tiiica.dos p ontos a.típicos cm relação à grande massa de dados 1 representada.
~,
pela nuvem d e pontos do canto inferior esquerdo. Note que todos os pon-
tos posicionam-se num lo cal inesperado dada a nuvem de pontos, mas O:em
todos es tão dista.nte::i dela.

(;,w>nEr: f
'

:.·
;.,

Figura. B .1: Diagrama ele dispersão com identificação de valores aberrantes


bidimensiona.is

Vamos cô.rncterizar rn<la um desses p ontos :

J. Ponto A : trata-se de um valor aberrante unidimensional tanto para. a


variável X como pa.ra. a Y.

n. Pontos B e C: 8Sses p ontos diferenciam-se do anterior por não serem


valores aberrantes unidimensionais para. as duas variáveis. Note que
B é d.berrante p aca X, w.a.s não para Y; o inverso ocorre com C . •..
ni. P ontos D e E: esses pontos nã.o seriam identificados numa aná.liqe uni-
dimensional, uma vez que niio . se configuram como valores aberrantes
unidimensionais. No entanto, eles ocupam uma região do plano na
qual não esper aríam os encontrar valores, dada a nuvem de pontos.
iv . Ponto F: esse ponto, assim como o A seria identificado como aber-
' --1
rante unidimensional tanto para X como para Y, no entanto 1 apesar
de lo calizar-se dis tante da ma..ssa de dados (o que o caracteri.7.a.ria como
aberrante bidimensional), ele encontra-se no prolon~am e uto da nuvem
de pontos.

Univcro idnde Fe<lcrtl.I de Li>vrM - o'cp!U".1>mcnlo do Giõ oclM J:.'xA lõ.O. L11VT11&-M G 147
~aL füluulll.o du RilRAS e ioa SEACnO - 7 .. 11 de Julho de 2003

Todos os pontos citados sã-O valores aberra ntc>::J bidimensionais, no en-


tanto nem todos causariam danos a todas as possíveis análises. Por exem-
plo, o ponto F teria uma influência muito pequena sobre o coeficiente d e
correlação existente entre X e Y, no entanto, afe taria bastante as médias
e as variâncias de X e Y. Os ponstos D e E, a,o contrário, praticamente
não afetariam as médias e variâncias, mas se ajustássemos u m moàclo de
regressão, afastariam a reta da m assa dos dados. J.\ identilicac;-.ão do tipo de
valor aberrante é, portanto, importante ao se decidir sobre sua retirada ou
não da amostra.

Para a identificação de valores aberrantes bidimensionais utilizaremos


abordagens semelhantes às ·da Seção B.l.

Seja x = (X, Y) T tUn vetor aleatório corn E (x ) ;::= µ = (µ 1 , µ 2 ) T, temos


então que a distância euclidiana a o quadrado cn tre x e µ é dada por
•) T ~; '>
D-= (x: - µ) (x - µ)=(X -1i1 )· + (Y - µ2)- .

Para Jden tificação de valores aberrates, podemo!O Jei.em:Unar D 2 para tod as


as observações da amostra e veri.íicar a existênci<i. de uma distância muito
maior ào que as demais. Em caso afirmativo , a rc"::E pedivn observação se~i a
um possível valor aberrante. Os pontb A, B , C e F poderirun ser iden-
tificados por essa estratégia. O mesmo não acon tece com os pontos D e
'E.

B.2.1 Distância de Mahalanobis

Para a identificação de pontos semelhantes a D e J!;, iremos definir uma I\Ova.


distância, denomina.da de distância de Mahalanobis. Aàmita que Cov(x) =
~- Define-se a distância qe
Mahalanopis ao quadrado entre os ponto x e !-.!.
como
(B.2)

Para entender a lógica qessa distância, consi ue re o seguinte exemplo.

temos:êntão que
.E-1 = _1_ ( 1
1 - p'2 ·, -p
-p)
1 .

Uniyeroid..de Ftdtr"1 dt L11vr"-" - l>epe..rtuJ11enlo de Ciónci.., Exi.t"" - Li. vo1..,.-b.!C


·1 8 ' Ra<mlko do. RBRJ\S e 10ª Sh~A c:;\Q - 7 o. H ele .1:i\lrn :lc '.l003

,_
Consequentemente,

DM(x,µ) = )i l
+p
.

A Figura B.2 ilustra o ccmporta.mento de DM como função de p .

. ".'' :'1.·.gfu,. i%,;'""'~~ .• ~,·11c:~;~:~~~~~~'~º~~r· .


. · ·2~~1:rz~J{~:•i: :•Z.:; :~4·:•: ">\i: ·:#'::1 ·.

Figura B. 2: Distã.ncia ele Mahalauobis

Note que DM igual<J.-sc à distância euclidiana quando p =O - na verdade


a distância 8Uclid iana é tim caso p.:µ-ticula.r da. distância. ele Mahalanobis.

DM decresce à medida em que p cresce. Note que ao representarmos os


pontos num par de eixos ordenados temos um comportél.IIlento crescente, o
que é condizente com uma situação de correlação positiva. Veja que DM
' "-. decresce para raiz àe m eio 8. medida em que · p· aproxima- se de Wll- Em
contrapartida a distâ.uci o. tende a inficito quando p tende a -1 , isso porque,
uuma situa..ção como esso., os póntos utilizados rara.mente ocorreriam. ·

A distância de Ma.halanobis ieva em consideração a estrutura de cor-


relação existente nos dados , dessa forma pontos que não obedeçam à. estru-
tur a geral apresentarão altas djstância.s em relação à média.

Uma regra de i<leutificn.ção de valores aberrantes para. da<los bidiüJ.eu-


sionais pode ser construída se considerarmos que x segue uma distrilJuição
normal bivariada . .Nesse cv.so, temos que

.....,,_

14Y
48" nou"i~c. d" nDrtAS e 100 SEAOllO - 1" 11· dt Ju!Lo do 2003

Então, procedendo como na Seção B.l, podemos calcular para cada ob-
servação Xi, i = 1, ... 1 n a probabilidade

P (nfl!!(x,µ) 2:'. x;).


Valores pequenos dessa proba.bilidade 1 idéntiiicariam provéiveis valores aber-
rantes. Essa regra poderia levar à identificação dos pontos A , B, C, D e .
E da. Figura D.l. Apenas o ponto F seria de difícil identilicaç:ão por estar
posicionado no prolongamento da nuvem de pontos.

B.3 Valores aberrantes multidirr1ensionais

No caso multidimensional perde~os a capacidade de representar os pontos


graficamente em eixos ordenados. Nesse caso, uma. a.lterua.tiv<.L para iden-
tificação de possíveis valores abeirantes, são os m étodos numéricos . Como
nas seções anteriores, utilizaremos duas abordagens : disU\.ucia eucLdiana
para 'identificação de pontos distantes da nuvem dos dados e distância. de
M.ahalanobis para a iucntifi.cação ele pontos fora. da. tendência dos dados.

=
Sejax (X1 , ... ,Xp)T um vetor aleatório com E(x) ,u. = =
(p 1 , ... , µp)T
e Cov(x) = IJ. Temos que a distância euclidiarrn. ao quadrado entre uma
observação x e o vetor média µ é dada por

D '.2 -_ (x - µ )T (x - µ ) -_ (X1 - µ1) 2 + ... + (Xp - µ 1)) '.2 .

por sua vez a distância de Mahalanobis é dada por

'.2
DM(x, µ) = (x - µ) T .E -1-(x - µ).
·
(B .3)

Se x seguir uma distribuição normal p-variad ~•, temos que 2

As duas .distâncias podem ser utilizadas como proposto na Seção B.2

LO,Uü l, por exemplo


· ~llesultaJo ·1 <lo Apêndice A.

l .SO
4R~ Hc unl do dn IU3ll.AS e 100 SEACrn.O - 7" l I ele Jull:o de 2003
- - - - - - - - - - -- - -- - - - - - - - - - - - - - - - - - - - -

B.4 Comentários de orden1 prática

Os resultados apresent<:idos pressupõem o conhecimento sobre µ e IJ_ Na


prática, não temos esse eonhecimento. Nesse caso, sugere-se substituir essél.S
qu&ntidades por seus estirnadorc.<J usu«is x e S. Os resultados passarão a ser
aproxima.dos e terã.o um melhor desempenho para grél.D.dcs ambs,trac.

Os vo.lores aberro.utcc; podem traz er influência sobre os valores ele :X e :E.


Isso pode prejudicar sua identiJ:icação, visto que as referências cle rnódi a e
covariâucia podem estar dis torcidas . Para minimizar esse efeito, sugere-se
que ao avaliar se um d eterminado ponto é aberrante, excluir a. observaçã..o
no cálculo de x e :E.
O cálculo de prob<::..bi.Lidade para a distância de Maha.lanobis só é válido
sob a hipótese de uorm J.lidade. Assim, pode ser necessária a utilização de
tra nsformaçõe.c; pa.ra viabilizar os resultados .

'
\
\

un ·i vcro i<ladc l'cclcrol ele "LnvrM • D c p M to.monlo de ClCnciM Exa.tM • J, :wrtu-MG 151
48~ llounir.o <114 .k.UflAS e 10º SE;AORO - 7"' 11 de Julho elo 2003

Univr.:r:.iidu.do Fi:úcrt.J <lc Ll1Vrl.l.!J • Dc:;J u rtu.mt:~to, dti Ci t: nci b.!J Exnt.t..h - 1-hv rl!..:J-}.i Q 152
[1] Abe, S. (1997). Neural Nct worf.s a.nd Fuzzy Systcms: theory a.nd u11pii-
ca.tions. Norwcll: Klui.vr;r Academic Publishers.

[2) Anderson, T. vV. (l!J:->1 : An Introduction to J..fo.ltivariate Stalistical


1

Analysis. 2ed. New York : John Wiley & Sons.


[3] Andrade, L., Gorc;J:;t,::i n, C., Vieira. Filho, A.H.G., Tung, T.C. e
Artes, R. (2001). P s~,rcl~0 m etric prop er ties of the Por~uguese vers ion
of the State-Trait Anxi cty Inventory é:\ppl.ied to college students: fé1C-
tor analysis and rel ation to the Beck Depression Inven tory. Brazilian
Jouma[ of Medical and Biological Rcscarch,(34 ). 367-374.
[4] Barroso, L.P., Artes, R e Kurauti, D. A. (1991). Relatório de análise
estatística sobre o projeto: C'onlribuição ao estudo da wllur~ organiza-
cional e eficácia orga nizacional. São P aulo; IME-USP .
. '
[5] Barroso 1 L.P. e Gél.bricl, A.E.P.A. (19D\)). Relatório df.! análise eatatística
sobre o projeto: Modernizaç ão na agricultura vrnguaia: o novo ayricu l-
ior familiar. São P aulo: lME-USP. (RAl~CEA-9616 ).
(6) Breima...o., L., Friedmó.n, J .H., Olshen, R.A . e Stone, C .J. (1984). Clas-
sifica tion and Regressíon. Trees Delmont: vVadsworth Internatioual.

l7) Durt, C. (1941). Th e Vect or oj the Mi nd: An Introduclíon lo Facl.or


Analysis in P sycholcgy. Ncw York: I.:fc.Millan.
[8) Bussab, W.O . e Dini, N .P. (1985). P esquisa <le emprego e <lcscmprcgo
SEADE/DIEESE: regiões homogêneas da Grande São Paulo. São Paufo
em pe rspectiva, 1(3): 5-1 1.
[D] Bussab , W~O ., lvíi<::.zc.ki, E.3 . e AnJ.ra.de, D.F. (H190). Introdução à
Análise de Agrupamentos. São Paulo: ABE.
\

\
153
48 '1 Il.ouniil." du lll3HAS e 100 SL!ACllO - 7 n ll de Ju l ho de 200S

[10] Chu, S-C, Roddick, J.F. e Pa.n, J.S. (2002). An efficent k-


medoids-based algorithm using previous medoid índex, t r~­
angu.lar inequality, elimination criteri n. a.nd p ê.,rlial dístan ce
search. in Kambayashi, Y. , ·vviniwa.rter, vV. e Arikawa,
V!. (cus.). Dawak 2002. LNCS 2454. G3-72. Obtido em
htt p: / /linlc.springer .de/link/ service/ series/ 0558 /papers /2451/24540063 .p df,
acessado em 28/03/2003. ·

[11] Dillon, W .R. e Goldstein, lvL (1984). Multivariate Analysis: )\1ethods


and Applications. New York: John Wiley & Sons .
[12] Ferreira, C .A. (1999). Comparação da Capacidade Preditiva da
. Regressão Logística, CART e Redes Neurai s. Disserta,ção de Mestrad o.
Universidade Federal de Minas Gerais.
[13) Hair, J.F.Jr., Andersen, R.E., T'<l.tham, ll.L . e Black, W.C. (199 8).
lvfultivariate Data Analysis. 5thed. Upper Sacldle River: Prentice Hall.

(lt1] Hawkins, D.M. (1982). Topics in M~tivariat e Analysis. Cambridge Uni-


yersity Press: Cambridge.

[15) . Hor..lfiel<l, J.J. (198L1). Neurops with Graded Resp on.se Have CoUective
Computational Properties like Thos_e· of Two-s tate Neurons. Pmceedings
of the National
..
Academy oj Sciwces. 81, 3088- 3092.
.
[16] Hosmer, D.W. e Lemeshow, S. (1989). Applicd Logist-ic Regression New
York: John Wiley & Sons. ·
.' .

(17] Jolmsou, D.E. (1998). Applied .Multivariate j\Jethods for Data Analysis .
. Pacific . .Grove:,_
. "1, .
Duxbury Press. ~ .

f18] Johnsor1, R.A:· e Wichern, D.\.V. (1998)- Appficd lvlultivariate Statistt"cn!


i Analysis. 4ed. Upper Saddle River: .Prentice Hall.
!.
[19]: Kaiser, H.F. (1958). The varimax criterion for analytic rotation in factor
analys~s. I'sychometrika, 23, 187-200.
. .
[20] Kaiser; H.F. (1970). A second generation Lit tJe Jiff. Psychometr·ika, 35,
401-15.
[21] Kaiser, H.F. e fücc, J. (1974). Little Jiff Mark IV. E ducation and Psy-
choloyical Measurement, 34, 111-117.

[22) Kaufman, L. e Rousseeuw,. P.J. (1990). Fin d·(ng Groups in Data: A n


·· ·· IntnJducdon· fo Cl'Uste1· Ana{ysis. New .Yor~:. J ohn v\Tiley.& Sons.
. : .,

~
•• 1 : •
;
1 ~ •• ; ••• • ' ,• . . •

154
'· . : ~ . ....... ... .. .
J. 5·' llouolllo ti" RBH.AS e 10º SEJ\ORO - 7 r. l.l do Julho do ?.003
· ~~~~~~~~~~~~~~~~~~

[23] Lachenbruch, P.A. e Mickcy1 .M.R. (1968). Estimation of Error Rates


in Discriminant Analysis. Technomctrics, 10, 1-11.

[24] La.wley1 D.N. (1940) . Thc Estimatiou of Fü.ctor Loadings by the Method
of Ma.ximum Likelihood. P ro ceedings of the Royall Society of Editiburg,
' AI 60 , 331-8.

' [25] Long, J. S. (1983). Confirmaiory .F'a.cto1 Analysis. Beverly Hifü(: Sage
Pub.

[26) M3Idia., K.V., Kcnt, J.T. e Bibby, J.M. (198!J). Multivariate Analysis.
London: Aca.dem.ic Press. .
i.
[27] Oliveira., R.B.S. (2000). D etecção de Problemas em Instituições Fincm- f
L
;
ceirns Utili zando },fod.clos Estatúticos. Dissertação de Mestrado . IME -
Universidade de São Paul.o.

[28] Ohtot>hi, C. (2003). Um a Comparação de Regressão Logística, Árvores


de Ciassijiwção e RedeJ Neurais: Ano.li:iando Do.dai de CrtSrJito. Dis-
'
\ sertação de Mestr{ldo. IME - Universidade de São Paulo.

[29) Pcdill:i.zur, E.J. e Sch.mcll<i.ri., L.P. (1991). Measurcment, Design and


Analysi.s: An I ntcgroted .Approa.ch. Hillsdale: Lawrence Erlbaum Asso-
ciates pub.
\ · [30) Reis, E. (1997). Estatística 1v.foltivariada Aplicada. Lisboa: EdiçÕ€s
Sílabo.
'
[31] Reyment, R. e Jõreskog, K.G . (1996). Applied Factor Analysis in th e
Natural Scienccs. Cambridge. Cambridge University Press.

[32) Rosa., P.T.M . (2000). lYfodcios de "Gredit Scoring 11 : R.egressã.o Logístiea,


CHAID e REAL. Dissertação de Ivfostrado. IME - Universidade de $ão
Paulo.

(3a] Rummel, R.J. (1970). App{ied Fadar Analysis. Ennstou: Northwest-


crn University Prcss.

[34] Sha.rma, S . (1996). App!ied .Muftivariate Techniqv.es. New York: John


Vliley &; Sons.

[35] Spearmé).ll, C. (1904). General Intelligeuce Objectivelly Deten:uined and


Measured . American Journal of Psychology 1 15: 201-293.

Uni\'cralc.11\.do Fcdct""DJ d11 J... r..YrM - D~r,,.rtrvnocü o da Cl à ncio..1 Exr.tM.:. LnYro..!>-MO 155
-iB"' fU!uolW:l dll RI.IRAS o 10° SEAGRO - 1" 11 de Juluo de WOS

[36) S-plus (2001). S-plus 6' for Windows Cu ide to Statislics, Volume 2.
Seatle: Insightful Corporation.

[3 7] Tubachnick, B.G.; Fidell, L.S. (2001). Usiny _Multivar-iate Statist-ics. 4th.


ed. Allyn & Bacon, Boston.

[3 8] 'l'anaka, N.I. e Matos, B.C.H. (2000). R e!rdór-io de análise estatísticC'.


sobre o projeto: Pariime.trot para a de.scr·ição de peças arqueológ'ica.s n.c:
superfície de terrenos arado s São Paulo: DvíE-USP. (RAE-CEA-OOPl 7).

[39) Thurstone, L.L. (1935). Th e Vectors oj lvf.ind. Chicago: Univ. Chicago


Press.

[40) Thurstone, L.L. (1947). Multiple Facto r Analysis. Chicago: Univ.


Chicago Press.

[41] Vincenzi, M.A. (2002).' Imputação de Da dos Categorizados . Relat6ri0


de Inciaçio Científica. IME - Universidad e de ·são Paulo. CNPq.

[42) Yamamoto, R.H. (2002). AID: uma técnica. de an álise de agrupamentos


. · com variável resposta. Relatório de Inciação Científica. IME - Uni ver-
sidade de São Paulo. FAPESP.

U1dvcruídudl! Fi:dcrtU du Lavru.!1 - D e pu.rtn.rn ep. to de Óiênch.!! E.xathll - Lú.Vrú.!i · MC