Você está na página 1de 8

See

discussions, stats, and author profiles for this publication at: https://www.researchgate.net/publication/268418651

Mtodos de Agrupamento e Componentes


Principais: Teoria e Aplicaes

Article

CITATIONS READS

0 10

3 authors, including:

Eniuce Menezes Souza


Universidade Estadual de Maring
46 PUBLICATIONS 121 CITATIONS

SEE PROFILE

All content following this page was uploaded by Eniuce Menezes Souza on 28 January 2015.

The user has requested enhancement of the downloaded file.


Mtodos de Agrupamento e Componentes Principais: Teoria e
Aplicaes
Daniele Barroca Marra Alves
Eniuce Menezes de Souza
Faculdade de Cincias e Tecnologia - UNESP
19060-900, Presidente Prudente, SP
E-mail: danibarroca@yahoo.com.br, eniuce@yahoo.com.br

1. INTRODUO (discreta, contnua e binria), as escalas de


medio (nominal, ordinal, por intervalo e
Em geral, informaes sobre muitas proporo), dentre outros tpicos [2].
variveis so coletadas em diversas reas, tais Assim, quando as variveis so
como: Sade, Segurana Pblica e Cincias agrupadas, a sua proximidade indicada por
Sociais. A anlise de uma grande quantidade algum tipo de associao. Para dados que tm
de dados relacionados com muitas variveis propriedades mtricas, uma medida baseada
seria uma tarefa muito difcil sem o na distncia pode ser usada. Mas para dados
conhecimento da Anlise Multivariada, a qual que tm componentes qualitativas, pode-se
est relacionada com mtodos estatsticos para introduzir uma varivel binria ([1] e [2]).
descrever e analisar dados multivariados. No que concerne medida de
Dois conjuntos de dados referentes distncia, diversos tipos podem ser utilizados.
Sade e Segurana Pblica foram pesquisados Dado x = [x1 , x 2 ,K , x n ] e y = [ y1 , y 2 ,K , y n ] ,
e dois mtodos de Anlise Multivariada, a distncia Euclidiana entre essas duas
agrupamento e componentes principais, foram variveis p-dimensionais dada por:
utilizados. Conceitos tericos e anlises so
contemplados nesse artigo. d (x , y ) = (x y ) (x y ) .
J a distncia estatstica entre as
2. CLUSTERING - AGRUPAMENTO mesmas variveis dada por:

Diversos procedimentos so utilizados d (x , y ) = (x y ) A(x y ) ,
para entender a natureza complexa das sendo A o inverso da matriz que contm as
relaes multivariadas. Agrupar os dados varincias e covarincias. Um outro tipo de
levando em considerao suas caractersticas distncia a de Minkowski,
uma tcnica interessante. Agrupamentos 1
p m
m
podem prover meios para acessar a d ( x , y ) = x i y i .
dimensionalidade, indentificar erros grosseiros i =1
e sugerir hipteses interessantes relativas s Outros tipos de medidas podem ser
relaes das variveis [2]. encontrados em [1], [2] e [3].
O mtodo denominado clustering ou Quando os itens no podem ser
agrupamento uma tcnica que tem como representados por variveis p-dimensionais, as
base relaes de similaridade (associao) ou medidas de similaridade so obtidas atribuindo
distncias entre as variveis. O objetivo bsico os valores 0 (ausncia do atributo) ou 1
da anlise atravs de cluster descobrir o (presena do atributo), utilizando portanto
agrupamento natural das variveis [2], e dessa uma varivel binria.
forma reduzir informao [1]. Aps obteno dos valores 0 ou 1
necessrio medir a associao dos atributos.
2.1. Medidas de Similaridade Pode-se simplesmente contar o nmero de
respostas iguais, (0,0) ou (1,1), e dividir pelo
Quando se objetiva produzir estruturas nmero total de atributos. Assim, o caso (0,0)
de grupos simples a partir de um conjunto de tem o mesmo peso do caso (1,1). Entretanto,
dados complexos necessrio medir a muitas vezes o caso (1,1) uma indicao
similaridade. Consideraes importantes a mais forte da similaridade. Portanto, vrios
esse respeito incluem a natureza das variveis mtodos de associao podem ser usados. Em
[1] e [2] tais mtodos so apresentados.
2.2. Mtodos de Agrupamento Os resultados desses mtodos podem
ser mostrados de forma grfica em um
Desde que o clculo apropriado das dendograma1.
medidas de similaridade (ou distncia) j
tenha sido realizado, deve-se selecionar um 2.2.1. Mtodo de Ligao Simples
mtodo adequado de agrupamento.
Os mtodos de agrupamento mais O mtodo de ligao simples, tambm
populares so denominados mtodos denominado mtodo do vizinho mais prximo,
hierrquicos e no hierrquicos ([1], [2] e [3]). utiliza a distncia mnima ou similaridade
Nos mtodos hierrquicos so realizadas maior para realizar o agrupamento.
sucessivas junes ou divises nos dados. Inicialmente, encontra-se a menor
Alm disso, a alocao de um objeto em um distncia D = {dik} e agrupa-se os objetos
grupo no pode ser alterada, ou seja, quando correspondentes (U e V) para formar o grupo
um objeto se junta a um grupo ele no pode (UV). No passo 3 do algoritmo, as distncias
mais ser removido ou unido com objetos entre (UV) e qualquer outro grupo W so
pertencentes a um outro grupo. J nos calculadas por [2]:
agrupamentos no hierrquicos, os objetos d (UV )W = min{d UW , d VW } .
podem ser realocados se as caractersticas
iniciais forem de fato inacuradas. Alm disso, 2.2.2. Mtodo de Ligao Completa
nesse mtodo, geralmente assume-se que o
nmero final de grupos conhecido e O agrupamento por ligao completa
especificado inicialmente [1]. ou vizinho mais afastado exatamente o
Nesse trabalho so utilizados dois oposto do mtodo de ligao simples. Nesse
mtodos de agrupamento hierrquicos: mtodo caso, os elementos so agrupados
de ligao simples e completo. Os demais considerando a distncia mxima (ou
mtodos de agrupamento hierrquico e os similaridade mnima) [1].
mtodos no hierrquicos so apresentados em O algoritmo iniciado encontrando a
[1], [2] e [3]. menor distncia D = {dik} e agrupando os
Para utilizar tanto o mtodo de ligao objetos correspondentes (U e V) para formar o
simples como completa, 4 passos devem ser grupo (UV). No passo 3 do algoritmo, as
seguidos em um conjunto de n objetos [2]: distncias entre (UV) e qualquer outro grupo
1o passo - comece com n grupos, cada grupo W so calculadas por [2]:
contendo um nico elemento e uma matriz d (UV )W = max{d UW , d VW } .
simtrica (nn) de distncias D = {dik};
2o passo - Procure na matriz de distncias o
3. COMPONENTES PRINCIPAIS
par de grupos mais prximos (mais
similares). Seja dUV a distncia entre os
A anlise de componentes principais
grupos mais similares U e V;
transforma um conjunto de variveis em um
3o passo - Junte os grupos U e V, formando
conjunto menor de combinaes lineares que
(UV). Atualize a matriz de distncia da
representam a varincia do conjunto total. Esta
seguinte forma: a) elimine as linhas e anlise permite reduzir os dados e facilitar a
colunas correspondentes a U e V;
interpretao dos mesmos [1].
b) adicione uma linha e coluna para
Considerando que a varivel p-
acrescentar a distncia (UV) dos grupos
dimensional X = [X1,..., Xp] tem matriz de
remanescentes;
covarincia (ou matriz de correlao ) com
4o passo - Repita os passos 2 e 3 (n-1) vezes
autovalores 1 ... p 0, sejam as
(todos os objetos pertencero a um nico
combinaes lineares dadas por [2]:
grupo quando o algoritmo terminar).
Y 1 = w 1' X = w 11 X 1 + w 12 X 2 + ... + w 1 p X p
Registre a identidade dos grupos que esto
unidos e os nveis (distncias) em que os M
agrupamentos (junes) ocorreram. Y p = w 'p X = w p 1 X 1 + w p 2 X 2 + ... + w pp X p

1
O dendograma ilustra as junes ou divises realizadas em
diferentes nveis do mtodo de agrupamento.
As varincias e covarincias so dadas dengue (A), esquistossomose (B), meningite
por: (C), hepatite (D), sfilis congnita (E),
Var( Y i) = wi' wi , i = 1,K , p leptospirose (F), tracoma (G), coqueluche (H),
Cov( Y i,Y k ) = w wk , i , k = 1,K , p
' leishmaniose tegumentar americana (I) e
i
acidentes com animais peonhentos (J).
Os componentes principais so as
combinaes lineares no correlacionadas
4.1.1. Agrupamento
Y1,...,Yp cujas varincias so as maiores
possveis..
Como os itens pesquisados no podem
O primeiro componente principal a
ser representados por medidas, estes foram
combinao linear w1' X com a maior comparados com base na presena (1) ou
varincia. A varincia Var ( Y 1) = Var ( w1' X ) ausncia (0) de certas caractersticas,
pode ser alterada multiplicando wi por alguma introduzindo uma varivel binria. As
constante. Mas, para que a varincia no seja caractersticas selecionadas so:
alterada, interessante que os vetores de x1 uma doena infecciosa;
coeficientes tenham comprimento unitrio, ou x2 A doena causada por vrus;
seja, w1' w1 = 1 . x3 A doena causada por bactrias;
O segundo componente principal a x4 A doena causada por protozorios;
combinao linear w'2 X que maximiza a x5 A doena causada por verme parasita;
varincia Var( Y 2) = Var( w'2 X ) sujeito as x6 A transmisso ocorre por mosquitos;
x7 Possui uma vacina de preveno;
condies w2 w2 = 1 e Cov( Y 1,Y 2) = Cov( w1' ,w'2 ) = 0 .
'
x8 uma doena epidmica;
Assim, o i-simo componente x9 uma doena endmica;
principal a combinao linear wi' X que x10 transmitida por contato humano;
maximiza a varincia Var( Y i ) = Var( wi' X ) x11 Pode levar a morte;
sujeito as condies wi' wi = 1 e x12 Tem tratamento especfico;
x13 disseminada nas fezes;
Cov( Y i,Y k ) = Cov( wi , wk ) = 0 , para k < i [2].
' '

x14 Pode ser evitada com conscientizao


Uma maneira prtica de construir os
sanitria.
componentes principais utilizar os pares de
A tabela 1 relaciona cada doena com
autovalores e autovetores (1,e1),..., (p,ep) suas respectivas caractersticas utilizando
associados a (ou matriz de correlao ) [2]: variveis binrias.
Y i = e i' X = e 11 x 1 + ... + e 1 p x p , i = 1 ,2 ,..., p e
p p Tabela 1 Caractersticas das doenas pesquisadas
11 + K + pp = Var ( X ) =
i =1
i 1 +K + p = Var (Y ).
i =1
i
A
x1
1
x2
1
x3
0
x4
0
x5
0
x6
1
x7
0
x8
1
x9
0
x10
0
x11
1
x12
0
x13
0
x14
1
B 1 0 0 0 1 0 0 0 1 0 1 1 1 1
Consequentemente, a proporo da C 1 1 1 1 0 0 0 1 0 1 1 1 0 0
D 1 1 0 0 0 0 1 1 1 1 1 1 0 0
varincia total devido ao k-simo componente E 1 0 1 0 0 0 0 0 0 1 1 1 0 0

principal igual a k (1 + K + p ) .
F 1 0 1 0 0 0 0 1 0 0 1 1 0 1
G 1 0 1 0 0 1 0 1 0 1 0 1 0 0
H 1 0 1 0 0 0 1 1 0 1 1 1 0 0
I 1 0 0 1 0 1 0 1 1 0 1 1 0 0
J 0 0 0 0 0 0 0 0 0 0 1 1 0 0

4. APLICAES
As distncias entre as doenas listadas
Nessa seo so apresentadas duas na tabela 1 so mostradas na tabela 2.
aplicaes relacionadas com a Sade e
Segurana Pblica. Tabela 2 Distncias entre as doenas pesquisadas
A B C D E F G H I J
A 0 7 6 6 7 4 6 7 5 6
4.1. Sade
B 7 0 9 7 6 5 9 8 6 5
C 6 9 0 4 3 4 4 3 5 6
Nesta aplicao foram utilizados D 6 7 4 0 5 6 6 3 5 6
dados de sade registrados pela vigilncia E 7 6 3 5 0 3 3 2 6 3
epidemiolgica no municpio de Presidente F 4 5 4 6 3 0 4 3 5 4
Prudente (estado de SP) de 01/01/2000 a G 6 9 4 6 3 4 0 3 5 6
H 7 8 3 3 2 3 3 0 6 5
31/07/2004. Os dados foram fornecidos pela
I 5 6 5 5 6 5 5 6 0 5
Secretaria Municipal de Sade de Presidente J 6 5 6 6 3 4 6 5 5 0
Prudente. As doenas pesquisadas foram:
A partir dos dados de distncia entre grupos, ou seja, onde cortar o dendograma.
as doenas ilustrados na tabela 2, foram Um mtodo utilizado est relacionado com a
utilizados os mtodos de ligao simples e avaliao do coeficiente de fuso, isto , o
completa. A figura 1 ilustra o dendograma da valor numrico (distncia ou semelhana) para
ligao simples obtido pelo software o qual vrios casos se unem para formar um
MINITAB. grupo. Quando a diviso de um novo grupo
no introduz alteraes significativas no
Similaridade coeficiente de fuso, pode-se tomar essa
38,25 partio como sendo tima.
A figura 3 ilustra o coeficiente de
58,83
fuso para a ligao simples e completa.

79,42
16
14 ligao simples
12

Distncia
10 ligao co mpleta
100,00 8
Esq. Deng. Leis. Hep. Men. Sif . Coq. Trac. Lep. Ac. 6
Observaes 4
2
Figura 1 Dendograma da ligao simples 0
9 8 7 6 5 4 3 2 1
Grupos
Observando a figura 1 pode-se
verificar que as observaes foram agrupadas Figura 3 Coeficiente de fuso
de acordo com a distncia mnima, isto , com
o maior grau de similaridade (no mnimo Para analisar a figura 3 necessrio
38,25%). Isto pode ser confirmado pelo verificar a partir de qual grupo a curva
primeiro grupo formado: sfilis e coqueluche. torna-se quase paralela a um dos eixos (nesse
Isso j era esperado, pois na matriz de caso ao eixo horizontal), pois quando isso
distncias essa duas doenas apresentavam o ocorre tem-se um nmero timo de grupos
menor valor (distncia 2), confirmando o alto para determinado conjunto de dados. Para a
grau de similaridade. ligao completa o coeficiente de fuso traz
Em contrapartida, a figura 2 ilustra o alteraes mais significativas at o terceiro
dendograma da ligao completa. grupo, portanto o nmero de grupos
escolhidos poderia ser 5. J para a ligao
Similaridade simples essa anlise um pouco mais
0,00 complexa, talvez nesse caso a escolha tima
fosse 4.
33,33

4.1.2. Componentes Principais


66,67

Foi realizada a anlise de


100,00
componentes principais para verificar a
Deng. Leish. Lep. Ac. Esq. Men.
Observaes
Trac. Sif . Coq. Hep. correlao das doenas pesquisadas no
Figura 2 Dendograma da ligao completa
decorrer de 5 anos. A tabela 3 traz todas as
variveis e seus respectivos nmeros de casos
Observando a figura 2 pode-se no decorrer desses 5 anos.
verificar que as observaes foram agrupadas Tabela 3 Nmero de casos das doenas pesquisadas
de acordo com a distncia mxima, isto , de Variveis Nmero de casos
acordo com o menor grau de similaridade (no (Doenas) 2000 2001 2002 2003 2004
mnimo 0%). Isto pode ser verificado pelo fato A 50 13 76 24 32
B 1 0 0 1 0
de que a Esquistossomose s foi agrupada com C 58 92 127 71 59
a Meningite e Tracoma no ltimo D 68 89 1 1 1
agrupamento, o que era de se esperar E 5 1 4 1 1
F 7 2 5 6 2
observando a matriz de distncias. G 0 0 36 2 0
Depois de realizar uma anlise dos H 2 2 0 1 5
dendogramas, uma dvida que permanece diz I 5 5 5 2 0
J 4 2 1 2 0
respeito escolha adequada do nmero de
Para aplicar componentes principais com os anos de 2002, 2003 e 2004. Alm
necessrio utilizar a matriz de covarincia ou disso, pode-se perceber que os anos de 2003 e
de correlao. A matriz de covarincia dada 2004 tm praticamente a mesma importncia
por: para esse componente principal (o que era
734,222 886,000 690,889 359,333 46,556 esperado pois a correlao entre essas duas

886,000 1372,044 838,778 519,489 432,000 . variveis muito alta). A baixa correlao
= 690,889 838,778 1862,944 903,278 821,111 entre os anos de 2001 e 2002 tambm pode ser

359,333 519,489 903,278 492,989 429,556 verificada nessa componente, visto que essas

46,556 432,000 821,111 429,556 392,889 duas variveis se contrastam.
Observando a matriz pode-se O terceiro, quarto e quinto
perceber que as varincias so muito grandes. componentes principais no so fceis de ser
Assim, se essa matriz for utilizada no mtodo interpretados e coletivamente representam a
de componentes principais pode-se chegar a variao especfica de cada ano. De qualquer
resultados errneos. Portanto, para que isso forma, eles no explicam muito da variao
no acontea, os dados foram padronizados, e total.
foi utilizada a matriz de correlao, a qual Tabela 4 Autovalores da matriz de correlao
dada por: calculada no MINITAB correspondentes as 10 variveis
1,000 0,883 0,591 0,597 0,645 3,95 0,85 0,14 0,042 0,005

0,883 1,000 0,525 0,632 0,588
.
= 0,591 0,525 1,000 0,943 0,960 Portanto, uma dvida que permanece

0,597 0,632 0,943 1,000 0,976 diz respeito ao nmero de componentes
principais que se deve utilizar. Se o nmero de
0,645 0,588 0,960 0,976 1,000
Observando a matriz de correlao componentes principais for muito pequeno
pode-se perceber que a maior correlao pode haver uma reduo exagerada da
ocorre entre 2003 e 2004 (correlao de dimensionalidade e muita informao pode ser
0,976). J a menor correlao ocorre entre perdida. Se for grande, pode no atender aos
2001 e 2002 (correlao de 0,525). Esses objetivos de reduo.
resultados podem ser confirmados analisando Na literatura existem vrios critrios
os dados da tabela 3. que auxiliam na tomada de deciso. De acordo
Os componentes principais obtidos no com o critrio de Kaiser, no caso onde se
MINITAB so: utiliza a matriz de correlao, deve-se manter
Y1 = - 0,413x1 - 0,403x2 - 0,461x3 - 0,475x4 - 0,478x5 a anlise para os autovalores maiores que um
(Tabela 4). Assim, nessa aplicao apenas um
Y2 = 0,554x1 + 0,598x2 - 0,383x3 - 0,304x4 - 0,311x5
componente principal seria necessrio (tabela
Y3 = 0,646x1 - 0,592x2 + 0,249x3 - 0,400x4 + 0,098x5 4). Alm de outros mtodos, existe tambm o
Y4 = 0,164x1 - 0,231x2 - 0,759x3 + 0,264x4 + 0,523x5 Scree Plot. Nesse mtodo os autovalores so
Y5 = - 0,279x1 + 0,276x2 + 0,053x3 - 0,672x4 + 0,626x5 representados atravs de um grfico, a
sugesto fazer o corte quando a variao
Note que o primeiro componente
passa a ser pequena. A figura 4 ilustra o
principal explica uma proporo de
grfico.
1 5 = 0,7903 79% (tabela 4) da varincia
populacional total. J as duas primeiras
5
componentes principais explicam
( 1 + 2 ) 5 = 0,961 96% da varincia
4
Autovalores

3
Scree Plot
populacional total. Alm disso, pode-se 2
verificar, analisando a tabela 4, que o terceiro, 1
0
quarto e quinto componentes principais trazem
0 1 2 3 4 5 6
uma contribuio de apenas 2,9%, 0,9% e Nmero de componentes
0,1% respectivamente.
O primeiro componente principal Figura 4 Scree Plot
(aproximadamente) uma soma de pesos iguais,
pois todas as variveis tm praticamente o Observando a figura 4 pode-se
mesmo peso. J a segunda componente perceber que a variao passa a ser menor
principal contrasta os anos de 2000 e 2001 depois do segundo componente principal.
Mas, essa variao passa a ser realmente
pequena depois do terceiro componente furtos e roubos, leses corporais culposas em
principal. Portanto, trs componentes acidentes de trnsito, estelionato e fraudes
principais seriam suficientes. diversas (variveis c1, c2, c3, c7 e c9)
apresentam uma maior similaridade entre si.
4.2. Segurana Posteriormente, homicdios dolosos
consumados e armas de fogo (variveis c5 e
As anlises de agrupamento e c9), so agrupados com 97,72% de
componentes principais tambm foram similaridade, pois, geralmente, os homicdios
aplicadas em dados de Segurana Pblica de so realizados utilizando armas de fogo. Com
Presidente Prudente e Regio, totalizando 20 quase o mesmo grau de similaridade
municpios. As observaes utilizadas foram (97,62%), as variveis relacionadas com o
coletadas mensalmente durante 3 anos: 2001, leses corporais dolosas e atos infracionais
2002 e 2003. Tais dados foram obtidos no (variveis c4 e c10) so agrupadas. Este
Centro de Assinalao Criminal da Delegacia resultado tambm bastante coerente, pois, os
Seccional de Presidente Prudente. atos infracionais realizados por menores de 18
anos, geralmente, envolvem leses corporais.
4.2.1. Agrupamento Alm disso, importante notar que a
similaridade destas duas variveis com
Os crimes registrados nos distritos homicdio e armas (variveis c5 e c9) menor,
policiais foram classificados em 10 variveis: pois, o nmero de menores de 18 anos que
c1 - Furtos simples e qualificado; portam armas ou cometem homicdios tambm
c 2 - Roubo; bem menor.
c3 - Furto e roubo de veculos; A figura 6 apresenta o dendrograma
c4 - Leses corporais dolosas; de similaridade utilizando a ligao completa
c5 - Homicdios dolosos consumados; para as 10 variveis utilizadas.
c 6 - Armas de fogo apreendidas; Similaridade
g p

c7 - Leses corporais culposas em acidentes 89,09


de trnsito;
c8 - Homicdio culposo em acidente de 92,73
trnsito;
c9 - Estelionato e fraudes diversas;
96,36
c10 - Atos infracionais.
A partir da quantidade de crimes
100,00
ocorridos em cada varivel foram calculadas C1 C2 C7 C3 C9 C8 C5 C6 C4 C1
0

as distncias entre as variveis utilizando os Variveis


mtodos de ligao simples e ligao completa Figura 6 Dendrograma utilizando ligao completa
no software MINITAB. A figura 5 ilustra o
dendograma da ligao simples. Comparando os resultados obtidos nas
g p
ligaes simples e completa, verifica-se que os
Similaridade mesmos so bem similares.
94,60 Para realizar a escolha adequada do
nmero de grupos, o coeficiente de fuso foi
96,40 plotado na figura 7.

98,20 0,3
0,25 ligao simples
Distncia

0,2 ligao co mpleta


100,00 0,15
C1 C2 C7 C9 C3 C5 C6 C8 C4 0
C1 0,1
0,05
Variveis
Figura 5 Dendrograma utilizando ligao simples 0
9 8 7 6 5 4 3 2 1
Grupos
Na ligao simples as variveis so Figura 7 Coeficiente de fuso
agrupadas de acordo com o maior grau de
similaridade entre elas. Verifica-se, a partir da Verifica-se que para a ligao simples
figura 5, que as variveis relacionadas com o coeficiente de fuso traz alteraes mais
significativas at o terceiro grupo. J para a Y1 = - 0,33x1 - 0,33x 2 - 0,32x 3 - 0,29x 4 - 0,30x5
ligao completa, o nmero de grupos a ser - 0,32x6 - 0,37x7 -0,31x8 - 0,32x9 - 0,31x10
escolhido deve ser 4. Y2 = - 0,20x1 - 0,20x2 - 0,28x3 + 0,68x4 + 0,19x5 +
0,09x6 - 0,238x7 - 0,15x8 - 0,23x9 + 0,43x10
Y3 = 0,02x1 + 0,02x2 - 0,12x3 - 0,25x4 + 0,76x5 +
4.2.2. Componentes Principais
0,39x6 - 0,10x7 - 0,15x8 - 0,24x9 - 0,32x10
O primeiro componente
Nesta seo so apresentadas as
(aproximadamente) uma mdia aritmtica dos
anlises de componentes principais realizadas
10 tipos de crimes. O segundo componente
utilizando a matriz de correlao de todos os
parece ser dominado pelas as variveis 4 e 10,
dados disponveis, inclusive as ocorrncias
ou seja, leses corporais dolosas e atos
contra mulheres e crianas de cada uma das 10
infracionais, as quais so bastante
variveis, as quais so registradas na DDM
correlacionadas. No terceiro componente, a
(Delegacia da Mulher) e no nos distritos
varivel 5 relativa aos homicdios dolosos
policiais.
consumados se sobressai. Alm disso, este
Devido ao fato da grande quantidade
componente contrasta os atos infracionais com
de variveis e combinaes lineares possveis,
as armas de fogo, ou seja, indica que os atos
optou-se por analisar primeiramente os
infracionais so inversamente proporcionais
autovalores (Tabela 5) para verificar o nmero
ao nmero de armas de fogo apreendidas.
suficiente de componentes principais.
Tabela 5 Autovalores da matriz de correlao 5. CONSIDERAES FINAIS
calculada no MINITAB correspondentes as 10 variveis
9 ,4 ,3 ,1 ,04 ,02 ,01 ,008 ,002 ,000
Neste artigo foram apresentados
aspectos tericos e prticos para analisar uma
Pelo critrio de Kaiser, deveria ser
grande quantidade de dados. Trata-se de
utilizado apenas o primeiro componente
mtodos importantes para reduzir os dados e
principal, pois, apenas o primeiro autovalor
facilitar a interpretao dos mesmos.
(Tabela 5) maior do que 1, j que a matriz de
A partir das aplicaes realizadas
correlao utilizada. Por outro lado,
pde-se concluir que a Anlise Multivariada,
observando os autovalores representados no
em especial os mtodos de agrupamento e
Scree Plot (figura 8), percebe-se que depois do
componentes principais, so muito
terceiro componente principal praticamente
importantes na anlise de dados de diferentes
no existe diferena entre os autovalores,
reas.
indicando o uso de 3 componentes principais.
Sc ee o de C C 0
AGRADECIMENTOS
9

7
As duas autoras agradecem a FAPESP
pelo auxlio financeiro prestado mediante
Autovalores

4
bolsa de doutorado (Processos: 03/12771-0 e
3 03/12770-3)
2

0
REFERNCIAS
1 2 3 4 5 6 7 8 9 10
Nmero de Componentes

Figura 8 Scree Plot [1] W. R. Dillon; M. Goldstein, Multivariate


Analysis Methods and Applications,
Em relao porcentagem explicada John Wiley & Sons, Estados Unidos,
pelos componentes principais, os trs 1984.
primeiros componentes explicam 97,8% da
varincia total amostral. Conseqentemente, a [2] R. A. Johnson; D. W. Wichern, Applied
variao amostral est muito bem sumarizada Multivariate Statistical Analysis, Prentice
pelos 3 componentes e a reduo nos dados de Hall, New Jersey, 2002.
muitas observaes em 10 variveis para 3
componentes principais significativa. [3] K. V. Mardia; J. T. Kent; J. M. Bibby,
Assim, os autovetores respectivos aos Multivariate Analysis, Academic Press,
trs autovalores so utilizados para determinar San Diego, 1979.
os trs componentes principais:

View publication stats