Você está na página 1de 19

Universidade Federal do Acre

Pr-Reitoria de Pesquisa e Ps-Graduao


Programa de Ps-Graduao em Desenvolvimento Regional

MACILDA SILVA DOS SANTOS


RONILDO REZENDE DA SILVA

Cluster Analysis (Anlise de Agrupamentos)

Rio Branco-Acre

2014
MACILDA SILVA DOS SANTOS
RONILDO REZENDE DA SILVA

Cluster Analysis (Analise de Agrupamentos)

Trabalho apresentado como requisito


parcial para avaliao na disciplina de
Mtodos Estatsticos Aplicados s
Cincias Sociais do Programa de
Mestrado em Desenvolvimento Regional
da Universidade Federal do Acre.
Prof. Dr. Antonio Carlos Fonseca Pontes

Rio Branco-Acre

2014
SUMRIO

1.

INTRODUO..........................................................................................4

2.

COEFICIENTES DE SIMILARIDADES OU DISTNCIA....................................5

3.

2.1.

Distncia Euclidiana...............................................................................6

2.2.

Distncia de Manhattan ou City block..........................................................7

MEDIDAS DE SIMILARIDADES...................................................................7

4. MATRIZ DE DADOS BRUTOS, PADRONIZAO DE DADOS E DISTANCIA


EUCLIDIANA..................................................................................................8
4.1.

Padronizao de dados.............................................................................9

4.2.

Representao grfica............................................................................10

5.

MTODO DE AGRUPAMENTOS.................................................................10

6.

MTODOS HIERRQUICOS AGLOMERATIVOS...........................................11


6.1.

O algoritmo Vizinho mais Prximo (Single Linkage)......................................11

6.1.1.
6.2.

Caractersticas do algoritmo Single Linkage...........................................15

O algoritmo Vizinho mais distante (Complete Linkage...................................15

6.2.1.

Caractersticas do Complete Linkage...................................................18

7.

CONSIDERAES FINAIS.........................................................................19

8.

REFERENCIAS BIBLIOGRFICAS..............................................................20

1. INTRODUO
A anlise de conglomerados (cluster analysis) uma tcnica multivariada de
classificao que tem como objetivo reduzir a dimensionalidade dos dados. Agrupa um
conjunto de dados em subconjuntos, utilizando um critrio fixado que pode variar de acordo
com o mtodo de agrupamento utilizado.
Apesar da analise de agrupamento ter sido desenvolvida na dcada de 1930, Tryon, j
utilizava essa descrio em 1939.
A anlise de agrupamento junta uma srie de diferentes mtodos e algoritmos para
agrupar objetos do mesmo tipo nas respectivas categorias. Em outras palavras cluster analysis
exploratria de dados uma ferramenta de anlise que visa a seleo de diferentes objetos em
grupos, de uma forma que o grau de associao entre dois objetos mxima se eles pertencem
ao mesmo grupo e mnimo se pertence a grupo distinto.
Segundo Hair (1998), a anlise de cluster, tambm conhecida como anlise de
conglomerados, um conjunto de tcnicas estatsticas cujo objetivo agrupar objetos segundo
suas caractersticas, formando grupos ou conglomerados homogneos. Os objetos em cada
conglomerado tendem a ser semelhantes entre si, porm diferentes dos demais objetos dos
outros

conglomerados.

Os

conglomerados

obtidos

devem

apresentar

tanto

uma

homogeneidade interna (dentro de cada conglomerado), como uma grande heterogeneidade


externa (entre conglomerados). Portanto, se a aglomerao for bem sucedida, quando
representados em um grfico, os objetos dentro dos conglomerados estaro muito prximos, e
os conglomerados distintos estaro afastados.
Existe uma extensa variedade de mtodos, a que denominamos anlise de
Agrupamentos, esse mtodo procura elaborar critrios para agrupar objetos como, por
exemplo, seres humanos, animais, plantas municpios e outros. De forma generalizadas
Anlises de Agrupamentos de acordo com Fernando Frei, (2006), so tcnicas estatsticas
multivariadas, com conotao exploratria. Para esse autor, os objetos podem ser mensurados
em diversas variveis de interesse, sendo que parte-se de uma matriz de dados de n objetos
por p variveis que so aplicadas regras de acordos com os algoritmos utilizados.
Nesse sentido, podem-se destacar os seguintes algoritmos utilizados na Analise de
agrupamentos: o Single Linrage ou Nearest Neighbor que no Brasil conhecido como o
Mtodo do Vizinho mais Prximo. Tem tambm o algoritmo Complete Linrage ou Furthest
Neighbor, conhecido no Brasil como Vizinho mais Distante. Alm desses dois existem ainda a

Distancia media ou Average Linkage e o Mtodo de Ward. No entanto, nosso foco vai ser mais
sobre os Mtodos do Vizinho mais Prximo e do Vizinho mais Distante.
De acordo com Fernando Frei (2006), esses algoritmos podem ser aplicados mesma
situao e produzirem resultados distintos. Dessa forma, a escolha do algoritmos a ser
utilizado pelo pesquisador de fundamental importncia.
Dentre as escolhas que devem ser feitas, assim como na escolha do algoritmo que atenda o
que o pesquisador que com Anlise de Agrupamento, preciso tambm escolher o melhor
coeficiente de similaridade a ser utilizado para verificar a semelhana entre os objetos
estudados.

2.

COEFICIENTES DE SIMILARIDADES OU DISTNCIA

Uma questo a considerar diz respeito ao critrio para se decidir at que ponto dois
objetos do mesmo grupo podem ser considerado como semelhante ou no. Para resolver essa
questo, a anlise de agrupamento se vale de medidas ou coeficientes que mede a distncia
que descrevem a similaridade entre os objetos amostrais de acordo com as caractersticas que
neles foram medidas. Os coeficientes apresentados abaixo so os mais utilizados do ponto de
vista pratico e computacional.
Considerando n objetos e p variveis e uma matriz de dados brutos (n x p) em que as n
linhas correspondem aos objetos e as p colunas, correspondem s variveis. Quando a f-sima
medida do i-simo objeto denotada por xif ( em que i=1,...,n e f=1,...,p). A matriz dada
pela seguinte forma:

x11.... x1 f ........ x1 p

xi1.... xif ........ xip


xn1.... xnf ....... xnp

2.1. Distncia Euclidiana


O coeficiente mais utilizado para dois objetos i e j, fixado para escala do tipo
intervalares a distancia euclidiana, dada por:

d(ij) (xif xif )2


f 1

Formula que corresponde a distncia geomtrica dos pontos de coordenadas (x i1, ...,xip)
e (xi1,...,xjp). Quando os dados substitui x por x nessa expresso.

2.2. Distncia de Manhattan ou City block


Outro coeficiente utilizado para medir a semelhana entre dois objetos a distncia de
Manhattan ou city block definida por:
p

d ij)( xif xif


f 1

3. MEDIDAS DE SIMILARIDADES
A similaridade obtida por meios dos coeficientes de similaridades. E a escolha do
coeficiente de similaridade depende da escala de mensurao da varivel. Assim o tratamento
dados as variveis de escala intervalares diferente do tratamento dado s variveis nominais
destacam Sneath & Sokal(1973), citado por Fernando Frei (2006).
Consideram-se dois tipos de similaridades: similaridade propriamente dita que mede
quo semelhante so dois objetos, e a dissimilaridade, que mede quo diferentes so dois
objetos. Neste contexto, quanto maior o valor obtido pela similaridade, mais semelhantes so

os objetos, e quanto maior o valor obtido pela dissimilaridade, menor a semelhana entre os
objetos.
Fernando Frei (2006) resume em seis passos os principais procedimentos para a
realizao da analise de agrupamento:
1 Passo- preciso obter a matriz de dados brutos, ou seja, a sua amostra da
populao analisada;
2 Passo- s vezes necessrio padronizar a matriz de dados;
3 Passo- Calcular a matriz de distncia ou similaridade atravs do coeficiente
escolhido;
4 Passo- Utilizao do(s) mtodo(s) ou algoritmo de agrupamento(s);
5 Passo- Deciso do nmero de grupos;

4.

MATRIZ DE DADOS BRUTOS, PADRONIZAO DE DADOS E DISTANCIA


EUCLIDIANA.
A matriz de dados originais nada mais do que uma amostra da populao analisada e

mensurado em qualquer varivel que se queira analisar.


Tabela 1 Variveis originais
Varivel 1
Objetos

Varivel 1

X1
A
550
B
450
C
400
D
100
E
50
Fonte: Fernando Frei, (2006).

Varivel 1

Padronizada

Varivel 2

Padronizada

Z1
1,08
0,63
0,41
-0,95
-1,17

X2
01
02
30
45
53

Z2
-1,05
-1,01
0,16
0,78
1,12

Ao utilizar a distncia euclidiana no padronizada para os objetos A e B, percebe-se que o


primeiro atributo contribui mais para o coeficiente de dissimilaridade, onde a distancia de A
para B igual:

d AB (550 450)2 (1 2)2

10 0 1 10

=
Dessa forma, possvel verificar que os objetos B e C com a distncia no
padronizada estariam mais prximos. A utilizao da padronizao evita que a escala possa
interferir no agrupamento, assim para os mesmos objetos teramos, agora com as distncias
padronizadas:
=

dAB (1,080,63)2 (1,051,01)2

0,2 0,0 1 0,45

Abaixo se observa as matrizes de distancias para as duas situaes, sem padronizao


e com padronizao respectivamente.

A 0
B 100 0

A B C D E

D C 153

A
A 0
B 0.45

Z C 1.38

57 0

D 452 353 300 0


E 503 403 351 51 0

B C

D E

0
1.19

D 2.73 2.39 1.49 0

E 3.12 2.79 1.85 0.40 0

Comparando as matrizes percebe-se que sem a padronizao os objetos B e C estariam


mais prximos (d = 57) do que os objetos A e B (d = 100). No entanto, quando foi feita a
padronizao, essas relaes se invertero B e C (d = 1.19) e A e B (d = 0.45).

4.1. Padronizao de dados


A padronizao evita que as unidades escolhidas para mensurar as variveis possam
afetar a similaridade entre os objetos. Assim, as variveis contribuem, de forma mais
igualitria, para as semelhanas entre os objetos. Tomando como exemplo o caso da Tabela 1,
observamos que com os dados no padronizados para os objetos A e B, o primeiro atributo
contribui mais para o coeficiente similaridade, naquele caso quando os dados no estavam
padronizados os objetos B e C estariam mais prximos com distancia de igual a 57, mais com
os dados padronizados os objetos mais prximos foram A e B com distancia de 0,45. Dessa

10

forma a utilizao da padronizao evita que as escalas ou a unidade usadas para mensurar as
variveis possam interferir no agrupamento.
A funo mais conhecida e utilizada para padronizar as variveis dada por:

zif

Em que

xf

sf

xif x f
sf

representam, respectivamente, a media e o desvio padro dos valores

da varivel f . Dessa forma todas as variveis padronizadas deixaro de ter unidade. Assim,
caso a varivel tenha sido mensurada em centmetros, esta unidade desaparecer, pois o
numerador e o denominador de 2.4 tambm so em centmetros.

4.2. Representao grfica


A visualizao dos resultados obtidos uma importante etapa da Anlise dos
Agrupamentos, pois alm de ilustrar a relao entre os objetos, facilita a percepo da
formao dos grupos.
A representao grfica pode ser efetuada em duas ou trs dimenses.
A melhor representao grfica para representar os agrupamentos formados o
Dendograma (rvore) com duas dimenses, disponvel como principal ferramenta grfica nos
principais softwares estatsticos. Pelo fato de ser dimensional, facilita a interpretao dos
dados, sendo que esse tipo de representao padro nos softwares estatsticos.
Na representao tridimensional os objetos so indicados por esferas ligadas por
bastonetes, representando as distncias. No entanto, essa representao pouco clara, mesmo
com um nmero reduzido de objetos e alm de tudo a maioria dos softwares no contem esse
tipo de representao.

5.

MTODO DE AGRUPAMENTOS
Os mtodos de agrupamentos se dividem em hierrquicos e no-hierrquicos.

11

Os mtodos hierrquicos subdividem-se em aglomerativos (agglemeratives) e em


mtodos de diviso (divisive). Aqueles procedem por meio de uma srie sucessiva de unies
dos n objetos em grupos, e estes, tomando os n objetos como um nico grupo, promovem
sucessivas divises, formando grupos menores.

6.

MTODOS HIERRQUICOS AGLOMERATIVOS

Os mtodos aglomerativos geralmente se iniciam operando a matriz de similaridade,


considerando-se que cada objeto como sendo o grupo inicial (Cluster). A seguir, indico o
algoritmo que caracteriza esse procedimento:
1. Na matriz de similaridade, procuram-se os dois objetos mais similares;
2. Retiram-se os objetos i e j, os quais formam um grupo; eliminando-se a linha e a

coluna correspondentes de i e j;
3. Definem-se uma linha e uma coluna, obtidas pela distncias entre o grupo (ij) e os
objetos restantes, de acordo com o procedimento do algoritmo adotado;
4. Repetem-se os passos anteriores n-1 vezes, de maneira que todos os n objetos
pertenam a um grupo ao fim do algoritmo.
Os mtodos hierrquicos aglomerativos so de fcil entendimento e podem ser
representados por meio de grficos. A representao mais usual pelo dendograma.
A seguir, os procedimentos mais utilizados e operacionalizados na maior parte dos
softwares estatsticos.

6.1. O algoritmo Vizinho mais Prximo (Single Linkage)

Este mtodo, tambm conhecido por Nearest Neighbor, inicia seu procedimento pela
procura dos dois objetos mais similares na matriz de similaridade D1. Para chegar na matriz
de similaridade D1 foi utilizado o coeficiente distancia euclidiana.
Considere a matriz de dados iniciais D para cinco objetos (A,B,C,D e ) mensurados em duas
variveis e sua matriz de distncia D1.

12

A
B
C
D
E

4
16
10
14
8

16
14
14
10
16

A B C D E

A 0

B 12,2 0

D C 6,3 6,0 0
1

D 11,7 4,5 5,6 0

E 4,0 8,2 2,8 8,5 0

O primeiro passo verificar a distncia mnima entre dois objetos, na matriz D, a qual
dada pela interseco entre a coluna 3 e a linha 5, representada na formula:

Dessa forma, os objetos C e E formam o primeiro grupo que chamaremos de (CE).


Seguindo os passos descritos anteriormente, necessitamos obter a distncias entre os objetos
do grupo (CE) e os objetos restantes. Neste ponto o mtodo Single Linkage fica caracterizado,
as distncias entre o grupo (CE) e os demais devem ser as menores. Da tem-se que:

Da fazendo a excluso das linhas e colunas na matriz D1 correspondentes aos objetos


C e E, e inserindo uma linha e coluna correspondentes as menores distncias dos objetos ao
grupo (CE), obtm-se
uma nova matriz D2.

13

O mesmo processo realizado na matriz D1 o tem que ser feito na matriz D 2, ou seja,
vamos procura a menor distncia. Dessa forma, considerando o exemplo apresentado
obteramos d(CE)A= 4.0. Sendo assim, o objeto A vai ser alocado no grupo (CE) formando o
grupo (CEA).
Novamente iremos obter a menor distncia do grupo (CEA) para os objetos restantes,
ou seja:

Novamente iremos obter a menor distncia agora dos objetos restantes B e D, da temse que dBD = 4.5, dessa maneira obtm-se um novo grupo (BD). Podemos observar, portanto,
que o processo revelou dois grupos diferentes (CEA) e (BD). Finalmente vamos analisar as
distncias:

14

A matriz de distancia D4 indica a unio desses dois grupos em um nico grupo, o qual
ira aglutinar todos os objetos (ABCDE).

Atravs das expresses usadas nos exemplos, para definir sucessivamente as distancias
mnimas, pode-se uma regra bsica para o mtodo Single Linkage.
Definio:
Onde k

um terceiro objeto.

possvel

representar

graficamente, em forma de dendograma os grupos obtidos conforme Figura 2.

SINGLE LINKAGE

D is t n c ia E u c l id e an a

6,0
5,5
5,0
4,5
4,0
3,5
3,0
2,5

Figura 2 Dendograma.
No dendograma o eixo das abscissas mostra os objetos ABCD e E observados.
atravs do topo dos colchetes ao eixo das abscissas que verificamos a similaridade dos objetos

15

agrupados em cada colchete. O eixo das ordenadas serve para indicar a gradao das medidas
e ter uma ideia numrica da distncia entre os objetos, essa distncia notada confrontando a
linha do topo do colchete com a gradao das medidas no eixo das ordenadas.
Dessa forma, pode-se notar, claramente no dendograma, a formao de dois grupos
diferentes, o grupo (CEA) e o grupo (BD). Pode-se observar, por exemplo, que os objetos
(EC) so os mais semelhantes ou similares, pois tem a menor distncia (distncia euclidiana
igual a 2,8).
Em seguida vem o objeto (A) que tem maior semelhana com o grupo (EC), pois est
distante desse grupo 4.0 de distncia euclidiana. Por ultimo os objetos menos semelhantes
(BD).
Claramente temos dois grupos maiores, onde o grupo (ECA) mais homogneo que o
grupo (BD). Portanto, o grupo (ECA) tem suas partes estreitamente ligadas apresentando
pouca desigualdade em relao ao grupo (BD).

6.1.1. Caractersticas do algoritmo Single Linkage

Em geral, grupos muito prximos podem no ser identificados;


Permite detectar grupos de formas no elpticas;
Apresenta pouca tolerncia a rudo, pois tem tendncia a incorporar os rudos em um
grupo j existente;
Apresenta bons resultados tanto para distncia Mahalanobis quanto para outras
distncias;
Tendncia a formar longas cadeias (encadeamento).

6.2. O algoritmo Vizinho mais distante (Complete Linkage)

Este mtodo, aps agrupar os dois indivduos mais semelhantes, de menor distncia,
verifica a distncia mxima deste primeiro grupo para os objetos restantes. Dessa forma para
garantir que os objetos de um grupo guardem a mxima distncia de outros grupos. Utiliza-se
a mesma matriz de distncia do exemplo anterior para ilustrar os passos desse mtodo.

16

A B C D E

Necessitamos obter a distncias entre os objetos do grupo (CE) e os objetos restantes.


Neste ponto o mtodo Complete Linkage fica caracterizado, as distncias entre o grupo (CE) e
os demais devem ser as maiores; assim teramos:

Verifica-se, abaixo, a modificao sofrida pela matriz de distncia anterior:

O prximo passo , novamente, obter a menor distncia. O valor obtido pela


interseco da coluna representada pelo objeto B e da linha representada pelo objeto D, esta
distncia igual a 4,5, o que indica a formao de um novo grupo, objetos B e D (BD).

17

Obtm-se a matriz:

O prximo passo a formao do grupo (CEA), j que o menor valor da matriz de


distncia 6.3. Finalmente, a ltima matriz de distncia ser obtida.

Vejamos abaixo o dendograma correspondente:

COMPLETE LINKAGE
14

Distncia Euclideana

12
10
8
6
4
2
0

18

Neste procedimento a distncia entre dois grupos determinada pela maior distncia
entre dois itens em grupos diferentes. Este mtodo nem sempre funciona bem em todas as
situaes, principalmente quando os grupos tendem a ser alongados.

6.2.1. Caractersticas do Complete Linkage

Apresenta bons resultados tanto para as distncias Mahalanobis

quanto para outras distancias;

7.

Tendncia a formar grupos compactos;

Os rudos demoram a serem incorporados ao grupo.


CONSIDERAES FINAIS

A anlise estatstica multivariada analise de cluster, diferentemente de outras tcnicas


estatsticas multivariadas, possibilita a utilizao de todas as n observaes amostrais, at as
amostras incompletas.
A anlise multivariada analise de cluster tambm muito til para a reduo da
dimensionalidade da amostra ou do numero de variveis a serem avaliadas. Dessa forma
como possvel dividir os objetos em k grupos, possibilitar fazer uma analise mais
informativa dos grupos formados do que uma analise do conjunto dos n objetos.
interessante ressaltar que o pesquisador precisa conhecer essa tcnica e seus vrios
mtodos utilizados, alm de ter seu objetivo e amostras bem definidas. Alm do mais
preciso sempre contrastar os resultados obtidos com os agrupamentos nos softwares com a
realidade do local observada, pois os softwares se baseiam simplesmente em nmeros para
fazer os agrupamentos e dependendo de quais variveis esto sendo mensuradas e em que
situaes, podem acontecer de resultados que no correspondam a realidade do local
observado seja obtido.

19

8.

REFERENCIAS BIBLIOGRFICAS

FREI, Fernando. Introduo analise de agrupamentos: teoria e prtica. So Paulo:


Editora UNESP, 2006.

Você também pode gostar