Escolar Documentos
Profissional Documentos
Cultura Documentos
Rio Branco-Acre
2014
MACILDA SILVA DOS SANTOS
RONILDO REZENDE DA SILVA
Rio Branco-Acre
2014
SUMRIO
1.
INTRODUO..........................................................................................4
2.
3.
2.1.
Distncia Euclidiana...............................................................................6
2.2.
MEDIDAS DE SIMILARIDADES...................................................................7
Padronizao de dados.............................................................................9
4.2.
Representao grfica............................................................................10
5.
MTODO DE AGRUPAMENTOS.................................................................10
6.
6.1.1.
6.2.
6.2.1.
7.
CONSIDERAES FINAIS.........................................................................19
8.
REFERENCIAS BIBLIOGRFICAS..............................................................20
1. INTRODUO
A anlise de conglomerados (cluster analysis) uma tcnica multivariada de
classificao que tem como objetivo reduzir a dimensionalidade dos dados. Agrupa um
conjunto de dados em subconjuntos, utilizando um critrio fixado que pode variar de acordo
com o mtodo de agrupamento utilizado.
Apesar da analise de agrupamento ter sido desenvolvida na dcada de 1930, Tryon, j
utilizava essa descrio em 1939.
A anlise de agrupamento junta uma srie de diferentes mtodos e algoritmos para
agrupar objetos do mesmo tipo nas respectivas categorias. Em outras palavras cluster analysis
exploratria de dados uma ferramenta de anlise que visa a seleo de diferentes objetos em
grupos, de uma forma que o grau de associao entre dois objetos mxima se eles pertencem
ao mesmo grupo e mnimo se pertence a grupo distinto.
Segundo Hair (1998), a anlise de cluster, tambm conhecida como anlise de
conglomerados, um conjunto de tcnicas estatsticas cujo objetivo agrupar objetos segundo
suas caractersticas, formando grupos ou conglomerados homogneos. Os objetos em cada
conglomerado tendem a ser semelhantes entre si, porm diferentes dos demais objetos dos
outros
conglomerados.
Os
conglomerados
obtidos
devem
apresentar
tanto
uma
Distancia media ou Average Linkage e o Mtodo de Ward. No entanto, nosso foco vai ser mais
sobre os Mtodos do Vizinho mais Prximo e do Vizinho mais Distante.
De acordo com Fernando Frei (2006), esses algoritmos podem ser aplicados mesma
situao e produzirem resultados distintos. Dessa forma, a escolha do algoritmos a ser
utilizado pelo pesquisador de fundamental importncia.
Dentre as escolhas que devem ser feitas, assim como na escolha do algoritmo que atenda o
que o pesquisador que com Anlise de Agrupamento, preciso tambm escolher o melhor
coeficiente de similaridade a ser utilizado para verificar a semelhana entre os objetos
estudados.
2.
Uma questo a considerar diz respeito ao critrio para se decidir at que ponto dois
objetos do mesmo grupo podem ser considerado como semelhante ou no. Para resolver essa
questo, a anlise de agrupamento se vale de medidas ou coeficientes que mede a distncia
que descrevem a similaridade entre os objetos amostrais de acordo com as caractersticas que
neles foram medidas. Os coeficientes apresentados abaixo so os mais utilizados do ponto de
vista pratico e computacional.
Considerando n objetos e p variveis e uma matriz de dados brutos (n x p) em que as n
linhas correspondem aos objetos e as p colunas, correspondem s variveis. Quando a f-sima
medida do i-simo objeto denotada por xif ( em que i=1,...,n e f=1,...,p). A matriz dada
pela seguinte forma:
x11.... x1 f ........ x1 p
Formula que corresponde a distncia geomtrica dos pontos de coordenadas (x i1, ...,xip)
e (xi1,...,xjp). Quando os dados substitui x por x nessa expresso.
3. MEDIDAS DE SIMILARIDADES
A similaridade obtida por meios dos coeficientes de similaridades. E a escolha do
coeficiente de similaridade depende da escala de mensurao da varivel. Assim o tratamento
dados as variveis de escala intervalares diferente do tratamento dado s variveis nominais
destacam Sneath & Sokal(1973), citado por Fernando Frei (2006).
Consideram-se dois tipos de similaridades: similaridade propriamente dita que mede
quo semelhante so dois objetos, e a dissimilaridade, que mede quo diferentes so dois
objetos. Neste contexto, quanto maior o valor obtido pela similaridade, mais semelhantes so
os objetos, e quanto maior o valor obtido pela dissimilaridade, menor a semelhana entre os
objetos.
Fernando Frei (2006) resume em seis passos os principais procedimentos para a
realizao da analise de agrupamento:
1 Passo- preciso obter a matriz de dados brutos, ou seja, a sua amostra da
populao analisada;
2 Passo- s vezes necessrio padronizar a matriz de dados;
3 Passo- Calcular a matriz de distncia ou similaridade atravs do coeficiente
escolhido;
4 Passo- Utilizao do(s) mtodo(s) ou algoritmo de agrupamento(s);
5 Passo- Deciso do nmero de grupos;
4.
Varivel 1
X1
A
550
B
450
C
400
D
100
E
50
Fonte: Fernando Frei, (2006).
Varivel 1
Padronizada
Varivel 2
Padronizada
Z1
1,08
0,63
0,41
-0,95
-1,17
X2
01
02
30
45
53
Z2
-1,05
-1,01
0,16
0,78
1,12
10 0 1 10
=
Dessa forma, possvel verificar que os objetos B e C com a distncia no
padronizada estariam mais prximos. A utilizao da padronizao evita que a escala possa
interferir no agrupamento, assim para os mesmos objetos teramos, agora com as distncias
padronizadas:
=
A 0
B 100 0
A B C D E
D C 153
A
A 0
B 0.45
Z C 1.38
57 0
B C
D E
0
1.19
10
forma a utilizao da padronizao evita que as escalas ou a unidade usadas para mensurar as
variveis possam interferir no agrupamento.
A funo mais conhecida e utilizada para padronizar as variveis dada por:
zif
Em que
xf
sf
xif x f
sf
da varivel f . Dessa forma todas as variveis padronizadas deixaro de ter unidade. Assim,
caso a varivel tenha sido mensurada em centmetros, esta unidade desaparecer, pois o
numerador e o denominador de 2.4 tambm so em centmetros.
5.
MTODO DE AGRUPAMENTOS
Os mtodos de agrupamentos se dividem em hierrquicos e no-hierrquicos.
11
6.
coluna correspondentes de i e j;
3. Definem-se uma linha e uma coluna, obtidas pela distncias entre o grupo (ij) e os
objetos restantes, de acordo com o procedimento do algoritmo adotado;
4. Repetem-se os passos anteriores n-1 vezes, de maneira que todos os n objetos
pertenam a um grupo ao fim do algoritmo.
Os mtodos hierrquicos aglomerativos so de fcil entendimento e podem ser
representados por meio de grficos. A representao mais usual pelo dendograma.
A seguir, os procedimentos mais utilizados e operacionalizados na maior parte dos
softwares estatsticos.
Este mtodo, tambm conhecido por Nearest Neighbor, inicia seu procedimento pela
procura dos dois objetos mais similares na matriz de similaridade D1. Para chegar na matriz
de similaridade D1 foi utilizado o coeficiente distancia euclidiana.
Considere a matriz de dados iniciais D para cinco objetos (A,B,C,D e ) mensurados em duas
variveis e sua matriz de distncia D1.
12
A
B
C
D
E
4
16
10
14
8
16
14
14
10
16
A B C D E
A 0
B 12,2 0
D C 6,3 6,0 0
1
O primeiro passo verificar a distncia mnima entre dois objetos, na matriz D, a qual
dada pela interseco entre a coluna 3 e a linha 5, representada na formula:
13
O mesmo processo realizado na matriz D1 o tem que ser feito na matriz D 2, ou seja,
vamos procura a menor distncia. Dessa forma, considerando o exemplo apresentado
obteramos d(CE)A= 4.0. Sendo assim, o objeto A vai ser alocado no grupo (CE) formando o
grupo (CEA).
Novamente iremos obter a menor distncia do grupo (CEA) para os objetos restantes,
ou seja:
Novamente iremos obter a menor distncia agora dos objetos restantes B e D, da temse que dBD = 4.5, dessa maneira obtm-se um novo grupo (BD). Podemos observar, portanto,
que o processo revelou dois grupos diferentes (CEA) e (BD). Finalmente vamos analisar as
distncias:
14
A matriz de distancia D4 indica a unio desses dois grupos em um nico grupo, o qual
ira aglutinar todos os objetos (ABCDE).
Atravs das expresses usadas nos exemplos, para definir sucessivamente as distancias
mnimas, pode-se uma regra bsica para o mtodo Single Linkage.
Definio:
Onde k
um terceiro objeto.
possvel
representar
SINGLE LINKAGE
D is t n c ia E u c l id e an a
6,0
5,5
5,0
4,5
4,0
3,5
3,0
2,5
Figura 2 Dendograma.
No dendograma o eixo das abscissas mostra os objetos ABCD e E observados.
atravs do topo dos colchetes ao eixo das abscissas que verificamos a similaridade dos objetos
15
agrupados em cada colchete. O eixo das ordenadas serve para indicar a gradao das medidas
e ter uma ideia numrica da distncia entre os objetos, essa distncia notada confrontando a
linha do topo do colchete com a gradao das medidas no eixo das ordenadas.
Dessa forma, pode-se notar, claramente no dendograma, a formao de dois grupos
diferentes, o grupo (CEA) e o grupo (BD). Pode-se observar, por exemplo, que os objetos
(EC) so os mais semelhantes ou similares, pois tem a menor distncia (distncia euclidiana
igual a 2,8).
Em seguida vem o objeto (A) que tem maior semelhana com o grupo (EC), pois est
distante desse grupo 4.0 de distncia euclidiana. Por ultimo os objetos menos semelhantes
(BD).
Claramente temos dois grupos maiores, onde o grupo (ECA) mais homogneo que o
grupo (BD). Portanto, o grupo (ECA) tem suas partes estreitamente ligadas apresentando
pouca desigualdade em relao ao grupo (BD).
Este mtodo, aps agrupar os dois indivduos mais semelhantes, de menor distncia,
verifica a distncia mxima deste primeiro grupo para os objetos restantes. Dessa forma para
garantir que os objetos de um grupo guardem a mxima distncia de outros grupos. Utiliza-se
a mesma matriz de distncia do exemplo anterior para ilustrar os passos desse mtodo.
16
A B C D E
17
Obtm-se a matriz:
COMPLETE LINKAGE
14
Distncia Euclideana
12
10
8
6
4
2
0
18
Neste procedimento a distncia entre dois grupos determinada pela maior distncia
entre dois itens em grupos diferentes. Este mtodo nem sempre funciona bem em todas as
situaes, principalmente quando os grupos tendem a ser alongados.
7.
19
8.
REFERENCIAS BIBLIOGRFICAS