DEPARTAMENTO DE ESTATSTICA
CAMPINA GRANDE PB
OUTUBRO/2013
REGINALDO FERREIRA NEVES
CAMPINA GRANDE PB
OUTUBRO/2013
FICHA CATALOGRFICA ELABORADA PELA BIBLIOTECA CENTRAL UEPB
A minha famlia, em especial minha esposa Glaucia e aos meus filhos Pmela,
Jonathan e Paola e a minha me Francisca, por sempre me incentivarem, apoiarem e
darem fora para seguir em busca dos meus ideais.
AGRADECIMENTOS
1. Introduo. 9
2. Reviso Bibliogrfica. 11
2.1 Analise de Agrupamento. 11
2.2 Mtodos de anlise de Agrupamento. 12
2.3 Definio de medidas de semelhana I distncia. 13
2.4 Coeficientes de correlao. 14
2.5 Medidas de distncia. 15
2.6 Medidas de semelhana probabilstica. 17
2.7 Critrios de agregao e desagregao dos casos. 17
2.8 Coeficiente de correlao cofentico. 19
2.9 Validao dos resultados obtidos. 23
3. Material e mtodo. 28
4. Resultado e discusses. 30
5. Concluses. 35
6. Referncias. 36
7. Apndice. 38
9
INTRODUO
2 REVISO BIBLIOGRFICA
De modo sinttico, o mtodo pode ser descrito como se segue: dado um conjunto de
n indivduos para os quais existe informao sobre a forma de p variveis, o mtodo de
anlise de clusters procede ao agrupamento dos indivduos em funo da informao
existente, de tal modo que os indivduos pertencentes a um mesmo grupo sejam to
semelhantes quanto possvel e sempre mais semelhantes aos elementos do mesmo grupo
do que a elementos dos restantes grupos. Este mtodo tambm chamado de mtodo de
partio, classificao ou taxonomia, embora o termo partio seja mais utilizado para
uma das tcnicas especficas da anlise: aquela em que os indivduos so divididos por
um nmero preestabelecido de grupos (REIS, 2001).
Na anlise de agrupamento, fundamental ter particular cuidado na seleo das
variveis de partida que vo caracterizar cada indivduo ou caso, e determinar, em
ltima instncia, qual o grupo em que deve ser inscrito. Nesta anlise no existe
qualquer tipo de dependncia entre as variveis, isto , os grupos configuram-se por si
mesmo sem necessidade de ser definida uma relao causal entre as variveis utilizadas.
A anlise de clusters que aqui se apresenta no faz uso de modelos aleatrios, mas til
por fornecer um sumrio bem justificado de um conjunto de dados. Os mtodos so
exploratrios e a ideia sobre tudo gerar hipteses, mais do que testa-as, pelo que
necessria a validao posterior dos resultados encontrados atravs da aplicao de
outros mtodos estatsticos.
Uma dificuldade inicial a de no existir uma nica via de definio de grupos, isto
, um nico critrio de partio e/ou agrupamento dos indivduos ou casos com base
numa nica medida de dessemelhanas. Em todos eles se pretende que os grupos sejam
coerentes e que se distingam de maneira significativa uns dos outros genericamente, a
anlise de agrupamento compreende cinco etapas; a seleo de indivduos ou de uma
amostra de indivduos a serem agrupados; a definio de um conjunto de variveis a
partir das quais ser obtida a informao necessria ao agrupamento dos indivduos; a
definio de uma medida de semelhana ou distncia entre cada dois indivduos; a
escolha de um critrio de agregao ou desagregao dos indivduos, isto , a definio
12
Mtodos hierrquicos
Estes mtodos conduzem a uma hierarquia de parties P1, P2, Pn, do conjunto
total dos n objetos em 1, 2.., n grupos. A denominao de hierrquicos advm do fato
de, para cada par de parties Pj e Pj+1, cada grupo da partio Pj+1 estar sempre includo
num grupo da partio Pj.
Este tipo de tcnica baseia-se na construo de uma matriz de semelhanas ou
diferenas em que cada elemento da matriz descreve o grau de semelhana ou diferena
entre cada dois casos com base nas variveis escolhidas. Os mtodos hierrquicos
dividem-se em aglomerativos e divisivos. Nos primeiros, parte-se, de n grupos de
apenas um indivduo cada, que vo sendo agrupados sucessivamente at se encontrar
13
Segundo Tversky (1977), a anlise terica das relaes de semelhana tem sido
dominada pelos modelos geomtricos. Estes modelos representam os objetos como
pontos num qualquer espao de coordenadas de forma que as dissemelhanas
observadas entre objetos correspondam a distncias mtricas entre os respectivos
pontos. Os mtodos de classificao exigem que os ndices de semelhana respeitem as
propriedades das mtricas, dados por:
rij =
(1)
Sendo
= valor da varivel v para o indivduo i, (v = 1, ...., p)
= valor da varivel v para o indivduo j
= mdia de todas as variveis para o indivduo i
= mdia de todas as variveis para o indivduo j
p = nmero total de variveis.
Apesar destas desvantagens, o coeficiente de correlao tem sido utilizado com sucesso,
precisamente quando se pretende que os resultados da classificao no sejam afetados
por diferenas de disperso e de escala das variveis (HAMER e CUNNINGHAM,
1981).
Existem vrias medidas que podem ser utilizadas como medidas de distncia ou
dessemelhana entre os elementos de uma matriz de dados. Cormack (1971) descreve
uma srie de medidas possveis, de entre as quais, se podem destacar como mais
utilizadas:
d x x
( 3)
d 2 x x
( 4)
d x x
( 5)
16
d x x ! (6)
dij = x x % x x&
$
(7)
sendo ' e '& , respectivamente, os vetores de valores das das variveis para os
indivduos i e j, ) % a inversa da matriz de covarincia.
que dk(i, j) a distncia entre o grupo k e o grupo (i, j) formado pela fuso dos grupos (ou
elementos) i e j. Embora a frmula de recorrncia seja sempre a mesma, os coeficientes
i, j, e diferem conforme o mtodo aglomerativo escolhido.
1. Single linkage ou critrio do vizinho mais prximo: Este mtodo tem sido
amplamente utilizado em diversas reas. Aponta como desvantagens a
incapacidade de no discernir grupos pobremente separados (Johnson e
Wichern, 1988). Este critrio define como semelhana entre dois grupos a
semelhana mxima entre quaisquer dois casos pertencentes a esses grupos, ou
dito de outro modo, dados dois grupos (i, j) e (k), a distncia entre os dois a
menor das distncias entre os elementos dos dois grupos:
Ou seja, d(i,j)k dada pelo menor elemento do conjunto das distncias dos pares de
indivduos (i e k) e (j e k). A distncia entre dois grupos dada por:
d 78 min ;d 7 , d 8 , d 7 , d 8 }
Este mtodo torna-se, assim, um sistema contractor do espao uma vez que cada
caso ter mais tendncia para se agrupar a um grupo j definido do que para formar o
ncleo de um novo grupo (LANCE e WILLIAMS, 1967).
Esta caracterstica torna-se numa desvantagem do mtodo: a aptido para que os
agrupamentos finais se assemelhem a cadeias de elementos quando representados num
espao multidimensional, desvantagem esta que tem relegado para segundo plano a
utilizao do mtodo de single linkage como mtodo preferencial de agregao
(CORMACK, 1971; LANCE e WILLIAMS, 1967; SNEAATH e SOKAL, 1973).
A maior vantagem deste mtodo ser insensvel a transformaes montonas da matriz
de distncias e ainda por no ser afetado pela existncia de relaes nos dados iniciais.
Para obteno dos grupos estratgicos dever ser utilizada a distncia Euclidiana
ao quadrado e o critrio de agregao do vizinho mais prximo (single linkage).
Por estarmos em presena de variveis com escalas de medida e disperses
muito diferentes, optou-se
se por uma padronizao prvia das variveis e, a partir da,
calcular a matriz de distncias Euclidianas ao quadrado:
D=
21
A empresa 6 (Continente)
ontinente) se
s juntar ao grupo formado pela Feira
eira Nova e Supra/Jumbo
distncia 3,4. Por fim os dois grupos
grup (1,2,5) e (3, 4, 6) vo juntar-se
se distncia de 7,4.
Todo este processo de agrupamento pode ser resumido num quadro do seguinte tipo:
Quadro 2 - Processo de agrupamento das seis empresas segundo o critrio do single Iinkage
PASSO DISTNCIAS GRUPOS
1 d12 = 0,3 (1, 2) (3) (4) (5) (6)
2 d34 = 0,4 (1, 2) (3, 4) (5) (6)
3 d(1,2)5 = 1,9 (1, 2, 5) (3, 4) (6)
4 d(3,4) 6 = 3,4 (1, 2, 5) (3, 4, 6)
5 d(1,2,5) (3,4,6) = 7,4 (1, 2, 3, 4, 5, 6)
Figura 2 - Dendrograma obtido pelo mtodo do vizinho mais prximo, a partir das medidas de
dissimilaridade entre as 6 empresas.
De acordo com esta estratgia cada grupo passa a ser definido como um conjunto de
elementos em que cada um mais semelhante a todos os restantes elementos do grupo
do que a qualquer dos elementos dos restantes grupos.
Uma vez que a anlise de agrupamento tem como objetivo criar grupos
homogneos, surge um problema que o da escolha do nmero adequado de
agrupamentos ou grupos. A aplicao de mtodos hierrquicos permite a apresentao
dos resultados
tados sob a forma de dendrograma ou de uma rvore de agrupamento.
agrupamento O
dendrograma mostra todas as fases do processo de agrupamento desde a separao total
dos indivduos at sua incluso num grupo apenas.
24
Figura 4 Dendrograma com corte em aproximadamente na distncia 3 formando dois grupos (2,5,3,4) e
(1,6,7) (Fonte: Reis, 2001)
sensibilidade ao tamanho dos grupos como razo suficiente para no ser aceite como
justificao direta e final da tcnica utilizada.
28
3 MATERIAL E MTODOS.
(Fonte: http://pt.wikipedia.org/wiki/Mesorregi%C3%A3o_do_Agreste_Paraibano)
30
4 RESULTADOS E DISCUSSES
Percebe-se
se que na Figura 9, o lado esquerdo exibe uma rgua de distncia que
vai de 0 a 300 unidades de semelhana, as cidades 59 e 62 agrupa-se
se a uma distncia
menor que 50 unidades de semelhana, a maioria das cidades se agrupam no intervalo
de 50 a 200 unidades de semelhana, j as os agrupamentos formados pelas cidades 15,
22 e 10 possui afastamentos dos
do demais grupos.
Os resultados obtidos tambm foram validados pelo coeficiente de correlao
cofentica e apresentou CCC = 0.70 atravs do algoritmo no software R.
35
5 CONCLUSES
6 REFERNCIAS
7 APNDICE
# 34 Itabaiana
# 43 Montadas
# 45 Natuba
# Vetor com valor das distncia de campina as cidades conforme AAS
amostra<c(bdados[,1],bdados[,3],bdados[,4],bdados[,6],bdados[,12],bdados[,14],bdados
[,17],bdados[,21],bdados[,33],bdados[,35],bdados[,43],bdados[,45])
#todas as distncias da amostras de tamanho 12.
## Calculo da Moda
d<-amostra
moda<-function(d) {
if ((is.vector(d) || is.matrix(d) || is.factor(d)==TRUE) &&
(is.list(d)==FALSE))
{
dd<-table(d)
valores<-which(dd==max(dd))
vmodal<-0
for(i in 1:(length(valores)))
if (i==1) vmodal<-as.numeric(names(valores[i]))
else
vmodal<-c(vmodal,as.numeric(names(valores[i])))
if (length(vmodal)==length(dd))
print("conjunto sem valor modal")
else return(vmodal)
}
else print("o parmetro deve ser um vetor ou uma matriz")
}
#[1] 70.72727
median(amostra) # Mediana da amostra das distncias entre municpios do agreste
paraibano e Campina Grande
#[1] 73
moda(d) # Moda da amostra das distncias entre municpios do agreste paraibano e
Campina Grande
## Grficos Boxplot
vetamostra<-amostra
vetcamp<-bdados[1:66,2]
vetalnova<-bdados[1:66,4]# grfico boxplot das distncia dos municpios a Alagoa
Nova
vetalago<-bdados[1:66,5]# grfico boxplot das distncia dos municpios Alagoinha
vetaracagi<-bdados[1:66,6]# grfico boxplot das distncia dos municpios a Araagi
vetbananeira<-bdados[1:66,13]# grfico boxplot das distncia dos municpios a
Bananeiras
vetbelem<-bdados[1:66,15]# grfico boxplot das distncia dos municpios a Belm
vetcacimb<-bdados[1:66,18]# grfico boxplot das distncia dos municpios a Cacimba
de Dentro
vetcasseren<-bdados[1:66,22]# grfico boxplot das distncia dos municpios a
Casserengue
vetinga<-bdados[1:66,34]# grfico boxplot das distncia dos municpios a Ing
vetitabaiana<-bdados[1:66,35]# grfico boxplot das distncia dos municpios a
Itabaiana
vetmontada<-bdados[1:66,44]#grafico boxplot das distncia dos municipios a
montadas
vetnatuba<-bdados[1:66,46]# grfico boxplot das distncia dos municpios a natuba
Boxplot (amostra)
Boxplot(vetcampvetalnova,vetalago,vetaracagi,vetbananeira,vetbelem,vetcacimb,vetcas
seren,vetinga,vetitabaiana,vetmontada,vetnatuba);title('Boxplot das cidades da Amostra
Aleatria Simples do Agreste Paraibano') # boxplot de 12 amostras aleatrias simples
## Gerando o dendrograma
Dendrograma da AAS de 12 municpios do Agreste paraibano