Escolar Documentos
Profissional Documentos
Cultura Documentos
Resumo: O principal objetivo desse artigo apresentar uma introduo intuitiva tcnica de anlise de conglomerados.
Metodologicamente, utilizamos os dados de Coppedge, Alvarez e Maldonado (2008) sobre as duas dimenses da poliarquia
propostas por Dahl (1971): contestao e inclusividade. A partir dessas dimenses os regimes polticos so classificados em
diferentes grupos (clusters) de acordo com o grau de similaridade entre eles. Em termos substantivos,esperamos indicar uma
ferramenta metodolgica para classificao dos regimes polticos e facilitar a compreenso da tcnica de anlise de
conglomerados na Cincia Poltica.
Abstract: The principal aim of this paper is to provide a intuitive introduction to cluster analysis. Methodologically, we use data
from Coppedge, Alvarez e Maldonado (2008) regarding the two dimensions of polyarchy proposed by Dahl (1971): contestation
and inclusiveness. Based on these dimensions we classify political regimes in different groups (clusters) according to their
similarity level. On substantive grounds, we hope to suggest a methodological tool to classify political regimes and facilitate the
understanding of cluster analysis in Political Science.
Classification of objects into meaningful sets clustering is an important procedure in all of the
social sciences
Richard G. Niemi
Crude classifications and false generalizations are the curse of the organized life
H. G. Wells
Introduo1
Como classificar casos de forma sistemtica? Como criar tipologias e taxonomias de forma
objetiva? Partindo do pressuposto de que a classificao um componente central do conhecimento
cientfico, o principal objetivo deste artigo apresentar a lgica da anlise conglomerados (clusters) na
classificao dos regimes polticos2. Em termos metodolgicos, utilizamos o banco de dados elaborado
por Coppedge, Alvarez e Maldonado (2008) com diferentes indicadores de democracia. Essas medidas
so reduzidas a duas dimenses latentes: contestao e inclusividade, seguindo a definio de Dahl
(1971). A partir dessas dimenses, os regimes polticos so classificados em diferentes grupos (clusters)
de acordo com o grau de similaridade entre eles.
Uma motivao central que orienta este artigo a tmida utilizao dessa tcnica nas Cincias
Sociais brasileira3. Acreditamos que esse fenmeno pode ser parcialmente explicado pela resistncia dos
cientistas sociais brasileiros aos mtodos quantitativos (SOARES, 2005; WERNECK VIANNA et al, 1998;
VALLE e SILVA, 1999 e SANTOS e COUTINHO, 2000). Um impedimento adicional refere-se
complexidade matemtica envolvida na operacionalizao das diferentes tcnicas de anlise de
conglomerados (ALDENDERFER E BLASHFIELD, 1984; BAILEY, 1975). Parafraseando Mooney (1996),
acreditamos que os benefcios associados utilizao da anlise de agrupamentos ainda no so
evidentes do ponto de vista conceitual. Por exemplo, Aldenderfer e Blashfield afirmam que apesar de
sua popularidade, os mtodos de agrupamento ainda so vagamente compreendidos quando
comparados com outras tcnicas multivariadas como anlise fatorial, anlise discriminante e
escalonamento multidimensional (ALDENDERFER e BLASHFIELD, 1984, p. 9). Dessa forma, enquanto
no ficarem claras as suas potencialidades, improvvel que esse repertrio de tcnicas seja
incorporado ao cotidiano dos pesquisadores brasileiros. Por isso, nosso foco refere-se mais ao modus
operandi da tcnica e menos interpretao substantiva dos resultados.
Mas o que anlise de conglomerados (cluster)? Ainda de acordo com Aldenderfer e Blashfield,
Anlise de Cluster uma denominao genrica para um grande grupo de tcnicas que podem ser
utilizadas para criar uma classificao. Esses procedimentos formam empiricamente clusters ou grupos
1
Agradecemos aos comentrios de Natlia Leito a verses anteriores e ao professor Michael Coppedge por gentilmente
disponibilizar o seu banco de dados. Eventuais imprecises so exclusivamente creditadas aos autores. Nosso trabalho
financiado por duas principais fontes: CAPES e CNPQ.
2
Para Pohlmann, a anlise de conglomerados tem sido referida como anlise de clusters, Q analysis, typology, classification
analysis e numerical taxonomy (POHLMANN, 2007, p. 325). Neste artigo, por fins meramente estilsticos, utilizamos os termos
anlise de conglomerados, anlise de cluster e anlise de agrupamentos como sinnimos.
3
Revisamos todos os nmeros de quatro importantes peridicos da rea (DADOS, Revista Brasileira de Cincias Sociais, Revista de
Sociologia e Poltica e Opinio Pblica) e, salvo melhor sistematizao, no encontramos um nico artigo que tenha utilizado
alguma tcnica de anlise de conglomerados. Curi (2003) agrupa pases de acordo com o padro de vida. Lima et al (2005)
utilizam a anlise de cluster para identificar conglomerados de violncia no estado de Pernambuco. No entanto, em ambos os
casos, os artigos foram publicados em peridicos de Sade Pblica.
110
FIGUEIREDO FILHO, D. B.; SILVA JUNIOR, J. A.; ROCHA, E. C. Classificando regimes...
de objetos fortemente similares (ALDENDERFER e BLASHFIELD, 1984, p.7). Para Hair et al, a anlise
de conglomerados agrupa indivduos ou objetos em clusters de modo que objetos em um mesmo cluster
so mais parecidos entre si do que em relao a outros clusters (HAIR et al, 2006, p. 555). nesse
sentido que o principal objetivo da anlise de conglomerados agrupar casos a partir de determinadas
caractersticas que os tornam similares4. Para tanto, a anlise de conglomerados procura no s
minimizar a varincia dentro do grupo (within group variance), mas tambm maximizar a varincia entre
os grupos (between group variance)5.
Para tratar dessas questes, este artigo est dividido em cinco partes. A prxima seo revisa
brevemente parte da literatura sobre a anlise de conglomerados. O objetivo fornecer ao leitor um
ponto de partida para aprofundar seus conhecimentos sobre essa tcnica. A segunda apresenta o
planejamento, passo a passo, da anlise de cluster. A meta familiarizar o leitor com a terminologia
utilizada bem como sistematizar os estgios que devem ser seguidos. A terceira seo oferece um
exemplo de desenho de pesquisa utilizando a anlise de conglomerados. Depois disso, apresentamos as
principais estatsticas de interesse e sua respectiva interpretao. Por fim, a quinta parte apresenta as
concluses do artigo.
De acordo com Bailey (1975), a anlise de cluster tem sua origem na psicologia a partir dos
trabalhos pioneiros de Zubin (1933) e Tryon (1939) e na antropologia a partir do artigo Quantitative
expressions of cultural relationships de Driver e Kroeber (1932)7. Para Aldenderfer e Blashfield (1984),
uma importante contribuio ao desenvolvimento das tcnicas de clustering (agrupamento) foi feita a
partir do livro Principles of Numerical Taxonomy de Sokal e Sneath (1963). Em Economia, Fisher (1969),
na Geografia, Berry e Ray (1966) e em Cincia Poltica, Kaiser (1966) foram pioneiros na aplicao da
tcnica em suas respectivas reas de interesse (BAILEY, 1975). No entanto, tanto Aldenderfer e
Blashfield quanto Bailey destacam que, durante muito tempo, as diferentes tcnicas de anlise de cluster
ficaram restritas a um grupo mais reduzido de pesquisadores devido a sua complexidade matemtica.
4
Uma forma bastante intuitiva de compreender a lgica da anlise de conglomerados imaginar a organizao de um
supermercado. Em geral, itens semelhantes so agrupados em um mesmo setor: cerveja, vinho e refrigerantes se agrupam no
setor de bebidas. Banana, ma e laranja se agrupam no setor de hortifrutigranjeiro, etc.
5
Varincia um conceito central em Estatstica e em anlise multivariada de dados. Algebricamente: =
(y )
Onde, representa a mdia e N representa o tamanho da populao. Para calcular a varincia da amostra a frmula a seguinte:
=
(
)
Onde, representa a mdia da varivel na amostra e n representa o tamanho da amostra. Na anlise de conglomerados, busca-
se garantir que tanto a homogeneidade dentro dos grupos (clusters) quanto a heterogeneidade entre os grupos sejam
maximizadas.
6
Para os propsitos deste artigo, o grau de complexidade matemtica foi minimizado. Para os leitores interessados em
aprofundar seus conhecimentos, sugerimos consultar a bibliografia citada: para trabalhos clssicos utilizando a anlise de
cluster, Zubin (1938), Tryon (1939), Driver e Kroeber (1932) e Sokal e Sneath (1963). Para uma reviso da literatura, ver Bailey
(1975). Para uma introduo, ver Aldenderfer e Blashfield (1984). Para uma anlise de cluster das votaes congressuais, ver
MacRae (1966). Para uma tipologia de famlias de rua utilizando a referida tcnica, ver Danseco e Holden (1998). Para uma
aplicao em demografia, ver Peters (1958). Para um exame de atitudes polticas utilizando anlise de cluster, ver Fleishman
(1986). Goldstein e Linden (1969) empregam anlise de conglomerados para classificar 513 alcolatras em quatro diferentes
grupos. Para um estudo sobre mercado de trabalho, ver Vanneman (1977). Burton e Romney (1975) analisaram o papel de
diferentes termos lingusticos a partir da referida tcnica. Filsinger, Faulkner e Warland (1979) utilizaram anlise de cluster para
classificar indivduos a partir da varivel religio.
7
Os interessados podem acessar o referido trabalho a partir do seguinte endereo eletrnico:
<http://digitalassets.lib.berkeley.edu/anthpubs/ucb/text/ucp031-005.pdf>. Outros textos importantes foram produzidos por
Czekanowski (1911), Driver (1965) e Johnson (1967).
111
OPINIO PBLICA, Campinas, vol. 18, n 1, Junho, 2012, p. 109 - 128
Esses autores argumentam que o avano computacional um elemento central para explicar a
propagao da tcnica entre os diferentes ramos do conhecimento. Atualmente, os algoritmos
matemticos e os clculos de distncia entre os casos so realizados quase instantaneamente pela maior
parte dos pacotes estatsticos, isso facilita a utilizao da anlise de conglomerados por pesquisadores
que no dominam as complexidades matemticas, mas compreendem a lgica intuitiva da tcnica.
Mas para que serve a anlise de cluster afinal? Hair et al (2006) afirmam que a Anlise de
Cluster um grupo de tcnicas multivariadas cujo principal objetivo agrupar objetos a partir de suas
caractersticas (HAIR et al, 2006, p. 559). De acordo com Garson (2010), a Anlise de Cluster ()
procura identificar subgrupos homogneos de casos na populao, quer dizer, a anlise de Cluster
utilizada quando o pesquisador no sabe a priori o nmero de grupos, mas deseja identific-los e analisar
nveis de pertencimento (GARSON, 2010).
Para Aldenderfer e Blashfield (1984), o principal motivo para utilizar anlise de
conglomerados encontrar grupos de objetos similares em uma amostra de dados. Esses grupos so
convenientemente chamados de clusters (ALDENDERFER e BLASHFIELD, 1984, p. 33). Em sntese, fica
claro que o principal objetivo da referida tcnica agrupar casos de acordo com o grau de semelhana
observado entre eles. Hair et al (2006) afirmam que a lgica subjacente anlise de cluster semelhante
lgica da anlise fatorial. A diferena bsica que, na anlise fatorial, o pesquisador est interessado
em representar um conjunto de variveis observadas a partir de um nmero menor de fatores enquanto
na anlise de conglomerados o pesquisador procura representar um conjunto de casos a partir de um
nmero menor de grupos (clusters). Em uma frase: na anlise fatorial, agrupam-se variveis, na anlise
de conglomerados, agrupam-se casos8. A Figura 1 ilustra um tipo ideal de anlise de conglomerados.
8
importante lembrar que alguns pacotes estatsticos apresentam a opo de utilizar a anlise de conglomerados para agrupar
variveis, o caso, por exemplo, do Statistical Package for Social Sciences (SPSS).
112
FIGUEIREDO FILHO, D. B.; SILVA JUNIOR, J. A.; ROCHA, E. C. Classificando regimes...
Figura 1
Exemplo da anlise de conglomerados
113
OPINIO PBLICA, Campinas, vol. 18, n 1, Junho, 2012, p. 109 - 128
Que requisitos precisam ser satisfeitos para utilizar a tcnica de anlise de cluster em um
determinado desenho de pesquisa (HAIR et al, 2006). O objetivo desta seo sumarizar essas
informaes. A Tabela 1 sintetiza o planejamento de uma anlise de conglomerados em cinco estgios.
Tabela 1
Planejamento de uma anlise de conglomerados em cinco estgios
Estgio Procedimento
1 Selecionar a amostra
2 Determinar as variveis
5 Validar o resultado
9
Aldenderfer e Blashfield (1984), Garson (2010) e Hair et al (2006) discutem diferentes mtodos para estimar a
distncia/similaridade entre os casos. Para os propsitos deste artigo, optamos por no reproduzir integralmente o debate, nos
limitando aos aspectos mais bsicos da tcnica.
10
Uma forma mais intuitiva para pensar o conceito de variate imaginar uma medida sntese que seja utilizada para calcular o
nvel de similaridade entre os casos analisados. Neste artigo, evitamos utilizar o termo variate, optando pelo termo varivel.
Agradecemos ao parecerista por essa sugesto.
11
Aldenderfer e Blashfield alertam para quatro precaues que os pesquisadores devem atentar antes de utilizar a anlise de
conglomerados em seus desenhos de pesquisa. Em primeiro lugar, os autores afirmam que a maior parte dos mtodos de
anlise de conglomerados so procedimentos relativamente simples que, em geral, no necessitam de extenso suporte
estatstico (ALDENDERFER e BLASHFIELD, 1984, p.14). Em segundo lugar, os autores afirmam que a anlise de
conglomerados est intimamente ligada ao desenvolvimento metodolgico de diferentes disciplinas, carregando, dessa forma, os
avanos e os vieses de diferentes ramos do conhecimento. Por exemplo, o que importante em Psicologia pode ser dispensvel
em Cincia Poltica e vice-versa. Nesse sentido, cabe ao pesquisador no s garantir que os procedimentos tcnicos sejam
devidamente seguidos, mas, principalmente, conferir interpretao substantiva aos resultados encontrados. Em terceiro lugar,
Aldenderfer e Blashfield afirmam que diferentes mtodos de agrupamento podem e, em geral, produzem diferentes solues
para o mesmo conjunto de dados (ALDENDERFER e BLASHFIELD, 1984, p.15). importante que o pesquisador esteja atento a
este fato na hora de replicar testes de outros pesquisadores e, sempre que possvel, procure validar os resultados encontrados.
Por fim, os autores destacam que enquanto a estratgia da anlise de cluster structure-seeking, sua operacionalizao
structure-imposing (ALDENDERFER e BLASHFIELD, 1984, p.16), i.e., grupos (conglomerados) sempre sero criados, j que a
anlise parte do pressuposto de que existe uma estrutura inerente aos dados que no pode ser observada visualmente.
114
FIGUEIREDO FILHO, D. B.; SILVA JUNIOR, J. A.; ROCHA, E. C. Classificando regimes...
O primeiro passo definir a amostra. Para Hair et al (2006), o tamanho da amostra na anlise
de cluster no se relaciona com questes de inferncia estatstica como em anlise de regresso, por
exemplo. Ou seja, no se procura estimar em que medida os resultados encontrados na amostra podem
ser estendidos populao. Na verdade, o tamanho da amostra deve garantir que os pequenos grupos
da populao sejam devidamente representados. Alm disso, diferente de outras tcnicas multivariadas,
no existe uma regra geral para especificar o tamanho mnimo da amostra12 (DOLNICAR, 2002). Nossa
recomendao que ao se elevar a quantidade de variveis includas na anlise deve-se aumentar
tambm o nmero de casos. Um procedimento importante que deve ser empregado ainda no primeiro
estgio a identificao de outliers. Isso porque a anlise de conglomerados sensvel presena de
observaes muito destoantes. Hair et al (2006) sugerem a inspeo grfica do diagrama de perfil
(profile diagram). O pesquisador tambm pode utilizar o blox-plot e grficos de disperso para identificar
outliers, alm dos testes-padro disponveis nos diferentes pacotes estatsticos. Pohlmann sugere
calcular o escore padronizado Z e considerar como outliers as observaes cujos escores, em valores
absolutos, sejam maiores do que trs (POHLMANN, 2007, p. 333)13.
Depois de selecionar a amostra (1 estgio), o pesquisador deve decidir que variveis sero
utilizadas para estimar a distncia/similaridade entre os casos (2 estgio). Como a anlise de cluster
no diferencia entre variveis relevantes e irrelevantes, necessrio que essa incluso seja teoricamente
orientada. Hair et al afirmam que devem ser includas apenas as variveis que caracterizem os objetos
que sero agrupados e se relacionem especificamente aos objetivos da anlise de cluster (HAIR et al,
2006, p. 570). Para Aldenderfer e Blashfield, a escolha das variveis que sero utilizadas na anlise de
conglomerados um dos passos mais importantes do processo de pesquisa, mas, infelizmente, um dos
menos compreendidos (ALDENDERFER e BLASHFIELD, 1984, p.19). Idealmente, o desenho de pesquisa
deve selecionar apenas variveis teoricamente relevantes para proceder classificao dos casos. Os
autores advertem que, caso contrrio, existe um srio risco de o pesquisador enveredar por um
empirismo ingnuo, produzindo resultados conceitualmente vazios e que no contribuem para o avano
do conhecimento. No que diz respeito ao nvel de mensurao, Hair et al (2006) destacam as medidas
correlacionais e as medidas de distncia. As correlacionais permitem trabalhar com variveis
categricas, j as de distncia exigem variveis mtricas14. Outro ponto importante diz respeito
padronizao das variveis includas na anlise de cluster. Alguns especialistas recomendam que
variveis medidas em diferentes escalas devem ser padronizadas (mdia zero e varincia igual a um)
para que a comparao entre elas seja inteligvel. O problema da ponderao (criar pesos) tambm
divide a opinio dos pesquisadores15.
12
Formann (1984) sugere que o nmero de casos (n) deve ser igual a 5*2k, onde k representa o nmero de variveis. Logo, se o
pesquisador utilizar trs variveis, ele deve contar com, no mnimo, (5* 23) = 40 casos.
13
Para padronizar uma varivel, deve-se subtrair o seu valor pela mdia e dividir o resultado pelo desvio-padro. Algebricamente,
=
16
A verso 16 do SPSS contempla as seguintes medidas de similaridade para variveis mtricas: euclidian distances, squared
euclidian distances, Cosine, Pearson correlation, Chebychev, Block, Minkowski e Customized. Como mtodos de aglomerao o
referido software dispe do seguinte: between groups-linkage, within groups-linkage, Nearest neighbor, Furthest neighbor, Centroid
clustering, Median clustering e Ward`s method. Para uma discusso sobre cada um deles, ver Garson (2010).
17
Para as diferenas entre as trs abordagens, ver Garson (2010).
%
18
Algebricamente, !" = #&
($ "$ )
Onde dij representa a distncia entre os casos i e j; xik o valor da K-esima varivel para o i-esimo caso. Para evitar a utilizao
da raiz quadrada, possvel elevar o valor da distncia ao quadrado (dij2) produzindo, dessa forma, a distncia Euclidiana ao
quadrado (squared Eucledian distance).
116
FIGUEIREDO FILHO, D. B.; SILVA JUNIOR, J. A.; ROCHA, E. C. Classificando regimes...
estgio). Nesse momento, ele dever utilizar a teoria para orientar a sua escolha. Por exemplo, se
trabalhos anteriores sugerem a existncia de trs grupos, uma possibilidade analtica replicar o
nmero de grupos com o objetivo de verificar em que medida a soluo encontrada mais ou menos
robusta. Na ausncia de teoria sobre o assunto, o pesquisador pode adotar uma perspectiva exploratria
e repetir a anlise variando o nmero de grupos (K). As diferentes solues devem ser comparadas luz
da literatura especializada sobre o tema em busca de uma explicao substantiva.
Por fim, no 5 estgio, o pesquisador deve validar os resultados encontrados. Hair et al alertam
que o pesquisador deve ter muito cuidado na validao e na garantia de significncia prtica da soluo
final (HAIR et al, 2005, p.405). A validao consiste em garantir que a soluo encontrada seja
representativa da populao, descrevendo um padro relativamente estvel para outras amostras. Um
procedimento para executar a validao consiste no particionamento (diviso) da amostra original em
outras separadas e comparar as solues obtidas em ambos os casos, verificando a correspondncia dos
resultados (HAIR et al, 2005). Outro caminho testar a capacidade preditiva da soluo gerada a partir
da comparao de uma varivel aleatria que no tenha sido utilizada na soluo inicial de gerao dos
conglomerados. Por exemplo, ao separar grupos de acordo com o hbito tabagista, espera-se que, em
mdia, a resistncia fsica dos no fumantes seja maior do que a dos fumantes. Dessa forma, depois de
separar os grupos, o pesquisador pode conduzir uma bateria de testes fsicos e verificar se o grupo dos
no fumantes, de fato, apresenta um rendimento superior performance dos fumantes. Ou, ao
classificar regimes polticos de acordo com o seu nvel de democratizao, o pesquisador pode estimar
em que medida a desigualdade de renda varia entre os diferentes grupos de pases, assumindo que
democracias tendem a promover maior distribuio de renda do que no-democracias.
19
Coppedge, Alvarez e Maldonado (2008) utilizam um modelo de anlise fatorial para reduzir diferentes indicadores de
democracia nas duas dimenses da poliarquia propostas por Dahl (1971), contestao e inclusividade. Essas dimenses so
utilizadas no presente artigo como as variveis de referncia para classificar os regimes polticos em diferentes conglomerados.
Aldenderfer e Blashfield (1984), Hair et al (2006) e Garson (2010) advertem que a anlise de conglomerados pode no ser
eficientemente realizada quando as variveis utilizadas so fatores ou componentes extrados via anlise fatorial. Essa
preocupao se justifica por que, em muitas solues, os fatores extrados carregam pouca varincia (S2<60%), o que, de fato,
pode prejudicar o poder aglomerativo das variveis. A soluo fatorial encontrada no presente banco de dados explica mais de
75% da varincia total das variveis observadas, o que assegura um maior nvel de capacidade de as dimenses latentes
(contestao e inclusividade) agruparem os casos observados em diferentes clusters.
117
OPINIO PBLICA, Campinas, vol. 18, n 1, Junho, 2012, p. 109 - 128
foram utilizadas para classificar os regimes polticos (4 estgio). Por fim, utilizamos a validao por
amostras particionadas, alm disso, comparamos nossa classificao, produzida via anlise de
conglomerados, com a classificao proposta por Mainwaring, Brinks e Prez-Lin (2001) (5 estgio).
Resultados20
Os dados mais recentes disponveis no banco referem-se ao ano de 2000. Optamos por
trabalhar com essas informaes, totalizando 192 observaes21. Por motivos pedaggicos,
selecionamos uma amostra aleatria de 20%, j que os resultados computacionais, produzidos
utilizando todas as observaes no mtodo de agrupamento hierrquico, dificulta a edio das
informaes dada a magnitude das tabelas22. Dessa forma, foram selecionados 41 casos. Do mtodo de
agrupamento hierrquico, analisamos apenas o dendograma, concedendo mais ateno s sadas
produzidas pelo mtodo de agrupamento K-means clustering.
O dendograma uma sntese grfica da anlise de conglomerados e agrupa os casos em
funo do padro de similaridade, dispensando a determinao prvia da quantidade de grupos23. Os
casos esto listados no eixo vertical, no caso, os pases. Quanto mais casos, maior o peso do
conglomerado. O eixo horizontal ilustra a distncia entre os clusters (grupos) quando eles so agrupados.
uma medida de diferenciao entre os grupos. Quanto maior a distncia, maior a diferena entre os
casos.
20
Neste artigo, todo o trabalho computacional foi efetuado a partir do Statistical Package for Social Sciences (SPSS), verso 16.
Para solicitar a anlise de cluster no SPSS, o pesquisador deve escolher as opes Analyze, Classify e, ento, optar pelo mtodo
de aglomerao desejado (Hierarchical clustering ou K-means clustering ou Two-step clustering).
21
O banco de dados utilizado neste artigo est disponvel no seguinte endereo eletrnico:
<http://www.nd.edu/~mcoppedg/crd/datacrd.htm>.
22
Como procedimento padro, o Statistical Package for Social Sciences, verso 16, disponibiliza duas diferentes sadas: a) case
processing summary e b) agglomeration schedule. O primeiro representa a frequncia dos casos analisados, bem como o nmero
de casos missing. Caso o pesquisador observe que o nmero de casos com informaes ausentes seja alto, ele deve repensar a
utilizao da tcnica e/ou preencher as informaes faltantes. A segunda sada ilustra o processo de aglomerao. Ela indica,
passo a passo, os casos que foram aglomerados para formar um determinado cluster. O linkage plot fornece a mesma informao
em formato grfico.
23
Alm do dendograma, a sada computacional do mtodo de aglomerao hierrquica fornece a matriz de proximidade, desde
que requisitada na opo estatsticas. Como ela estima a distncia de cada caso em relao aos demais, quanto maior o N,
tanto mais complicada a sua edio grfica. Por esse motivo, nos furtamos de report-la aqui. O importante observar que a
matriz de proximidade resume o grau de semelhana/diferena de cada caso em relao aos demais ao mesmo tempo.
118
FIGUEIREDO FILHO, D. B.; SILVA JUNIOR, J. A.; ROCHA, E. C. Classificando regimes...
Figura 2
Dendograma
CASO 0 5 10 15 20 25
+---------+---------+---------+---------+---------+
FIN
NZL
DNK
AUT
CHE
USA
CRI
ARG
ISL
GBR
DOM
GUY
BRA
BLZ
LKA
UKR
BGR
KIR
SMR
CPV
MCO
BRB
ADO
PER
GHA
CUB
UZB
DZA
CMR
KAZ
DJI
BHR
LBY
KWT
119
OPINIO PBLICA, Campinas, vol. 18, n 1, Junho, 2012, p. 109 - 128
Grfico 1
Disperso dos pases em quatro grupos
Os valores esto padronizados de tal modo que a mdia zero e a distncia entre as
observaes calculado em termos de desvio-padro.
desvio O cluster 1 formado por Arbia Saudita (SAL) e
120
FIGUEIREDO FILHO, D. B.; SILVA JUNIOR, J. A.; ROCHA, E. C. Classificando regimes...
Afeganisto (AFG), ambos os regimes apresentam baixa inclusividade e reduzida contestao pblica. A
maior parte dos regimes polticos do cluster 2 est acima da mdia na dimenso da inclusividade.
Quanto contestao, todos eles esto abaixo do termo mdio. A exceo de Togo (TON), todos os
pases do conglomerado 3 esto acima da mdia nas duas dimenses. Similarmente, todos os pases
agrupados pelo cluster 4 tambm apresentam inclusividade e contestao acima da mdia. primeira
vista, o leitor seria levado a acreditar que a anlise de cluster falhou em classificar os regimes polticos.
Isso porque agrupou pases com mdias de contestao e inclusividade semelhantes dentro de diferentes
conglomerados (clusters 3 e 4). No entanto, os conglomerados so criados de forma relacional,
considerando todos os pases ao mesmo tempo em funo do centro do cluster. Tem-se, ento, uma
medida de similaridade entre os regimes polticos tendo como parmetro no a mdia, mas sim a
distncia de cada um deles em relao ao centro do conglomerado. Por exemplo, ao se utilizar a mdia
como referncia, Haiti (HTI), Canad (CAN) e Frana (FRA) formam um mesmo grupo, localizado no
quadrante superior direito. Porm, via anlise de cluster, o pesquisador chegaria a um resultado bem
diferente e concluiria que o Haiti (HTI) mais semelhante a Togo (TON) e Serra Leoa (SLE).
Mas quo diferentes so esses grupos (clusters)? Tecnicamente, o pesquisador pode avaliar em
que medida a soluo encontrada estatisticamente aceitvel. Garson (2010) recomenda analisar a
distncia mdia das observaes em relao ao centro do cluster aps a formao dos diferentes
conglomerados. Quanto maior for a diferena entre essas mdias, maior o grau de diferenciao entre
os grupos. A Tabela 2 sumariza essas informaes.
Tabela 2
Centro do Cluster final
Cluster
Dimenses 1 2 3 4
Inclusividade -1,94 0,26 0,05 0,83
Contestao -1,03 -0,68 0,39 1,16
Observando os valores da distncia final de cada grupo (cluster) para cada uma das dimenses,
tem-se que o cluster 4 apresenta os maiores nveis de inclusividade (0,83) e contestao (1,16). No outro
oposto, o cluster 1 apresenta os valores mais reduzidos de inclusividade (-1,94) e contestao (-1,03). A
Tabela 3 apresenta a estatstica F e os respectivos nveis de significncia estatstica para cada dimenso
analisada24.
24
importante lembrar que como a anlise de cluster maximiza a diferena entre os grupos, a estatstica F no pode ser
interpretada como representando um teste de hiptese de diferena entre os grupos. A sua interpretao mais adequada deve se
restringir ao aspecto descritivo.
121
OPINIO PBLICA, Campinas, vol. 18, n 1, Junho, 2012, p. 109 - 128
Tabela 3
Anlise de Varincia (ANOVA)
ANOVA
Cluster Erro
Dimenses
Mean Square gl Mean Square gl F Sig.
Grfico 2
Disperso dos pases
pas em quatro grupos (validao 1)
122
FIGUEIREDO FILHO, D. B.; SILVA JUNIOR, J. A.; ROCHA, E. C. Classificando regimes...
123
OPINIO PBLICA, Campinas, vol. 18, n 1, Junho, 2012, p. 109 - 128
Tabela 4
Comparao entre a classificao de MBP (2000) e anlise de cluster
Seguindo a classificao proposta por Mainwaring, Brinks e Prez-Lin (2000), observa-se que
11 dos 19 regimes polticos so classificados como democrticos (57,89%), 36,84% dos casos so
classificados como semi-democrticos (7 observaes) e apenas o regime poltico do Haiti foi
classificado como autoritrio. No entanto, interessante notar que pases classificados com o mesmo
regime foram agrupados em diferentes clusters, como o caso de Argentina (cluster 3) e Bolvia (cluster
4). O Grfico 3 ilustra a disperso dos pases analisados por Mainwaring, Brinks e Prez-Lin (2000)
divididos em 4 grupos.
124
FIGUEIREDO FILHO, D. B.; SILVA JUNIOR, J. A.; ROCHA, E. C. Classificando regimes...
Grfico 3
Disperso dos pases em quatro grupos (validao 2)
125
OPINIO PBLICA, Campinas, vol. 18, n 1, Junho, 2012, p. 109 - 128
Concluso
Referncias Bibliogrficas
ALDENDERFER, M. S. e BLASHFIELD, R. K. Cluster Analysis. Sage University Paper Series: Quantitative Applications in
the Social Science, 1984.
BERRY, B. J. L. and RAY, M. Multivariate socio-economic regionalization: A pilot study in central Canada. Unpublished
manuscript. Department of Geography, University of Chicago, 1966.
COPPEDGE, M.; ALVAREZ, A.; MALDONADO, C. Two Persistent Dimensions of Democracy: Contestation and
Inclusiveness. Journal of Politics, v. 70, n. 3, p. 1-45, 2008.
CZEKANOWSKI, J. Objectiv Rriterien in der Ethnologie. Korrespondenz-Blatt der Deutschen Gesellschaft fur Anthropologie,
Ethnologie und Urgeschichte, 42, p.71-75, Hamburg, 1911.
126
FIGUEIREDO FILHO, D. B.; SILVA JUNIOR, J. A.; ROCHA, E. C. Classificando regimes...
DANSECO, E. R.; HOLDEN, E. W. Are There Different Types of Homeless Families? A Typology of Homeless Families
Based On Cluster Analysis. Family Relations, v. 47, n. 2, p. 159-165.
DOLNICAR, S. A review of unquestioned standards in used cluster analysis for data-driven market segmentation. Faculty
of Commerce Papers. 2002. Disponvel em: < http://ro.uow.edu.au/commpapers/273 >.
DRIVER, H. E. Survey of numerical classification in anthropology. In: HYMES, D. (Ed.). The Use of Computers in
Anthropology. The Hague: Mouton, 1965.
DRIVER, H. E.; KROEBER, A. L.Quantitative Expressions of Cultural Relationships. Berkeley: University of California Press,
1932.
EVERITT, B.S. Cluster Analysis. Second Edition, London: Heineman Educational Books Ltd, 1980.
FILSINGER, E.; FAULKNER, J. & WARLAND, R. Empirical taxonomy of religious individuals: An investigation among
college students. Sociological Analysis, v. 40, 136-146, 1979.
FLEISHMAN, J. A. Types of Political Attitude Structure: Results of a Cluster Analysis. The Public Opinion Quarterly, v.
50, n. 3, p. 371-386, 1986.
FORMANN, A.K. Die Latent-Class-Analyse: Einfhrung in die Theorie und Anwendung. Weinheim: Beltz, 1984.
GOLDSTEIN, S. G. and LINDEN, J.Multivariate Classification of alcoholics by means of MMPI. Journal of abnormal
Psychology, v. 14, n. 6, p. 661-669.
HAIR, Jr; BLACK, W. C; BABIN, B. J.; ANDERSON, R. E.; TATHAM, R. L. Anlise Multivariada de Dados. Porto Alegre:
Bookman, 2005.
______. Multivariate Data Analysis. 6 edio. Upper Saddle River, NJ: Pearson Prentice Hall, 2006.
KAISER, H. F. An objective method for establishing legislative districts. Midwest Journal of Political Science, v. 10, p.
200-213, 1966.
KING, G.; KEOHANE, R.; VERBA, S. Designing Social Inquiry: Scientific Inference in Qualitative Research, Princeton:
Princeton university Press, 1994.
MACRAE, D. Jr. Cluster Analysis of Congressional Votes with the BC TRY System. The Western Political Quarterly, v. 19,
n. 4, p. 631-638.
MAINWARING, S.; BRINKS, D.; PREZ-LIN, A. Classificando Regimes Polticos na Amrica Latina, 1945-1999.
Dados, v. 44, n. 4, 2001.
MOONEY, C. Z. Bootstrap Statistical Inference: examples and evaluation for Political Science. American Journal of
Political Science, v. 40, n. 2, p. 570-602.
PETERS, W. S. Cluster Analysis in Urban Demography, Social Forces, v. 37, n. 1, p. 38-44, 1958.
POHLMANN, M. C. Anlise de Conglomerados. In: CORRAR, L. J.; EDLSON, P.; DIAS FILHO, J. M. (Orgs.). Anlise
Multivariada. So Paulo: Atlas, 2007.
SANTOS, M. H; COUTINHO, M. Poltica comparada: estado das artes e perspectivas no Brasil, BIB, v. 5, n. 4, p. 3-146,
2000.
SOARES, G. O calcanhar metodolgico da cincia poltica no Brasil. Sociologia, Problemas e Prticas, v. II, n. 48, p. 27-
52, 2005.
SOKAL, R. R.; SNEATH, P. H. A. Principles of Numerical Taxonomy. San Francisco: W. H. Freeman, 1963.
127
OPINIO PBLICA, Campinas, vol. 18, n 1, Junho, 2012, p. 109 - 128
VALLE e SILVA, N. Relatrio de Consultoria sobre Melhoria do Treinamento em Cincia Social Quantitativa e Aplicada no Brasil.
Rio de Janeiro, Laboratrio Nacional de Computao Cientfica, 1999.
VANNEMAN, R. The Occupational Composition of American Classes: Results from Cluster Analysis. The American
Journal of Sociology, v. 82, n. 4, p. 783-807, 1977.
WERNECK VIANNA, L. et al. "Doutores e teses em cincias sociais", Dados, v. 41, n. 3, p. 453-515, 1998.
ZUBIN, J. A. "A technique for measuring likemindedness". Journal of Abnormal and Social Psychology, 33, p.508-516,
Oct.1938.
128