Você está na página 1de 10

Análise de

agrupamentos
PESQUISA TECNOLÓGICA QUALITATIVA E QUANTITATIVA
Análise de agrupamentos
Na aula passada vimos como resumir ou reduzir o número de variáveis em um conjunto menor
de informações por meio da análise fatorial.
Em alguns casos, entretanto, o objetivo do pesquisador pode estar relacionado a identificar na
amostra grupos de observações que tenham características mais comuns:
◦ Classificar os 27 Estados Brasileiros de acordo com o fomento de atividades de inovação;
◦ Identificar grupos que diferenciam as empresas brasileiras de acordo com as características das
patentes depositadas.

Para estas situações, vimos que a análise fatorial apresenta soluções complexas e muitas vezes é
inviável devido a seus pressupostos.
Por este motivo, a técnica mais utilizada para agrupar observações é a análise de agrupamentos
ou cluster analysis.
Análise de agrupamentos
A análise de agrupamentos é uma
tem como objetivo reunir objetos
(observações) com base em suas
características comuns.
A análise de agrupamentos
classifica as observações segundo
características das variáveis
incluídas pelo pesquisador,
formando grupos de observações
(clusters) com alto grau de
homogeneidade interna e alto grau
de heterogeneidade externa.
Objetivos da análise de agrupamentos
Uma discussão prévia para análise de agrupamentos diz respeito a seu objetivo.
A análise de agrupamentos pode abordar três tipos de questões básicas de pesquisa:
◦ Descrição taxonômica, que objetiva definir uma classificação dos objetos com base empírica;
◦ Simplificação dos dados, que gera uma variável nominal que pose ser utilizada em análises posteriores;
◦ Identificação de relações, em que o pesquisador pode revelar relações entre as observações não
observáveis quando se analisa as observações ou as variáveis isoladamente.
Medida de similaridade
A análise de agrupamentos busca classificar objetos em grupos a partir de um conjunto de
variáveis previamente estabelecidas.
Inicialmente é estabelecida uma medida de similaridade, que indica o grau de correspondência
entre objetos ao longo de todas as variáveis usadas na análise.
◦ As medidas de similaridade podem ser correlacionais (correlação entre os objetos), de distância
(proximidade de observações umas das outras) ou de associação (percentual de
concordância/discordância).
◦ As medidas de similaridade mais utilizadas são as de distância, por representar melhor o conceito de
proximidade e por ser aplicável a variáveis métricas.
◦ Para variáveis não métricas é preciso utilizar medidas de associação.
◦ Caso existam variáveis métricas com escalas muito diferentes, a padronização destas variáveis pode
reduzir o efeito das diferenças de escala quando forem calculadas as similaridades.
Formação de agrupamentos
Após a identificação das similaridades são formados os agrupamentos (clusters).
Existem diversos métodos de formação de agrupamentos, dos quais destacamos os métodos
hierárquicos e não hierárquicos.
Os métodos hierárquicos envolvem uma série de decisões de agrupamentos que combinam as
observações em tipo árvore.
◦ Ou se inicia com todas as observações em um único agrupamento e são sucessivamente divididos; ou
cada observação inicialmente forma seu próprio agrupamento para depois serem agrupadas em um
número menor.
◦ A junção/divisão dos agrupamentos é realizada com base na medida de similaridade escolhida, por
meio de um algoritmo de aglomeração (como ligação simples, ligação, completa e centroide e método
de Ward).
Formação de agrupamentos
Nos modelos não hierárquicos não envolvem o agrupamento por meio de árvore, mas agrupam
os objetos em um número predeterminado de agrupamentos.
◦ Inicialmente é especificado os centros de agrupamentos a serem formados (chamado de semente de
agrupamentos). Os centros de agrupamentos pode ser definido pelo próprio pesquisador (de acordo
com seus objetivos e a literatura) ou gerada pela amostra (o SPSS faz isso!)
◦ Em seguida cada observação é designada aos agrupamentos com base na medida de similaridade
escolhida, por meio de um algoritmo de aglomeração (como referência sequencial, referência paralela
ou otimização)

A escolha do método de formação de agrupamentos depende dos objetivos e do contexto da


pesquisa, ficando a critério do pesquisador, que pode até utilizar os dois métodos (hierárquicos
e não hierárquicos).
Número e rótulo de agrupamentos
Não existe critério estatístico para definição do número de agrupamentos mais representativos
dos dados da amostra.
◦ O SPSS fornece uma solução automática com base nos modelos não hierárquicos, mas sem
embasamento estatístico.
◦ O pesquisador pode utilizar alguma regra de parada (como mudanças de heterogeneidade ou variações
de variância), bem como utilizar algum critério prévio, julgamento prático, senso comum ou
fundamentação teórica.

Após a identificação dos agrupamentos estes devem ser rotulados de acordo com as principais
características que o diferenciam.
◦ Uma análise da estatística descritiva das variáveis pode ajudar a indicar as principais características de
cada agrupamento.
Questões adicionais
Tamanho da amostra
◦ Embora não haja restrições estatísticas referentes ao tamanho da amostra, é recomendado que hajam
observações suficientes para representar pequenos grupos dentro da população. Amostras pequenas
podem omitir grupos relevantes.

Detecção de outliers
◦ A presença de outliers pode distorcer os resultados da análise de agrupamentos, resultantes de
observações verdadeiramente aberrantes, pequenos grupos insignificantes na população ou
subamostra que provoca uma representação ruim. Nos dois primeiros casos é recomendado excluir os
outliers, mas as subamostras devem ser mantidas por representar grupos da população.

Representatividade da amostra
◦ Para generalizar os resultados da análise de aglomerados, mesmo sem haver fundamentos estatísticos
em sua estrutura, é preciso que a amostra seja representativa da população.

Multicolinearidade
◦ A multicolinearidade distorce os resultados da análise de aglomerados, devendo ser evitada.
Resumo das técnicas multivariadas
Objetivo Técnica
Relações de dependência entre variáveis Análise de regressão
Relações de interdependência entre variáveis Análise fatorial
Relações de interdependência entre objetos Análise de agrupamentos

Você também pode gostar