Você está na página 1de 26

PÓS GRADUAÇÃO EM INTELIGÊNCIA DE NEGÓCIOS

MINERAÇÃO DE DADOS (DATA MINING)


ANÁLISE DE GRUPO
AGENDA
 Introdução;
 Definição;
 Aplicações;
 Complexidade do Agrupamento;
 Processo de Agrupamento;
 Medidas de similaridade;
 Matriz de dados e Matriz de Dissimilaridade;
 Métodos de agrupamento;
 Algoritmos de agrupamento;
 Dendograma;
 Análise grupo com R – k-means;
ANÁLISE DE GRUPO
INTRODUÇÃO

• Uma das habilidades é a capacidade de agrupar objetos similares;


• Produzindo uma taxonomia, classificação ou agrupamento;
• A ideia é organizar coisas similares em categorias, grupos (clusters);
• É a capacidade de identificar características ou combinações de características
similares em alguns objetos;
• Exemplo: cor, cheiro, posição, altura, peso, dentre outros;
ANÁLISE DE GRUPO
INTRODUÇÃO

• Análise de Grupos ou Agrupamento de Dados é usado para designar um


amplo espectro de métodos numéricos de análise de dados multivariados
com o objetivo de descobrir grupos homogêneos de objetos;
• Representam uma forma conveniente de organizar grandes bases de
dados de tal maneira que elas sejam mais facilmente compreendidas ou
pesquisadas;
ANÁLISE DE GRUPO
DEFINIÇÃO

• Análise de Grupo (definição):


• A organização de um conjunto de objetos em grupos baseada na
similaridade entre eles;
• É o processo de particionar um conjunto de dados em subconjuntos, de
forma que os objetos em cada grupo compartilhem características
comuns, em geral proximidade em relação a alguma medida de
similaridade ou distância;
ANÁLISE DE GRUPO
DEFINIÇÃO
• Objetos pertencentes ao mesmo grupo são mais similares entre si do que a
objetos pertencentes a grupos distintos;
• Um grupo pode ser definido em função da coesão interna (homogeneidade) e
do isolamento externo (separação) de seus objetos;
• Há diferentes agrupamentos possíveis para a mesma base de dados, assim a
utilidade de um agrupamento depende do propósito da análise;
• Exemplo: um conjunto de carros pode ser agrupado de acordo com a cor,
consumo de combustível, fabricante, velocidade, dentre outros;
ANÁLISE DE GRUPO
APLICAÇÕES

• Aplicada em diversas áreas de conhecimento, como:


• Medicina: identificação de categorias de diagnósticos, pacientes e
remédios;
• Biologia: para propor uma taxonomia de animais e plantas;
• Agricultura: categorizar plantas, solos e frutos;
• Markerting: identificar grupos de clientes, produtos e serviços;
• Meterologia: identificar diferentes padrões climáticos;
• Financeiro: identificar o perfil de clientes fraudadores.
ANÁLISE DE GRUPO
COMPLEXIDADE DO AGRUPAMENTO

• A maioria dos algoritmos de agrupamento se concentra em obter k grupos de


objetos semelhantes de acordo com algum critério preestabelecido;
• O problema de se encontrar uma solução ótima para a separação de n
objetos em k grupos é dito NP-difícil (NP-hard);
• Torna-se inivável computacionalmente buscar uma solução ótima global para
esse problema, sobretudo para valores grandes de k e n;
• A escolha do valor de k é uma tarefa complicada, pois algum desses valores
não implicam grupos naturais;
ANÁLISE DE GRUPO
COMPLEXIDADE DO AGRUPAMENTO
• Desta forma, pode-se executar o algoritmo de agrupamento diversas vezes,
variando-se o valor de k, para depois escolher a solução cujas características
se parecem melhores;
• Ou ainda a solução que forneça a interpretação mais significativa dos dados, o
quer requer um certo conhecimento do domínio;
• A determinação do número ótimo de grupos em um conjunto de dados é um
dos mais difíceis aspectos do processo de agrupamento e muitos algoritmos de
busca e otimização têm sido aplicados com este objetivo;
ANÁLISE DE GRUPO
PROCESSO DE AGRUPAMENTO
• O agrupamento de dados é um processo que pode ser dividido em cinco
etapas principais;
• As etapas principais podem ser ajustadas para melhorar o agrupamento
resultante utilizando o resultado (feedback) do próprio agupamento;
Pré-processamento Definição da medida Execução do método
dos dados de similaridade de agrupamento

Representação dos
Avaliação do
grupos
agrupamento
ANÁLISE DE GRUPO
MEDIDAS DE SIMILARIDADE

• Os métodos de agrupamento visam agrupar objetos similares entre si e


dissimilares a objetos pertencentes a outros grupos;
• Desta forma, é necessária uma medida de similaridade (proximidade) ou
dissimilaridade (distância) entre objetos, utilizada durante o agrupamento;
• Grande parte dos algoritmos de agrupamento utiliza medidas de
dissimilaridade para avaliar, de modo indireto, a proximidade entre objetos;
ANÁLISE DE GRUPO
MATRIZ DE DADOS E MATRIZ DE DISSIMILARIDADE
ANÁLISE DE GRUPO
MATRIZ DE DADOS E MATRIZ DE DISSIMILARIDADE
ANÁLISE DE GRUPO
MÉTODOS DE AGRUPAMENTO
• Hierárquicos
• Criam uma decomposição hierárquica dos dados;
• Podem ser aglomerativos ou divisivos;
• Métodos típicos: Diana, Agnes;
• Aglomerativos
• Começam com cada objeto pertencendo a um grupo e unem
sucessivamente objetos em grupos de acordo com a proximidade
entre eles até que um critério de parada seja atingido
• Divisivos
• Começam com todos os objetos fazendo parte do mesmo grupo e
particionam sucessivamente os grupos em grupos menores, até
que um critério de parada seja atingido;
ANÁLISE DE GRUPO
MÉTODOS DE AGRUPAMENTO
• Particionais
• Dado um conjunto com n objetos, um método particional constrói k
partições dos dados, sendo que cada partição representa um cluster;
• Dado o número k de partições, um método particional cria uma partição
inicial e emprega um algoritmo de realocação interativa que tem por
objetivo melhorar o particionamento movendo objetos entre grupos;
• Métodos típicos: k-means, k-medoids;
ANÁLISE DE GRUPO
ALGORITMOS DE AGRUPAMENTO
• Algoritmo k-means
• Toma como entrada o parâmetro k, correspondente ao número de grupos
desejados;
• Particiona o conjunto de n objetos em k grupos, de tal forma que a
similaridade intragrupo seja alta e a similaridade intergrupo seja baixa;
• A similaridade intragrupo é avaliada considerando o valor médio dos
objetos em um grupo (centro de gravidade ou centroide);
• Cada objeto pertence ao grupo do centroide mais próximo;
ANÁLISE DE GRUPO
ALGORITMOS DE AGRUPAMENTO – K-MEANS
ANÁLISE DE GRUPO

ALGORITMOS DE AGRUPAMENTO - CONSIDERAÇÕES

• Algoritmo k-means
• Normalmente termina em um ótimo local;
• Aplicável somente a objetos em um espaço contínuo n-dimensional;
• Necessário especificar k com antecedência;
• Sensível aos dados ruidosos e aos outliers;
ANÁLISE DE GRUPO

ALGORITMOS DE AGRUPAMENTO

• Algoritmo k-medoids
• Um medoid é o objeto com a menor dissimilaridade média a todos os
outros objetos;
• É o objeto mais centralmente localizado do grupo;
• É um método de agrupamento relacionado ao k-means, mas que usa
um objeto da base como protótipo em lugar de um centroide;
ANÁLISE DE GRUPO
ALGORITMOS DE AGRUPAMENTO – K-MEDOIDS
ANÁLISE DE GRUPO

ALGORITMOS DE AGRUPAMENTO - CONSIDERAÇÕES

• Algoritmo k-medoids
• O k-means calcula o centro do grupo a partir dos objetos nele contidos,
enquanto que o k-medoids escolhe objetos da própria base como os
centros dos grupos;
• O k-medoids é mais robusto a ruído e a valores discrepantes do que o
k-means, pois o centro do grupo será necessariamente um objeto da
base;
ANÁLISE DE GRUPO
DENDROGRAMA
• Decompõem objetos em particionamento aninhados (árvores de clusters),
chamados de dendrograma;
• Um agrupamento de objetos é obtido cortando o dendrograma no nível
desejado;
ANÁLISE DE GRUPO
ANÁLISE GRUPO COM R – k-means
• Vamos utilizar a tabela iris
ANÁLISE DE GRUPO
ANÁLISE GRUPO COM R – k-means
• Vamos criar três grupos
ANÁLISE DE GRUPO
ANÁLISE GRUPO COM R – k-means
• Verificar o cluster criado com a tabela original iris
CONCLUSÃO

• É essencial que ao analisar um problema de agrupamento de dados se


tenha um bom conhecimento sobre o algoritmo a ser empregado, os
detalhes do processo de aquisição e pré-processamento dos dados, e
o domínio do problema;

Você também pode gostar