Escolar Documentos
Profissional Documentos
Cultura Documentos
Revisão Textual:
Prof.ª Dr.ª Selma Aparecida Cesarin
Análise de Agrupamento
Objetivos
• Prover ao estudante um conjunto de Técnicas importantes para a realização de Análises
de Agrupamento.
Caro Aluno(a)!
Normalmente, com a correria do dia a dia, não nos organizamos e deixamos para o úl-
timo momento o acesso ao estudo, o que implicará o não aprofundamento no material
trabalhado ou, ainda, a perda dos prazos para o lançamento das atividades solicitadas.
Assim, organize seus estudos de maneira que entrem na sua rotina. Por exemplo, você
poderá escolher um dia ao longo da semana ou um determinado horário todos ou alguns
dias e determinar como o seu “momento do estudo”.
Após o contato com o conteúdo proposto, participe dos debates mediados em fóruns de
discussão, pois estes ajudarão a verificar o quanto você absorveu do conteúdo, além de
propiciar o contato com seus colegas e tutores, o que se apresenta como rico espaço de
troca de ideias e aprendizagem.
Bons Estudos!
UNIDADE
Análise de Agrupamento
Contextualização
Na Unidade anterior, destacamos a importância da tarefa de classificação no contexto
dos serviços de streaming, mais especificamente, utilizamos a Netflix como exemplo.
Veja que, neste exemplo, os títulos podem ser classificados de acordo com seu res-
pectivo gênero, por exemplo: aventura, drama e romance, dentre outros ou, ainda, os
títulos podem simplesmente receber um rótulo positivo, indicando que o espectador
gostou, ou negativo, indicando o contrário.
Assim, podemos ter vários grupos de títulos similares e, caso o expectador goste de
um determinado título, o Sistema poderá recomendar outro título do mesmo grupo e,
assim, a probabilidade de o expectador gostar também do segundo título é maior.
Note que a tarefa de Análise de Agrupamento utiliza os atributos descritivos dos obje-
tos para organizá-los por similaridade e não há qualquer informação, inicialmente, sobre
as categorias que os grupos representam.
6
Agrupamento Versus Classificação
Vimos, na unidade de título “Introdução e Pré-Processamento de Dados”, que os objetos
em um Conjunto de Dados podem ou não possuir rótulos.
Note que os grupos resultantes podem estar associados a rótulos, entretanto, ne-
nhum rótulo é utilizado para o treinamento do algoritmo considerado.
Na unidade de título “Análise Preditiva”, vimos que o algoritmo k-NN utiliza medidas
de distância entre os objetos para a inferência de um rótulo a um objeto não rotulado.
Releia, na unidade de título “Análise Preditiva”, a Seção sobre o algoritmo k-NN com espe-
cial atenção para a descrição das medidas de distância.
Com base nos valores do vetor de característica e pelo uso de alguma medida de distân-
cia, os dados são agrupados de modo que cada grupo compartilhe características comuns.
Nesse caso, dizemos que os registros não são rotulados e a tarefa de agrupamento
será importante para identificar e agrupar animais que são parecidos, ou que tenham
características similares entre si.
7
7
UNIDADE
Análise de Agrupamento
O Agrupamento de Dados pode ser mais complexo quando consideramos dados com
mais dimensões:
8
Os casos que não são ideais, quando da avaliação da dispersão no resultado de Processos
de Agrupamento, são aqueles que apresentam grupos muito próximos uns dos outros e nos
quais os objetos que compõem os grupos estão distanciados.
Nesse sentido, todos eles utilizam medidas objetivas para determinar a efetividade
dos algoritmos.
Podemos considerar uma padronização das diferentes medidas within, que serão de-
nominadas medidas intragrupos.
Intra ( gi ) max {d ( x, y ) : x, y ∈ gi }
=
1
Inter ( gi , g=
j) ∑ d ( x, y ) : x ∈ g i , y ∈ g j
gi × g j
em que: gi e gJ são grupos, x e y são objetos da base, d (x, y) é a distância entre os objetos
e gi e g são as quantidades de objetos nos respectivos grupos.
j
A partir do modelo de grupos, pode ser interessante uma análise mais profunda sobre
cada um dos grupos obtidos. Essa análise busca compreender os motivos pelos quais
os objetos são similares. O ideal, nessa etapa posterior, é contar com um especialista
no domínio, visto que o analista de dados pode não conhecer o contexto dos dados e,
assim, entender a motivação dos grupos pode não ser uma tarefa fácil.
9
9
UNIDADE
Análise de Agrupamento
Nesse contexto, a dinâmica de aplicação é muito similar àquela descrita pela Análise
Preditiva, a diferença principal é que estamos buscando um grupo de adequação para
um objeto sem grupo.
Existem diferentes estratégias de agrupamento que podem ser consideradas nas análises.
Agrupamento
Hierárquico Particional
K–means DBSCAN
Agrupamento Hierárquico
No Agrupamento Hierárquico, os objetos do Conjunto de Dados são divididos hierar-
quicamente em grupos.
Nesse contexto, a abordagem divisiva pode ser implementada pelo Método DIANA
(Divisive Analysis), enquanto que na abordagem aglomerativa pode-se considerar o Mé-
todo AGNES (A Glomerative NESting).
10
Na Figura 4, veja um esquema gráfico ilustrativo das Abordagens Divisiva e Aglomerativa.
Um vértice folha na árvore é aquele que apresenta um único objeto no grupo. A união
dos grupos unitários é feita a partir de critérios de similaridade dos objetos que compõem
cada grupo.
Como resultado desse método, a árvore contará com grupos unitários, à esquerda na
Figura 3, a partir dos quais grupos com objetos similares vão se formando até que haja
somente um único grupo.
11
11
UNIDADE
Análise de Agrupamento
Parâmetros de saída
• D: árvore (ou dendograma) representando a organização dos exemplares em grupos.
Algoritmo
• Passo 1: calcule a matriz de similaridade;
• Passo 2: aloque cada exemplar x i de X tr em um grupo distinto, criando os vértices
folhas da árvore D;
• Passo 3: enquanto há possibilidade de união de grupos faça:
» Passo 3.1: verifique a distância entre todos os pares de grupos, usando a matriz
de similaridade ou calculando a distância entre os centroides dos grupos;
» Passo 3.2: encontre o par de grupos mais similares e os transforme em um único
grupo, criando um vértice interno na árvore D.
Parâmetros de saída
• D: árvore (ou dendograma) representando a organização dos exemplares em grupos.
Algoritmo
• Passo 1: calcule a matriz de similaridade;
• Passo 2: aloque todos os exemplares x i de X tr em um único grupo, criando o
vértice raiz da árvore D;
12
• Passo 3: enquanto há a possibilidade de divisão de grupos, faça:
» Passo 3.1: selecione o grupo G, de maior dispersão (maior distância entre dois
exemplares no grupo) dentre todos os disponíveis para divisão;
» Passo 3.2: dentro de G, encontre o exemplar x dif menos similar a todos os ou-
tros (maior distância);
» Passo 3.3: transfira x dif de G para um novo grupo Gsplit;
» Passo 3.4: enquanto ocorrer transferência de G para Gsplit faça:
» Passo 3.4.1: dentro de G, encontre o exemplar x dif menos similar a todos os
outros (de maior distância aos demais exemplares de seu grupo);
» Passo 3.4.2: se a similaridade entre x dif e Gsplit é maior que a similaridade
entre x dif e ( G − x dif ) então:
» Passo 3.4.2.1: transfira x dif de G para G_(split);
» Passo 3.5: organize a árvore D, criando dois novos vértices na sua hierarquia
(para Gsplit e G), iniciando pelo grupo de maior dispersão, sendo que grupos for-
mados por mais de um exemplar devem constituir-se como um vértice interno da
árvore D, e grupos formados por apenas um exemplar devem constituir-se como
um vértice folha na árvore D.
Note que cada objeto possui dois atributos descritivos que foram utilizados para a distri-
buição no espaço e são representados pelos eixos do diagrama. Inicialmente, cada objeto
representa um grupo. Assim, temos a seguinte constituição {{a} , {b} , {c} , {d } , {e} , { f }} .
13
13
UNIDADE
Análise de Agrupamento
Veja que, na Figura 5a, os dois grupos que são mais próximos são {a} e {b}. Assim,
esses grupos serão fundidos e teremos a seguinte constituição após esse passo:
{{a, b} , {c} , {d } , {e} , { f }} .
Considerando a nova constituição, os dois grupos mais próximos são {f} e {e}, os
quais serão unidos e resultarão em {{a, b} , {c} , {d } , {e, f }} .
Seguindo com a observação das distâncias entre os grupos, os dois grupos mais pró-
{
ximos agora são {a, b} e {c}, que resultarão em {a, b, c} , {d } , {e, f } . }
Na sequência, os grupos mais próximos são {a, b, c} e {d}, os quais serão unidos, re-
sultando em {{a, b, c, d } , {e, f }} . Finalmente, os dois últimos grupos se unem e formam
{{a, b, c, d , e, f }} .
Veja que as “alturas” dos segmentos representam a distância entre os grupos; quanto
menor a distância, mais “baixo” são os segmentos de reta.
14
Figura 6 – Exemplo de agrupamento hierárquico com diferentes
formações de grupos a partir do valor de distância considerado
Fonte: Adaptada de DA SILVA et al., 2017
Parâmetros de saída
• k vetores que representam centroides de grupos, representando as partições descobertas.
Algoritmo
• Passo 1: escolha aleatoriamente um conjunto de vetores distintos para representar
os centroides, ou seja, C= {( c )} , p=
p 1, …, k ;
15
15
UNIDADE
Análise de Agrupamento
• Passo 2: enquanto houver alterações nas associações dos exemplares aos grupos
representados por cada centroide faça:
( )
» Passo 2.1: verifique a distância dist xi , c p para cada exemplar i em n e cada
centroide p em k;
( )
» Passo 2.2: associe cada exemplar xi ao vetor c p que minimiza dist xi , c p ,
formando cada uma das k partições do conjunto Xtr;
» Passo 2.3: atualize o conjunto de centroides C, de forma que cada vetor c seja
a média dos vetores x associados a ele.
Veja que o Conjunto de Dados apresenta somente duas dimensões, a partir das quais
os objetos são distribuídos.
Na maior parte dos casos reais, os objetos possuem múltiplos atributos e, consequen-
temente, múltiplas dimensões no espaço. O exemplo da Figura 7 permite o entendimento
do algoritmo de maneira simples. Sua lógica é a mesma para objetos multidimensionais.
Após a definição dos centroides, cada objeto será associado ao centroide mais próximo.
Veja que, na Figura 7c, o objeto selecionado está mais próximo do centroide verde,
assim, ele é associado a esse grupo. Os dois próximos objetos selecionados, nas Figuras
7d e 7e, também têm uma distância menor em relação ao centroide verde, ao qual eles
serão associados.
16
Figura 7 – Exemplo de Agrupamento por Partição pelo algoritmo k-médias
Fonte: Adaptada de FARIA, 2015
O processo descrito será repetido para todos os objetos pertinentes ao conjunto. Ao fi-
nal dessa etapa, teremos a formação dos grupos, a partir da associação aos centroides.
A partir da identificação inicial dos grupos, são definidos novos centroides para cada
um deles. Essa definição é resultado do cálculo do centro de gravidade de cada grupo.
Veja na Figura 7h os novos centroides calculados para cada um dos grupos iniciais.
Assim, o processo se repete, com a verificação das distâncias dos objetos, em relação
aos novos centroides, e com a associação dos objetos ao centroide mais próximo. O pro-
cesso será finalizado quando o cálculo do centro de gravidade dos grupos não alterar os
centroides anteriores.
Assim, poderemos ter grupos diferentes a partir de escolhas iniciais, também, dife-
rentes. Outro desafio, nesse caso, é a escolha arbitrária do número de grupos, ou seja,
a definição de k.
V
= ( x ) {y |d ( x, y ) ≤ ε }, ∀y
17
17
UNIDADE
Análise de Agrupamento
Onde x e y são objetos do conjunto de dados, d (x, y) é a distância entre esses objetos
e ε é um limiar arbitrário que limita a área ao redor de x.
A formação dos grupos é feita a partir do objeto núcleo agregando seus vizinhos.
Para cada objeto adicionado à respectiva vizinhança também será adicionada.
Parâmetros de saída
• G: uma lista com os exemplares agrupados ou indicação de exemplares definidos
como ruído pelo algoritmo.
Algoritmo
• Passo 1: G [1… n ] =
exemplar não agrupado ;
• Passo 2: id grupo = 0 ;
• Passo 3: para todo xi que ainda não pertence a um grupo e não está determinado
como ruído, faça:
18
» Passo 3.1: lista1 = {} ;
» Passo 3.2: lista1 = { xi } e todos os exemplares de Xtr na vizinhança de raio r de
xi , considerando a distância dist;
» Passo 3.3: se lista1 indicar menos exemplares na vizinhança de xi que minEx.
Então:
» Passo 3.3.1: xi é considerado ruído e G [i ] = ruído ;
Senão:
Então:
» Passo 3.3.5.3.1: lista1
= lista1 − x j ;
Senão:
lista1
= lista1 − x j
» Passo 3.3.5.3.2: ;
x ∈ lista2 que ainda não pertence a um grupo faça:
» Passo 3.3.5.3.3: para todo k
Passo 3.3.5.3.3.1: se x k ≠ ruído então:
• Passo 3.3.5.3.3.1.1: lista1
= lista1 + x k ;
• Passo 3.3.5.3.3.2: G [ k ] = id grupo .
Assim, se um exemplar possuir um número de vizinhos maior que minEx, então ele
é um exemplar interno, caso contrário ele será classificado como um exemplar de borda.
19
19
UNIDADE
Análise de Agrupamento
Assim, podemos dizer que os exemplares azul e roxo são diretamente alcançáveis por
densidade a partir do exemplar verde.
Na Figura 8b, podemos dizer que o exemplar roxo é alcançável por densidade a partir
do exemplar azul, visto que o exemplar verde é diretamente alcançável pelo azul e o
exemplar roxo é diretamente alcançável pelo verde.
A escolha dos parâmetros r e minEx de forma apropriada é um desafio para o qual há uma
heurística que procura avaliar como é a distribuição de densidade do conjunto de dados,
considerando o conceito de distância dos vizinhos mais próximos. Acesse o link a seguir,
para o Artigo original que propôs o DBSCAN com a descrição (em Inglês) da heurística e
demais detalhes. Disponível em: https://bit.ly/3m8kZAl
20
As descrições feitas nesta Unidade sobre os Algoritmos de Agrupamento são impor-
tantes para o entendimento de como cada algoritmo funciona e por que funciona.
Na próxima Unidade, vamos finalizar nossos estudos sobre as Técnicas para conver-
ter dados em conhecimento com a exploração da tarefa de regras de associação e de
detecção de anomalias.
21
21
UNIDADE
Análise de Agrupamento
Material Complementar
Indicações para saber mais sobre os assuntos abordados nesta Unidade:
Vídeos
Aprendizado de Máquina – Aula 16 – Agrupamento baseado em densidade
https://youtu.be/fEbQ62Xe4Is
Aprendizado de Máquina – Aula 13 – Agrupamento de dados: algoritmo k-médias (k-means)
https://youtu.be/PTL8t26OclI
Vídeo 2 do Tema 12: Agrupamento Hierárquico
https://bit.ly/3u7c6d6
Vídeo 3 do Tema 12: Agrupamento Particional
https://bit.ly/3wnG3Yz
22
Referências
CARVALHO, A. Aprendizado de máquina – Árvores de Decisão. Notas de aula. São
Paulo: ICMC/USP, 2017.
GRUS, J. Data Science do zero: Primeiras regras com o Python. Rio de Janeiro: Alta
Books, 2019.
23
23