Escolar Documentos
Profissional Documentos
Cultura Documentos
1
frequência TF-IDF:
2.2. Clusterização
O método de clusterização escolhido foi o k-medoides,
utilizando a implementação mais comum: PAM (Parti-
tioning Around Medoids), fornecida pelo pacote ’cluster’,
presente no repositório oficial da linguagem R. Este algo-
Figure 1. Gráfico que mostra o custo em função da quantidade de
ritmo é semelhante ao k-means, o algoritmo mais utilizado
grupos .
para particionamento hard. Contudo o k-medoides, uti-
liza como representantes dos grupos, dados do próprio con-
junto, ao invés de criar um novo dado. Para aplicação em K avg(s(i))
documento, isto faz muito sentido, visto que a utilização do 2 0.0006473802
k-means geraria novos vetores de caracterı́sticas que não 25 0.0031229310
correspondem a um documento verdadeiro. 50 0.0066754110
Outro aspecto que contribuiu para escolha deste método, 75 0.0114818200
é a possibilidade de utilizar uma matriz de distâncias Table 1. Silhouette
previamente computadas. Isto acelera o processamento,
possuindo grande vantagem principalmente quando são
necessárias diversas execuções. k[1, 100]. O primeiro teste para determinar o melhor k, foi
A medida de similaridade utilizada no agrupamento foi a tentativa de utilizar a regra do cotovelo, que consiste em
o cosseno entre dois vetores. Esta é uma medida bastante encontrar o numero de clusters k que provoca uma maior
comum na mineração de texto pois retorna similaridade de inflexão na curva da função objetivo. Porém como pode ser
forma invariante a escala. Esta medida é calculada como: observado na Figura 1, a curva é suave e não permite inferir
A·B k.
S(A, B) = Outra técnica empregada na analise dos clusters é
kAk kBk
chamada Silhouette e definida como a seguir:
Quando comparada as distancias de Minkowski, como
por exemplo a distancia Euclidiana, o cosseno se mostrou b(i) − a(i)
melhor para clusterização de documentos. s(i) =
max{a(i), b(i)}
Para utilização com o k-medoides, foi computada uma
matriz de similaridades utilizando o cosseno. Esta, por sua Onde a(i) representa a dissimilaridade media do dado
vez é dada como entrada para o algoritmo que retorna, os i com todos os outros dados e b(i) a menor dissimilaridade
medoides, o valor da função objetivo, uma matriz de per- media de i em relação aos dados de outros clusters. Portanto
tinência e algumas outras informações para analise. Estas s(i) próximo a 1 indica que o dado i está no grupo certo.
outras informações foram utilizadas para determinar o nu- Em nosso experimento constatou-se que para todos os ks a
mero de clusters ótimo, e são exploradas na próxima seção. media de s(i) ficou muito abaixo de 1. A tabela 1, mostra
os valores para quatro valores de K.
3. Experimentos e Discussão A Figura 2 mostra um exemplo do gráfico para k=15, os
demais apresentam este mesmo perfil. Para um bom agru-
Visto que os dados podem ser agrupados em 1 até pamento deveria ser possı́vel visualizar a distinção entre os
cem grupos, foi então realizada a clusterização para cada grupos. É possı́vel ver ainda valores negativos, que indicam
4. Conclusão
A determinação do numero de grupos para uma
clusterização em partições hard, é uma tarefa complexa e
que requer muita analise e conhecimento dos dados com
que se trabalha. Em nossos experimentos não foi possı́vel
determinar o numero de clusters ótimo. Porém constato-se
que o problema se deu pela não representatividade dos da-
dos. Dessa forma, como trabalhos futuros deve-se reformu-
lar o pre-processamento de forma a refletir melhor as carac-
terı́sticas distinguı́veis entre documentos.
Stan Kucera
--
-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-
skucera@prstorm.bison.mb.ca (stan kucera)
Subject: MONITOR
From: mike.damico@cccbbs.UUCP (Mike Damico)