Você está na página 1de 91

UNIVERSIDADE PRESBITERIANA MACKENZIE

PROGRAMA DE PÓS-GRADUAÇÃO EM
ENGENHARIA ELÉTRICA E COMPUTAÇÃO

GUILHERME RAIOL DE MIRANDA

DETECÇÃO DE TÓPICOS EM DOCUMENTOS USANDO

AGRUPAMENTO DE VETORES DE PALAVRAS

São Paulo
2020
UNIVERSIDADE PRESBITERIANA MACKENZIE
PROGRAMA DE PÓS-GRADUAÇÃO EM
ENGENHARIA ELÉTRICA E COMPUTAÇÃO

GUILHERME RAIOL DE MIRANDA

DETECÇÃO DE TÓPICOS EM DOCUMENTOS USANDO

AGRUPAMENTO DE VETORES DE PALAVRAS

Dissertação apresentada como parte dos requisi-


tos exigidos para obtenção do título de Mestre
em Engenharia Elétrica e Computação pelo Pro-
grama de Pós-Graduação em Engenharia Elé-
trica e Computação da Universidade Presbiteri-
ana Mackenzie.

Orientador: Leandro Nunes de Castro

São Paulo
2020
M672d Miranda, Guilherme Raiol de.
Detecção de tópicos em documentos usando agrupamento de vetores
de palavras. / Guilherme Raiol de Miranda.
91 f. : il. ; 30 cm

Dissertação (mestrado em Engenharia Elétrica e Computação) –


Universidade Presbiteriana Mackenzie, São Paulo, 2020.
Orientador: Leandro Nunes de Castro.
Bibliografia: f. 55-58.

1. Detecção de tópicos. 2. Word2Vec. 3. Mapa auto-organizavel. I.


Castro, Leandro Nunes de, orientador. II. Título.
CDD 621.3

Bibliotecária Responsável : Giovanna Cardoso Brasil CRB-8/9605


Folha de Identificação da Agência de Financiamento

Autor: Guilherme Raiol de Miranda

Programa de Pós-Graduação Stricto Sensu em Engenharia Elétrica e Computação

Título do Trabalho: DETECÇÃO DE TÓPICOS EM DOCUMENTOS USANDO


AGRUPAMENTO DE VETORES DE PALAVRAS

O presente trabalho foi realizado com o apoio de 1:


CAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível Superior
CNPq - Conselho Nacional de Desenvolvimento Científico e Tecnológico
FAPESP - Fundação de Amparo à Pesquisa do Estado de São Paulo
Instituto Presbiteriano Mackenzie/Isenção integral de Mensalidades e Taxas
MACKPESQUISA - Fundo Mackenzie de Pesquisa
Empresa/Indústria:      
Outro:      

1
Observação: caso tenha usufruído mais de um apoio ou benefício, selecione-os.
GUILHERME RAIOL DE MIRANDA

DETECÇÃO DE TÓPICOS EM DOCUMENTOS USANDO


AGRUPAMENTO DE VETORES DE PALAVRAS

Dissertação apresentada como parte dos re-


quisitos exigidos para obtenção do título de
Mestre em Engenharia Elétrica e Computa-
ção pelo Programa de Pós-Graduação em En-
genharia Elétrica e Computação da Universi-
dade Presbiteriana Mackenzie.

Aprovado em 21 de agosto de 2020.

BANCA EXAMINADORA

Prof. Dr. Leandro Nunes de Castro


Universidade Presbiteriana Mackenzie

Prof. Dra. Renata Mendes de Araújo


Universidade Presbiteriana Mackenzie

Prof. Dr. Juan Manuel Adán Coello


Pontifícia Universidade Católica de
Campinas

São Paulo
2020
Ao meu pai
Agradecimentos

Primeiramente ao meu pai, que apoiou e suportou todo meu estudo, mesmo nos
piores momentos. Que me incentivou a nunca ser o melhor, mas sempre fazer o máximo
para estar entre os melhores. Que sem ele eu nunca me tornaria metade da pessoa que
sou. E que mesmo sem nunca poder ver isso, teria orgulho do que me tornei.
À minha mãe, por toda luz, clareza e força que me proporciona a vida toda e que
inspira todas minhas conquistas.
Ao meu irmão, por mostrar a perspectiva do porque devo alcançar meus objetivos.
Ao meu orientador Prof. Dr. Leandro Nunes de Castro, por toda orientação em
minha formação de pesquisador.
Ao meu co-orientador Dr. Rodrigo Pasti, pela ideia do trabalho e por todo apoio
na jornada.
À CAPES e à Gerência de Responsabilidade Social e Filantropia do Instituto
Presbiteriano Mackenzie que possibilitaram o desenvolvimento dessa pesquisa.
“Eu prefiro ser essa metamorfose ambulante
Do que ter aquela velha opinião formada sobre tudo.”
(Raul Seixas)
Resumo
Com o aumento exponencial de textos gerados a cada ano, a procura de técnicas de Pro-
cessamento de Língua Natural vem aumentado, tanto por empresas, como pela Academia.
A detecção automática de tópicos em documentos é uma das tarefas mais desafiadoras e
úteis para a descoberta de informações e sumarização de documentos. Técnicas tradicio-
nais de detecção de tópicos, como a Latent Dirichlet Allocation (LDA) e a Non-Negative
Matrix Factorization (NMF), originalmente não produzem bons resultados para bases de
dados grandes, nem utilizam informações sintáticas e semânticas para geração de tópicos.
Recentemente, técnicas de vetorização de palavras, como o Word2Vec, provaram ter um
bom desempenho computacional em grandes conjuntos de dados e serem eficazes represen-
tando palavras como vetores de palavras de forma distribuída, mantendo as informações
sintáticas e semânticas. Esta dissertação propõe a verificação da seguinte questão de pes-
quisa: O Word2Vec é capaz de prover informações suficientes para a geração de tópicos
interpretáveis? Para a validação, foi proposto um método, denominado Word2Topic, com
duas abordagens para a geração dos tópicos: agrupamento direto dos vetores de palavras
e agrupamento após redução de dimensionalidade. O método foi aplicado em duas bases
referência da literatura e foi comparado com os algoritmos tradicionais por uma métrica
de interpretabilidade dos tópicos. Foi observado nos resultados que as técnicas propos-
tas em uma das bases de dados gerou conjuntos de palavras interpretáveis ou de classes
morfológicas similares. Os tópicos obtidos foram similares aos da técnica NMF, enquanto
a técnica LDA não conseguiu gerar tópicos interpretáveis. Não foi possível validar com-
pletamente a questão de pesquisa, pois os resultados da segunda base não permitiram a
mesma interpretabilidade ou geração de palavras morfologicamente similares.

Palavras-chaves: Processamendo de Língua Natural, Detecção de tópicos, Word2Vec.


Abstract
With the exponential increase of texts generated each year, the demand for Natural Lan-
guage Processing techniques has been increasing, both by companies and by the Academy.
Automatic topic detection in documents is one of the most challenging and useful tasks
for information discovery and document summarization. Traditional topic detection tech-
niques, such as the Latent Dirichlet Allocation (LDA) and the Non-Negative Matrix Fac-
torization (NMF), originally did not produce good results for large databases nor use
syntactic and semantic information to generate topics. Recently, word vectorization tech-
niques, such as Word2Vec, proved to have a good computational performance in large data
sets and to be effective in representing words as word vectors in a distributed way, main-
taining syntactic and semantic information. This dissertation proposes the verification of
the following research hypothesis: Is Word2Vec capable of providing enough information
to generate interpretable topics? For validation, a method, named Word2Topic, with two
approaches for the generation of topics was proposed: direct grouping of word vectors
and grouping after dimensionality reduction. The method was applied in two benchmark
datasets and was compared with the traditional algorithms by a topic interpretability met-
ric. It was observed in the results that the techniques proposed in one of the databases
generated sets of interpretable words or similar morphological classes. The topics obtained
were similar to those of NMF, while LDA was unable to generate interpretable topics. It
was not possible to fully validate the research hypothesis because the results of the sec-
ond dataset did not lead to have the same interpretability or generated morphologically
similar words.

Key-words: Natural Language Processing, Topic Modeling, Word2Vec.


Résumé
Avec l’augmentation exponentielle des textes générés chaque année, la demande de tech-
niques de traitement du langage naturel a augmenté à la fois par les entreprises et par
l’Académie. La détection automatique des sujets dans les documents est l’une des tâches
les plus difficiles et utiles pour la découverte d’informations et la synthèse de documents.
Les techniques de détection de sujet traditionnelles, telles que l’allocation de Dirichlet
latente (LDA) et la factorisation matricielle non négative (NMF), comment elles ont
été proposées n’ont pas produit de bons résultats pour les grandes bases de données ni
utilisé d’informations syntaxiques et sémantiques pour générer des sujets. Récemment,
les techniques de vectorisation de mots, telles que Word2Vec, se sont avérées avoir de
bonnes performances de calcul dans de grands ensembles de données et être efficaces pour
représenter des mots comme vecteurs-mots de manière distribuée, en maintenant des in-
formations syntaxiques et sémantiques. Cette mémoire propose de vérifier l’hypothèse de
recherche suivante : Word2Vec est-il capable de fournir suffisamment d’informations pour
générer des sujets interprétables ? Pour la validation, une méthode avec deux approches
pour la génération de sujets a été proposée : regroupement direct de vecteurs de mots
et regroupement après réduction de la dimensionnalité. La méthode a été appliquée dans
deux ensembles de données de référence et a été comparée aux algorithmes traditionnels
par une métrique d’interprétabilité de sujet. Il a été observé dans les résultats que les
techniques proposées dans l’une des bases de données généraient des ensembles de mots
interprétables ou des classes morphologiques similaires. Les sujets obtenus étaient simi-
laires à ceux de NMF, tandis que LDA n’a pas pu générer de sujets interprétables. Il
n’a pas été possible de valider pleinement l’hypothèse de recherche car les résultats du
deuxième ensemble de données n’ont pas réussi à avoir la même interprétabilité ou à
générer des mots morphologiquement similaires.

Mots-clés : Traitement du Langage Naturel, Modélisation de Sujets, Word2Vec.


Lista de ilustrações

Figura 1 – Abstrações das arquiteturas CBOW e Skip-gram. Fonte: Adaptado de


MIKOLOV et al. (2013a) . . . . . . . . . . . . . . . . . . . . . . . . . 24
Figura 2 – Rede Neural CBOW para uma palavra de contexto. Fonte: Adaptada
de Rong (2014) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
Figura 3 – Abstração da operação vetorial do Word2Vec. Fonte: Adaptada de Al-
len e Hospedales (2019) . . . . . . . . . . . . . . . . . . . . . . . . . . 26
Figura 4 – Etapas do Word2Topic. . . . . . . . . . . . . . . . . . . . . . . . . . . 31
Figura 5 – Metodologia usada nos experimentos para a Base Reuters . . . . . . . 33
Figura 6 – Coerência de Tópicos CV com as top-20 Palavras para a Base Reuters 36
Figura 7 – Coerência de tópicos W2V com as top-20 palavras para a base Reuters 37
Figura 8 – Coerência de tópicos CV com as top-10 palavras para a base Twenty
Newsgroups. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
Figura 9 – Coerência de Tópicos CV com as top-20 Palavras para a Base Twenty
Newsgroups . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
Figura 10 – Coerência de tópicos W2V com as top-10 palavras para a base Twenty
Newsgroups . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
Figura 11 – Coerência de tópicos W2V com as top-20 palavras para a base Twenty
Newsgroups . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
Lista de tabelas

Tabela 1 – Representação Bag-of-Words. Fonte: Adaptado de Matsubara, Martins


e Monard (2003) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
Tabela 2 – Correlação da coerência CV com top-10 e top-20 palavras . . . . . . . 35
Tabela 3 – Valores de Coerência CV para 10 tópicos . . . . . . . . . . . . . . . . . 37
Tabela 4 – Top-20 palavras para 10 tópicos geradas pelo LDA . . . . . . . . . . . 39
Tabela 5 – Top-20 palavras para 10 tópicos geradas pelo NMF . . . . . . . . . . . 40
Tabela 6 – Top-20 palavras para 10 tópicos geradas pela MST . . . . . . . . . . . 41
Tabela 7 – Top-20 palavras para 10 tópicos geradas por K-Means com SOM . . . 42
Tabela 8 – Top-20 palavras para 10 tópicos geradas por K-Means . . . . . . . . . 43
Tabela 9 – Top-20 palavras para 10 tópicos geradas por Ward com SOM . . . . . 44
Tabela 10 – Top-20 palavras para 10 tópicos geradas por Ward . . . . . . . . . . . 45
Tabela 11 – Top-10 palavras para 5 tópicos geradas pelo LDA . . . . . . . . . . . . 49
Tabela 12 – Top-10 palavras para 5 tópicos geradas pelo NMF . . . . . . . . . . . . 49
Tabela 13 – Top-10 palavras para 5 tópicos geradas pela MST . . . . . . . . . . . . 50
Tabela 14 – Top-10 palavras para 5 tópicos geradas pelo K-Means com SOM . . . . 50
Tabela 15 – Top-10 palavras para 5 tópicos geradas pelo K-Means . . . . . . . . . . 50
Tabela 16 – Top-10 palavras para 5 tópicos geradas pelo Ward com SOM . . . . . . 51
Tabela 17 – Top-10 palavras para 5 tópicos geradas pelo Ward . . . . . . . . . . . . 51
Tabela 18 – Coerência CV com top-10 palavras para base Reuters . . . . . . . . . . 65
Tabela 19 – Coerência CV com top-20 palavras para base Reuters . . . . . . . . . . 71
Tabela 20 – Coerência W2V com top-10 palavras para base Reuters . . . . . . . . . 77
Tabela 21 – Coerência W2V com top-20 palavras para base Reuters . . . . . . . . . 83
Tabela 22 – Coerência CV com top-10 palavras para base Twenty Newsgroups . . . 85
Tabela 23 – Coerência CV com top-20 palavras para base Twenty Newsgroups . . . 87
Tabela 24 – Coerência W2V com top-10 palavras para base Twenty Newsgroups . . 89
Tabela 25 – Coerência W2V com top-20 palavras para base Twenty Newsgroups . . 91
Sumário

1 INTRODUÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.1 Motivação e Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.2 Organização do Documento . . . . . . . . . . . . . . . . . . . . . . . 18

2 REFERENCIAL TEÓRICO . . . . . . . . . . . . . . . . . . . . . . . . 19
2.1 Detecção de Tópicos em Documentos . . . . . . . . . . . . . . . . 19
2.2 Medidas de Avaliação de Desempenho . . . . . . . . . . . . . . . . 20
2.3 Vetorização de Palavras . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.4 Agrupamento de Dados . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.4.1 Mapas Auto-Organizáveis . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.4.2 O Algoritmo K-Means . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.4.3 Método de Ward para Agrupamento Aglomerativo . . . . . . . . . . . 28
2.4.4 Árvore Geradora Mínima . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.5 Trabalhos Relacionados . . . . . . . . . . . . . . . . . . . . . . . . . 29

3 WORD2TOPIC: UM MÉTODO DE DETECÇÃO DE TÓPICOS EM


DOCUMENTOS USANDO AGRUPAMENTO DE VETORES DE PA-
LAVRAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.1 O Método Word2Topic . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.1.1 Processamento do Texto . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.1.2 Detecção de Tópicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.1.2.1 Métodos Estado da Arte . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.1.2.2 Agrupamento de Vetores de Palavras . . . . . . . . . . . . . . . . . . . . 31
3.1.2.3 Redução de Dimensionalidade e Agrupamento . . . . . . . . . . . . . . . 32
3.1.3 Medidas de Avaliação de Desempenho . . . . . . . . . . . . . . . . . 32
3.2 Avaliação de Desempenho . . . . . . . . . . . . . . . . . . . . . . . . 32
3.2.1 Base Reuters . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.2.1.1 Coerência CV . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.2.1.2 Coerência W2V . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.2.1.3 Análise Qualitativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.2.2 Base Twenty Newsgroups . . . . . . . . . . . . . . . . . . . . . . . . . 46
3.2.2.1 Coerência CV . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
3.2.2.2 Coerência W2V . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.2.2.3 Análise Qualitativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

4 CONCLUSÕES E TRABALHOS FUTUROS . . . . . . . . . . . . . . 52


REFERÊNCIAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

APÊNDICES 59

APÊNDICE A – COERÊNCIA CV COM TOP-10 PALAVRAS PARA


BASE REUTERS . . . . . . . . . . . . . . . . . . . 60

APÊNDICE B – COERÊNCIA CV COM TOP-20 PALAVRAS PARA


BASE REUTERS . . . . . . . . . . . . . . . . . . . 66

APÊNDICE C – COERÊNCIA W2V COM TOP-10 PALAVRAS PARA


BASE REUTERS . . . . . . . . . . . . . . . . . . . 72

APÊNDICE D – COERÊNCIA W2V COM TOP-20 PALAVRAS PARA


BASE REUTERS . . . . . . . . . . . . . . . . . . . 78

APÊNDICE E – COERÊNCIA CV COM TOP-10 PALAVRAS PARA


BASE TWENTY NEWSGROUPS . . . . . . . . . . 84

APÊNDICE F – COERÊNCIA CV COM TOP-20 PALAVRAS PARA


BASE TWENTY NEWSGROUPS . . . . . . . . . . 86

APÊNDICE G – COERÊNCIA W2V COM TOP-10 PALAVRAS PARA


BASE TWENTY NEWSGROUPS . . . . . . . . . . 88

APÊNDICE H – COERÊNCIA W2V COM TOP-20 PALAVRAS PARA


BASE TWENTY NEWSGROUPS . . . . . . . . . . 90
16

1 INTRODUÇÃO

A geração de novos dados vem crescendo exponencialmente nos últimos anos, atin-
gindo uma marca de 90 exabytes por dia no ano de 2018 e sendo projetada uma produção
diária de 479 exabytes no ano de 2025 (RYDNING, 2018). Estima-se que 80% dos da-
dos da Internet mundial é não estruturado como, por exemplo, imagens, vídeos e textos
(KHAN et al., 2014). Devido ao amplo alcance da Internet na sociedade e com um uso
intensivo de redes sociais, houve um crescimento massivo de dados textuais, o que permite
cada vez mais o uso de técnicas de Processamento de Língua Natural (Natural Language
Processing - NLP) para a extração de conhecimentos a partir desses dados.
Uma das ferramentas que mais ganha força atualmente para NLP é o Word2Vec,
um algoritmo desenvolvido por pesquisadores do Google que faz a representação das pala-
vras em um espaço vetorial n-dimensional, conservando as relações semânticas e sintáticas
entre as palavras dos textos de entrada (MIKOLOV et al., 2013a). Essa representação é co-
mumente chamada de representação distribuída de palavras ou word embeddings (HINTON
et al., 1986). A partir dos vetores podem-se aplicar técnicas que capturam as similaridades
por meio de operações vetoriais (LEVY; GOLDBERG, 2014) ou que os agrupem.
Para facilitar o agrupamento e a visualização, pode ser utilizada uma técnica de
redução de dimensionalidade, mas que permita uma representação mais fiel dos dados de
entrada, como o Mapa Auto-Organizável (Self-Organizing Map - SOM), conhecido tam-
bém como Mapa de Kohonen. Um SOM é uma rede neural de arquitetura simples (consiste
de unidades de processamento organizadas em um grid unidimensional ou bidimensional)
e um processo de aprendizagem de modelo competitivo (auto-organizado), em que cada
unidade competirá por entradas n-dimensionais e gerará um mapa uni- ou bidimensional
que representa a mesma topologia dos dados originais (KOHONEN, 1982).
A proposta desta dissertação é, a partir dos vetores de palavras gerados pelo
Word2Vec, elaborar um método para a extração automática de tópicos de documentos
representados por conjuntos de palavras próximas no espaço vetorial. O método proposto
será denominado de Word2Topic. A questão de pesquisa busca explorar se as caracterís-
ticas sintáticas e semânticas geradas pelo Word2Vec são suficientes para gerar tópicos e
como esses tópicos se comparam aos gerados por métodos padrões.

1.1 Motivação e Objetivos


O mundo vive uma revolução na forma com que os dados são gerados e consu-
midos, sendo tratada como uma Quarta Revolução Industrial, comumente chamada de
Capítulo 1. INTRODUÇÃO 17

Indústria 4.0 (LASI et al., 2014). O crescimento exponencial na geração de dados e a


maior capacidade de processamento dos computadores criaram vários mercados, além de
impulsionar outros já tradicionais na academia, como o de Inteligência Artificial, que é
cada vez mais necessária quando há grandes conjuntos de dados e/ou quando são dados
não estruturados.
O número de usuários na Internet ultrapassou a marca de 4 bilhões em 2018, sendo
que somente o Facebook tinha 2,17 bilhões de usuários (KEMP, 2018). Em redes sociais
como o Twitter são enviados em média 6000 textos por segundo, atingindo a marca de
200 bilhões de postagens em um ano (DESAI; MEHTA, 2016), tornando-o uma ferra-
menta poderosa para vários domínios da sociedade. O Twitter é amplamente utilizado
para marcas descobrirem a percepção de seu público (KIM; SUNG; KANG, 2014; ZIM-
BRA; GHIASSI; LEE, 2016), para realizar análises políticas (BORGE-HOLTHOEFER
et al., 2015; MORALES et al., 2015) ou até para a prevenção e gerenciamento de crises
ambientais (ACAR; MURAKI, 2011).
Os métodos existentes de detecção de tópicos, como o Latent Dirichlet Allocation
(LDA) e o Non-Negative Matrix Factorization (NMF), são projetados para tratarem textos
longos e, como pode haver bilhões de textos com poucos caracteres, não são efetivos para
textos curtos (JIN et al., 2011). Nesses métodos os documentos são representados por um
dicionário que contém todas as palavras que ocorreram nos documentos, ocasionando um
problema de alta esparsidade dos dados. Isso acontece porque quanto menor o tamanho
do texto em um documento, menos palavras ele terá. Porém, quanto maior o número
de documentos, mais o vocabulário tende a aumentar, gerando uma representação em
que cada documento terá pouco peso comparado ao total de palavras do conjunto de
documentos.
Levando em conta o problema da esparsidade, o objetivo geral deste trabalho é
elaborar um método de detecção automática de tópicos em textos que consiga utilizar
outra representação que não sofra com o aumento da quantidade de dados. A questão de
pesquisa é verificar se o Word2Vec, que provou-se um método eficiente para representação
de palavras em grandes conjuntos de dados (MIKOLOV et al., 2013a), consegue gerar
vetores que consigam trazer tópicos de palavras comparáveis em interpretabilidade com
as técnicas estado da arte, como o LDA e o NMF.
Os objetivos específicos desse trabalho são:

• Investigar o uso de técnicas de agrupamento de dados para agrupar vetores de


palavras;

• Explorar e extrair medidas de avaliação de desempenho para o problema de detecção


de tópicos;
Capítulo 1. INTRODUÇÃO 18

• Comparar a interpretabilidade com as técnicas padrão de modelagem de tópicos; e

• Verificar se o uso do Word2Vec pode gerar tópicos com interpretabilidade compará-


vel às técnicas padrão.

1.2 Organização do Documento


O documento está estruturado da seguinte forma. O Capítulo 1 apresenta o con-
texto, a motivação, os objetivos e a organização do texto e o Capítulo 2 faz uma breve
revisão conceitual dos conteúdos necessários ao desenvolvimento da pesquisa. O Capítulo
3 apresenta o Word2Topic, nosso método para a detecção de tópicos em vetores de pala-
vras, e os resultados de aplicação do método a problemas da literatura. A dissertação é
concluída no Capítulo 4, com comentários gerais sobre a pequisa e propostas de trabalhos
futuros.
19

2 REFERENCIAL TEÓRICO

Este capítulo apresenta os principais conceitos necessários à compreensão da dis-


sertação. É feita uma breve revisão conceitual sobre o problema de detecção de tópicos em
documentos, vetorização de palavras e agrupamento de dados, enfatizando os algoritmos
usados na dissertação: mapas auto-organizáveis, o algoritmo k-means e a árvore geradora
mínima.

2.1 Detecção de Tópicos em Documentos


Com o volume de dados gerados na Internet dobrando aproximadamente a cada
dois anos (EMC/IDC DIGITAL UNIVERSE REPORT, 2014), são cada vez mais neces-
sárias ferramentas para auxiliar a extração de informações relevantes em vários tipos de
textos.
Um dos ramos da área de Processamento de Língua Natural para resolver esse
problema é chamado de Modelagem de Tópicos (HONG; DAVISON, 2010). Ele consiste
de algoritmos não supervisionados, geralmente probabilísticos, que analisam um conjunto
de textos para buscar temas similares que ocorrem entre eles (BLEI, 2012). A Modelagem
de Tópicos é utilizada para a sumarização de conteúdo, recuperação de informação e a
descoberta de relações entre documentos (WESSLEN, 2018).
Atualmente há dois grandes grupos de métodos para a resolução de problemas na
área de Modelagem de Tópicos: Modelos Probabilísticos, como o Latent Dirichlet Alloca-
tion (LDA), e Modelos por Fatoração de Matrizes Não-Negativas (NMF - Non-Negative
Matrix Factorization).
O Latent Dirichlet Allocation foi originalmente proposto no campo da genética
por PRITCHARD, STEPHENS e DONNELLY (2000) como um método de agrupamento
que utiliza o genótipo dos indivíduos para descobrir a estrutura da população e agrupar
os indivíduos em populações. Já no campo de Aprendizado de Máquina, ele foi redesco-
berto por BLEI, NG e JORDAN (2003), que propuseram a utilização para Modelagem
de Tópicos, Filtragem Colaborativa e Classificação de Textos. Os tópicos são gerados a
partir da distribuição das palavras. A partir dos tópicos, a representação dos documentos
é criada a partir da probabilidade de cada tópico pertencer ao documento. Por fim, as
palavras são atribuídas para cada tópico, de acordo com uma distribuição Dirichlet.
Já o Non-Negative Matrix Factorization foi proposto por LEE e SEUNG (1999)
como um algoritmo que aprende partes de um todo. Quando proposto, ele foi utilizado
para identificar partes de rostos e características de textos. Ele tem como entrada uma
Capítulo 2. REFERENCIAL TEÓRICO 20

matriz Vn×m , onde n representa a dimensão das palavras e m a representa a dimensão


dos documentos no modelo Bag-of-Words, apresentado em mais detalhes na Seção 2.3. O
processo iterativo de fatoração gerará duas matrizes, W e H, de tal forma que a matriz
W será um conjunto de características, a matriz H trará variáveis escondidas e o produto
W xH será uma representação comprimida da matriz original V (LEE; SEUNG, 1999).
As implementações originais do LDA e do NMF utilizam modelos tradicionais de
representação de textos em números, o que leva a problemas que serão abordados na Seção
2.3, sobre vetorização de palavras.

2.2 Medidas de Avaliação de Desempenho


Um dos problemas mais antigos da área de Modelagem de Tópicos é garantir mé-
todos com resultados que podem ser interpretados. Para isso, foram propostas métricas
que tentam se aproximar da avaliação humana para a interpretabilidade dos tópicos, cha-
madas de medidas de Coerência de Tópicos. Um conjunto de termos é dito coerente se
cada termo suporta a existência de outros termos, de forma que todo conjunto pode ser
interpretado por um mesmo contexto (RÖDER; BOTH; HINNEBURG, 2015). Para ve-
rificar se um conjunto abrange internamente um único contexto semântico, podem ser
utilizados métodos como similaridade ontológica e co-ocorrência de termos (NEWMAN
et al., 2010).
RÖDER, BOTH e HINNEBURG (2015) identificaram uma estrutura complemen-
tar entre as métricas existentes. Eles então propuseram um framework para unificar as
métricas, com isso explorando combinações entre as configurações existentes e buscando
qual métrica teria mais correlação com a avaliação humana.
O framework proposto consiste de quatro etapas em comum a todas as métricas e
que serão exploradas à luz da métrica que obteve a melhor correlação entre o valor e a ava-
liação humana dos tópicos, nomeada de Coerência CV (RÖDER; BOTH; HINNEBURG,
2015). As quatro etapas do framework são:

1. Segmentação das palavras em subconjuntos:


O conjunto W contém as N palavras mais representativas para um tópico (top-N
palavras). A segmentação das palavras é feita em pares, de forma que cada top-N
palavra irá parear com todas as top-N palavras, gerando dois sub-conjuntos: W’, que
contém uma palavra e W*, que contém todas as palavras do tópico. Sendo assim, o
conjunto segmentado Si será o resultado desse pareamento dos conjuntos W’ e W*,
de forma que Si = {W ’ = wi |W ∗ = {wi ; wi+1 ; ...; wn }}.

2. Cálculo de Probabilidades:
Capítulo 2. REFERENCIAL TEÓRICO 21

A probabilidade de uma palavra ocorrer é dada pelo cálculo booleano de documentos,


onde a probabilidade p(wi ) será a quantidade de documentos em que a palavra
wi ocorre dividida pelo número total de documentos. A probabilidade conjunta
p(wi , wj ) é calculada a partir de documentos em que wi e wj coocorrem. Como
esse cálculo não leva em consideração a distância das palavras, somente se elas
coocorrem ou não, foram adicionadas janelas deslizantes sobre o texto, criando assim
documentos virtuais de onde serão retiradas as probabilidades, sendo possível levar
em consideração somente o contexto da janela.

3. Medida de Confirmação
Para cada subconjunto Si é calculada a medida de confirmação φ, que mede o quanto
o conjunto W* suporta W, dada pela similaridade entre W e W*. São utilizados
métodos de confirmação direta e confirmação indireta.
Na confirmação direta são usados somente os valores das probabilidades das pala-
vras, seja no próprio texto ou num corpus externo, para medir o quando um conjunto
suporta o outro. Isso pode ser medido pela proporção logarítmica normalizada, cha-
mada também de NPMI (Normalized Pointwise Mutual Information - Informação
Mútua Ponto-a-Ponto Normalizada), dada pela Equação 2.1.

′ ∗
log PP (W
(W , W ) + ϵ
′ ) ∗ P (W ∗ )
N P M I (Si ) = (2.1)
−log (P (W ′ , W ∗ ) + ϵ)

A NPMI pertence ao intervalo [-1, 1]. O valor tenderá a -1 quanto menor a probabi-
lidade das palavras coocorrerem e tenderá a 1 quanto mais elas coocorrerem, sendo
exatamente 1 quando em todas ocasiões as palavras coocorrerem.
No entanto, há casos em que palavras podem estar inseridas em um mesmo con-
texto, mas não serem utilizadas normalmente em conjunto. Dessa forma, como as
confirmações diretas entre W’ e W* geralmente estão relacionadas, a similaridade
pode ser calculada indiretamente a partir dos valores de confirmação direta. Para o
cálculo da medida de confirmação indireta são criados os vetores ⃗u = ⃗v (W ′ = wi )
ew⃗ = ⃗v (W ∗ = W ). O vetor ⃗u, dado pela Equação 2.2, terá em cada posição j o
quanto a palavra wj suporta diretamente a palavra wi , havendo um vetor para cada
palavra. Já o vetor w
⃗ é único, dado pela soma de todos os vetores ⃗u, representando
assim o protótipo do grupo.

⃗v (W ′ = wi ) = {N P M I(wi , wj )}}j = 1,...,|W | (2.2)

A similaridade φ entre ⃗u e w
⃗ é dada pela medida do cosseno, apresentada na Equação
2.3. Ela é calculada entre todos os vetores ⃗u, que representam todas as palavras wi ,
Capítulo 2. REFERENCIAL TEÓRICO 22

e w,
⃗ que representa o protótipo do grupo.

⃗u.w

φi (⃗u, w)
⃗ = (2.3)
∥⃗u∥.∥w∥⃗
4. Agregação
Para todas as medidas de similaridade φ⃗ = {φ1 , ..., φ|W | }, a agregação tira a média
aritmética de todos os valores, sendo esse o valor da coerência CV para o tópico.

Existem inúmeras outras medidas de coerência que podem ser construídas a partir
desse framework somente combinando e substituindo suas partes. Outra métrica que será
utilizada para verificar o desempenho do método proposto é a Coerência de Tópicos
Word2Vec - TC - W2V (Equação 2.4). Proposta por O’CALLAGHAN et al. (2015), essa
métrica substitui a confirmação direta com NPMI pela similaridade de cosseno a partir
dos vetores de palavras retornados pelo Word2Vec, uma rede neural de duas camadas que
será explorada mais a fundo na Seção 2.3. A medida calcula para cada tópico o quão
próximo no espaço vetorial estão os vetores de palavras.

1 ∑∑
N j−1
T C − W 2V = (N ) cosseno (wvj , wvi ) (2.4)
2 j=2 i=1

2.3 Vetorização de Palavras


Para a utilização de algoritmos de Aprendizado de Máquina são necessárias algu-
mas etapas primárias de processamento. Isso se torna especialmente claro quando utiliza-
mos textos, já que a maior parte dos algoritmos somente consegue processar informações
numéricas.
O modelo mais tradicional para representação numérica de textos é o Modelo de
Espaço Vetorial, também conhecido como Bag-of-Words, que consiste na criação de um
vocabulário com as palavras presentes em todos os textos. Esse vocabulário é utilizado
para a criação de vetores dos documentos, indicando quais palavras estão em cada docu-
mento (KIM; KIM; CHO, 2017). O modelo pode ser visualizado como uma matriz N × M
(Tabela 1), onde N é o número de documentos (d) e M é o número de palavras (p). Cada
documento di terá o valor aij (peso da palavra) de acordo com a j-ésima palavra, podendo
ter uma representação binária para a palavra no documento ou alguma medida propor-
cional à frequência de ocorrência da palavra no documento (MATSUBARA; MARTINS;
MONARD, 2003).
Várias técnicas podem ser aplicadas nos dos vetores de documentos para o enten-
dimento dos textos, como a medida similaridade de cosseno ou de distância euclidiana.
Porém, o modelo de espaço vetorial tem algumas limitações, principalmente considerando
Capítulo 2. REFERENCIAL TEÓRICO 23

p1 p2 p3 ... pM
d1 a11 a12 a13 ... a1M
d2 a21 a22 a23 ... a2M
... ... ... ... ...
dN aN 1 aN 2 aN 3 ... aN M
Tabela 1 – Representação Bag-of-Words. Fonte: Adaptado de Matsubara, Martins e Mo-
nard (2003)

grandes quantidades de textos curtos, como os que são produzidos cada vez mais nas
redes sociais (CHENG et al., 2014). Quanto maior o número de documentos, a tendência
é que o número de palavras únicas também cresça, gerando vetores esparsos e com mui-
tas dimensões. Isso faz com que medidas de distância tradicionais não consigam capturar
bem a similaridade entre documentos (KIM; KIM; CHO, 2017). Outro problema com o
modelo de espaço vetorial é não levar em consideração a ordem das palavras nas frases, o
que pode trazer problemas quando o contexto da frase é importante para a análise.
Para resolver problemas como esses, foi proposto por HINTON et al. (1986) o
conceito de vetorização de palavras (word embeddings), que é uma forma de representar
palavras numericamente como vetores de valores reais, de uma forma que a representação
das palavras se torna distribuída. Por essa razão, esses métodos também são conhecidos
como geradores de representação distribuída de palavras. A vantagem dessas representa-
ções é que os vetores gerados preservam o significado semântico e sintático das palavras,
carregando os significados originais, sendo possível agrupar os vetores para obter pala-
vras com significados semelhantes (RUMELHART; HINTON; WILLIAMS, 1986). Um
dos problemas dessa abordagem é que há somente uma representação vetorial para cada
palavra, prejudicando palavras que contêm múltiplos significados (KEKEÇ; MAATEN;
TAX, 2018).
A partir do conceito de word embeddings, MIKOLOV et al. (2013a) propuseram
um modelo chamado Word2Vec, com o objetivo de gerar vetores de palavras com alta
qualidade utilizando bases com bilhões de palavras, sendo milhões de palavras únicas.
O Word2Vec é uma rede neural com somente uma camada intermediária que re-
cebe como entrada um vetor no formato one-hot-enconding (Codificação Binária) baseado
no vocabulário, onde as palavras presentes têm valor 1 e as outras têm valor 0. A camada
intermediária calcula a probabilidade de palavras ocorrerem em um mesmo contexto e
a camada de saída possui a mesma dimensão da camada de entrada (MIKOLOV et al.,
2013a). O treinamento do Word2Vec pode ser feito por meio de dois algoritmos de apren-
dizagem supervisionada: Continuous Bag-Of-Words (CBOW) e Skip-gram.
O treinamento do algoritmo CBOW tem como objetivo prever uma palavra a partir
do contexto dela, ou seja, a partir das palavras de uma sentença ser possível descobrir
Capítulo 2. REFERENCIAL TEÓRICO 24

a palavra alvo (MIKOLOV et al., 2013a). Apesar do objetivo do treinamento do Skip-


gram ser bem similar ao do CBOW, ele busca encontrar representações de palavras que
podem prever as palavras que estão em torno da palavra alvo nos textos. A abstração do
funcionamento do treinamento dos dois modelos pode ser vista na Figura 1. No CBOW,
as palavras de contexto são dadas como entrada utilizando uma de janela T, onde são
consideradas as T palavras antes e depois da palavra alvo. Essas palavras são então usadas
para prever a palavra alvo. Já no Skip-gram, as palavras de contexto são previstas a partir
da palavra alvo.

Entrada Projeção Saída Entrada Projeção Saída

w(t − 2) w(t − 2)

w(t − 1) SOMA w(t − 1)

w(t) w(t)

w(t + 1) w(t + 1)

w(t + 2) w(t + 2)

CBOW Skip-gram

Figura 1 – Abstrações das arquiteturas CBOW e Skip-gram. Fonte: Adaptado de MIKO-


LOV et al. (2013a)

Para exemplificar o processo de treinamento do CBOW, o exemplo mais didático


é utilizar uma palavra alvo e uma palavra de contexto. Considere a arquitetura ilustrada
na Figura 2, sendo ⃗x o vetor da palavra de contexto em formato one-hot encoding, v o
tamanho do vocabulário, n o tamanho do vetor de palavras (parâmetro escolhido inicial-

mente), Wv×n a matriz de pesos entre a camada de entrada e a escondida, Wn×v a matriz
de pesos entre a camada escondida e a de saída, e ⃗y o vetor de saída, que corresponde à
palavra alvo do treinamento (RONG, 2014). Entre a camada de entrada e a escondida é
usada uma função de ativação linear e entre a camada escondida e a de saída é usada uma
função de ativação softmax (Equação 2.6), que é um modelo de classificação log-linear
para obter uma distribuição multinomial das palavras, dada pela probabilidade condicio-
nal de observar a palavra alvo a partir da palavra de contexto. Sendo assim, o objetivo
do treinamento é maximizar a Equação 2.6 (RONG, 2014).
O treinamento do CBOW para o contexto de múltiplas palavras é bem similar,
Capítulo 2. REFERENCIAL TEÓRICO 25

com a diferença que a camada intermediária retorna como saída a média dos vetores de
contexto. Também é modificada a equação para atualização dos pesos, já que é necessária
para cada palavra de contexto na etapa de retropropagação do erro.

Camada de Camada Camada de


Entrada Escondida Saida

x1 ′ y1
Wv×n h1 Wn×v
x2 y2
h2
x3 y3

x4
.. .. .. y4

. .
hn
.
xv yv

Figura 2 – Rede Neural CBOW para uma palavra de contexto. Fonte: Adaptada de Rong
(2014)

Já o treinamento do Skip-gram, a partir da definição proposta por MIKOLOV


et al. (2013b) é: dado um conjunto de palavras w1 , w2 , ..., wT , o objetivo do algoritmo é
maximizar a média do logaritmo da probabilidade (Equação 2.5), onde c é o tamanho do
contexto de treinamento, chamado de janela, centralizado na palavra wt .

1∑ ∑
T c
log p(wt+j |wt ) (2.5)
T t=1 j=−c; j̸=0

A probabilidade de que duas palavras ocorram em conjunto é dada pela função



softmax (Equação 2.6), onde vw e vw são, respectivamente, as representações vetoriais de
entrada e saída da palavra w, e V é o tamanho total do vocabulário.

( ′ )
exp vwTO vwI
p(wO |wI ) = ∑V (2.6)
w=1 exp (vw′ T vwI )

Para ambos os treinamentos, além do parâmetro w, é definido o parâmetro n,


que corresponde ao tamanho da camada intermediária, que será a saída do algoritmo
(denominados vetores de palavras). Cada palavra de entrada gera um vetor n-dimensional,
sendo que esse estará próximo no espaço vetorial às representações das palavras que
tendem a serem utilizadas em conjunto.
Capítulo 2. REFERENCIAL TEÓRICO 26

Além disso, as representações vetoriais carregam várias regularidades e padrões


linguísticos, podendo ser encontradas em operações vetoriais, como translações lineares
(MIKOLOV et al., 2013a). Um exemplo clássico é a utilização de word vectors para analo-
gias entre palavras: “homem está para mulher, assim como rei está para x?”. Utilizando
simples operações vetoriais, a resposta poderia ser obtida pela equação x ≈ rei - homem
+ mulher, sendo que x aproximaria do vetor representando a palavra rainha (LEVY;
GOLDBERG, 2014). A operação pode ser vista na Figura 3.

w
⃗ rei
⃗ rainha ≈ w
w ⃗ rei − w
⃗ homem + w
⃗ mulher

w
⃗ homem
w
⃗ mulher

Figura 3 – Abstração da operação vetorial do Word2Vec. Fonte: Adaptada de Allen e


Hospedales (2019)

2.4 Agrupamento de Dados


O Agrupamento de Dados é uma área do Aprendizado de Máquina que contém téc-
nicas não-supervisionadas para descoberta de grupos (clusters, em inglês) em um conjunto
de dados (DE CASTRO; FERRARI, 2016).
As técnicas de agrupamento utilizam uma medida de similaridade (ou dissimilari-
dade) para agrupar dados em grupos naturais, definidos como regiões contínuas do espaço
relativamente densas que são separadas por regiões contínuas do espaço relativamente
vazias (CARMICHAEL; JULIUS, 1968). Isso, na prática, ocorre pela minimização da
distância intraclasse entre objetos e a maximização da distância interclasses.
O processo de análise de grupos geralmente envolve as seguintes etapas:

1. Pré-processamento dos dados: correspondente à preparação dos dados para agrupa-


mento, podendo envolver limpeza, transformação, seleção de atributos, etc.;

2. Definição da medida de proximidade: normalmente avaliada indiretamente por uma


função de distância entre pares de objetos;

3. Agrupamento: pode ser efetuado por diferentes métodos e os grupos são hard (cada
objeto pertence a um único grupo) ou fuzzy (cada objeto possui um grau de perti-
nência variável a um ou mais grupos);
Capítulo 2. REFERENCIAL TEÓRICO 27

4. Abstração dos dados: é o processo de extrair uma representação simples e compacta


do conjunto de dados;

5. Avaliação da saída: a avaliação da saída de um algoritmo de agrupamento depende


do contexto e dos objetivos da análise.

DE CASTRO e FERRARI (2016) dividem as técnicas de agrupamento em qua-


tro categorias principais: Hierárquica, Particional, Sobreposto e Ordenação, sendo que
nenhuma técnica funcionará para todos os problemas ou trará as mesmas interpretações
dos dados. Após testes em técnicas disponíveis para a Língua de Programação Python,
considerando o custo de implementação, de desempenho computacional e resultados pre-
liminares para bases menores, foram escolhidas as seguintes técnicas para a resolução
do problema: Mapa Auto-Organizável, K-Means, Método de Ward para Agrupamento
Hierárquico e Árvore Geradora Mínima com detecção de comunidades.

2.4.1 Mapas Auto-Organizáveis


Os Mapas Auto-Organizáveis (Self-Organizing Maps - SOM) formam uma Rede
Neural inspirada em processos que ocorrem no cérebro humano, como projeções em áreas
sensoriais. A técnica consiste em um reticulado (grid) de neurônios com aprendizado
não-supervisionado que competem para melhor se adaptarem às entradas (KOHONEN,
1982). No final do treinamento, ou os neurônios manterão uma ordem topológica similar
à de entrada, ou haverá uma perda de informação, sendo que de qualquer forma serão
eliminadas redundâncias, o que facilitará o processamento em etapas posteriores (DE
CASTRO et al., 1998). O treinamento definirá os pesos finais dos neurônios, sendo que
cada neurônio terá a capacidade de mapear um ou mais objetos da base original e cada
objeto original terá um neurônio que melhor o representa (Best Matching Unit - BMU). A
saída do mapa também fornece uma matriz unidimensional ou bidimensional, denominada
U-Matrix, que permite uma representação da topologia dos dados de entrada por níveis
de cores ou curvas de nível.
O SOM pode ser interpretado como uma técnica de agrupamento de dados, já
que cada neurônio corresponde a um protótipo que representa todos os objetos mapeados
naquele neurônio, ou como uma técnica de redução de dimensionalidade, já que os neurô-
nios manterão a relação topológica dos dados originais. Neste último caso, é necessária a
aplicação de outra técnica para a extração dos grupos.

2.4.2 O Algoritmo K-Means


O K-Means (STEINHAUS, 1956; MACQUEEN et al., 1967) é um algoritmo não-
supervisionado para agrupamento de dados que requer a definição a priori do número de
Capítulo 2. REFERENCIAL TEÓRICO 28

protótipos K a serem usados. O algoritmo inicialmente posicionará K pontos aleatórios,


chamados centroides, no espaço e os grupos serão formados a partir dos objetos mais
próximos dos centroides. A cada iteração é calculado o erro dado pela distância entre os
objetos do grupo e o centroide, atualizando a posição do centroide de acordo com o erro.
O treinamento termina quando mais nenhum centroide é reposicionado, ou seja, quando
o algoritmo estabiliza. Cabe ressaltar que os centroides também podem ser inicializados
utilizando objetos da própria base de dados ou alguma heurística específica.

2.4.3 Método de Ward para Agrupamento Aglomerativo


Métodos aglomerativos de agrupamento dividem a base em grupos que inicialmente
contêm somente um objeto. A cada iteração, o agrupamento une os grupos mais similares.
A similaridade geralmente é determinada pela menor distância entre os grupos existentes
(DE CASTRO; FERRARI, 2016). WARD JR (1963) propôs o uso de uma função objetivo
para a escolha de quais grupos seriam unidos. O método, que ficou conhecido como Ward,
busca a união dos grupos pela menor variância intra-grupos, que é dada pela Soma de
Quadrados do Erro.
Portanto, a função de dissimilaridade entre dois grupos é dada variância, definida
pela Equação 2.7, onde gi e gj são os centros de massa dos grupos i e j (MURTAGH; LE-
GENDRE, 2011). A cada iteração, os grupos com menor variância serão unidos, gerando
um novo centro de massa para o grupo.

|gi | . |gj |
D(gi , gj ) = ∥gi − gj ∥2 (2.7)
|gi | + |gj |

2.4.4 Árvore Geradora Mínima


A Árvore Geradora Mínima (Minimal Spanning Tree - MST) corresponde à árvore
de custo mínimo que passa por todos os nós de um grafo (GRAHAM; HELL, 1985). Ela
pode ser usada para resolver problemas de otimização combinatória, como o problema do
Caixeiro Viajante, onde um vendedor precisa viajar para N cidades, passando por todas,
sem ciclo e com o menor custo possível. A resolução do caixeiro viajante utilizando a MST
consiste em um algoritmo que gere uma árvore (subgrafo que não contém ciclos) e que
seja geradora (liga todos os nós do grafo original), e que tenha custo mínimo.
Como foi gerada uma árvore que liga todos os pontos, é necessário um método
de segmentação em subgrafos para que sejam considerados como grupos. Para o parti-
cionamento da MST em subgrafos, foi utilizado o método de detecção de comunidades
de CLAUSET, NEWMAN e MOORE (2004), um algoritmo hierárquico aglomerativo,
em que cada nó representa uma comunidade e as comunidades vão se aglomerando de
forma a maximizar a modularidade, que é uma medida que avalia se a divisão é boa ma-
Capítulo 2. REFERENCIAL TEÓRICO 29

ximizando as conexões intra-comunidades e minimizando as conexões inter-comunidades


(NEWMAN; GIRVAN, 2004). A vantagem do método de detecção de comunidades em
relação às outras propostas é não necessitar de uma configuração prévia do número de
grupos, com o algoritmo retornando o número que considera ótimo.

2.5 Trabalhos Relacionados


O uso de representação distribuída de palavras ganhou muita visibilidade com
o trabalho de MIKOLOV et al. (2013a), mas, no momento do desenvolvimento desta
Dissertação, não há artigos na literatura que tratam do problema-alvo dessa pesquisa: o
agrupamento dos vetores de palavras para geração de tópicos.
A revisão bibliográfica identificou trabalhos com utilização das mesmas técnicas,
porém com aplicações bem diferentes. Os trabalhos geralmente combinam word embed-
dings com técnicas de agrupamento para classificação de documentos, como a utilização
do SOM treinado com vetores de palavras, onde a saída é usada para representar docu-
mentos, de forma que o neurônio vencedor com mais palavras dentro de um documento
o representará na etapa de classificação (SUBRAMANIAN; VORA, 2016; YOSHIOKA;
DOZONO, 2018). Também já foi proposta a utilização de agrupamento de vetores de
palavras em conceitos, utilizando o K-Means Esférico, para substituir o Bag-Of-Words na
representação de documentos (KIM; KIM; CHO, 2017) e o agrupamento de palavras den-
tro de cada documento, onde, de acordo com a similaridade entre os grupos de palavras,
os textos são classificados (DAI; BIKDASH; MEYER, 2017).
Também há métodos que utilizam vetores de palavras para melhorar as informa-
ções sintáticas e semânticas para os métodos tradicionais de Modelagem de Tópicos, sendo
utilizados para melhorar resultados do LDA (NGUYEN et al., 2015; SHI et al., 2017; LI
et al., 2018).
30

3 WORD2TOPIC: UM MÉTODO DE
DETECÇÃO DE TÓPICOS EM
DOCUMENTOS USANDO AGRU-
PAMENTO DE VETORES DE
PALAVRAS

Este capítulo apresenta o Word2Topic, um método para detecção de tópicos a


partir do agrupamento de vetores de palavras. Inicialmente é feita uma explicação sobre
como os documentos são preparados para análise, em seguida o processo de detecção de
tópicos é apresentado e, por fim, as medidas de avaliação de desempenho são descritas. Os
resultados experimentais são apresentados na sequência, primeiro para a base de dados
Reuters e depois para a base Twenty Newsgroups.

3.1 O Método Word2Topic


O Word2Topic está resumido na Figura 4. Ele possui três etapas: Processamento
do Texto; Detecção de Tópicos; e Avaliação dos Resultados. Cada uma dessas etapas será
descrita na sequência.

3.1.1 Processamento do Texto


O processamento do texto foi dividido em pré-processamento e geração de vetores
de palavras. Foram aplicadas as seguintes tarefas para o pré-processamento de texto: remo-
ção de caracteres especiais; transformação de todas as letras em minúsculas; tokenização
das palavras; e remoção de stopwords (palavras irrelevantes).
Após o pré-processamento, a geração dos vetores de palavras foi feita com o
Word2Vec. Foram utilizadas as seguintes parametrizações, escolhidas para tornar o custo
computacional plausível para resolução do problema:

• Mínimo de ocorrências de palavras: 50;

• Janela de palavras considerada para análise: 10;

• Dimensão dos vetores de palavras: 20.


Capítulo 3. WORD2TOPIC: UM MÉTODO DE DETECÇÃO DE TÓPICOS EM DOCUMENTOS
USANDO AGRUPAMENTO DE VETORES DE PALAVRAS 31

Detecção de Tópicos

Métodos
Estado da
Arte

Avaliação
Processamento Agrupamento dos
de Texto de Vetores de Resultados
Palavras

Redução de
Dimensionalidade
e Agrupamento

Figura 4 – Etapas do Word2Topic.

Utilizamos a implementação do pacote Gensim para Python.

3.1.2 Detecção de Tópicos


A etapa de detecção de tópicos foi dividida em três partes, que utilizaram várias
técnicas para gerar os tópicos. A primeira parte é a execução de métodos estado da arte
para obter uma referência dos valores, sendo seguida de duas propostas originais para
detecção de tópicos.

3.1.2.1 Métodos Estado da Arte

Foram utilizadas as implementações Online Latent Dirichlet Allocation (HOFF-


MAN; BACH; BLEI, 2010) e Online Non-Negative Matrix Factorization (ZHAO; TAN,
2016) presentes no pacote Gensim, com suas configurações padrão, para geração de valores
de referência. As técnicas foram aplicadas diretamente nos textos pré-processados.

3.1.2.2 Agrupamento de Vetores de Palavras

Após a geração dos vetores de palavras com o Word2Vec, foram utilizadas as


seguintes técnicas de agrupamento diretamente nos vetores gerados: método de Ward
Capítulo 3. WORD2TOPIC: UM MÉTODO DE DETECÇÃO DE TÓPICOS EM DOCUMENTOS
USANDO AGRUPAMENTO DE VETORES DE PALAVRAS 32

para agrupamento aglomerativo; K-Means e Árvore Geradora Mínima com detecção de


comunidades.

3.1.2.3 Redução de Dimensionalidade e Agrupamento

Com o objetivo de verificar se reduzir a dimensionalidade e redundância dos ve-


tores de palavras levaria a melhores resultados, foi aplicado o SOM (a partir do pacote
Sompy) diretamente nos vetores de saída do Word2Vec, utilizando grids quadrados variá-
veis. Para cada grid são aplicadas as mesmas técnicas: método de Ward para agrupamento
hierárquico, K-Means e Árvore Geradora Mínima com detecção de comunidades.

3.1.3 Medidas de Avaliação de Desempenho


Foram utilizadas as medidas Coerência CV e Coerência Word2Vec para a ava-
liação de resultados, como apresentadas na Seção 2.2. Foram escolhidas para avaliar o
desempenho do método considerando as top-10 e top-20 palavras de cada tópico.

3.2 Avaliação de Desempenho


A pesquisa buscou bases de dados que são referências para atividades de Proces-
samento de Língua Natural, escolhendo duas bases com quantidade similar de textos. A
primeira base, chamada Twenty Newsgroup Dataset, foi doada para o repositório de Apren-
dizado de Máquina da Universidade da California em Irvine (UCI) por MITCHELL (1999),
que contém vinte grupos de discussão de emails com aproximadamente 1000 emails em
cada grupo, separados nos assuntos: Ateísmo, Computação Gráfica, Windows X, Windows
Misc, IBM hardware, Mac Hardware, Automóveis, Motocicletas, Baseball, Hockey, Crip-
tografia, Eletrônicos, Medicina, Espaço, Cristianismo, Armas, Oriente Médio, Política e
Religião. A segunda base é a Reuters 21578 Dataset, contendo 21.578 notícias da Reuters
do ano de 1987, sendo elas rotuladas com múltiplas classes, tendo um total de 90 classes.
Os experimentos foram divididos em duas partes: uma para a Base de Dados
Reuters e outra para a Twenty Newsgroups. Para cada base o Word2Topic foi aplicado
separadamente.
A Metodologia usada nos experimentos para a Base Reuters, exemplificada na
Figura 5, segue os três passos definidos pelo Word2Topic, com o seguinte pseudoalgoritmo:
Capítulo 3. WORD2TOPIC: UM MÉTODO DE DETECÇÃO DE TÓPICOS EM DOCUMENTOS
USANDO AGRUPAMENTO DE VETORES DE PALAVRAS 33

Figura 5 – Metodologia usada nos experimentos para a Base Reuters

1. Processamento de Texto

1.1. Pré-Processamento de Texto


São aplicadas as tarefas de remoção de caracteres especiais, transformação
de todas as letras em minúsculas, tokenização das palavras e remoção de
stopwords.
1.2. Geração de Vetores de Palavras
Foi aplicado o Word2Vec nos textos pré-processados do Passo 1.1 com as seguin-
tes configurações: mínimo de 50 ocorrências de cada palavra, a janela deslizante
de 10 palavras e a dimensão 20 para os vetores de palavras.

2. Detecção de Tópicos

2.1. Métodos Estado da Arte


São aplicados os algoritmos NMF e LDA nos textos pré-processados do Passo
1.1.
2.2. Agrupamento de Vetores de Palavras
Como a base original tem 90 rótulos, foram gerados até 100 grupos nos algo-
ritmos que permitiam a configuração de número de grupos. O agrupamento é
feito com três técnicas diferentes, aplicadas diretamente nos vetores de palavras
gerados pelo Passo 1.2.
2.2.1. Método de Ward
Capítulo 3. WORD2TOPIC: UM MÉTODO DE DETECÇÃO DE TÓPICOS EM DOCUMENTOS
USANDO AGRUPAMENTO DE VETORES DE PALAVRAS 34

Foi aplicado o método de Ward com distância euclidiana para agrupa-


mento hierárquico. Foram gerados k tópicos, com k = [2...100].
2.2.2. K-Means
Foi aplicado o K-Means para gerar k tópicos, com k = [2...100].
2.2.3. Árvore Geradora Mínima com Detecção de Comunidades
Inicialmente é gerada a matriz de distância entre os vetores. A partir dela
é construído um grafo, de onde será gerada a Árvore Geradora Mínima.
Após isso, é aplicado o algoritmo de Detecção de Comunidades, que vai
retornar automaticamente quantos grupos há na árvore, sem a necessidade
de parametrização.
2.3. Redução de Dimensionalidade e Agrupamento
Foi aplicado o SOM nos vetores de palavras resultantes do Passo 1.2, gerando
grids n × n, com n2 neurônios. Devido à natureza quadrática do problema,
onde para cada valor de n é necessário parametrizar também k, para os algo-
ritmos K-Means e Agrupamento Hierárquico, o valor máximo de n utilizado
foi 30, gerando no máximo 900 neurônios. Como o algoritmo de Detecção de
Comunidades não necessita de parametrização do valor de k, o valor máximo
de n foi 100, gerando 10000 neurônios. Então, para cada grid, foram aplicadas
as seguintes técnicas:
2.3.1. Método de Ward
Para cada grid {n × n|n = [2, 30]} foi aplicado o método de Ward nos
neurônios do SOM, gerando k tópicos, com k = [2...100].
2.3.2. K-Means
Para cada grid {n × n|n = [2, 30]} foi aplicado o K-Means nos neurônios
do SOM, gerando k tópicos, com k = [2...100].
2.3.3. Árvore Geradora Mínima com Detecção de Comunidades
Para cada grid {n × n|n = [2, 100]} foi gerado um grafo com a matriz de
distância dos neurônios. A partir do grafo é construída a Árvore Geradora
Mínima e enfim utilizado o algoritmo de Detecção de Comunidades para
gerar os tópicos.

3. Avaliação dos Resultados


São agregados os resultados do processo para geração das top-10 e top-20 palavras
de cada tópico. As técnicas LDA e NMF fornecem funções que trazem as N palavras
mais prováveis de cada tópico. Já para o Word2Topic é calculado o protótipo do
tópico a partir dos vetores de palavras pertencentes ao tópico. Com isso, as top-N
palavras mais prováveis são aquelas mais próximas do protótipo do tópico.
Com os resultados agregados, são avaliadas as Coerências CV e W2V para cada
experimento realizado. Como os resultados do Passo 2.3 geram n valores diferentes
Capítulo 3. WORD2TOPIC: UM MÉTODO DE DETECÇÃO DE TÓPICOS EM DOCUMENTOS
USANDO AGRUPAMENTO DE VETORES DE PALAVRAS 35

para cada tópico k, são considerados para a avaliação a média e o melhor valor para
cada k.

A Metodologia usada nos experimentos para a Base Twenty Newsgroups é similar,


porém, como a base conta com vinte grupos, o k máximo utilizado é 30. Os resultados
são apresentados para as duas métricas, sendo que cada métrica tem duas configurações
possíveis, retornando quatro cenários: Coerência CV para top-10 palavras, Coerência CV
para top-20 palavras, Coerência W2V para top-10 palavras e Coerência W2V para top-20
palavras. As próximas subseções apresentarão os resultados das métricas para as duas
bases alvo.

3.2.1 Base Reuters


Para o cálculo das medidas de avaliação de desempenho, foi necessário que hou-
vesse, no mínimo, top-N palavras para cada tópico. Portanto, não foi possível calcular
os valores para técnicas que gerassem tópicos que não tivessem pelo menos 10 palavras
para a coerência com top-10 palavras, ou 20 palavras para a coerência com top-20 pa-
lavras. Isso é visto nas descontinuidades nos gráficos da Figuras 6 e 7, e é representado
por traços simples nas Tabelas 19 e 21. As coerências CV e W2V com 10 e 20 palavras,
respectivamente, para todas as técnicas, com exceção do LDA, tiveram valores forte ou
muito forte de Coeficiente de correlação de Pearson, como pode ser visto na Tabela 2. Por
isso, como as interpretações dos resultados entre as duas configurações seriam análogas,
os resultados analisados serão focados para a coerência com top-20 palavras, visto que
foi a configuração com melhores valores globais. Os resultados completos encontram-se
nos Apêndices A, B, C e D. A técnica de Detecção de Comunidades não convergiu ao ser
aplicada diretamente nos vetores de palavras, portanto os resultados com a sigla MST
referem-se à técnica aplicada ao resultado do SOM.

K-Means Ward
Técnica MST K-Means Ward NMF LDA
com SOM com SOM
Correlação
0.918 0.945 0.848 0.901 0.934 0.770 0.658
CV 10 e 20
Correlação
0.959 0.981 0.979 0.988 0.892 0.811 0.402
W2V 10 e 20

Tabela 2 – Correlação da coerência CV com top-10 e top-20 palavras

3.2.1.1 Coerência CV

A coerência CV busca medir o quanto uma palavra suporta outra a partir da


confirmação indireta entre cada palavra e o protótipo do tópico. Com isso, um valor
Capítulo 3. WORD2TOPIC: UM MÉTODO DE DETECÇÃO DE TÓPICOS EM DOCUMENTOS
USANDO AGRUPAMENTO DE VETORES DE PALAVRAS 36

Figura 6 – Coerência de Tópicos CV com as top-20 Palavras para a Base Reuters

próximo de 1 garante a compactação do grupo. A confirmação indireta também é utilizada


para bonificar palavras que não coocorrem, mas são utilizadas em um mesmo contexto.
É possível verificar na Figura 6 que as técnicas propostas k-means e Ward, com
e sem SOM, junto com a MST começam com um valor alto da métrica, por volta de
0.70, porém decaem após o valor de k ser maior que 5. A MST obtém um novo pico para
k igual a 10 com o valor de coerência de 0.59, antes de estabilizar por volta de 0.5. As
outras técnicas propostas têm taxas de decaimento diferente, mas estabilizam por volta
de 0.40-0.45. A técnica NMF começa por volta de 0.3, porém também estabiliza por volta
de 0.45, enquanto o LDA nunca passa de 0.3.

3.2.1.2 Coerência W2V

A Coerência W2V mede o quanto as palavras de um tópico são semelhantes entre si,
utilizando a similaridade de cosseno entre os vetores de palavras. Quanto mais colineares
as palavras pertencentes a um tópico, mais próximo de 1 será o valor da métrica.
Como é possível ver na Figura 7, o K-Means, com e sem aplicação do SOM, obteve
os melhores resultados, estabilizando um pouco acima de 0.60. A técnica Ward também
estabilizou próximo a 0.60, enquanto com SOM ficou por volta de 0.50. A técnica MST
começou por volta de 0.40, mas decaiu para 0.30 após o valor de k passar de 40. Já as
técnicas NMF e LDA estabilizaram e nunca ultrapassaram 0.30 e 0.20, respectivamente.

3.2.1.3 Análise Qualitativa

À luz da métrica coerência CV, foi escolhido k = 10 para a análise qualitativa,


pois na maioria das técnicas o valor se comportou como máximo local, e a coerência
Capítulo 3. WORD2TOPIC: UM MÉTODO DE DETECÇÃO DE TÓPICOS EM DOCUMENTOS
USANDO AGRUPAMENTO DE VETORES DE PALAVRAS 37

Figura 7 – Coerência de tópicos W2V com as top-20 palavras para a base Reuters

CV começou a cair após esse ponto. A Tabela 3 traz os valores da coerência CV para
10 tópicos. A interpretação levará em conta as características das coerências CV e W2V
para analisar as diferenças entre os valores.

K-Means Ward
Técnica LDA MST NMF K-Means Ward
com SOM com SOM
Coerência 0.28 0.59 0.47 0.55 0.47 0.56 0.48
Tabela 3 – Valores de Coerência CV para 10 tópicos

As Tabelas 4 a 10 trazem as top-20 palavras para 10 tópicos para as técnicas LDA,


NMF, MST, K-Means com SOM, K-Means, Ward com SOM e Ward, respectivamente.
Analisando os resultados do LDA na Tabela 4, é possível ver que o agrupamento
não foi capaz de trazer realmente 10 tópicos. Existem palavras que aparecem em todos os
tópicos, como “said”, “reuter”, “year” e “would”, e outras palavras que aparecem também
várias vezes, como “billion”, aparecendo em 8 tópicos, e “bank” aparecendo em 7 tópicos.
A técnica NMF (Tabela 5) também trouxe tópicos ligeiramente redundantes, com “said”
aparecendo em 8 tópicos, “reuter” em 5 tópicos e “government” aparecendo em 5 tópicos,
por exemplo.
Apesar dos textos serem primariamente notícias econômicas e os tópicos gerados
estarem no contexto original, não há como afirmar que os tópicos gerados pelo LDA são
suficientemente diferentes. Alternativamente, o NMF conseguiu gerar alguns grupos que
trazem algum significado, como o tópico 4, que fala de bancos e empréstimos financeiros
a países estrangeiros, como o Brasil; o tópico 5, que trata de exportações de produções
agrícolas, como milho, açúcar e trigo; ou o tópico 9, que discute a demanda e os preços do
Capítulo 3. WORD2TOPIC: UM MÉTODO DE DETECÇÃO DE TÓPICOS EM DOCUMENTOS
USANDO AGRUPAMENTO DE VETORES DE PALAVRAS 38

barril de petróleo dos países da OPEC (Organização dos Países Exportadores de Petróleo),
como a Arábia Saudita.
Os algoritmos utilizam probabilidade para verificar se as palavras pertencem aos
grupos, o que possibilita que algumas palavras estejam em vários tópicos. Isso pode faci-
litar a geração de tópicos que utilizam as mesmas palavras em contextos diferentes, como
foi o caso do NMF, ou pode levar à criação de tópicos que são quase que totalmente
similares entre si e não agregam nada na avaliação do problema, como no caso do LDA.
O Word2Topic não permite a sobreposição de grupos, portanto os resultados não
conterão repetições de palavras em tópicos. Neste caso, foi possível perceber uma dife-
rença entre o significado dos tópicos gerados. Entre as técnicas que utilizaram o SOM, as
palavras geradas tendem a estar em uma mesma classe morfológica, como vários verbos
no mesmo tópico, ou classes morfológicas similares, como advérbios e adjetivos. Isso pode
ser visto em tópicos gerados pela MST (Tabela 6), como o tópico 1 que contém adjetivos
(“estressado”, “preocupado” e “cauteloso”), o tópico 5 que contém verbos no gerúndio
(“participando”, “estendendo”, “competindo”, “estabelecendo” e “suportando”) e verbos
conjugados no particípio passado (“removido”, “comercializado” e “respondido”).
Já os tópicos gerados sem o SOM tiveram a tendência de trazer palavras semantica-
mente similares, ou seja, teriam significados parecidos quando utilizadas em uma mesma
frase, ajudando a dar um contexto para a interpretação do conteúdo do tópico. Há tó-
picos como o 9 do K-Means (Tabela 8), que pode ser interpretado como exportação de
óleo vegetal, feijão, carne, grãos, laranjas e leite de países como o Quênia e Paquistão. O
tópico 10 contém palavras que podem se referir a um ataque à uma plataforma marítima
com milhares de feridos.
Quando uma técnica utilizada após o SOM é comparada com sua contraparte
sem utilizar o SOM, os resultados da Coerência CV são ligeiramente maiores naquelas
que utilizaram o SOM (Figura 19). Já quando é analisada a coerência W2V (Figura
21), percebe-se um resultado melhor para aquelas que não utilizaram o SOM . Levando
essa informação em consideração em conjunto com as diferenças percebidas morfológica
e semanticamente, é possível notar que a coerência CV amplifica a relação morfológica
entre as palavras de cada tópico, o que pode acontecer por meio de sua confirmação
indireta que bonifica palavras que não coocorrem mas existem em um mesmo contexto.
Analogamente, como a coerência W2V utiliza a similaridade de contexto proveniente
dos vetores de palavras, a métrica obteve melhores resultados quando as palavras são
semanticamente similares, uma característica herdada do treinamento do Word2Vec.
Capítulo 3. WORD2TOPIC: UM MÉTODO DE DETECÇÃO DE TÓPICOS EM DOCUMENTOS
USANDO AGRUPAMENTO DE VETORES DE PALAVRAS 39

1 2 3 4 5
said said loss said said
reuter stock billion dlrs reuter
year reuter said reuter year
would company reuter year dlrs
shares would profit last company
company shares dlrs company march
dlrs offer year corp debt
bank dlrs revs prices last
billion corp bank would market
group exchange sales share would
market agreement shrs quarter corp
also japan market sales prices
march international note price banks
trade market oper market stock
january year share also february
tonnes trade three shares billion
sales share nine three month
share states would first first
last group marks stock also
told united last years interest

6 7 8 9 10
said said said said said
reuter year dlrs dlrs dlrs
would reuter reuter reuter reuter
dlrs would bank billion company
bank government year trade billion
trade last corp year year
japan dlrs would would bank
year tonnes company april corp
banks trade stock bank would
market price shares record shares
also also three market stock
corp market billion exchange also
company week share dollar share
last economic march futures last
world could banks profit sales
share company first trading market
billion billion market prior exchange
economic rate agreement loss debt
foreign bank five rate first
japanese told total budget securities
Tabela 4 – Top-20 palavras para 10 tópicos geradas pelo LDA
Capítulo 3. WORD2TOPIC: UM MÉTODO DE DETECÇÃO DE TÓPICOS EM DOCUMENTOS
USANDO AGRUPAMENTO DE VETORES DE PALAVRAS 40

1 2 3 4 5
billion would said debt tonnes
year said trade banks said
said could japan foreign wheat
dlrs coffee japanese interest last
february brazil dollar bank sugar
january told economic brazil grain
rose president officials bankers week
deficit government foreign would sources
last export states loans reuter
sales producers united payments soviet
surplus meeting markets government total
fell house countries commercial production
marks farm reuter creditors corn
government also agreement world exports
budget reagan also finance crop
earlier program minister economic season
total world tariffs last would
rise budget deficit countries export
reuter national exchange country agriculture
foreign bill government plan system

6 7 8 9 10
said dlrs said said bank
company loss market year said
shares year rates prices dlrs
reuter share rate opec banks
corp profit year production reuter
stock quarter dollar price first
share reuter stock last rate
offer company government output central
also revs exchange trade loans
group oper trading crude loan
common earnings analysts world rates
board note last reuter interest
shareholders shares interest demand credit
chairman nine dealers industry money
american includes securities barrel corp
sales would could saudi capital
companies stock futures march billion
spokesman gain growth official assets
president operations markets february issue
unit corp bond countries banking
Tabela 5 – Top-20 palavras para 10 tópicos geradas pelo NMF
Capítulo 3. WORD2TOPIC: UM MÉTODO DE DETECÇÃO DE TÓPICOS EM DOCUMENTOS
USANDO AGRUPAMENTO DE VETORES DE PALAVRAS 41

1 2 3 4 5
doubt grounds advised successfully abandoned
marked trial withdrawn formation temporarily
gradual preparing moore concrete participating
easing accused neither reviewing records
optimism award specifically involves extending
favour proceeding contact engaged contains
stand illegal examine language young
strongly comply replace operational removed
alone confirmation phoenix giant foundation
damaging asking begun covers inadequate
devaluation informed joining replacement competing
simply hearings enterprise reviewed establishing
stressed broadcast edward metropolitan clark
seemed administrative boards involve supporting
cautious urging reply concept unspecified
behind task rival mass marketed
chances naval cola send assist
worried oppose permission gathering underway
perhaps propose confirm relating laid
quick battle mountain nature responded

6 7 8 9 10
equally broken fewer contrast aggregate
contain excluded tied exceeded yearly
content professional stands contracted roughly
switch permitted suffer mature premiums
check fifth measured partially calculated
none assess difficulty proportion doubled
permanent entirely consolidation somewhat subsequent
fail represent citing boosting respective
apart targeted expecting jumped attributable
purchasing encouraged exceeding straight repaid
sensitive completely depends allocation deferred
inland divided assumed remainder financed
emerged severely explained thus book
green absence jump considerably receipts
traditionally pattern match invested soared
types tightening excellent noting borrow
fine maintained pushing comparison realized
hill prevailing strengthened collateral narrowed
specify item losing pushed amounted
breakdown competitors prospect numbers equal
Tabela 6 – Top-20 palavras para 10 tópicos geradas pela MST
Capítulo 3. WORD2TOPIC: UM MÉTODO DE DETECÇÃO DE TÓPICOS EM DOCUMENTOS
USANDO AGRUPAMENTO DE VETORES DE PALAVRAS 42

1 2 3 4 5
successfully surge consist backing absence
records marked consists urging doubt
participating considerably represent leave difficulty
language dramatic initially tried closer
award steadily elders agenda goes
proceeding shows concentrate repeatedly keeping
trial slower sons repeated suffer
young steep restricted americans convinced
replacement affecting century comes encouraged
extending devaluation comprised criticised pushing
contains slight resource replied traditionally
none soared nabisco disputes indications
formation measured currently crucial depends
switch weaker primarily damaging changing
operational contrast upgraded answer severely
reviewing exceeded assigned happy suggest
involve fallen spent halt danger
mass boosted manage address assess
inadequate gradual placed stand strengthened
nature sustained exchanged felt entirely

6 7 8 9 10
roughly phoenix concrete remainder check
yearly dynamics responded bearing equally
doubled engaged abandoned convert content
contracted metropolitan road totaling contain
premiums film send aggregate broken
calculated circuit bound assumption excluded
partially involves preparing book purchasing
proportion distribute temporarily assuming permitted
respective merged contained collateral professional
mature broadcast begun converted types
receipts cola removed debenture tied
match mail emerged issuance fifth
double printing neither financed targeted
jumped star examine refinance fewer
partial affiliated cleared realized assumed
explained atlanta breakdown deferred also
subsequent hill supporting invested forms
climbed shopping sensitive represents consolidation
repaid pharmaceuticals fail mortgages expanded
attributable giant confirm retire concentrated
Tabela 7 – Top-20 palavras para 10 tópicos geradas por K-Means com SOM
Capítulo 3. WORD2TOPIC: UM MÉTODO DE DETECÇÃO DE TÓPICOS EM DOCUMENTOS
USANDO AGRUPAMENTO DE VETORES DE PALAVRAS 43

1 2 3 4 5
roughly revlon pharmaceuticals stance surge
attributable advised scientific understanding steep
doubled liquidation marketed diplomatic weaker
amounted retain micro criticised amid
aggregate viacom engaged welcomed weakness
yearly separately locations poland marked
excluding disclose distribute industrialized steadily
resulted affiliates brand accords shows
premiums progressive solid communique contrast
deferred terminated film argentine slight
carryforwards reviewing involves discussed somewhat
respective jacobs mass expressed momentum
contribution amended dynamics mission recovered
recorded receipt installed bonn trends
calculated intends mail coordination soared
actual person transmission negotiators pushed
represents acquiring terminals dilson behind
totaling emery container chirac affecting
assuming hudson operational azpurua upward
exceed edelman giant trip prompted

6 7 8 9 10
underwritten sort heard beans destroyed
tranches otherwise announcing oilseeds platform
matures correct urging destinations town
issuance goes preparing meal border
convert putting leave origin vessel
eurobonds crucial recommendations pakistan naval
placed resist neither frozen territory
mature fail examine milk northeast
treasuries easy inquiry flour died
eurodollar assess edward grains thousands
collateral essential confirmation bulk tanker
westpac encouraged reviewed orange paulo
variable changing reply rapeseed waters
swap repeatedly responding refined injured
warburg depends ronald usage rail
holiday danger repeated exporter attacked
mortgages supporting objections officially loading
refinance therefore senator soft flag
debenture backing oppose exported repair
borrower closer illegal kenya discovered
Tabela 8 – Top-20 palavras para 10 tópicos geradas por K-Means
Capítulo 3. WORD2TOPIC: UM MÉTODO DE DETECÇÃO DE TÓPICOS EM DOCUMENTOS
USANDO AGRUPAMENTO DE VETORES DE PALAVRAS 44

1 2 3 4 5
urging equally marked trial phoenix
leave pharmaceuticals surge preparing broadcast
agenda hill shows begun circuit
examine entire dramatic grounds mail
ambassador metropolitan slower award shopping
disputes dynamics considerably specifically engaged
tried young trends proceeding film
criticised marketed turning neither involves
replied glass gradual asking cola
threatened purchasing behind language atlanta
recommendations consist sustained informed merged
address affiliated weakness confirmation philadelphia
oppose distribute weaker send star
informal extending momentum illegal printing
leaves underway sluggish announcing terminated
americans represent devaluation administrative boards
tell transferred affecting section hospital
resolved hudson easing comply grand
answer century steadily confirm scientific
task elders steep replacement giant

6 7 8 9 10
converted remainder roughly abandoned doubt
debenture convert exceeded contain damaging
incurred collateral yearly check closer
portion bearing doubled permanent sort
retire assumption exceeding content crucial
approximately book contracted switch backing
reflects issuance measured supporting repeatedly
secured invested soared traditionally happy
resulting assumed jump temporarily favour
liabilities assuming premiums removed stressed
accrued refinance contrast sensitive goes
sinking totaling aggregate concrete resist
asset underwritten partially apart absence
pension mortgages double green correct
redeemable financed proportion broken gone
unsecured variable recovered none convinced
paid tranches calculated fail quick
respectively matures jumped permitted ideas
restated liquidation boosted methods danger
conversion swap boosting successfully willingness
Tabela 9 – Top-20 palavras para 10 tópicos geradas por Ward com SOM
Capítulo 3. WORD2TOPIC: UM MÉTODO DE DETECÇÃO DE TÓPICOS EM DOCUMENTOS
USANDO AGRUPAMENTO DE VETORES DE PALAVRAS 45

1 2 3 4 5
loading attributable pharmaceuticals accords underwritten
destinations resulted marketed negotiators convert
processors carryforwards container commitments consist
flag amounted transmission diplomatic holiday
bulk excluding operated steering mature
northeast carryforward scientific discussion exchanged
provinces receipts installed azpurua issuance
flour expense brand bolivia tranches
injured accounted mountain table matures
oilseeds result micro bloc debenture
origin utilization operator signing treasuries
beans segment packaging bridge warburg
border resulting sells kenya westpac
pakistan increased terminals geneva eurodollar
damaged primarily film standstill eurobonds
naval decrease columbia uruguay irving
algeria anticipated giant commitment barclays
tanker thirds alaska invited bear
iowa reflects supplier club stearns
vessel approximately distributor qatar realty

6 7 8 9 10
permanent closer leave disclose midday
check doubt examine edelman firmed
records essential recommendations revlon gilts
successfully changing oppose progressive eased
contain depends heard guinness lows
equally goes senator wagner weighted
extending crucial outlined viacom quiet
none absence preparing officers gilt
broken encouraged edward acquiring counter
permitted strengthened reviewed affiliates overnight
contains convinced unveiled cola comex
involves damaging objections hudson firmer
cleared sort ronald person slipped
content correct jacques jacobs physical
also danger document retain lots
contained gradual address emery trades
covers considerable reply injunction active
green resist agenda hostile mixed
foundation sensitive asking merged rally
purchasing difficulty calling counsel opening
Tabela 10 – Top-20 palavras para 10 tópicos geradas por Ward
Capítulo 3. WORD2TOPIC: UM MÉTODO DE DETECÇÃO DE TÓPICOS EM DOCUMENTOS
USANDO AGRUPAMENTO DE VETORES DE PALAVRAS 46

3.2.2 Base Twenty Newsgroups


3.2.2.1 Coerência CV

Analisando a métrica de coerência CV para a base Twenty Newsgroups, percebe-


mos a sensibilidade ao parâmetro N de palavras mais prováveis, diferença que pode ser
vista nas Figuras 8 e 9 e nos dados completos nos Apêndices E e F. Em particular, é
possível perceber uma queda brusca no desempenho do LDA quando troca-se o número
de palavras de 10 para 20, onde anteriormente o algoritmo desempenhava por volta de
0.70 caiu para menos de 0.60. Inversamente, os métodos propostos no Word2Topic tive-
ram um ganho de aproximadamente 0.10 quando foi aumentado o número de palavras
consideradas. O NMF teve uma queda menor, porém também reduziu seu desempenho
com um valor maior de N.

Figura 8 – Coerência de tópicos CV com as top-10 palavras para a base Twenty News-
groups.

Considerando a métrica com 10 palavras, o NMF teve o melhor resultado geral:


0.76 com 6 tópicos. Para o LDA, o melhor valor foi de 0.73 para 10 tópicos. Para as
técnicas propostas, os algoritmos Ward e K-Means, com e sem o SOM, tiveram o melhor
desempenho com 2 tópicos. Já a MST teve o melhor resultado com 3 tópicos.
A coerência CV de top-20 palavras teve o Ward com o SOM para 2 tópicos como o
melhor resultado, com 0.75. Todas as técnicas mantiveram seu máximo no mesmo número
de tópicos, com a diferença que as técnicas propostas tiveram o desempenho melhorado
por aproximadamente 0.10, enquanto o LDA ficou 0.13 pior e o NMF piorou 0.05.
Capítulo 3. WORD2TOPIC: UM MÉTODO DE DETECÇÃO DE TÓPICOS EM DOCUMENTOS
USANDO AGRUPAMENTO DE VETORES DE PALAVRAS 47

Figura 9 – Coerência de Tópicos CV com as top-20 Palavras para a Base Twenty News-
groups

3.2.2.2 Coerência W2V

Para a coerência W2V, todas as técnicas perderam em média 0.07 de desempenho


quando trocado de top-10 para top-20 palavras. Portanto, os gráficos das Figuras 10 e 11
são bastante semelhantes, com uma pequena alteração na escala. Os dados completos da
coerência W2V encontram-se nos Apêndices G e H.
O melhor valor da coerência W2V foi de 0.75, obtido pelo K-Means com 26 tópicos.
Nenhum algoritmo teve uma variação grande da métrica quando aumentado o valor de k,
ficando estáveis em uma mesma faixa de valor.
Há várias descontinuidades para as técnicas quando foi necessário o mínimo de 20
palavras. Isso acontece principalmente para os resultados gerados pela MST, pois como
não é parametrizado o valor de k, não há garantia que haverá valores para todos os valores
possíveis e que cada grupo terá pelo menos o número mínimo de palavras. Também foi
possível perceber que o algoritmo Ward não conseguiu encontrar tópicos que contivessem
pelo menos 20 palavras quando k > 5.

3.2.2.3 Análise Qualitativa

Como as técnicas tiveram um melhor desempenho com as métricas com 10 palavras,


as Tabelas 11 a 17 trazem as top-10 palavras para as técnicas LDA, NMF, MST, K-Means
com SOM, K-Means, Ward com SOM e Ward, respectivamente. Para a análise, foram
escolhidos 5 tópicos, por ser o ponto antes de uma descida brusca da coerência CV na
maioria da técnicas.
Novamente, foi possível perceber que o LDA não conseguiu gerar tópicos interpre-
Capítulo 3. WORD2TOPIC: UM MÉTODO DE DETECÇÃO DE TÓPICOS EM DOCUMENTOS
USANDO AGRUPAMENTO DE VETORES DE PALAVRAS 48

Figura 10 – Coerência de tópicos W2V com as top-10 palavras para a base Twenty News-
groups

Figura 11 – Coerência de tópicos W2V com as top-20 palavras para a base Twenty News-
groups

táveis, nem que sejam diferentes entre si. Pela Tabela 11, vê-se que, como para a base
Reuters o LDA gerou grupos muito sobrepostos entre si com palavras que se repetem em
todos ou quase todos os tópicos.
Já o NMF conseguiu encontrar alguns tópicos interpretáveis. Embora todos os gru-
pos tratem de assuntos computacionais, há algumas diferenças entre os assuntos falados.
Na Tabela 12 temos o Tópico 1 que aparenta falar de versões de softwares e sistemas, bem
como espaço disponível em disco. Já o Tópico 2 trata de assuntos de imagens, como qua-
Capítulo 3. WORD2TOPIC: UM MÉTODO DE DETECÇÃO DE TÓPICOS EM DOCUMENTOS
USANDO AGRUPAMENTO DE VETORES DE PALAVRAS 49

lidade, cor, e formato dos arquivos, como JPEG e JFIF. O Tópico 4 pode estar associado
a programação, mas não é possível afirmar pelas palavras apresentadas.

1 2 3 4 5
would news news would news
people newsgroups cantaloupe people cantaloupe
know subject would message state
also message state like subject
think date comp path lines
like lines subject cantaloupe message
good path date lines would
much would windows subject date
make organization newsgroups organization misc
news like lines newsgroups path
Tabela 11 – Top-10 palavras para 5 tópicos geradas pelo LDA

As técnicas propostas também não conseguiram gerar tópicos interpretáveis nem


que tragam muitas classes morfológicas similares. Algumas exceções são alguns tópicos
gerados que contêm vários nomes, como o Tópico 5, gerado tanto pelo K-Means com SOM
quanto pelo K-Means sem SOM (Tabelas 14 e 15) e o Tópico 1 gerado pelo Ward (Tabela
17). Também há o Tópico 2 gerado pelo Ward com SOM (Tabela 16), que contém somente
sobrenomes.

1 2 3 4 5
system jpeg comp file would
available image graphics program people
data images news output know
software format mail entry think
also color message line like
disk quality subject files said
version free send info time
space graphics cantaloupe name well
systems files windows check could
drive jfif computer open even
Tabela 12 – Top-10 palavras para 5 tópicos geradas pelo NMF
Capítulo 3. WORD2TOPIC: UM MÉTODO DE DETECÇÃO DE TÓPICOS EM DOCUMENTOS
USANDO AGRUPAMENTO DE VETORES DE PALAVRAS 50

1 2 3 4 5
fashion bread capture infamous preparing
functional fought macro promising someday
alter meanwhile locally sought trading
wider appointed specifications tremendous abandoned
differ foul appletalk competing beware
partial revenge nearest wonders rising
difficulties silent indicator globe ending
terminology firmly digitized behalf chase
limitations pride simultaneously connor pleased
realm grave sparcstation hunt pace
Tabela 13 – Top-10 palavras para 5 tópicos geradas pela MST

1 2 3 4 5
calendar spreading simultaneously foul canterbury
editors denying obsolete naked fido
distribute intentions panels pace victor
accessible retain approx blackhawks harvey
updates spite generating streak lynn
bibliography relevance connecting span carlos
maintains accuse margin preparing newshub
nearest preference loads episode nicholas
retrieve odds sophisticated meanwhile odin
scholarly presume attach sweet consultant
Tabela 14 – Top-10 palavras para 5 tópicos geradas pelo K-Means com SOM

1 2 3 4 5
simultaneously intentions tall activists fido
capture spreading touched ongoing canterbury
obsolete denying facing ordering victor
attach dismiss sweet organisation newshub
panels spite wound grants ariel
generating presume barely investigating consultant
adds intention naked congressional harvey
loads mere knee editors lynn
configured benedikt bench worldwide nicholas
handles preference burnt administrative odin
Tabela 15 – Top-10 palavras para 5 tópicos geradas pelo K-Means
Capítulo 3. WORD2TOPIC: UM MÉTODO DE DETECÇÃO DE TÓPICOS EM DOCUMENTOS
USANDO AGRUPAMENTO DE VETORES DE PALAVRAS 51

1 2 3 4 5
offering hart spreading simultaneously cisco
accessible troy retain panels waikato
editors fisher odds approx newshub
ordering brooks accuse obsolete informix
workshop hunt presume loads zealand
specifications schmidt everyday connecting telecom
obtaining lincoln denying locking fmsrl
bundled wells spite grips iris
investigating expos intentions margin huntsville
maintains phillips doubts attach xerox
Tabela 16 – Top-10 palavras para 5 tópicos geradas pelo Ward com SOM

1 2 3 4 5
canterbury ordering simultaneously sweet spreading
consultant grants obsolete touched relevance
fido behalf capture bench odds
harvey activists panels barely preference
victor congressional sophisticated dropping disagreement
nicholas vital approx tall mere
lynn licensing fitting amazed retain
bailey offering connecting expecting intentions
odin privately loads kicking bearing
eugene violate chart kidding spite
Tabela 17 – Top-10 palavras para 5 tópicos geradas pelo Ward
52

4 Conclusões e Trabalhos Futuros

A mineração de dados entrou em evidência nos últimos anos graças à enorme


geração de dados e à corrida que empresas vêm disputando em como monetizar e obter
vantagens estratégicas a partir desses dados. Com cada vez mais produção de textos em
redes sociais, é necessário o uso de técnicas automatizadas para extração de informação,
diminuindo o trabalho de leitura por humanos.
Técnicas estatísticas, como o Latent Dirichlet Allocation - LDA, e métodos diretos,
como o Non-negative Matrix Factorization - NMF, vêm sendo usadas há anos como padrão
em tarefas de Modelagem de Tópicos, enquanto a medida de coerência CV é utilizada como
referência em termos de interpretabilidade de tópicos.
Este trabalho propôs comparar a geração de tópicos pelas técnicas padrão com
agrupamento de vetores de palavras gerados pelo Word2Vec, dando origem a um método
que chamamos de Word2Topic. O Word2Vec é um modelo para representação distribuída
de palavras que consiste de uma rede neural com somente uma camada intermediária,
onde o vetor de pesos da camada intermediária será a representação da palavra, de forma
que os vetores trarão as regularidades sintáticas e semânticas do texto original. Com
isso, a questão de pesquisa desse trabalho foi verificar se os vetores de palavras, quando
agrupados, conseguem gerar tópicos interpretáveis, com a interpretabilidade verificada
quantitativamente pela métrica de coerência CV. Também foi explorada a métrica de
coerência W2V, que utiliza a própria similaridade entre os vetores de palavras para medir
o quanto os grupos são coerentes.
O trabalho buscou explorar várias formas de agrupar os vetores de palavras. Das
técnicas exploradas, foram escolhidas para agrupamento o K-Means, o método Ward para
agrupamento hierárquico e a Árvore Geradora Mínima com Detecção de Comunidades.
Foi também explorado o impacto de Mapas Auto-Organizáveis (Self-Organizing Maps -
SOM) para reduzir a redundância para os algoritmos de agrupamento.
Foi estruturado um método (Word2Topic) que propõe duas formas de resolver
o problema: aplicar os algoritmos diretamente após a geração dos vetores de palavras e
aplicar após o uso do SOM. Também foi agregada ao método a verificação de desempenho
dos algoritmos LDA e NMF. O Word2Topic foi aplicado a duas bases de dados com número
similar de textos: Reuters e Twenty Newsgroups.
Em um primeiro momento, foi possível perceber que o LDA não conseguiu gerar
boas respostas para nenhuma das bases, mesmo no caso da Twenty Newsgroups onde
desempenho da coerência CV registrou um valor alto. Já o NMF não conseguiu gerar
grupos tão representativos para a base Reuters, mas conseguiu gerar tópicos interpretá-
Capítulo 4. Conclusões e Trabalhos Futuros 53

veis para a base Twenty Newsgroups. Apesar disso, todos os tópicos encontrados, mesmo
quando aumentado o número de tópicos, sempre foram relacionados a computação, não
conseguindo agrupar para as outras classes existentes nos textos originais.
Para as técnicas propostas não foi possível ver um bom resultado para a base
Twenty Newsgroups, no máximo foram criados grupos com nomes próprios e sobrenomes.
Já para a base Reuters foi possível ver dois fenômenos diferentes: um utilizando o SOM e
outro sem o SOM. Quando utilizado o SOM, vários tópicos gerados tiveram em sua com-
posição palavras de uma classe morfológica semelhante. Por exemplo, tópicos somente
com verbos no gerúndio ou passado, tópicos somente com adjetivos e advérbios ou tópicos
com substantivos. Quando não utilizado o SOM, foi possível perceber grupos mais inter-
pretáveis e com palavras semanticamente semelhantes, ou seja, quando trocadas em uma
frase não mudariam o sentido.
Não foi possível validar completamente a questão de pesquisa, pois enquanto o
Word2Vec conseguiu gerar vetores similares e tópicos interpretáveis para a base Reuters,
não foi possível ver o mesmo para a base Twenty Newsgroups. Isso pode ter ocorrido pela
natureza sobreposta de alguns assuntos dessa base, tendo vários tópicos de computação,
como computação gráfica, Windows, ambientes gráficos, hardware de computadores IBM e
hardware de computadores Mac. Também há alguns assuntos convergentes, como ateísmo
e cristianismo, carros e motocicletas, hockey e baseball, e política geral com política do
oriente médio. Essa característica da base pode também ter dificultado ao algoritmo NMF
em encontrar tópicos fora da área da computação, repetindo vários dos tópicos quando
aumentado o valor de k.
Já em relação à métrica coerência CV, percebeu-se que não necessariamente um
alto valor garante interpretabilidade. Isso pôde ser visto principalmente nos resultados dos
tópicos gerados pelo LDA, em que basicamente não houve interpretabilidade, mas houve
valores de coerência maiores que 0.70 para a base Twenty Newsgroups. Para a coerência
W2V, os algoritmos que utilizaram o Word2Vec tiveram um desempenho melhor do que as
técnicas LDA e NMF, o que pode ter sido enviesado por utilizarem a mesma similaridade.
Embora os resultados das técnicas utilizando o SOM para a base Reuters não
foram interpretáveis, como os tópicos trouxeram classes morfológicas similares, as técnicas
podem ser exploradas para outras tarefas na área de NLP, como Etiquetagem de Classes
Gramaticais (Part-Of-Speech Tagger - POS Tagger) ou Reconhecimento de Entidades
Nomeadas (Named-Entity Recognition - NER), podendo ajudar a reconhecer palavras das
mesmas classes gramaticais.
Como alguns dos tópicos gerados pelas técnicas que não utilizaram o SOM ti-
veram uma boa interpretabilidade, pode ser aplicado um novo esforço para reforçar as
características que deram certo. Uma futura exploração pode buscar outras técnicas de
agrupamento mais avançadas, bem como outros algoritmos de detecção em grafos. Outros
Capítulo 4. Conclusões e Trabalhos Futuros 54

rumos para o trabalho poderiam seguir uma busca na hiper-parametrização do Word2Vec


ou até outros algoritmos mais atuais de vetorização de palavras. Por fim, como os resul-
tados para a coerência CV divergiram da literatura em relação à interpretabilidade, a
exploração ou a proposição de métricas de coerência pode trazer novas contribuições para
a área de Modelagem de Tópicos.
55

Referências

ACAR, A.; MURAKI, Y. Twitter for crisis communication: lessons learned from japan’s
tsunami disaster. International Journal of Web Based Communities, Inderscience
Publishers, v. 7, n. 3, p. 392–402, 2011. Citado na página 17.

ALLEN, C.; HOSPEDALES, T. Analogies explained: Towards understanding word


embeddings. arXiv preprint arXiv:1901.09813, 2019. Citado 2 vezes nas páginas 12 e 26.

BLEI, D. M. Surveying a suite of algorithms that offer a solution to managing large


document archives. Communication of the ACM, v. 55, n. 4, p. 77–84, 2012. Citado na
página 19.

BLEI, D. M.; NG, A. Y.; JORDAN, M. I. Latent dirichlet allocation. Journal of machine
Learning research, v. 3, n. Jan, p. 993–1022, 2003. Citado na página 19.

BORGE-HOLTHOEFER, J. et al. Content and network dynamics behind egyptian


political polarization on twitter. In: ACM. Proceedings of the 18th ACM Conference on
Computer Supported Cooperative Work & Social Computing. [S.l.], 2015. p. 700–711.
Citado na página 17.

CARMICHAEL, J. W.; JULIUS, R. S. Finding Natural Clusters. Systematic


Biology, v. 17, n. 2, p. 144–150, 06 1968. ISSN 1063-5157. Disponível em:
<https://doi.org/10.1093/sysbio/17.2.144>. Citado na página 26.

CHENG, X. et al. Btm: Topic modeling over short texts. IEEE Transactions on
Knowledge and Data Engineering, IEEE, v. 26, n. 12, p. 2928–2941, 2014. Citado na
página 23.

CLAUSET, A.; NEWMAN, M. E.; MOORE, C. Finding community structure in very


large networks. Physical review E, APS, v. 70, n. 6, p. 066111, 2004. Citado na página
28.

DAI, X.; BIKDASH, M.; MEYER, B. From social media to public health surveillance:
Word embedding based clustering method for twitter classification. In: IEEE.
SoutheastCon 2017. [S.l.], 2017. p. 1–7. Citado na página 29.

DE CASTRO, L. N.; FERRARI, D. G. Introdução à mineração de dados: conceitos


básicos, algoritmos e aplicações. São Paulo: Saraiva, 2016. Citado 3 vezes nas páginas
26, 27 e 28.

DE CASTRO, L. N. et al. Análise e síntese de estratégias de aprendizado para redes


neurais artificiais. [sn], 1998. Citado na página 27.

DESAI, M.; MEHTA, M. A. Techniques for sentiment analysis of twitter data:


A comprehensive survey. In: IEEE. 2016 International Conference on Computing,
Communication and Automation (ICCCA). [S.l.], 2016. p. 149–154. Citado na página
17.
Referências 56

EMC/IDC DIGITAL UNIVERSE REPORT. The Digital Universe of Opportunities:


Rich Data and the Increasing Value of the Internet of Things. EMC, 2014. Disponível
em: <https://www.emc.com/leadership/digital-universe/2014iview/executive-summary.
htm>. Citado na página 19.

GRAHAM, R. L.; HELL, P. On the history of the minimum spanning tree problem.
Annals of the History of Computing, IEEE, v. 7, n. 1, p. 43–57, 1985. Citado na página
28.

HINTON, G. E. et al. Learning distributed representations of concepts. In: AMHERST,


MA. Proceedings of the eighth annual conference of the cognitive science society. [S.l.],
1986. v. 1, p. 12. Citado 2 vezes nas páginas 16 e 23.

HOFFMAN, M.; BACH, F. R.; BLEI, D. M. Online learning for latent dirichlet
allocation. In: advances in neural information processing systems. [S.l.: s.n.], 2010. p.
856–864. Citado na página 31.

HONG, L.; DAVISON, B. D. Empirical study of topic modeling in twitter. In: ACM.
Proceedings of the first workshop on social media analytics. [S.l.], 2010. p. 80–88. Citado
na página 19.

JIN, O. et al. Transferring topical knowledge from auxiliary long texts for short text
clustering. In: Proceedings of the 20th ACM international conference on Information and
knowledge management. [S.l.: s.n.], 2011. p. 775–784. Citado na página 17.

KEKEÇ, T.; MAATEN, L. van der; TAX, D. Pawe: Polysemy aware word embeddings.
In: Proceedings of the 2nd International Conference on Information System and Data
Mining. [S.l.: s.n.], 2018. p. 7–13. Citado na página 23.

KEMP, S. Digital in 2018: Worlds internet users pass the 4 billion mark. We are social,
v. 30, 2018. Citado na página 17.

KHAN, N. et al. Big data: survey, technologies, opportunities, and challenges. The
scientific world journal, Hindawi, v. 2014, 2014. Citado na página 16.

KIM, E.; SUNG, Y.; KANG, H. Brand followers retweeting behavior on twitter: How
brand relationships influence brand electronic word-of-mouth. Computers in Human
Behavior, Elsevier, v. 37, p. 18–25, 2014. Citado na página 17.

KIM, H. K.; KIM, H.; CHO, S. Bag-of-concepts: Comprehending document representation


through clustering words in distributed representation. Neurocomputing, Elsevier, v. 266,
p. 336–352, 2017. Citado 3 vezes nas páginas 22, 23 e 29.

KOHONEN, T. Self-organized formation of topologically correct feature maps. Biological


cybernetics, Springer, v. 43, n. 1, p. 59–69, 1982. Citado 2 vezes nas páginas 16 e 27.

LASI, H. et al. Industry 4.0. Business & information systems engineering, Springer, v. 6,
n. 4, p. 239–242, 2014. Citado na página 17.

LEE, D. D.; SEUNG, H. S. Learning the parts of objects by non-negative matrix


factorization. Nature, Nature Publishing Group, v. 401, n. 6755, p. 788, 1999. Citado 2
vezes nas páginas 19 e 20.
Referências 57

LEVY, O.; GOLDBERG, Y. Linguistic regularities in sparse and explicit word


representations. In: Proceedings of the eighteenth conference on computational natural
language learning. [S.l.: s.n.], 2014. p. 171–180. Citado 2 vezes nas páginas 16 e 26.

LI, C. et al. Lda meets word2vec: A novel model for academic abstract clustering.
In: INTERNATIONAL WORLD WIDE WEB CONFERENCES STEERING
COMMITTEE. Companion Proceedings of the The Web Conference 2018. [S.l.], 2018. p.
1699–1706. Citado na página 29.

MACQUEEN, J. et al. Some methods for classification and analysis of multivariate


observations. In: OAKLAND, CA, USA. Proceedings of the fifth Berkeley symposium on
mathematical statistics and probability. [S.l.], 1967. v. 1, n. 14, p. 281–297. Citado na
página 27.

MATSUBARA, E. T.; MARTINS, C. A.; MONARD, M. C. Pretext: Uma ferramenta


para pré-processamento de textos utilizando a abordagem bag-of-words. Techinical
Report, v. 209, p. 4, 2003. Citado 3 vezes nas páginas 13, 22 e 23.

MIKOLOV, T. et al. Efficient estimation of word representations in vector space. arXiv


preprint arXiv:1301.3781, 2013. Citado 7 vezes nas páginas 12, 16, 17, 23, 24, 26 e 29.

MIKOLOV, T. et al. Distributed representations of words and phrases and their


compositionality. In: Advances in neural information processing systems. [S.l.: s.n.], 2013.
p. 3111–3119. Citado na página 25.

MITCHELL, T. UCI Machine Learning Repository. 1999. Disponível em: <http:


//archive.ics.uci.edu/ml>. Citado na página 32.

MORALES, A. et al. Measuring political polarization: Twitter shows the two sides of
venezuela. Chaos: An Interdisciplinary Journal of Nonlinear Science, AIP Publishing,
v. 25, n. 3, p. 033114, 2015. Citado na página 17.

MURTAGH, F.; LEGENDRE, P. Ward’s hierarchical clustering method: Clustering


criterion and agglomerative algorithm. arXiv preprint arXiv:1111.6285, 2011. Citado na
página 28.

NEWMAN, D. et al. Automatic evaluation of topic coherence. In: ASSOCIATION


FOR COMPUTATIONAL LINGUISTICS. Human Language Technologies: The 2010
Annual Conference of the North American Chapter of the Association for Computational
Linguistics. [S.l.], 2010. p. 100–108. Citado na página 20.

NEWMAN, M. E.; GIRVAN, M. Finding and evaluating community structure in


networks. Physical review E, APS, v. 69, n. 2, p. 026113, 2004. Citado na página 29.

NGUYEN, D. Q. et al. Improving topic models with latent feature word representations.
Transactions of the Association for Computational Linguistics, MIT Press, v. 3, p.
299–313, 2015. Citado na página 29.

O’CALLAGHAN, D. et al. An analysis of the coherence of descriptors in topic modeling.


Expert Systems with Applications, Elsevier, v. 42, n. 13, p. 5645–5657, 2015. Citado na
página 22.
Referências 58

PRITCHARD, J. K.; STEPHENS, M.; DONNELLY, P. Inference of population structure


using multilocus genotype data. Genetics, Genetics Soc America, v. 155, n. 2, p. 945–959,
2000. Citado na página 19.

RÖDER, M.; BOTH, A.; HINNEBURG, A. Exploring the space of topic coherence
measures. In: ACM. Proceedings of the eighth ACM international conference on Web
search and data mining. [S.l.], 2015. p. 399–408. Citado na página 20.

RONG, X. word2vec parameter learning explained. arXiv preprint arXiv:1411.2738,


2014. Citado 3 vezes nas páginas 12, 24 e 25.

RUMELHART, D. E.; HINTON, G. E.; WILLIAMS, R. J. Learning representations by


back-propagating errors. nature, Nature Publishing Group, v. 323, n. 6088, p. 533–536,
1986. Citado na página 23.

RYDNING, D. R.-J. G.-J. The digitization of the world from edge to core. Framingham:
International Data Corporation, 2018. Citado na página 16.

SHI, M. et al. We-lda: a word embeddings augmented lda model for web services
clustering. In: IEEE. 2017 IEEE International Conference on Web Services (ICWS).
[S.l.], 2017. p. 9–16. Citado na página 29.

STEINHAUS, H. Sur la division des corp materiels en parties. Bull. Acad. Polon. Sci,
v. 1, n. 804, p. 801, 1956. Citado na página 27.

SUBRAMANIAN, S.; VORA, D. Unsupervised text classification and search using word
embeddings on a self-organizing map. International Journal of Computer Applications,
Foundation of Computer Science, v. 156, n. 11, 2016. Citado na página 29.

WARD JR, J. H. Hierarchical grouping to optimize an objective function. Journal of the


American statistical association, Taylor & Francis Group, v. 58, n. 301, p. 236–244, 1963.
Citado na página 28.

WESSLEN, R. Computer-assisted text analysis for social science: Topic models and
beyond. arXiv preprint arXiv:1803.11045, 2018. Citado na página 19.

YOSHIOKA, K.; DOZONO, H. The classification of the documents based on word2vec


and 2-layer self organizing maps. International Journal of Machine Learning and
Computing, v. 8, n. 3, p. 252–255, 2018. Citado na página 29.

ZHAO, R.; TAN, V. Y. Online nonnegative matrix factorization with outliers. IEEE
Transactions on Signal Processing, IEEE, v. 65, n. 3, p. 555–570, 2016. Citado na
página 31.

ZIMBRA, D.; GHIASSI, M.; LEE, S. Brand-related twitter sentiment analysis using
feature engineering and the dynamic architecture for artificial neural networks. In: IEEE.
2016 49th Hawaii International Conference on System Sciences (HICSS). [S.l.], 2016. p.
1930–1938. Citado na página 17.
Apêndices
APÊNDICE A – Coerência CV com top-10 palavras para base
Reuters

K-means K-means Ward Ward


MST MST máximo médio máximo médio
k LDA NMF K-means Ward
máximo médio (com (com (com (com
SOM) SOM) SOM) SOM)
2 0.38 0.57 0.57 0.42 0.60 0.57 0.55 0.59 0.55 0.59
3 0.39 0.55 0.55 0.43 0.60 0.55 0.48 0.55 0.52 0.51
4 0.38 0.47 0.47 0.47 0.54 0.48 0.44 0.53 0.50 0.47
5 0.37 0.47 0.47 0.49 0.53 0.45 0.42 0.53 0.48 0.41
6 0.39 - - 0.45 0.49 0.44 0.42 0.53 0.46 0.41
7 0.37 0.45 0.45 0.48 0.49 0.41 0.39 0.49 0.43 0.40
8 0.37 0.45 0.45 0.47 0.48 0.40 0.37 0.48 0.42 0.41
9 0.36 0.45 0.45 0.50 0.47 0.39 0.35 0.47 0.42 0.42
10 0.37 0.48 0.48 0.53 0.46 0.38 0.37 0.46 0.42 0.40
11 0.37 0.41 0.41 0.50 0.45 0.38 0.34 0.45 0.40 0.39
12 0.38 0.41 0.41 0.50 0.43 0.37 0.32 0.43 0.40 0.37
13 0.37 0.45 0.43 0.47 0.43 0.37 0.32 0.43 0.41 0.37
14 0.37 - - 0.47 0.44 0.36 0.31 0.44 0.41 0.36
15 0.39 0.41 0.41 0.48 0.43 0.36 0.30 0.43 0.40 0.36

60
APÊNDICE A. Coerência CV com top-10 palavras para base Reuters
K-means K-means Ward Ward
MST MST máximo médio máximo médio
k LDA NMF K-means Ward
máximo médio (com (com (com (com
SOM) SOM) SOM) SOM)
16 0.38 - - 0.50 0.41 0.36 0.30 0.40 0.39 0.39
17 0.35 0.43 0.40 0.52 0.40 0.36 0.34 0.40 0.39 0.38
18 0.38 - - 0.52 0.40 0.35 0.33 0.40 0.39 0.40
19 0.36 0.41 0.40 0.49 0.41 0.35 0.34 0.41 0.39 0.40
20 0.39 0.41 0.41 0.50 0.41 0.36 0.35 0.40 0.39 0.40
21 0.38 0.40 0.40 0.51 0.41 0.36 0.36 0.40 0.38 0.40
22 0.38 - - 0.51 0.41 0.35 0.34 0.40 0.38 0.40
23 0.39 0.39 0.39 0.52 0.42 0.36 0.38 0.39 0.39 0.39
24 0.38 0.42 0.42 0.51 0.40 0.36 0.37 0.40 0.38 0.39
25 0.36 - - 0.51 0.40 0.36 0.35 0.37 0.37 0.39
26 0.37 0.41 0.40 0.53 0.41 0.36 0.40 0.36 0.36 0.40
27 0.38 0.40 0.39 0.51 0.41 0.36 0.37 0.37 0.37 0.41
28 0.38 - - 0.51 0.42 0.36 0.39 0.36 0.36 0.42
29 0.38 0.38 0.38 0.51 0.40 0.36 0.41 0.37 0.37 -
30 0.37 0.39 0.39 0.50 0.41 0.36 - 0.36 0.36 -
31 0.38 0.41 0.41 0.50 0.39 0.37 - 0.37 0.37 -
32 0.37 0.40 0.40 0.50 0.40 0.37 - 0.36 0.36 -
33 0.37 0.42 0.42 0.49 0.41 0.37 0.41 0.37 0.37 -
34 0.37 0.41 0.41 0.50 0.39 0.37 0.40 0.37 0.37 -
35 0.37 0.38 0.38 0.54 0.41 0.37 0.42 0.37 0.37 -

61
APÊNDICE A. Coerência CV com top-10 palavras para base Reuters
K-means K-means Ward Ward
MST MST máximo médio máximo médio
k LDA NMF K-means Ward
máximo médio (com (com (com (com
SOM) SOM) SOM) SOM)
36 0.38 0.37 0.37 0.52 0.40 0.37 0.44 - - -
37 0.39 0.38 0.38 0.52 0.40 0.37 0.42 - - -
38 0.39 0.38 0.38 0.51 0.40 0.37 - - - -
39 0.38 0.39 0.39 0.50 0.41 0.37 - - - -
40 0.38 0.41 0.41 0.51 0.40 0.37 0.45 - - -
41 0.38 0.41 0.41 0.49 0.40 0.37 - - - -
42 0.37 - - 0.52 0.41 0.37 - - - -
43 0.38 0.39 0.39 0.51 0.40 0.37 0.45 - - -
44 0.38 0.40 0.40 0.51 0.42 0.38 - - - -
45 0.37 0.38 0.38 0.52 0.42 0.38 0.43 - - -
46 0.38 0.39 0.39 0.52 0.40 0.38 - - - -
47 0.38 - - 0.51 0.41 0.38 0.44 - - -
48 0.38 0.40 0.40 0.51 0.40 0.38 - - - -
49 0.38 0.39 0.39 0.51 0.41 0.38 - - - -
50 0.38 0.38 0.38 0.48 0.41 0.38 - - - -
51 0.38 0.39 0.39 0.50 0.41 0.38 - - - -
52 0.39 0.38 0.38 0.49 0.41 0.39 - - - -
53 0.38 0.38 0.38 0.52 0.43 0.38 - - - -
54 0.38 - - 0.50 0.40 0.38 - - - -
55 0.37 0.39 0.39 0.51 0.41 0.38 - - - -

62
APÊNDICE A. Coerência CV com top-10 palavras para base Reuters
K-means K-means Ward Ward
MST MST máximo médio máximo médio
k LDA NMF K-means Ward
máximo médio (com (com (com (com
SOM) SOM) SOM) SOM)
56 0.37 0.41 0.41 0.50 0.41 0.38 - - - -
57 0.38 0.40 0.40 0.51 0.43 0.38 - - - -
58 0.38 0.40 0.40 0.52 0.41 0.38 - - - -
59 0.38 0.38 0.38 0.52 0.41 0.39 - - - -
60 0.39 0.38 0.38 0.50 0.41 0.38 - - - -
61 0.39 - - 0.51 0.41 0.39 - - - -
62 0.39 0.38 0.38 0.50 0.42 0.39 - - - -
63 0.38 0.39 0.39 0.49 0.41 0.39 - - - -
64 0.39 0.38 0.38 0.51 0.41 0.38 - - - -
65 0.39 0.38 0.38 0.51 0.41 0.39 - - - -
66 0.39 0.39 0.39 0.52 0.41 0.39 - - - -
67 0.38 0.40 0.40 0.53 0.42 0.39 - - - -
68 0.37 0.38 0.38 0.52 0.42 0.39 - - - -
69 0.38 0.39 0.38 0.49 0.41 0.39 - - - -
70 0.38 0.40 0.40 0.51 0.41 0.39 - - - -
71 0.39 0.39 0.39 0.49 0.41 0.39 - - - -
72 0.38 0.39 0.39 0.51 0.41 0.40 - - - -
73 0.37 0.39 0.39 0.51 0.42 0.39 - - - -
74 0.38 0.39 0.39 0.50 0.43 0.39 - - - -
75 0.38 0.39 0.39 0.49 0.42 0.40 - - - -

63
APÊNDICE A. Coerência CV com top-10 palavras para base Reuters
K-means K-means Ward Ward
MST MST máximo médio máximo médio
k LDA NMF K-means Ward
máximo médio (com (com (com (com
SOM) SOM) SOM) SOM)
76 0.38 0.40 0.40 0.50 0.42 0.39 - - - -
77 0.37 0.38 0.38 0.50 0.41 0.39 - - - -
78 0.38 0.39 0.39 0.50 0.42 0.39 - - - -
79 0.37 0.39 0.39 0.53 0.41 0.39 - - - -
80 0.37 0.39 0.39 0.53 0.42 0.39 - - - -
81 0.38 0.38 0.38 0.50 0.43 0.40 - - - -
82 0.37 - - 0.51 0.40 0.39 - - - -
83 0.37 0.42 0.42 0.51 0.41 0.39 - - - -
84 0.38 0.40 0.40 0.51 0.41 0.39 - - - -
85 0.37 - - 0.49 0.41 0.39 - - - -
86 0.38 0.39 0.39 0.50 0.40 0.39 - - - -
87 0.38 0.39 0.39 0.52 0.42 0.40 - - - -
88 0.37 0.38 0.38 0.52 0.41 0.39 - - - -
89 0.37 0.37 0.37 0.52 0.43 0.40 - - - -
90 0.37 0.38 0.38 0.50 0.42 0.40 - - - -
91 0.38 - - 0.52 0.43 0.40 - - - -
92 0.38 0.40 0.40 0.52 0.41 0.39 - - - -
93 0.37 0.40 0.40 0.51 0.41 0.40 - - - -
94 0.38 0.38 0.38 0.50 0.42 0.40 - - - -
95 0.38 - - 0.49 0.41 0.39 - - - -

64
APÊNDICE A. Coerência CV com top-10 palavras para base Reuters
K-means K-means Ward Ward
MST MST máximo médio máximo médio
k LDA NMF K-means Ward
máximo médio (com (com (com (com
SOM) SOM) SOM) SOM)
96 0.37 - - 0.51 0.43 0.41 - - - -
97 0.39 - - 0.51 0.37 0.37 - - - -
98 0.38 - - 0.52 0.42 0.40 - - - -
99 0.37 - - 0.49 0.41 0.39 - - - -
100 0.37 - - 0.49 - - - - - -
Tabela 18 – Coerência CV com top-10 palavras para base
Reuters

65
APÊNDICE B – Coerência CV com top-20 palavras para base
Reuters

K-means K-means Ward Ward


MST MST máximo médio máximo médio
k LDA NMF K-means Ward
máximo médio (com (com (com (com
SOM) SOM) SOM) SOM)
2 0.29 0.68 0.68 0.33 0.68 0.64 0.66 0.67 0.65 0.68
3 0.29 0.59 0.59 0.38 0.66 0.63 0.60 0.63 0.62 0.65
4 0.26 0.60 0.60 0.41 0.60 0.58 0.57 0.60 0.58 0.62
5 0.27 0.61 0.61 0.44 0.59 0.55 0.52 0.58 0.57 0.54
6 0.29 - - 0.40 0.56 0.53 0.54 0.58 0.55 0.52
7 0.29 0.56 0.56 0.43 0.56 0.51 0.51 0.56 0.53 0.51
8 0.30 0.54 0.54 0.42 0.56 0.52 0.48 0.55 0.53 0.50
9 0.26 0.53 0.53 0.45 0.54 0.50 0.45 0.56 0.53 0.50
10 0.28 0.59 0.59 0.47 0.55 0.49 0.47 0.56 0.52 0.48
11 0.28 0.51 0.51 0.44 0.54 0.48 0.45 0.54 0.51 0.46
12 0.27 0.53 0.53 0.46 0.53 0.47 0.41 0.55 0.51 0.44
13 0.29 0.53 0.52 0.46 0.53 0.46 0.41 0.55 0.51 0.44
14 0.30 - - 0.42 0.54 0.46 0.40 0.54 0.52 0.44
15 0.29 0.52 0.52 0.43 0.54 0.45 0.40 0.54 0.51 0.42

66
APÊNDICE B. Coerência CV com top-20 palavras para base Reuters
K-means K-means Ward Ward
MST MST máximo médio máximo médio
k LDA NMF K-means Ward
máximo médio (com (com (com (com
SOM) SOM) SOM) SOM)
16 0.28 - - 0.44 0.53 0.45 0.42 0.53 0.49 0.44
17 0.27 0.54 0.52 0.45 0.51 0.44 0.38 0.51 0.49 0.44
18 0.29 - - 0.46 0.51 0.44 0.39 0.50 0.48 0.45
19 0.27 0.51 0.51 0.45 0.50 0.44 0.40 0.50 0.48 0.45
20 0.30 0.52 0.52 0.43 0.52 0.44 0.41 0.49 0.48 0.46
21 0.29 0.53 0.53 0.45 0.51 0.44 0.40 0.49 0.47 0.45
22 0.30 - - 0.46 0.50 0.43 0.39 0.49 0.47 0.45
23 0.30 0.51 0.51 0.47 0.52 0.43 0.44 0.48 0.47 0.44
24 0.30 0.52 0.52 0.45 0.49 0.43 0.42 0.49 0.47 0.44
25 0.29 - - 0.45 0.51 0.42 0.40 0.45 0.45 0.44
26 0.29 0.52 0.51 0.47 0.49 0.42 0.41 0.45 0.45 0.44
27 0.29 0.51 0.51 0.46 0.49 0.43 0.40 0.45 0.45 0.44
28 0.28 - - 0.45 0.50 0.43 0.39 0.45 0.45 0.45
29 0.30 0.51 0.51 0.45 0.50 0.43 0.44 0.46 0.46 -
30 0.28 0.50 0.50 0.43 0.49 0.42 - 0.46 0.46 -
31 0.29 0.50 0.50 0.45 0.48 0.42 - 0.46 0.46 -
32 0.29 0.51 0.51 0.46 0.49 0.42 - 0.45 0.45 -
33 0.29 0.52 0.52 0.43 0.48 0.42 0.42 0.46 0.46 -
34 0.29 0.51 0.51 0.45 0.47 0.42 - 0.46 0.46 -
35 0.29 0.49 0.49 0.48 0.50 0.43 - 0.46 0.46 -

67
APÊNDICE B. Coerência CV com top-20 palavras para base Reuters
K-means K-means Ward Ward
MST MST máximo médio máximo médio
k LDA NMF K-means Ward
máximo médio (com (com (com (com
SOM) SOM) SOM) SOM)
36 0.29 0.49 0.49 0.44 0.49 0.42 - - - -
37 0.30 0.51 0.51 0.47 0.45 0.42 - - - -
38 0.29 0.50 0.50 0.45 0.45 0.42 - - - -
39 0.29 0.50 0.50 0.45 0.45 0.42 - - - -
40 0.30 0.51 0.51 0.46 0.45 0.42 - - - -
41 0.29 0.51 0.51 0.43 0.45 0.42 - - - -
42 0.28 - - 0.47 0.44 0.42 - - - -
43 0.29 0.50 0.50 0.44 0.44 0.42 - - - -
44 0.31 0.51 0.51 0.46 0.44 0.42 - - - -
45 0.29 0.48 0.48 0.46 0.44 0.42 - - - -
46 0.30 0.50 0.50 0.46 0.45 0.42 - - - -
47 0.28 - - 0.45 0.44 0.42 - - - -
48 0.29 0.50 0.50 0.45 0.45 0.42 - - - -
49 0.28 0.50 0.50 0.44 0.43 0.42 - - - -
50 0.30 0.50 0.50 0.41 0.43 0.42 - - - -
51 0.29 0.49 0.49 0.45 0.44 0.42 - - - -
52 0.30 0.49 0.49 0.43 0.43 0.42 - - - -
53 0.29 0.50 0.48 0.44 0.43 0.42 - - - -
54 0.29 - - 0.43 0.43 0.42 - - - -
55 0.28 0.49 0.49 0.45 0.43 0.42 - - - -

68
APÊNDICE B. Coerência CV com top-20 palavras para base Reuters
K-means K-means Ward Ward
MST MST máximo médio máximo médio
k LDA NMF K-means Ward
máximo médio (com (com (com (com
SOM) SOM) SOM) SOM)
56 0.29 0.51 0.51 0.44 0.43 0.42 - - - -
57 0.30 0.50 0.50 0.44 0.44 0.42 - - - -
58 0.30 0.51 0.51 0.45 0.43 0.42 - - - -
59 0.30 0.48 0.48 0.45 0.44 0.42 - - - -
60 0.29 0.48 0.48 0.43 0.44 0.42 - - - -
61 0.30 - - 0.47 0.44 0.42 - - - -
62 0.29 0.48 0.48 0.43 0.44 0.42 - - - -
63 0.29 0.49 0.49 0.43 0.44 0.43 - - - -
64 0.29 0.49 0.49 0.44 0.42 0.42 - - - -
65 0.30 0.50 0.50 0.45 - - - - - -
66 0.30 0.49 0.49 0.45 0.42 0.42 - - - -
67 0.29 0.49 0.49 0.45 0.41 0.41 - - - -
68 0.29 0.49 0.49 0.46 - - - - - -
69 0.29 0.49 0.49 0.43 - - - - - -
70 0.29 0.50 0.50 0.45 0.42 0.42 - - - -
71 0.29 0.49 0.49 0.43 - - - - - -
72 0.29 0.49 0.49 0.44 0.42 0.42 - - - -
73 0.29 0.49 0.49 0.43 - - - - - -
74 0.29 0.51 0.51 0.44 - - - - - -
75 0.30 0.49 0.49 0.44 - - - - - -

69
APÊNDICE B. Coerência CV com top-20 palavras para base Reuters
K-means K-means Ward Ward
MST MST máximo médio máximo médio
k LDA NMF K-means Ward
máximo médio (com (com (com (com
SOM) SOM) SOM) SOM)
76 0.29 0.49 0.49 0.43 - - - - - -
77 0.29 0.49 0.49 0.42 - - - - - -
78 0.30 0.49 0.49 0.44 - - - - - -
79 0.29 0.49 0.49 0.44 - - - - - -
80 0.29 0.50 0.50 0.46 - - - - - -
81 0.29 0.49 0.49 0.43 - - - - - -
82 0.29 - - 0.44 - - - - - -
83 0.28 0.51 0.51 0.45 - - - - - -
84 0.29 0.51 0.51 0.43 - - - - - -
85 0.29 - - 0.42 - - - - - -
86 0.29 0.49 0.49 0.44 - - - - - -
87 0.29 0.49 0.49 0.45 - - - - - -
88 0.29 - - 0.44 - - - - - -
89 0.29 0.49 0.49 0.44 - - - - - -
90 0.29 - - 0.43 - - - - - -
91 0.29 - - 0.44 - - - - - -
92 0.29 0.50 0.50 0.44 - - - - - -
93 0.29 0.50 0.50 0.45 - - - - - -
94 0.29 - - 0.43 - - - - - -
95 0.29 - - 0.43 - - - - - -

70
APÊNDICE B. Coerência CV com top-20 palavras para base Reuters
K-means K-means Ward Ward
MST MST máximo médio máximo médio
k LDA NMF K-means Ward
máximo médio (com (com (com (com
SOM) SOM) SOM) SOM)
96 0.29 - - 0.43 - - - - - -
97 0.30 - - 0.43 - - - - - -
98 0.30 - - 0.44 - - - - - -
99 0.29 - - 0.43 - - - - - -
100 0.28 - - 0.43 - - - - - -
Tabela 19 – Coerência CV com top-20 palavras para base
Reuters

71
APÊNDICE C – Coerência W2V com top-10 palavras para
base Reuters

K-means K-means Ward Ward


MST MST máximo médio máximo médio
k LDA NMF K-means Ward
máximo médio (com (com (com (com
SOM) SOM) SOM) SOM)
2 0.26 0.46 0.46 0.25 0.58 0.55 0.57 0.61 0.57 0.42
3 0.28 0.44 0.44 0.28 0.64 0.59 0.64 0.64 0.61 0.52
4 0.26 0.50 0.50 0.31 0.65 0.62 0.66 0.64 0.63 0.53
5 0.27 0.47 0.47 0.33 0.67 0.62 0.66 0.61 0.60 0.57
6 0.27 - - 0.30 0.67 0.63 0.66 0.62 0.59 0.60
7 0.25 0.53 0.53 0.33 0.67 0.64 0.67 0.62 0.60 0.59
8 0.26 0.53 0.53 0.34 0.66 0.63 0.68 0.63 0.60 0.60
9 0.25 0.50 0.50 0.33 0.67 0.64 0.69 0.64 0.61 0.60
10 0.26 0.46 0.46 0.35 0.67 0.64 0.69 0.64 0.60 0.63
11 0.26 0.49 0.49 0.36 0.68 0.64 0.70 0.63 0.60 0.66
12 0.28 0.52 0.52 0.33 0.67 0.64 0.70 0.62 0.60 0.67
13 0.25 0.52 0.51 0.33 0.68 0.65 0.69 0.61 0.59 0.67
14 0.26 - - 0.33 0.68 0.65 0.70 0.61 0.59 0.66
15 0.26 0.49 0.49 0.33 0.69 0.65 0.69 0.61 0.59 0.68

72
APÊNDICE C. Coerência W2V com top-10 palavras para base Reuters
K-means K-means Ward Ward
MST MST máximo médio máximo médio
k LDA NMF K-means Ward
máximo médio (com (com (com (com
SOM) SOM) SOM) SOM)
16 0.27 - - 0.35 0.70 0.66 0.69 0.62 0.59 0.68
17 0.24 0.49 0.49 0.35 0.69 0.66 0.71 0.62 0.60 0.69
18 0.26 - - 0.36 0.69 0.66 0.71 0.61 0.60 0.69
19 0.26 0.52 0.51 0.31 0.70 0.66 0.71 0.62 0.60 0.69
20 0.26 0.48 0.48 0.35 0.70 0.66 0.71 0.60 0.59 0.69
21 0.28 0.48 0.48 0.36 0.70 0.66 0.71 0.61 0.59 0.70
22 0.27 - - 0.36 0.70 0.67 0.71 0.61 0.59 0.69
23 0.27 0.50 0.50 0.35 0.71 0.67 0.70 0.61 0.59 0.69
24 0.28 0.49 0.49 0.36 0.71 0.67 0.71 0.61 0.60 0.69
25 0.26 - - 0.36 0.71 0.67 0.70 0.60 0.60 0.69
26 0.26 0.52 0.51 0.38 0.71 0.67 0.72 0.60 0.60 0.70
27 0.27 0.50 0.49 0.36 0.71 0.67 0.71 0.60 0.60 0.70
28 0.27 - - 0.35 0.72 0.68 0.72 0.60 0.60 0.70
29 0.26 0.47 0.47 0.36 0.72 0.68 0.71 0.60 0.60 -
30 0.26 0.47 0.47 0.33 0.72 0.68 - 0.60 0.60 -
31 0.27 0.46 0.46 0.36 0.70 0.67 - 0.60 0.60 -
32 0.26 0.46 0.46 0.35 0.71 0.67 - 0.60 0.60 -
33 0.25 0.46 0.46 0.33 0.71 0.68 0.71 0.60 0.60 -
34 0.26 0.46 0.46 0.34 0.71 0.67 0.71 0.60 0.60 -
35 0.27 0.48 0.47 0.36 0.71 0.67 0.71 0.60 0.60 -

73
APÊNDICE C. Coerência W2V com top-10 palavras para base Reuters
K-means K-means Ward Ward
MST MST máximo médio máximo médio
k LDA NMF K-means Ward
máximo médio (com (com (com (com
SOM) SOM) SOM) SOM)
36 0.28 0.46 0.46 0.36 0.70 0.67 0.71 - - -
37 0.27 0.47 0.47 0.35 0.70 0.67 0.71 - - -
38 0.27 0.45 0.45 0.35 0.71 0.67 - - - -
39 0.26 0.45 0.45 0.33 0.70 0.67 - - - -
40 0.27 0.45 0.45 0.36 0.71 0.67 0.72 - - -
41 0.26 0.44 0.44 0.33 0.70 0.67 - - - -
42 0.26 - - 0.37 0.71 0.67 - - - -
43 0.27 0.47 0.47 0.35 0.70 0.67 0.71 - - -
44 0.27 0.43 0.43 0.35 0.71 0.67 - - - -
45 0.26 0.44 0.44 0.35 0.71 0.66 0.70 - - -
46 0.27 0.45 0.45 0.35 0.70 0.67 - - - -
47 0.27 - - 0.34 0.70 0.67 0.72 - - -
48 0.26 0.45 0.45 0.35 0.70 0.67 - - - -
49 0.26 0.45 0.45 0.35 0.71 0.67 - - - -
50 0.27 0.44 0.44 0.33 0.70 0.67 - - - -
51 0.26 0.45 0.44 0.34 0.70 0.67 - - - -
52 0.27 0.46 0.46 0.34 0.70 0.67 - - - -
53 0.26 0.47 0.45 0.35 0.70 0.67 - - - -
54 0.26 - - 0.35 0.70 0.66 - - - -
55 0.26 0.45 0.45 0.35 0.69 0.66 - - - -

74
APÊNDICE C. Coerência W2V com top-10 palavras para base Reuters
K-means K-means Ward Ward
MST MST máximo médio máximo médio
k LDA NMF K-means Ward
máximo médio (com (com (com (com
SOM) SOM) SOM) SOM)
56 0.26 0.43 0.43 0.34 0.70 0.66 - - - -
57 0.26 0.42 0.42 0.36 0.70 0.66 - - - -
58 0.26 0.42 0.42 0.36 0.70 0.66 - - - -
59 0.27 0.45 0.45 0.35 0.70 0.66 - - - -
60 0.27 0.45 0.45 0.35 0.70 0.66 - - - -
61 0.27 - - 0.34 0.70 0.66 - - - -
62 0.27 0.44 0.44 0.34 0.70 0.66 - - - -
63 0.26 0.44 0.44 0.33 0.70 0.66 - - - -
64 0.27 0.45 0.45 0.35 0.70 0.66 - - - -
65 0.26 0.43 0.43 0.35 0.69 0.66 - - - -
66 0.27 0.43 0.43 0.35 0.69 0.66 - - - -
67 0.26 0.42 0.42 0.37 0.69 0.66 - - - -
68 0.26 0.43 0.43 0.36 0.69 0.66 - - - -
69 0.26 0.44 0.43 0.34 0.69 0.66 - - - -
70 0.27 0.44 0.44 0.34 0.69 0.66 - - - -
71 0.27 0.42 0.42 0.34 0.69 0.66 - - - -
72 0.25 0.42 0.42 0.35 0.69 0.66 - - - -
73 0.26 0.42 0.42 0.35 0.70 0.66 - - - -
74 0.27 0.42 0.42 0.35 0.70 0.66 - - - -
75 0.26 0.42 0.42 0.33 0.69 0.66 - - - -

75
APÊNDICE C. Coerência W2V com top-10 palavras para base Reuters
K-means K-means Ward Ward
MST MST máximo médio máximo médio
k LDA NMF K-means Ward
máximo médio (com (com (com (com
SOM) SOM) SOM) SOM)
76 0.26 0.41 0.41 0.33 0.69 0.64 - - - -
77 0.26 0.43 0.43 0.34 0.69 0.65 - - - -
78 0.26 0.42 0.42 0.34 0.69 0.65 - - - -
79 0.26 0.43 0.43 0.36 0.69 0.64 - - - -
80 0.25 0.41 0.41 0.36 0.69 0.64 - - - -
81 0.26 0.42 0.42 0.34 0.69 0.67 - - - -
82 0.25 - - 0.34 0.68 0.65 - - - -
83 0.25 0.40 0.40 0.35 0.69 0.65 - - - -
84 0.26 0.39 0.39 0.35 0.69 0.66 - - - -
85 0.25 - - 0.34 0.68 0.65 - - - -
86 0.27 0.42 0.42 0.34 0.69 0.65 - - - -
87 0.26 0.41 0.41 0.35 0.69 0.66 - - - -
88 0.25 0.41 0.41 0.36 0.68 0.65 - - - -
89 0.26 0.41 0.41 0.35 0.69 0.66 - - - -
90 0.25 0.40 0.40 0.33 0.69 0.66 - - - -
91 0.26 - - 0.35 0.69 0.66 - - - -
92 0.26 0.38 0.38 0.35 0.69 0.63 - - - -
93 0.26 0.38 0.38 0.35 0.69 0.65 - - - -
94 0.26 0.38 0.38 0.35 0.69 0.66 - - - -
95 0.25 - - 0.34 0.67 0.62 - - - -

76
APÊNDICE C. Coerência W2V com top-10 palavras para base Reuters
K-means K-means Ward Ward
MST MST máximo médio máximo médio
k LDA NMF K-means Ward
máximo médio (com (com (com (com
SOM) SOM) SOM) SOM)
96 0.26 - - 0.35 0.69 0.65 - - - -
97 0.27 - - 0.34 0.57 0.57 - - - -
98 0.26 - - 0.35 0.69 0.65 - - - -
99 0.26 - - 0.34 0.69 0.63 - - - -
100 0.26 - - 0.34 - - - - - -
Tabela 20 – Coerência W2V com top-10 palavras para
base Reuters

77
APÊNDICE D – Coerência W2V com top-20 palavras para
base Reuters

K-means K-means Ward Ward


MST MST máximo médio máximo médio
k LDA NMF K-means Ward
máximo médio (com (com (com (com
SOM) SOM) SOM) SOM)
2 0.16 0.38 0.38 0.18 0.52 0.49 0.49 0.53 0.49 0.33
3 0.19 0.38 0.38 0.23 0.55 0.52 0.56 0.56 0.53 0.47
4 0.16 0.42 0.42 0.26 0.56 0.55 0.56 0.58 0.55 0.48
5 0.16 0.41 0.41 0.30 0.59 0.55 0.57 0.55 0.53 0.52
6 0.17 - - 0.25 0.61 0.56 0.58 0.57 0.53 0.54
7 0.18 0.46 0.46 0.27 0.60 0.56 0.60 0.58 0.54 0.54
8 0.19 0.45 0.45 0.29 0.59 0.56 0.61 0.59 0.54 0.54
9 0.16 0.45 0.45 0.28 0.60 0.57 0.63 0.58 0.54 0.54
10 0.18 0.39 0.39 0.27 0.61 0.57 0.63 0.57 0.52 0.55
11 0.17 0.43 0.43 0.29 0.61 0.57 0.63 0.56 0.53 0.58
12 0.17 0.43 0.43 0.28 0.61 0.57 0.62 0.55 0.53 0.59
13 0.18 0.44 0.44 0.29 0.61 0.58 0.62 0.54 0.53 0.59
14 0.20 - - 0.28 0.61 0.58 0.63 0.54 0.52 0.59
15 0.19 0.42 0.42 0.27 0.62 0.58 0.62 0.55 0.52 0.60

78
APÊNDICE D. Coerência W2V com top-20 palavras para base Reuters
K-means K-means Ward Ward
MST MST máximo médio máximo médio
k LDA NMF K-means Ward
máximo médio (com (com (com (com
SOM) SOM) SOM) SOM)
16 0.18 - - 0.29 0.62 0.59 0.62 0.55 0.52 0.61
17 0.17 0.43 0.41 0.28 0.62 0.59 0.64 0.56 0.53 0.61
18 0.18 - - 0.29 0.62 0.59 0.64 0.55 0.53 0.61
19 0.17 0.43 0.42 0.28 0.62 0.59 0.64 0.55 0.53 0.62
20 0.18 0.41 0.41 0.27 0.63 0.59 0.64 0.54 0.52 0.61
21 0.18 0.39 0.39 0.29 0.62 0.59 0.64 0.54 0.52 0.61
22 0.18 - - 0.29 0.63 0.59 0.64 0.54 0.52 0.61
23 0.19 0.40 0.40 0.29 0.64 0.59 0.63 0.54 0.52 0.62
24 0.19 0.42 0.42 0.29 0.63 0.59 0.63 0.55 0.53 0.61
25 0.17 - - 0.29 0.63 0.60 0.63 0.54 0.54 0.62
26 0.18 0.42 0.42 0.30 0.63 0.60 0.64 0.54 0.54 0.62
27 0.18 0.41 0.40 0.28 0.63 0.60 0.63 0.53 0.53 0.61
28 0.17 - - 0.28 0.63 0.60 0.64 0.53 0.53 0.61
29 0.19 0.38 0.38 0.30 0.63 0.60 0.64 0.53 0.53 -
30 0.18 0.40 0.40 0.27 0.63 0.60 - 0.53 0.53 -
31 0.18 0.38 0.38 0.29 0.63 0.59 - 0.52 0.52 -
32 0.18 0.38 0.38 0.29 0.63 0.60 - 0.53 0.53 -
33 0.17 0.36 0.36 0.28 0.63 0.60 0.64 0.53 0.53 -
34 0.17 0.37 0.37 0.28 0.63 0.60 - 0.52 0.52 -
35 0.18 0.38 0.38 0.30 0.63 0.60 - 0.52 0.52 -

79
APÊNDICE D. Coerência W2V com top-20 palavras para base Reuters
K-means K-means Ward Ward
MST MST máximo médio máximo médio
k LDA NMF K-means Ward
máximo médio (com (com (com (com
SOM) SOM) SOM) SOM)
36 0.18 0.38 0.38 0.27 0.63 0.60 - - - -
37 0.19 0.37 0.37 0.29 0.62 0.60 - - - -
38 0.18 0.36 0.36 0.28 0.63 0.60 - - - -
39 0.18 0.36 0.36 0.28 0.62 0.60 - - - -
40 0.19 0.36 0.36 0.30 0.63 0.60 - - - -
41 0.18 0.36 0.36 0.27 0.63 0.60 - - - -
42 0.18 - - 0.29 0.63 0.61 - - - -
43 0.18 0.37 0.37 0.28 0.62 0.60 - - - -
44 0.19 0.36 0.36 0.29 0.62 0.60 - - - -
45 0.18 0.36 0.36 0.29 0.62 0.60 - - - -
46 0.19 0.36 0.36 0.28 0.62 0.60 - - - -
47 0.18 - - 0.28 0.63 0.60 - - - -
48 0.18 0.36 0.36 0.29 0.63 0.60 - - - -
49 0.17 0.36 0.36 0.28 0.63 0.60 - - - -
50 0.18 0.35 0.35 0.26 0.62 0.60 - - - -
51 0.18 0.35 0.34 0.29 0.62 0.61 - - - -
52 0.18 0.35 0.35 0.27 0.63 0.61 - - - -
53 0.18 0.36 0.36 0.27 0.62 0.60 - - - -
54 0.18 - - 0.27 0.62 0.59 - - - -
55 0.17 0.36 0.36 0.28 0.62 0.60 - - - -

80
APÊNDICE D. Coerência W2V com top-20 palavras para base Reuters
K-means K-means Ward Ward
MST MST máximo médio máximo médio
k LDA NMF K-means Ward
máximo médio (com (com (com (com
SOM) SOM) SOM) SOM)
56 0.18 0.33 0.33 0.27 0.62 0.60 - - - -
57 0.18 0.33 0.33 0.28 0.62 0.60 - - - -
58 0.19 0.34 0.34 0.29 0.62 0.60 - - - -
59 0.19 0.34 0.34 0.28 0.62 0.59 - - - -
60 0.18 0.35 0.35 0.28 0.62 0.59 - - - -
61 0.18 - - 0.29 0.62 0.58 - - - -
62 0.18 0.33 0.33 0.27 0.61 0.59 - - - -
63 0.18 0.33 0.33 0.27 0.62 0.58 - - - -
64 0.18 0.33 0.33 0.28 0.61 0.61 - - - -
65 0.19 0.32 0.32 0.28 - - - - - -
66 0.18 0.33 0.33 0.28 0.61 0.61 - - - -
67 0.18 0.32 0.32 0.29 0.61 0.61 - - - -
68 0.18 0.33 0.33 0.29 - - - - - -
69 0.18 0.33 0.33 0.27 - - - - - -
70 0.18 0.32 0.32 0.29 0.61 0.61 - - - -
71 0.19 0.32 0.32 0.28 - - - - - -
72 0.17 0.31 0.31 0.28 0.61 0.61 - - - -
73 0.18 0.31 0.31 0.27 - - - - - -
74 0.18 0.29 0.29 0.28 - - - - - -
75 0.18 0.30 0.30 0.28 - - - - - -

81
APÊNDICE D. Coerência W2V com top-20 palavras para base Reuters
K-means K-means Ward Ward
MST MST máximo médio máximo médio
k LDA NMF K-means Ward
máximo médio (com (com (com (com
SOM) SOM) SOM) SOM)
76 0.18 0.30 0.30 0.27 - - - - - -
77 0.17 0.30 0.30 0.27 - - - - - -
78 0.18 0.30 0.30 0.28 - - - - - -
79 0.18 0.31 0.31 0.27 - - - - - -
80 0.18 0.29 0.29 0.29 - - - - - -
81 0.18 0.29 0.29 0.27 - - - - - -
82 0.18 - - 0.27 - - - - - -
83 0.17 0.28 0.28 0.28 - - - - - -
84 0.18 0.28 0.28 0.27 - - - - - -
85 0.18 - - 0.26 - - - - - -
86 0.18 0.29 0.29 0.28 - - - - - -
87 0.19 0.29 0.29 0.28 - - - - - -
88 0.17 - - 0.28 - - - - - -
89 0.18 0.29 0.29 0.28 - - - - - -
90 0.17 - - 0.27 - - - - - -
91 0.18 - - 0.28 - - - - - -
92 0.18 0.26 0.26 0.28 - - - - - -
93 0.17 0.27 0.27 0.28 - - - - - -
94 0.18 - - 0.28 - - - - - -
95 0.18 - - 0.27 - - - - - -

82
APÊNDICE D. Coerência W2V com top-20 palavras para base Reuters
K-means K-means Ward Ward
MST MST máximo médio máximo médio
k LDA NMF K-means Ward
máximo médio (com (com (com (com
SOM) SOM) SOM) SOM)
96 0.18 - - 0.27 - - - - - -
97 0.18 - - 0.27 - - - - - -
98 0.18 - - 0.27 - - - - - -
99 0.18 - - 0.27 - - - - - -
100 0.17 - - 0.27 - - - - - -
Tabela 21 – Coerência W2V com top-20 palavras para
base Reuters

83
APÊNDICE E – Coerência CV com top-10 palavras para base
Twenty Newsgroups

K-means K-means Ward Ward


MST MST máximo médio máximo médio
k LDA NMF K-means Ward
máximo médio (com (com (com (com
SOM) SOM) SOM) SOM)
2 0.69 0.57 0.57 0.61 0.65 0.63 0.61 0.67 0.63 0.62
3 0.67 0.59 0.59 0.71 0.59 0.56 0.58 0.60 0.57 0.59
4 0.70 0.57 0.57 0.74 0.58 0.54 0.53 0.59 0.53 0.56
5 0.71 0.53 0.53 0.70 0.55 0.51 0.49 0.56 0.51 0.52
6 0.63 - - 0.76 0.55 0.49 0.44 0.53 0.49 0.55
7 0.58 0.49 0.49 0.69 0.54 0.48 0.44 0.53 0.48 0.51
8 0.68 0.46 0.46 0.72 0.53 0.47 0.41 0.53 0.47 0.48
9 0.65 0.48 0.48 0.68 0.51 0.46 0.42 0.51 0.45 0.47
10 0.73 0.51 0.51 0.69 0.50 0.45 0.41 0.50 0.44 0.45
11 0.65 0.51 0.51 0.71 0.48 0.44 0.40 0.49 0.43 0.43
12 0.64 0.49 0.49 0.67 0.48 0.43 0.40 0.48 0.43 0.42
13 0.67 0.51 0.49 0.67 0.47 0.42 0.37 0.48 0.42 0.41
14 0.61 - - 0.72 0.49 0.42 0.40 0.49 0.42 0.40
15 0.70 0.47 0.47 0.66 0.48 0.42 0.38 0.48 0.42 0.40

84
APÊNDICE E. Coerência CV com top-10 palavras para base Twenty Newsgroups
K-means K-means Ward Ward
MST MST máximo médio máximo médio
k LDA NMF K-means Ward
máximo médio (com (com (com (com
SOM) SOM) SOM) SOM)
16 0.63 - - 0.68 0.47 0.41 0.39 0.46 0.41 0.43
17 0.66 0.49 0.47 0.69 0.48 0.41 0.39 0.47 0.41 0.43
18 0.65 - - 0.65 0.47 0.41 0.41 0.45 0.41 0.42
19 0.63 0.48 0.48 0.64 0.45 0.41 0.39 0.45 0.41 0.42
20 0.64 0.45 0.45 0.62 0.45 0.41 0.39 0.45 0.41 0.40
21 0.65 0.46 0.46 0.63 0.45 0.40 0.40 0.45 0.41 0.42
22 0.63 - - 0.69 0.45 0.41 0.42 0.45 0.41 0.42
23 0.64 0.47 0.47 0.66 0.46 0.40 0.40 0.45 0.41 0.42
24 0.64 0.46 0.46 0.60 0.44 0.40 0.42 0.45 0.41 0.44
25 0.66 - - 0.67 0.45 0.40 0.41 0.45 0.40 0.44
26 0.66 0.47 0.47 0.61 0.44 0.40 0.40 0.46 0.40 0.44
27 0.63 0.47 0.46 0.64 0.46 0.41 - 0.46 0.40 0.44
28 0.64 - - 0.60 0.44 0.40 0.38 0.46 0.40 0.43
29 0.64 0.45 0.45 0.66 0.43 0.40 0.41 0.46 0.40 0.43
30 0.65 0.47 0.47 0.68 0.44 0.41 - 0.46 0.41 -
Tabela 22 – Coerência CV com top-10 palavras para base
Twenty Newsgroups

85
APÊNDICE F – Coerência CV com top-20 palavras para base
Twenty Newsgroups

K-means K-means Ward Ward


MST MST máximo médio máximo médio
k LDA NMF K-means Ward
máximo médio (com (com (com (com
SOM) SOM) SOM) SOM)
2 0.56 0.66 0.66 0.55 0.74 0.71 0.71 0.75 0.73 0.71
3 0.55 0.68 0.68 0.68 0.71 0.68 0.71 0.72 0.69 0.69
4 0.57 0.68 0.68 0.68 0.69 0.66 0.67 0.70 0.66 0.67
5 0.56 0.66 0.66 0.65 0.67 0.64 0.62 0.68 0.64 0.66
6 0.53 - - 0.71 0.66 0.62 0.57 0.66 0.62 -
7 0.50 0.60 0.60 0.63 0.66 0.61 0.56 0.66 0.61 -
8 0.55 0.61 0.61 0.67 0.66 0.60 0.56 0.66 0.60 -
9 0.57 0.59 0.59 0.63 0.64 0.58 0.54 0.64 0.58 -
10 0.60 0.65 0.65 0.66 0.64 0.57 0.51 0.64 0.57 -
11 0.59 0.63 0.63 0.67 0.63 0.56 0.49 0.63 0.56 -
12 0.58 0.62 0.62 0.63 0.62 0.56 0.51 0.63 0.55 -
13 0.54 0.62 0.62 0.62 0.62 0.55 0.49 0.61 0.54 -
14 0.53 - - 0.67 0.62 0.54 0.53 0.62 0.55 -
15 0.57 0.61 0.61 0.59 0.61 0.54 0.50 0.61 0.54 -

86
APÊNDICE F. Coerência CV com top-20 palavras para base Twenty Newsgroups
K-means K-means Ward Ward
MST MST máximo médio máximo médio
k LDA NMF K-means Ward
máximo médio (com (com (com (com
SOM) SOM) SOM) SOM)
16 0.56 - - 0.61 0.61 0.53 0.49 0.61 0.53 -
17 0.56 0.60 0.59 0.66 0.61 0.53 0.48 0.61 0.53 -
18 0.55 - - 0.62 0.61 0.53 0.49 0.60 0.52 -
19 0.55 0.60 0.59 0.60 0.60 0.52 0.48 0.60 0.52 -
20 0.56 0.60 0.60 0.58 0.60 0.52 0.48 0.60 0.52 -
21 0.55 0.60 0.60 0.57 0.59 0.52 0.47 0.59 0.52 -
22 0.55 - - 0.63 0.59 0.52 0.49 0.59 0.52 -
23 0.55 0.59 0.59 0.57 0.59 0.52 0.48 0.59 0.52 -
24 0.56 0.59 0.59 0.55 0.59 0.51 0.48 0.59 0.51 -
25 0.55 - - 0.61 0.58 0.51 0.47 0.58 0.51 -
26 0.56 0.59 0.59 0.56 0.58 0.51 0.46 0.59 0.51 -
27 0.54 0.58 0.58 0.58 0.59 0.51 - 0.59 0.51 -
28 0.55 - - 0.54 0.58 0.51 0.46 0.58 0.50 -
29 0.55 0.58 0.58 0.59 0.58 0.51 - 0.59 0.51 -
30 0.55 0.58 0.58 0.61 0.58 0.51 - 0.58 0.50 -
Tabela 23 – Coerência CV com top-20 palavras para base
Twenty Newsgroups

87
APÊNDICE G – Coerência W2V com top-10 palavras para
base Twenty Newsgroups

K-means K-means Ward Ward


MST MST máximo médio máximo médio
k LDA NMF K-means Ward
máximo médio (com (com (com (com
SOM) SOM) SOM) SOM)
2 0.36 0.57 0.57 0.36 0.65 0.62 0.64 0.64 0.61 0.63
3 0.23 0.51 0.51 0.45 0.66 0.65 0.68 0.67 0.64 0.66
4 0.20 0.58 0.58 0.48 0.67 0.65 0.71 0.69 0.65 0.67
5 0.30 0.54 0.54 0.47 0.71 0.67 0.71 0.69 0.66 0.68
6 0.26 - - 0.48 0.72 0.69 0.73 0.71 0.68 0.68
7 0.24 0.60 0.60 0.47 0.73 0.70 0.72 0.73 0.69 0.68
8 0.32 0.57 0.57 0.44 0.74 0.70 0.72 0.72 0.69 0.70
9 0.24 0.57 0.57 0.46 0.74 0.70 0.72 0.72 0.69 0.71
10 0.32 0.52 0.52 0.43 0.74 0.70 0.72 0.73 0.70 0.71
11 0.28 0.52 0.52 0.45 0.74 0.70 0.73 0.73 0.70 0.72
12 0.29 0.54 0.54 0.43 0.74 0.71 0.73 0.74 0.70 0.72
13 0.30 0.57 0.56 0.43 0.74 0.71 0.75 0.74 0.70 0.73
14 0.25 - - 0.42 0.74 0.70 0.74 0.74 0.70 0.72
15 0.31 0.58 0.58 0.42 0.74 0.70 0.73 0.74 0.70 0.73

88
APÊNDICE G. Coerência W2V com top-10 palavras para base Twenty Newsgroups
K-means K-means Ward Ward
MST MST máximo médio máximo médio
k LDA NMF K-means Ward
máximo médio (com (com (com (com
SOM) SOM) SOM) SOM)
16 0.27 - - 0.44 0.74 0.71 0.74 0.74 0.70 0.74
17 0.29 0.61 0.59 0.46 0.74 0.71 0.74 0.74 0.70 0.74
18 0.31 - - 0.44 0.74 0.71 0.74 0.74 0.70 0.74
19 0.26 0.59 0.58 0.41 0.75 0.70 0.75 0.73 0.70 0.73
20 0.29 0.60 0.60 0.41 0.73 0.70 0.74 0.73 0.70 0.73
21 0.30 0.59 0.59 0.42 0.74 0.70 0.74 0.73 0.70 0.73
22 0.30 - - 0.43 0.73 0.70 0.74 0.73 0.70 0.74
23 0.28 0.58 0.58 0.44 0.74 0.70 0.74 0.73 0.70 0.74
24 0.27 0.59 0.59 0.38 0.73 0.70 0.75 0.73 0.70 0.74
25 0.32 - - 0.44 0.75 0.70 0.74 0.73 0.70 0.74
26 0.29 0.59 0.58 0.40 0.73 0.70 0.75 0.73 0.70 0.74
27 0.27 0.59 0.58 0.41 0.74 0.70 - 0.73 0.70 0.73
28 0.27 - - 0.39 0.73 0.70 0.74 0.73 0.70 0.73
29 0.30 0.60 0.60 0.42 0.74 0.70 0.74 0.73 0.70 0.73
30 0.31 0.58 0.58 0.42 0.74 0.70 - 0.74 0.70 -
Tabela 24 – Coerência W2V com top-10 palavras para
base Twenty Newsgroups

89
APÊNDICE H – Coerência W2V com top-20 palavras para
base Twenty Newsgroups

K-means K-means Ward Ward


MST MST máximo médio máximo médio
k LDA NMF K-means Ward
máximo médio (com (com (com (com
SOM) SOM) SOM) SOM)
2 0.18 0.52 0.52 0.28 0.57 0.55 0.57 0.57 0.55 0.55
3 0.12 0.45 0.45 0.38 0.60 0.59 0.61 0.61 0.58 0.60
4 0.13 0.48 0.48 0.40 0.61 0.60 0.65 0.62 0.60 0.62
5 0.16 0.49 0.49 0.37 0.65 0.62 0.66 0.63 0.61 0.63
6 0.15 - - 0.38 0.66 0.63 0.67 0.64 0.62 -
7 0.19 0.56 0.56 0.37 0.67 0.63 0.66 0.66 0.63 -
8 0.17 0.52 0.52 0.36 0.67 0.64 0.66 0.66 0.63 -
9 0.15 0.53 0.53 0.38 0.67 0.64 0.66 0.67 0.63 -
10 0.18 0.47 0.47 0.37 0.68 0.64 0.67 0.67 0.64 -
11 0.18 0.46 0.46 0.37 0.68 0.65 0.68 0.68 0.64 -
12 0.18 0.50 0.50 0.36 0.69 0.65 0.68 0.68 0.64 -
13 0.17 0.51 0.50 0.35 0.67 0.65 0.69 0.68 0.64 -
14 0.16 - - 0.35 0.69 0.65 0.68 0.68 0.64 -
15 0.18 0.53 0.53 0.34 0.68 0.65 0.68 0.68 0.64 -

90
APÊNDICE H. Coerência W2V com top-20 palavras para base Twenty Newsgroups
K-means K-means Ward Ward
MST MST máximo médio máximo médio
k LDA NMF K-means Ward
máximo médio (com (com (com (com
SOM) SOM) SOM) SOM)
16 0.18 - - 0.36 0.68 0.65 0.69 0.68 0.65 -
17 0.17 0.54 0.53 0.37 0.68 0.65 0.68 0.68 0.64 -
18 0.17 - - 0.36 0.68 0.65 0.69 0.68 0.64 -
19 0.16 0.53 0.52 0.34 0.68 0.65 0.69 0.67 0.64 -
20 0.17 0.53 0.53 0.34 0.68 0.65 0.68 0.67 0.64 -
21 0.18 0.53 0.53 0.34 0.68 0.64 0.69 0.67 0.64 -
22 0.18 - - 0.35 0.68 0.64 0.68 0.67 0.64 -
23 0.17 0.52 0.52 0.34 0.68 0.64 0.69 0.67 0.64 -
24 0.18 0.52 0.52 0.33 0.68 0.64 0.70 0.67 0.64 -
25 0.18 - - 0.36 0.68 0.64 0.69 0.67 0.64 -
26 0.18 0.52 0.51 0.33 0.68 0.64 0.70 0.67 0.64 -
27 0.18 0.51 0.51 0.34 0.68 0.64 - 0.67 0.64 -
28 0.16 - - 0.32 0.67 0.64 0.69 0.67 0.64 -
29 0.17 0.51 0.51 0.35 0.67 0.64 - 0.67 0.63 -
30 0.19 0.51 0.51 0.35 0.68 0.64 - 0.67 0.64 -
Tabela 25 – Coerência W2V com top-20 palavras para
base Twenty Newsgroups

91

Você também pode gostar