Escolar Documentos
Profissional Documentos
Cultura Documentos
PROGRAMA DE PÓS-GRADUAÇÃO EM
ENGENHARIA ELÉTRICA E COMPUTAÇÃO
São Paulo
2020
UNIVERSIDADE PRESBITERIANA MACKENZIE
PROGRAMA DE PÓS-GRADUAÇÃO EM
ENGENHARIA ELÉTRICA E COMPUTAÇÃO
São Paulo
2020
M672d Miranda, Guilherme Raiol de.
Detecção de tópicos em documentos usando agrupamento de vetores
de palavras. / Guilherme Raiol de Miranda.
91 f. : il. ; 30 cm
1
Observação: caso tenha usufruído mais de um apoio ou benefício, selecione-os.
GUILHERME RAIOL DE MIRANDA
BANCA EXAMINADORA
São Paulo
2020
Ao meu pai
Agradecimentos
Primeiramente ao meu pai, que apoiou e suportou todo meu estudo, mesmo nos
piores momentos. Que me incentivou a nunca ser o melhor, mas sempre fazer o máximo
para estar entre os melhores. Que sem ele eu nunca me tornaria metade da pessoa que
sou. E que mesmo sem nunca poder ver isso, teria orgulho do que me tornei.
À minha mãe, por toda luz, clareza e força que me proporciona a vida toda e que
inspira todas minhas conquistas.
Ao meu irmão, por mostrar a perspectiva do porque devo alcançar meus objetivos.
Ao meu orientador Prof. Dr. Leandro Nunes de Castro, por toda orientação em
minha formação de pesquisador.
Ao meu co-orientador Dr. Rodrigo Pasti, pela ideia do trabalho e por todo apoio
na jornada.
À CAPES e à Gerência de Responsabilidade Social e Filantropia do Instituto
Presbiteriano Mackenzie que possibilitaram o desenvolvimento dessa pesquisa.
“Eu prefiro ser essa metamorfose ambulante
Do que ter aquela velha opinião formada sobre tudo.”
(Raul Seixas)
Resumo
Com o aumento exponencial de textos gerados a cada ano, a procura de técnicas de Pro-
cessamento de Língua Natural vem aumentado, tanto por empresas, como pela Academia.
A detecção automática de tópicos em documentos é uma das tarefas mais desafiadoras e
úteis para a descoberta de informações e sumarização de documentos. Técnicas tradicio-
nais de detecção de tópicos, como a Latent Dirichlet Allocation (LDA) e a Non-Negative
Matrix Factorization (NMF), originalmente não produzem bons resultados para bases de
dados grandes, nem utilizam informações sintáticas e semânticas para geração de tópicos.
Recentemente, técnicas de vetorização de palavras, como o Word2Vec, provaram ter um
bom desempenho computacional em grandes conjuntos de dados e serem eficazes represen-
tando palavras como vetores de palavras de forma distribuída, mantendo as informações
sintáticas e semânticas. Esta dissertação propõe a verificação da seguinte questão de pes-
quisa: O Word2Vec é capaz de prover informações suficientes para a geração de tópicos
interpretáveis? Para a validação, foi proposto um método, denominado Word2Topic, com
duas abordagens para a geração dos tópicos: agrupamento direto dos vetores de palavras
e agrupamento após redução de dimensionalidade. O método foi aplicado em duas bases
referência da literatura e foi comparado com os algoritmos tradicionais por uma métrica
de interpretabilidade dos tópicos. Foi observado nos resultados que as técnicas propos-
tas em uma das bases de dados gerou conjuntos de palavras interpretáveis ou de classes
morfológicas similares. Os tópicos obtidos foram similares aos da técnica NMF, enquanto
a técnica LDA não conseguiu gerar tópicos interpretáveis. Não foi possível validar com-
pletamente a questão de pesquisa, pois os resultados da segunda base não permitiram a
mesma interpretabilidade ou geração de palavras morfologicamente similares.
1 INTRODUÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.1 Motivação e Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.2 Organização do Documento . . . . . . . . . . . . . . . . . . . . . . . 18
2 REFERENCIAL TEÓRICO . . . . . . . . . . . . . . . . . . . . . . . . 19
2.1 Detecção de Tópicos em Documentos . . . . . . . . . . . . . . . . 19
2.2 Medidas de Avaliação de Desempenho . . . . . . . . . . . . . . . . 20
2.3 Vetorização de Palavras . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.4 Agrupamento de Dados . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.4.1 Mapas Auto-Organizáveis . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.4.2 O Algoritmo K-Means . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.4.3 Método de Ward para Agrupamento Aglomerativo . . . . . . . . . . . 28
2.4.4 Árvore Geradora Mínima . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.5 Trabalhos Relacionados . . . . . . . . . . . . . . . . . . . . . . . . . 29
APÊNDICES 59
1 INTRODUÇÃO
A geração de novos dados vem crescendo exponencialmente nos últimos anos, atin-
gindo uma marca de 90 exabytes por dia no ano de 2018 e sendo projetada uma produção
diária de 479 exabytes no ano de 2025 (RYDNING, 2018). Estima-se que 80% dos da-
dos da Internet mundial é não estruturado como, por exemplo, imagens, vídeos e textos
(KHAN et al., 2014). Devido ao amplo alcance da Internet na sociedade e com um uso
intensivo de redes sociais, houve um crescimento massivo de dados textuais, o que permite
cada vez mais o uso de técnicas de Processamento de Língua Natural (Natural Language
Processing - NLP) para a extração de conhecimentos a partir desses dados.
Uma das ferramentas que mais ganha força atualmente para NLP é o Word2Vec,
um algoritmo desenvolvido por pesquisadores do Google que faz a representação das pala-
vras em um espaço vetorial n-dimensional, conservando as relações semânticas e sintáticas
entre as palavras dos textos de entrada (MIKOLOV et al., 2013a). Essa representação é co-
mumente chamada de representação distribuída de palavras ou word embeddings (HINTON
et al., 1986). A partir dos vetores podem-se aplicar técnicas que capturam as similaridades
por meio de operações vetoriais (LEVY; GOLDBERG, 2014) ou que os agrupem.
Para facilitar o agrupamento e a visualização, pode ser utilizada uma técnica de
redução de dimensionalidade, mas que permita uma representação mais fiel dos dados de
entrada, como o Mapa Auto-Organizável (Self-Organizing Map - SOM), conhecido tam-
bém como Mapa de Kohonen. Um SOM é uma rede neural de arquitetura simples (consiste
de unidades de processamento organizadas em um grid unidimensional ou bidimensional)
e um processo de aprendizagem de modelo competitivo (auto-organizado), em que cada
unidade competirá por entradas n-dimensionais e gerará um mapa uni- ou bidimensional
que representa a mesma topologia dos dados originais (KOHONEN, 1982).
A proposta desta dissertação é, a partir dos vetores de palavras gerados pelo
Word2Vec, elaborar um método para a extração automática de tópicos de documentos
representados por conjuntos de palavras próximas no espaço vetorial. O método proposto
será denominado de Word2Topic. A questão de pesquisa busca explorar se as caracterís-
ticas sintáticas e semânticas geradas pelo Word2Vec são suficientes para gerar tópicos e
como esses tópicos se comparam aos gerados por métodos padrões.
2 REFERENCIAL TEÓRICO
2. Cálculo de Probabilidades:
Capítulo 2. REFERENCIAL TEÓRICO 21
3. Medida de Confirmação
Para cada subconjunto Si é calculada a medida de confirmação φ, que mede o quanto
o conjunto W* suporta W, dada pela similaridade entre W e W*. São utilizados
métodos de confirmação direta e confirmação indireta.
Na confirmação direta são usados somente os valores das probabilidades das pala-
vras, seja no próprio texto ou num corpus externo, para medir o quando um conjunto
suporta o outro. Isso pode ser medido pela proporção logarítmica normalizada, cha-
mada também de NPMI (Normalized Pointwise Mutual Information - Informação
Mútua Ponto-a-Ponto Normalizada), dada pela Equação 2.1.
′ ∗
log PP (W
(W , W ) + ϵ
′ ) ∗ P (W ∗ )
N P M I (Si ) = (2.1)
−log (P (W ′ , W ∗ ) + ϵ)
A NPMI pertence ao intervalo [-1, 1]. O valor tenderá a -1 quanto menor a probabi-
lidade das palavras coocorrerem e tenderá a 1 quanto mais elas coocorrerem, sendo
exatamente 1 quando em todas ocasiões as palavras coocorrerem.
No entanto, há casos em que palavras podem estar inseridas em um mesmo con-
texto, mas não serem utilizadas normalmente em conjunto. Dessa forma, como as
confirmações diretas entre W’ e W* geralmente estão relacionadas, a similaridade
pode ser calculada indiretamente a partir dos valores de confirmação direta. Para o
cálculo da medida de confirmação indireta são criados os vetores ⃗u = ⃗v (W ′ = wi )
ew⃗ = ⃗v (W ∗ = W ). O vetor ⃗u, dado pela Equação 2.2, terá em cada posição j o
quanto a palavra wj suporta diretamente a palavra wi , havendo um vetor para cada
palavra. Já o vetor w
⃗ é único, dado pela soma de todos os vetores ⃗u, representando
assim o protótipo do grupo.
A similaridade φ entre ⃗u e w
⃗ é dada pela medida do cosseno, apresentada na Equação
2.3. Ela é calculada entre todos os vetores ⃗u, que representam todas as palavras wi ,
Capítulo 2. REFERENCIAL TEÓRICO 22
e w,
⃗ que representa o protótipo do grupo.
⃗u.w
⃗
φi (⃗u, w)
⃗ = (2.3)
∥⃗u∥.∥w∥⃗
4. Agregação
Para todas as medidas de similaridade φ⃗ = {φ1 , ..., φ|W | }, a agregação tira a média
aritmética de todos os valores, sendo esse o valor da coerência CV para o tópico.
Existem inúmeras outras medidas de coerência que podem ser construídas a partir
desse framework somente combinando e substituindo suas partes. Outra métrica que será
utilizada para verificar o desempenho do método proposto é a Coerência de Tópicos
Word2Vec - TC - W2V (Equação 2.4). Proposta por O’CALLAGHAN et al. (2015), essa
métrica substitui a confirmação direta com NPMI pela similaridade de cosseno a partir
dos vetores de palavras retornados pelo Word2Vec, uma rede neural de duas camadas que
será explorada mais a fundo na Seção 2.3. A medida calcula para cada tópico o quão
próximo no espaço vetorial estão os vetores de palavras.
1 ∑∑
N j−1
T C − W 2V = (N ) cosseno (wvj , wvi ) (2.4)
2 j=2 i=1
p1 p2 p3 ... pM
d1 a11 a12 a13 ... a1M
d2 a21 a22 a23 ... a2M
... ... ... ... ...
dN aN 1 aN 2 aN 3 ... aN M
Tabela 1 – Representação Bag-of-Words. Fonte: Adaptado de Matsubara, Martins e Mo-
nard (2003)
grandes quantidades de textos curtos, como os que são produzidos cada vez mais nas
redes sociais (CHENG et al., 2014). Quanto maior o número de documentos, a tendência
é que o número de palavras únicas também cresça, gerando vetores esparsos e com mui-
tas dimensões. Isso faz com que medidas de distância tradicionais não consigam capturar
bem a similaridade entre documentos (KIM; KIM; CHO, 2017). Outro problema com o
modelo de espaço vetorial é não levar em consideração a ordem das palavras nas frases, o
que pode trazer problemas quando o contexto da frase é importante para a análise.
Para resolver problemas como esses, foi proposto por HINTON et al. (1986) o
conceito de vetorização de palavras (word embeddings), que é uma forma de representar
palavras numericamente como vetores de valores reais, de uma forma que a representação
das palavras se torna distribuída. Por essa razão, esses métodos também são conhecidos
como geradores de representação distribuída de palavras. A vantagem dessas representa-
ções é que os vetores gerados preservam o significado semântico e sintático das palavras,
carregando os significados originais, sendo possível agrupar os vetores para obter pala-
vras com significados semelhantes (RUMELHART; HINTON; WILLIAMS, 1986). Um
dos problemas dessa abordagem é que há somente uma representação vetorial para cada
palavra, prejudicando palavras que contêm múltiplos significados (KEKEÇ; MAATEN;
TAX, 2018).
A partir do conceito de word embeddings, MIKOLOV et al. (2013a) propuseram
um modelo chamado Word2Vec, com o objetivo de gerar vetores de palavras com alta
qualidade utilizando bases com bilhões de palavras, sendo milhões de palavras únicas.
O Word2Vec é uma rede neural com somente uma camada intermediária que re-
cebe como entrada um vetor no formato one-hot-enconding (Codificação Binária) baseado
no vocabulário, onde as palavras presentes têm valor 1 e as outras têm valor 0. A camada
intermediária calcula a probabilidade de palavras ocorrerem em um mesmo contexto e
a camada de saída possui a mesma dimensão da camada de entrada (MIKOLOV et al.,
2013a). O treinamento do Word2Vec pode ser feito por meio de dois algoritmos de apren-
dizagem supervisionada: Continuous Bag-Of-Words (CBOW) e Skip-gram.
O treinamento do algoritmo CBOW tem como objetivo prever uma palavra a partir
do contexto dela, ou seja, a partir das palavras de uma sentença ser possível descobrir
Capítulo 2. REFERENCIAL TEÓRICO 24
w(t − 2) w(t − 2)
w(t) w(t)
w(t + 1) w(t + 1)
w(t + 2) w(t + 2)
CBOW Skip-gram
com a diferença que a camada intermediária retorna como saída a média dos vetores de
contexto. Também é modificada a equação para atualização dos pesos, já que é necessária
para cada palavra de contexto na etapa de retropropagação do erro.
x1 ′ y1
Wv×n h1 Wn×v
x2 y2
h2
x3 y3
x4
.. .. .. y4
. .
hn
.
xv yv
Figura 2 – Rede Neural CBOW para uma palavra de contexto. Fonte: Adaptada de Rong
(2014)
1∑ ∑
T c
log p(wt+j |wt ) (2.5)
T t=1 j=−c; j̸=0
( ′ )
exp vwTO vwI
p(wO |wI ) = ∑V (2.6)
w=1 exp (vw′ T vwI )
w
⃗ rei
⃗ rainha ≈ w
w ⃗ rei − w
⃗ homem + w
⃗ mulher
w
⃗ homem
w
⃗ mulher
3. Agrupamento: pode ser efetuado por diferentes métodos e os grupos são hard (cada
objeto pertence a um único grupo) ou fuzzy (cada objeto possui um grau de perti-
nência variável a um ou mais grupos);
Capítulo 2. REFERENCIAL TEÓRICO 27
|gi | . |gj |
D(gi , gj ) = ∥gi − gj ∥2 (2.7)
|gi | + |gj |
3 WORD2TOPIC: UM MÉTODO DE
DETECÇÃO DE TÓPICOS EM
DOCUMENTOS USANDO AGRU-
PAMENTO DE VETORES DE
PALAVRAS
Detecção de Tópicos
Métodos
Estado da
Arte
Avaliação
Processamento Agrupamento dos
de Texto de Vetores de Resultados
Palavras
Redução de
Dimensionalidade
e Agrupamento
1. Processamento de Texto
2. Detecção de Tópicos
para cada tópico k, são considerados para a avaliação a média e o melhor valor para
cada k.
K-Means Ward
Técnica MST K-Means Ward NMF LDA
com SOM com SOM
Correlação
0.918 0.945 0.848 0.901 0.934 0.770 0.658
CV 10 e 20
Correlação
0.959 0.981 0.979 0.988 0.892 0.811 0.402
W2V 10 e 20
3.2.1.1 Coerência CV
A Coerência W2V mede o quanto as palavras de um tópico são semelhantes entre si,
utilizando a similaridade de cosseno entre os vetores de palavras. Quanto mais colineares
as palavras pertencentes a um tópico, mais próximo de 1 será o valor da métrica.
Como é possível ver na Figura 7, o K-Means, com e sem aplicação do SOM, obteve
os melhores resultados, estabilizando um pouco acima de 0.60. A técnica Ward também
estabilizou próximo a 0.60, enquanto com SOM ficou por volta de 0.50. A técnica MST
começou por volta de 0.40, mas decaiu para 0.30 após o valor de k passar de 40. Já as
técnicas NMF e LDA estabilizaram e nunca ultrapassaram 0.30 e 0.20, respectivamente.
Figura 7 – Coerência de tópicos W2V com as top-20 palavras para a base Reuters
CV começou a cair após esse ponto. A Tabela 3 traz os valores da coerência CV para
10 tópicos. A interpretação levará em conta as características das coerências CV e W2V
para analisar as diferenças entre os valores.
K-Means Ward
Técnica LDA MST NMF K-Means Ward
com SOM com SOM
Coerência 0.28 0.59 0.47 0.55 0.47 0.56 0.48
Tabela 3 – Valores de Coerência CV para 10 tópicos
barril de petróleo dos países da OPEC (Organização dos Países Exportadores de Petróleo),
como a Arábia Saudita.
Os algoritmos utilizam probabilidade para verificar se as palavras pertencem aos
grupos, o que possibilita que algumas palavras estejam em vários tópicos. Isso pode faci-
litar a geração de tópicos que utilizam as mesmas palavras em contextos diferentes, como
foi o caso do NMF, ou pode levar à criação de tópicos que são quase que totalmente
similares entre si e não agregam nada na avaliação do problema, como no caso do LDA.
O Word2Topic não permite a sobreposição de grupos, portanto os resultados não
conterão repetições de palavras em tópicos. Neste caso, foi possível perceber uma dife-
rença entre o significado dos tópicos gerados. Entre as técnicas que utilizaram o SOM, as
palavras geradas tendem a estar em uma mesma classe morfológica, como vários verbos
no mesmo tópico, ou classes morfológicas similares, como advérbios e adjetivos. Isso pode
ser visto em tópicos gerados pela MST (Tabela 6), como o tópico 1 que contém adjetivos
(“estressado”, “preocupado” e “cauteloso”), o tópico 5 que contém verbos no gerúndio
(“participando”, “estendendo”, “competindo”, “estabelecendo” e “suportando”) e verbos
conjugados no particípio passado (“removido”, “comercializado” e “respondido”).
Já os tópicos gerados sem o SOM tiveram a tendência de trazer palavras semantica-
mente similares, ou seja, teriam significados parecidos quando utilizadas em uma mesma
frase, ajudando a dar um contexto para a interpretação do conteúdo do tópico. Há tó-
picos como o 9 do K-Means (Tabela 8), que pode ser interpretado como exportação de
óleo vegetal, feijão, carne, grãos, laranjas e leite de países como o Quênia e Paquistão. O
tópico 10 contém palavras que podem se referir a um ataque à uma plataforma marítima
com milhares de feridos.
Quando uma técnica utilizada após o SOM é comparada com sua contraparte
sem utilizar o SOM, os resultados da Coerência CV são ligeiramente maiores naquelas
que utilizaram o SOM (Figura 19). Já quando é analisada a coerência W2V (Figura
21), percebe-se um resultado melhor para aquelas que não utilizaram o SOM . Levando
essa informação em consideração em conjunto com as diferenças percebidas morfológica
e semanticamente, é possível notar que a coerência CV amplifica a relação morfológica
entre as palavras de cada tópico, o que pode acontecer por meio de sua confirmação
indireta que bonifica palavras que não coocorrem mas existem em um mesmo contexto.
Analogamente, como a coerência W2V utiliza a similaridade de contexto proveniente
dos vetores de palavras, a métrica obteve melhores resultados quando as palavras são
semanticamente similares, uma característica herdada do treinamento do Word2Vec.
Capítulo 3. WORD2TOPIC: UM MÉTODO DE DETECÇÃO DE TÓPICOS EM DOCUMENTOS
USANDO AGRUPAMENTO DE VETORES DE PALAVRAS 39
1 2 3 4 5
said said loss said said
reuter stock billion dlrs reuter
year reuter said reuter year
would company reuter year dlrs
shares would profit last company
company shares dlrs company march
dlrs offer year corp debt
bank dlrs revs prices last
billion corp bank would market
group exchange sales share would
market agreement shrs quarter corp
also japan market sales prices
march international note price banks
trade market oper market stock
january year share also february
tonnes trade three shares billion
sales share nine three month
share states would first first
last group marks stock also
told united last years interest
6 7 8 9 10
said said said said said
reuter year dlrs dlrs dlrs
would reuter reuter reuter reuter
dlrs would bank billion company
bank government year trade billion
trade last corp year year
japan dlrs would would bank
year tonnes company april corp
banks trade stock bank would
market price shares record shares
also also three market stock
corp market billion exchange also
company week share dollar share
last economic march futures last
world could banks profit sales
share company first trading market
billion billion market prior exchange
economic rate agreement loss debt
foreign bank five rate first
japanese told total budget securities
Tabela 4 – Top-20 palavras para 10 tópicos geradas pelo LDA
Capítulo 3. WORD2TOPIC: UM MÉTODO DE DETECÇÃO DE TÓPICOS EM DOCUMENTOS
USANDO AGRUPAMENTO DE VETORES DE PALAVRAS 40
1 2 3 4 5
billion would said debt tonnes
year said trade banks said
said could japan foreign wheat
dlrs coffee japanese interest last
february brazil dollar bank sugar
january told economic brazil grain
rose president officials bankers week
deficit government foreign would sources
last export states loans reuter
sales producers united payments soviet
surplus meeting markets government total
fell house countries commercial production
marks farm reuter creditors corn
government also agreement world exports
budget reagan also finance crop
earlier program minister economic season
total world tariffs last would
rise budget deficit countries export
reuter national exchange country agriculture
foreign bill government plan system
6 7 8 9 10
said dlrs said said bank
company loss market year said
shares year rates prices dlrs
reuter share rate opec banks
corp profit year production reuter
stock quarter dollar price first
share reuter stock last rate
offer company government output central
also revs exchange trade loans
group oper trading crude loan
common earnings analysts world rates
board note last reuter interest
shareholders shares interest demand credit
chairman nine dealers industry money
american includes securities barrel corp
sales would could saudi capital
companies stock futures march billion
spokesman gain growth official assets
president operations markets february issue
unit corp bond countries banking
Tabela 5 – Top-20 palavras para 10 tópicos geradas pelo NMF
Capítulo 3. WORD2TOPIC: UM MÉTODO DE DETECÇÃO DE TÓPICOS EM DOCUMENTOS
USANDO AGRUPAMENTO DE VETORES DE PALAVRAS 41
1 2 3 4 5
doubt grounds advised successfully abandoned
marked trial withdrawn formation temporarily
gradual preparing moore concrete participating
easing accused neither reviewing records
optimism award specifically involves extending
favour proceeding contact engaged contains
stand illegal examine language young
strongly comply replace operational removed
alone confirmation phoenix giant foundation
damaging asking begun covers inadequate
devaluation informed joining replacement competing
simply hearings enterprise reviewed establishing
stressed broadcast edward metropolitan clark
seemed administrative boards involve supporting
cautious urging reply concept unspecified
behind task rival mass marketed
chances naval cola send assist
worried oppose permission gathering underway
perhaps propose confirm relating laid
quick battle mountain nature responded
6 7 8 9 10
equally broken fewer contrast aggregate
contain excluded tied exceeded yearly
content professional stands contracted roughly
switch permitted suffer mature premiums
check fifth measured partially calculated
none assess difficulty proportion doubled
permanent entirely consolidation somewhat subsequent
fail represent citing boosting respective
apart targeted expecting jumped attributable
purchasing encouraged exceeding straight repaid
sensitive completely depends allocation deferred
inland divided assumed remainder financed
emerged severely explained thus book
green absence jump considerably receipts
traditionally pattern match invested soared
types tightening excellent noting borrow
fine maintained pushing comparison realized
hill prevailing strengthened collateral narrowed
specify item losing pushed amounted
breakdown competitors prospect numbers equal
Tabela 6 – Top-20 palavras para 10 tópicos geradas pela MST
Capítulo 3. WORD2TOPIC: UM MÉTODO DE DETECÇÃO DE TÓPICOS EM DOCUMENTOS
USANDO AGRUPAMENTO DE VETORES DE PALAVRAS 42
1 2 3 4 5
successfully surge consist backing absence
records marked consists urging doubt
participating considerably represent leave difficulty
language dramatic initially tried closer
award steadily elders agenda goes
proceeding shows concentrate repeatedly keeping
trial slower sons repeated suffer
young steep restricted americans convinced
replacement affecting century comes encouraged
extending devaluation comprised criticised pushing
contains slight resource replied traditionally
none soared nabisco disputes indications
formation measured currently crucial depends
switch weaker primarily damaging changing
operational contrast upgraded answer severely
reviewing exceeded assigned happy suggest
involve fallen spent halt danger
mass boosted manage address assess
inadequate gradual placed stand strengthened
nature sustained exchanged felt entirely
6 7 8 9 10
roughly phoenix concrete remainder check
yearly dynamics responded bearing equally
doubled engaged abandoned convert content
contracted metropolitan road totaling contain
premiums film send aggregate broken
calculated circuit bound assumption excluded
partially involves preparing book purchasing
proportion distribute temporarily assuming permitted
respective merged contained collateral professional
mature broadcast begun converted types
receipts cola removed debenture tied
match mail emerged issuance fifth
double printing neither financed targeted
jumped star examine refinance fewer
partial affiliated cleared realized assumed
explained atlanta breakdown deferred also
subsequent hill supporting invested forms
climbed shopping sensitive represents consolidation
repaid pharmaceuticals fail mortgages expanded
attributable giant confirm retire concentrated
Tabela 7 – Top-20 palavras para 10 tópicos geradas por K-Means com SOM
Capítulo 3. WORD2TOPIC: UM MÉTODO DE DETECÇÃO DE TÓPICOS EM DOCUMENTOS
USANDO AGRUPAMENTO DE VETORES DE PALAVRAS 43
1 2 3 4 5
roughly revlon pharmaceuticals stance surge
attributable advised scientific understanding steep
doubled liquidation marketed diplomatic weaker
amounted retain micro criticised amid
aggregate viacom engaged welcomed weakness
yearly separately locations poland marked
excluding disclose distribute industrialized steadily
resulted affiliates brand accords shows
premiums progressive solid communique contrast
deferred terminated film argentine slight
carryforwards reviewing involves discussed somewhat
respective jacobs mass expressed momentum
contribution amended dynamics mission recovered
recorded receipt installed bonn trends
calculated intends mail coordination soared
actual person transmission negotiators pushed
represents acquiring terminals dilson behind
totaling emery container chirac affecting
assuming hudson operational azpurua upward
exceed edelman giant trip prompted
6 7 8 9 10
underwritten sort heard beans destroyed
tranches otherwise announcing oilseeds platform
matures correct urging destinations town
issuance goes preparing meal border
convert putting leave origin vessel
eurobonds crucial recommendations pakistan naval
placed resist neither frozen territory
mature fail examine milk northeast
treasuries easy inquiry flour died
eurodollar assess edward grains thousands
collateral essential confirmation bulk tanker
westpac encouraged reviewed orange paulo
variable changing reply rapeseed waters
swap repeatedly responding refined injured
warburg depends ronald usage rail
holiday danger repeated exporter attacked
mortgages supporting objections officially loading
refinance therefore senator soft flag
debenture backing oppose exported repair
borrower closer illegal kenya discovered
Tabela 8 – Top-20 palavras para 10 tópicos geradas por K-Means
Capítulo 3. WORD2TOPIC: UM MÉTODO DE DETECÇÃO DE TÓPICOS EM DOCUMENTOS
USANDO AGRUPAMENTO DE VETORES DE PALAVRAS 44
1 2 3 4 5
urging equally marked trial phoenix
leave pharmaceuticals surge preparing broadcast
agenda hill shows begun circuit
examine entire dramatic grounds mail
ambassador metropolitan slower award shopping
disputes dynamics considerably specifically engaged
tried young trends proceeding film
criticised marketed turning neither involves
replied glass gradual asking cola
threatened purchasing behind language atlanta
recommendations consist sustained informed merged
address affiliated weakness confirmation philadelphia
oppose distribute weaker send star
informal extending momentum illegal printing
leaves underway sluggish announcing terminated
americans represent devaluation administrative boards
tell transferred affecting section hospital
resolved hudson easing comply grand
answer century steadily confirm scientific
task elders steep replacement giant
6 7 8 9 10
converted remainder roughly abandoned doubt
debenture convert exceeded contain damaging
incurred collateral yearly check closer
portion bearing doubled permanent sort
retire assumption exceeding content crucial
approximately book contracted switch backing
reflects issuance measured supporting repeatedly
secured invested soared traditionally happy
resulting assumed jump temporarily favour
liabilities assuming premiums removed stressed
accrued refinance contrast sensitive goes
sinking totaling aggregate concrete resist
asset underwritten partially apart absence
pension mortgages double green correct
redeemable financed proportion broken gone
unsecured variable recovered none convinced
paid tranches calculated fail quick
respectively matures jumped permitted ideas
restated liquidation boosted methods danger
conversion swap boosting successfully willingness
Tabela 9 – Top-20 palavras para 10 tópicos geradas por Ward com SOM
Capítulo 3. WORD2TOPIC: UM MÉTODO DE DETECÇÃO DE TÓPICOS EM DOCUMENTOS
USANDO AGRUPAMENTO DE VETORES DE PALAVRAS 45
1 2 3 4 5
loading attributable pharmaceuticals accords underwritten
destinations resulted marketed negotiators convert
processors carryforwards container commitments consist
flag amounted transmission diplomatic holiday
bulk excluding operated steering mature
northeast carryforward scientific discussion exchanged
provinces receipts installed azpurua issuance
flour expense brand bolivia tranches
injured accounted mountain table matures
oilseeds result micro bloc debenture
origin utilization operator signing treasuries
beans segment packaging bridge warburg
border resulting sells kenya westpac
pakistan increased terminals geneva eurodollar
damaged primarily film standstill eurobonds
naval decrease columbia uruguay irving
algeria anticipated giant commitment barclays
tanker thirds alaska invited bear
iowa reflects supplier club stearns
vessel approximately distributor qatar realty
6 7 8 9 10
permanent closer leave disclose midday
check doubt examine edelman firmed
records essential recommendations revlon gilts
successfully changing oppose progressive eased
contain depends heard guinness lows
equally goes senator wagner weighted
extending crucial outlined viacom quiet
none absence preparing officers gilt
broken encouraged edward acquiring counter
permitted strengthened reviewed affiliates overnight
contains convinced unveiled cola comex
involves damaging objections hudson firmer
cleared sort ronald person slipped
content correct jacques jacobs physical
also danger document retain lots
contained gradual address emery trades
covers considerable reply injunction active
green resist agenda hostile mixed
foundation sensitive asking merged rally
purchasing difficulty calling counsel opening
Tabela 10 – Top-20 palavras para 10 tópicos geradas por Ward
Capítulo 3. WORD2TOPIC: UM MÉTODO DE DETECÇÃO DE TÓPICOS EM DOCUMENTOS
USANDO AGRUPAMENTO DE VETORES DE PALAVRAS 46
Figura 8 – Coerência de tópicos CV com as top-10 palavras para a base Twenty News-
groups.
Figura 9 – Coerência de Tópicos CV com as top-20 Palavras para a Base Twenty News-
groups
Figura 10 – Coerência de tópicos W2V com as top-10 palavras para a base Twenty News-
groups
Figura 11 – Coerência de tópicos W2V com as top-20 palavras para a base Twenty News-
groups
táveis, nem que sejam diferentes entre si. Pela Tabela 11, vê-se que, como para a base
Reuters o LDA gerou grupos muito sobrepostos entre si com palavras que se repetem em
todos ou quase todos os tópicos.
Já o NMF conseguiu encontrar alguns tópicos interpretáveis. Embora todos os gru-
pos tratem de assuntos computacionais, há algumas diferenças entre os assuntos falados.
Na Tabela 12 temos o Tópico 1 que aparenta falar de versões de softwares e sistemas, bem
como espaço disponível em disco. Já o Tópico 2 trata de assuntos de imagens, como qua-
Capítulo 3. WORD2TOPIC: UM MÉTODO DE DETECÇÃO DE TÓPICOS EM DOCUMENTOS
USANDO AGRUPAMENTO DE VETORES DE PALAVRAS 49
lidade, cor, e formato dos arquivos, como JPEG e JFIF. O Tópico 4 pode estar associado
a programação, mas não é possível afirmar pelas palavras apresentadas.
1 2 3 4 5
would news news would news
people newsgroups cantaloupe people cantaloupe
know subject would message state
also message state like subject
think date comp path lines
like lines subject cantaloupe message
good path date lines would
much would windows subject date
make organization newsgroups organization misc
news like lines newsgroups path
Tabela 11 – Top-10 palavras para 5 tópicos geradas pelo LDA
1 2 3 4 5
system jpeg comp file would
available image graphics program people
data images news output know
software format mail entry think
also color message line like
disk quality subject files said
version free send info time
space graphics cantaloupe name well
systems files windows check could
drive jfif computer open even
Tabela 12 – Top-10 palavras para 5 tópicos geradas pelo NMF
Capítulo 3. WORD2TOPIC: UM MÉTODO DE DETECÇÃO DE TÓPICOS EM DOCUMENTOS
USANDO AGRUPAMENTO DE VETORES DE PALAVRAS 50
1 2 3 4 5
fashion bread capture infamous preparing
functional fought macro promising someday
alter meanwhile locally sought trading
wider appointed specifications tremendous abandoned
differ foul appletalk competing beware
partial revenge nearest wonders rising
difficulties silent indicator globe ending
terminology firmly digitized behalf chase
limitations pride simultaneously connor pleased
realm grave sparcstation hunt pace
Tabela 13 – Top-10 palavras para 5 tópicos geradas pela MST
1 2 3 4 5
calendar spreading simultaneously foul canterbury
editors denying obsolete naked fido
distribute intentions panels pace victor
accessible retain approx blackhawks harvey
updates spite generating streak lynn
bibliography relevance connecting span carlos
maintains accuse margin preparing newshub
nearest preference loads episode nicholas
retrieve odds sophisticated meanwhile odin
scholarly presume attach sweet consultant
Tabela 14 – Top-10 palavras para 5 tópicos geradas pelo K-Means com SOM
1 2 3 4 5
simultaneously intentions tall activists fido
capture spreading touched ongoing canterbury
obsolete denying facing ordering victor
attach dismiss sweet organisation newshub
panels spite wound grants ariel
generating presume barely investigating consultant
adds intention naked congressional harvey
loads mere knee editors lynn
configured benedikt bench worldwide nicholas
handles preference burnt administrative odin
Tabela 15 – Top-10 palavras para 5 tópicos geradas pelo K-Means
Capítulo 3. WORD2TOPIC: UM MÉTODO DE DETECÇÃO DE TÓPICOS EM DOCUMENTOS
USANDO AGRUPAMENTO DE VETORES DE PALAVRAS 51
1 2 3 4 5
offering hart spreading simultaneously cisco
accessible troy retain panels waikato
editors fisher odds approx newshub
ordering brooks accuse obsolete informix
workshop hunt presume loads zealand
specifications schmidt everyday connecting telecom
obtaining lincoln denying locking fmsrl
bundled wells spite grips iris
investigating expos intentions margin huntsville
maintains phillips doubts attach xerox
Tabela 16 – Top-10 palavras para 5 tópicos geradas pelo Ward com SOM
1 2 3 4 5
canterbury ordering simultaneously sweet spreading
consultant grants obsolete touched relevance
fido behalf capture bench odds
harvey activists panels barely preference
victor congressional sophisticated dropping disagreement
nicholas vital approx tall mere
lynn licensing fitting amazed retain
bailey offering connecting expecting intentions
odin privately loads kicking bearing
eugene violate chart kidding spite
Tabela 17 – Top-10 palavras para 5 tópicos geradas pelo Ward
52
veis para a base Twenty Newsgroups. Apesar disso, todos os tópicos encontrados, mesmo
quando aumentado o número de tópicos, sempre foram relacionados a computação, não
conseguindo agrupar para as outras classes existentes nos textos originais.
Para as técnicas propostas não foi possível ver um bom resultado para a base
Twenty Newsgroups, no máximo foram criados grupos com nomes próprios e sobrenomes.
Já para a base Reuters foi possível ver dois fenômenos diferentes: um utilizando o SOM e
outro sem o SOM. Quando utilizado o SOM, vários tópicos gerados tiveram em sua com-
posição palavras de uma classe morfológica semelhante. Por exemplo, tópicos somente
com verbos no gerúndio ou passado, tópicos somente com adjetivos e advérbios ou tópicos
com substantivos. Quando não utilizado o SOM, foi possível perceber grupos mais inter-
pretáveis e com palavras semanticamente semelhantes, ou seja, quando trocadas em uma
frase não mudariam o sentido.
Não foi possível validar completamente a questão de pesquisa, pois enquanto o
Word2Vec conseguiu gerar vetores similares e tópicos interpretáveis para a base Reuters,
não foi possível ver o mesmo para a base Twenty Newsgroups. Isso pode ter ocorrido pela
natureza sobreposta de alguns assuntos dessa base, tendo vários tópicos de computação,
como computação gráfica, Windows, ambientes gráficos, hardware de computadores IBM e
hardware de computadores Mac. Também há alguns assuntos convergentes, como ateísmo
e cristianismo, carros e motocicletas, hockey e baseball, e política geral com política do
oriente médio. Essa característica da base pode também ter dificultado ao algoritmo NMF
em encontrar tópicos fora da área da computação, repetindo vários dos tópicos quando
aumentado o valor de k.
Já em relação à métrica coerência CV, percebeu-se que não necessariamente um
alto valor garante interpretabilidade. Isso pôde ser visto principalmente nos resultados dos
tópicos gerados pelo LDA, em que basicamente não houve interpretabilidade, mas houve
valores de coerência maiores que 0.70 para a base Twenty Newsgroups. Para a coerência
W2V, os algoritmos que utilizaram o Word2Vec tiveram um desempenho melhor do que as
técnicas LDA e NMF, o que pode ter sido enviesado por utilizarem a mesma similaridade.
Embora os resultados das técnicas utilizando o SOM para a base Reuters não
foram interpretáveis, como os tópicos trouxeram classes morfológicas similares, as técnicas
podem ser exploradas para outras tarefas na área de NLP, como Etiquetagem de Classes
Gramaticais (Part-Of-Speech Tagger - POS Tagger) ou Reconhecimento de Entidades
Nomeadas (Named-Entity Recognition - NER), podendo ajudar a reconhecer palavras das
mesmas classes gramaticais.
Como alguns dos tópicos gerados pelas técnicas que não utilizaram o SOM ti-
veram uma boa interpretabilidade, pode ser aplicado um novo esforço para reforçar as
características que deram certo. Uma futura exploração pode buscar outras técnicas de
agrupamento mais avançadas, bem como outros algoritmos de detecção em grafos. Outros
Capítulo 4. Conclusões e Trabalhos Futuros 54
Referências
ACAR, A.; MURAKI, Y. Twitter for crisis communication: lessons learned from japan’s
tsunami disaster. International Journal of Web Based Communities, Inderscience
Publishers, v. 7, n. 3, p. 392–402, 2011. Citado na página 17.
BLEI, D. M.; NG, A. Y.; JORDAN, M. I. Latent dirichlet allocation. Journal of machine
Learning research, v. 3, n. Jan, p. 993–1022, 2003. Citado na página 19.
CHENG, X. et al. Btm: Topic modeling over short texts. IEEE Transactions on
Knowledge and Data Engineering, IEEE, v. 26, n. 12, p. 2928–2941, 2014. Citado na
página 23.
DAI, X.; BIKDASH, M.; MEYER, B. From social media to public health surveillance:
Word embedding based clustering method for twitter classification. In: IEEE.
SoutheastCon 2017. [S.l.], 2017. p. 1–7. Citado na página 29.
GRAHAM, R. L.; HELL, P. On the history of the minimum spanning tree problem.
Annals of the History of Computing, IEEE, v. 7, n. 1, p. 43–57, 1985. Citado na página
28.
HOFFMAN, M.; BACH, F. R.; BLEI, D. M. Online learning for latent dirichlet
allocation. In: advances in neural information processing systems. [S.l.: s.n.], 2010. p.
856–864. Citado na página 31.
HONG, L.; DAVISON, B. D. Empirical study of topic modeling in twitter. In: ACM.
Proceedings of the first workshop on social media analytics. [S.l.], 2010. p. 80–88. Citado
na página 19.
JIN, O. et al. Transferring topical knowledge from auxiliary long texts for short text
clustering. In: Proceedings of the 20th ACM international conference on Information and
knowledge management. [S.l.: s.n.], 2011. p. 775–784. Citado na página 17.
KEKEÇ, T.; MAATEN, L. van der; TAX, D. Pawe: Polysemy aware word embeddings.
In: Proceedings of the 2nd International Conference on Information System and Data
Mining. [S.l.: s.n.], 2018. p. 7–13. Citado na página 23.
KEMP, S. Digital in 2018: Worlds internet users pass the 4 billion mark. We are social,
v. 30, 2018. Citado na página 17.
KHAN, N. et al. Big data: survey, technologies, opportunities, and challenges. The
scientific world journal, Hindawi, v. 2014, 2014. Citado na página 16.
KIM, E.; SUNG, Y.; KANG, H. Brand followers retweeting behavior on twitter: How
brand relationships influence brand electronic word-of-mouth. Computers in Human
Behavior, Elsevier, v. 37, p. 18–25, 2014. Citado na página 17.
LASI, H. et al. Industry 4.0. Business & information systems engineering, Springer, v. 6,
n. 4, p. 239–242, 2014. Citado na página 17.
LI, C. et al. Lda meets word2vec: A novel model for academic abstract clustering.
In: INTERNATIONAL WORLD WIDE WEB CONFERENCES STEERING
COMMITTEE. Companion Proceedings of the The Web Conference 2018. [S.l.], 2018. p.
1699–1706. Citado na página 29.
MORALES, A. et al. Measuring political polarization: Twitter shows the two sides of
venezuela. Chaos: An Interdisciplinary Journal of Nonlinear Science, AIP Publishing,
v. 25, n. 3, p. 033114, 2015. Citado na página 17.
NGUYEN, D. Q. et al. Improving topic models with latent feature word representations.
Transactions of the Association for Computational Linguistics, MIT Press, v. 3, p.
299–313, 2015. Citado na página 29.
RÖDER, M.; BOTH, A.; HINNEBURG, A. Exploring the space of topic coherence
measures. In: ACM. Proceedings of the eighth ACM international conference on Web
search and data mining. [S.l.], 2015. p. 399–408. Citado na página 20.
RYDNING, D. R.-J. G.-J. The digitization of the world from edge to core. Framingham:
International Data Corporation, 2018. Citado na página 16.
SHI, M. et al. We-lda: a word embeddings augmented lda model for web services
clustering. In: IEEE. 2017 IEEE International Conference on Web Services (ICWS).
[S.l.], 2017. p. 9–16. Citado na página 29.
STEINHAUS, H. Sur la division des corp materiels en parties. Bull. Acad. Polon. Sci,
v. 1, n. 804, p. 801, 1956. Citado na página 27.
SUBRAMANIAN, S.; VORA, D. Unsupervised text classification and search using word
embeddings on a self-organizing map. International Journal of Computer Applications,
Foundation of Computer Science, v. 156, n. 11, 2016. Citado na página 29.
WESSLEN, R. Computer-assisted text analysis for social science: Topic models and
beyond. arXiv preprint arXiv:1803.11045, 2018. Citado na página 19.
ZHAO, R.; TAN, V. Y. Online nonnegative matrix factorization with outliers. IEEE
Transactions on Signal Processing, IEEE, v. 65, n. 3, p. 555–570, 2016. Citado na
página 31.
ZIMBRA, D.; GHIASSI, M.; LEE, S. Brand-related twitter sentiment analysis using
feature engineering and the dynamic architecture for artificial neural networks. In: IEEE.
2016 49th Hawaii International Conference on System Sciences (HICSS). [S.l.], 2016. p.
1930–1938. Citado na página 17.
Apêndices
APÊNDICE A – Coerência CV com top-10 palavras para base
Reuters
60
APÊNDICE A. Coerência CV com top-10 palavras para base Reuters
K-means K-means Ward Ward
MST MST máximo médio máximo médio
k LDA NMF K-means Ward
máximo médio (com (com (com (com
SOM) SOM) SOM) SOM)
16 0.38 - - 0.50 0.41 0.36 0.30 0.40 0.39 0.39
17 0.35 0.43 0.40 0.52 0.40 0.36 0.34 0.40 0.39 0.38
18 0.38 - - 0.52 0.40 0.35 0.33 0.40 0.39 0.40
19 0.36 0.41 0.40 0.49 0.41 0.35 0.34 0.41 0.39 0.40
20 0.39 0.41 0.41 0.50 0.41 0.36 0.35 0.40 0.39 0.40
21 0.38 0.40 0.40 0.51 0.41 0.36 0.36 0.40 0.38 0.40
22 0.38 - - 0.51 0.41 0.35 0.34 0.40 0.38 0.40
23 0.39 0.39 0.39 0.52 0.42 0.36 0.38 0.39 0.39 0.39
24 0.38 0.42 0.42 0.51 0.40 0.36 0.37 0.40 0.38 0.39
25 0.36 - - 0.51 0.40 0.36 0.35 0.37 0.37 0.39
26 0.37 0.41 0.40 0.53 0.41 0.36 0.40 0.36 0.36 0.40
27 0.38 0.40 0.39 0.51 0.41 0.36 0.37 0.37 0.37 0.41
28 0.38 - - 0.51 0.42 0.36 0.39 0.36 0.36 0.42
29 0.38 0.38 0.38 0.51 0.40 0.36 0.41 0.37 0.37 -
30 0.37 0.39 0.39 0.50 0.41 0.36 - 0.36 0.36 -
31 0.38 0.41 0.41 0.50 0.39 0.37 - 0.37 0.37 -
32 0.37 0.40 0.40 0.50 0.40 0.37 - 0.36 0.36 -
33 0.37 0.42 0.42 0.49 0.41 0.37 0.41 0.37 0.37 -
34 0.37 0.41 0.41 0.50 0.39 0.37 0.40 0.37 0.37 -
35 0.37 0.38 0.38 0.54 0.41 0.37 0.42 0.37 0.37 -
61
APÊNDICE A. Coerência CV com top-10 palavras para base Reuters
K-means K-means Ward Ward
MST MST máximo médio máximo médio
k LDA NMF K-means Ward
máximo médio (com (com (com (com
SOM) SOM) SOM) SOM)
36 0.38 0.37 0.37 0.52 0.40 0.37 0.44 - - -
37 0.39 0.38 0.38 0.52 0.40 0.37 0.42 - - -
38 0.39 0.38 0.38 0.51 0.40 0.37 - - - -
39 0.38 0.39 0.39 0.50 0.41 0.37 - - - -
40 0.38 0.41 0.41 0.51 0.40 0.37 0.45 - - -
41 0.38 0.41 0.41 0.49 0.40 0.37 - - - -
42 0.37 - - 0.52 0.41 0.37 - - - -
43 0.38 0.39 0.39 0.51 0.40 0.37 0.45 - - -
44 0.38 0.40 0.40 0.51 0.42 0.38 - - - -
45 0.37 0.38 0.38 0.52 0.42 0.38 0.43 - - -
46 0.38 0.39 0.39 0.52 0.40 0.38 - - - -
47 0.38 - - 0.51 0.41 0.38 0.44 - - -
48 0.38 0.40 0.40 0.51 0.40 0.38 - - - -
49 0.38 0.39 0.39 0.51 0.41 0.38 - - - -
50 0.38 0.38 0.38 0.48 0.41 0.38 - - - -
51 0.38 0.39 0.39 0.50 0.41 0.38 - - - -
52 0.39 0.38 0.38 0.49 0.41 0.39 - - - -
53 0.38 0.38 0.38 0.52 0.43 0.38 - - - -
54 0.38 - - 0.50 0.40 0.38 - - - -
55 0.37 0.39 0.39 0.51 0.41 0.38 - - - -
62
APÊNDICE A. Coerência CV com top-10 palavras para base Reuters
K-means K-means Ward Ward
MST MST máximo médio máximo médio
k LDA NMF K-means Ward
máximo médio (com (com (com (com
SOM) SOM) SOM) SOM)
56 0.37 0.41 0.41 0.50 0.41 0.38 - - - -
57 0.38 0.40 0.40 0.51 0.43 0.38 - - - -
58 0.38 0.40 0.40 0.52 0.41 0.38 - - - -
59 0.38 0.38 0.38 0.52 0.41 0.39 - - - -
60 0.39 0.38 0.38 0.50 0.41 0.38 - - - -
61 0.39 - - 0.51 0.41 0.39 - - - -
62 0.39 0.38 0.38 0.50 0.42 0.39 - - - -
63 0.38 0.39 0.39 0.49 0.41 0.39 - - - -
64 0.39 0.38 0.38 0.51 0.41 0.38 - - - -
65 0.39 0.38 0.38 0.51 0.41 0.39 - - - -
66 0.39 0.39 0.39 0.52 0.41 0.39 - - - -
67 0.38 0.40 0.40 0.53 0.42 0.39 - - - -
68 0.37 0.38 0.38 0.52 0.42 0.39 - - - -
69 0.38 0.39 0.38 0.49 0.41 0.39 - - - -
70 0.38 0.40 0.40 0.51 0.41 0.39 - - - -
71 0.39 0.39 0.39 0.49 0.41 0.39 - - - -
72 0.38 0.39 0.39 0.51 0.41 0.40 - - - -
73 0.37 0.39 0.39 0.51 0.42 0.39 - - - -
74 0.38 0.39 0.39 0.50 0.43 0.39 - - - -
75 0.38 0.39 0.39 0.49 0.42 0.40 - - - -
63
APÊNDICE A. Coerência CV com top-10 palavras para base Reuters
K-means K-means Ward Ward
MST MST máximo médio máximo médio
k LDA NMF K-means Ward
máximo médio (com (com (com (com
SOM) SOM) SOM) SOM)
76 0.38 0.40 0.40 0.50 0.42 0.39 - - - -
77 0.37 0.38 0.38 0.50 0.41 0.39 - - - -
78 0.38 0.39 0.39 0.50 0.42 0.39 - - - -
79 0.37 0.39 0.39 0.53 0.41 0.39 - - - -
80 0.37 0.39 0.39 0.53 0.42 0.39 - - - -
81 0.38 0.38 0.38 0.50 0.43 0.40 - - - -
82 0.37 - - 0.51 0.40 0.39 - - - -
83 0.37 0.42 0.42 0.51 0.41 0.39 - - - -
84 0.38 0.40 0.40 0.51 0.41 0.39 - - - -
85 0.37 - - 0.49 0.41 0.39 - - - -
86 0.38 0.39 0.39 0.50 0.40 0.39 - - - -
87 0.38 0.39 0.39 0.52 0.42 0.40 - - - -
88 0.37 0.38 0.38 0.52 0.41 0.39 - - - -
89 0.37 0.37 0.37 0.52 0.43 0.40 - - - -
90 0.37 0.38 0.38 0.50 0.42 0.40 - - - -
91 0.38 - - 0.52 0.43 0.40 - - - -
92 0.38 0.40 0.40 0.52 0.41 0.39 - - - -
93 0.37 0.40 0.40 0.51 0.41 0.40 - - - -
94 0.38 0.38 0.38 0.50 0.42 0.40 - - - -
95 0.38 - - 0.49 0.41 0.39 - - - -
64
APÊNDICE A. Coerência CV com top-10 palavras para base Reuters
K-means K-means Ward Ward
MST MST máximo médio máximo médio
k LDA NMF K-means Ward
máximo médio (com (com (com (com
SOM) SOM) SOM) SOM)
96 0.37 - - 0.51 0.43 0.41 - - - -
97 0.39 - - 0.51 0.37 0.37 - - - -
98 0.38 - - 0.52 0.42 0.40 - - - -
99 0.37 - - 0.49 0.41 0.39 - - - -
100 0.37 - - 0.49 - - - - - -
Tabela 18 – Coerência CV com top-10 palavras para base
Reuters
65
APÊNDICE B – Coerência CV com top-20 palavras para base
Reuters
66
APÊNDICE B. Coerência CV com top-20 palavras para base Reuters
K-means K-means Ward Ward
MST MST máximo médio máximo médio
k LDA NMF K-means Ward
máximo médio (com (com (com (com
SOM) SOM) SOM) SOM)
16 0.28 - - 0.44 0.53 0.45 0.42 0.53 0.49 0.44
17 0.27 0.54 0.52 0.45 0.51 0.44 0.38 0.51 0.49 0.44
18 0.29 - - 0.46 0.51 0.44 0.39 0.50 0.48 0.45
19 0.27 0.51 0.51 0.45 0.50 0.44 0.40 0.50 0.48 0.45
20 0.30 0.52 0.52 0.43 0.52 0.44 0.41 0.49 0.48 0.46
21 0.29 0.53 0.53 0.45 0.51 0.44 0.40 0.49 0.47 0.45
22 0.30 - - 0.46 0.50 0.43 0.39 0.49 0.47 0.45
23 0.30 0.51 0.51 0.47 0.52 0.43 0.44 0.48 0.47 0.44
24 0.30 0.52 0.52 0.45 0.49 0.43 0.42 0.49 0.47 0.44
25 0.29 - - 0.45 0.51 0.42 0.40 0.45 0.45 0.44
26 0.29 0.52 0.51 0.47 0.49 0.42 0.41 0.45 0.45 0.44
27 0.29 0.51 0.51 0.46 0.49 0.43 0.40 0.45 0.45 0.44
28 0.28 - - 0.45 0.50 0.43 0.39 0.45 0.45 0.45
29 0.30 0.51 0.51 0.45 0.50 0.43 0.44 0.46 0.46 -
30 0.28 0.50 0.50 0.43 0.49 0.42 - 0.46 0.46 -
31 0.29 0.50 0.50 0.45 0.48 0.42 - 0.46 0.46 -
32 0.29 0.51 0.51 0.46 0.49 0.42 - 0.45 0.45 -
33 0.29 0.52 0.52 0.43 0.48 0.42 0.42 0.46 0.46 -
34 0.29 0.51 0.51 0.45 0.47 0.42 - 0.46 0.46 -
35 0.29 0.49 0.49 0.48 0.50 0.43 - 0.46 0.46 -
67
APÊNDICE B. Coerência CV com top-20 palavras para base Reuters
K-means K-means Ward Ward
MST MST máximo médio máximo médio
k LDA NMF K-means Ward
máximo médio (com (com (com (com
SOM) SOM) SOM) SOM)
36 0.29 0.49 0.49 0.44 0.49 0.42 - - - -
37 0.30 0.51 0.51 0.47 0.45 0.42 - - - -
38 0.29 0.50 0.50 0.45 0.45 0.42 - - - -
39 0.29 0.50 0.50 0.45 0.45 0.42 - - - -
40 0.30 0.51 0.51 0.46 0.45 0.42 - - - -
41 0.29 0.51 0.51 0.43 0.45 0.42 - - - -
42 0.28 - - 0.47 0.44 0.42 - - - -
43 0.29 0.50 0.50 0.44 0.44 0.42 - - - -
44 0.31 0.51 0.51 0.46 0.44 0.42 - - - -
45 0.29 0.48 0.48 0.46 0.44 0.42 - - - -
46 0.30 0.50 0.50 0.46 0.45 0.42 - - - -
47 0.28 - - 0.45 0.44 0.42 - - - -
48 0.29 0.50 0.50 0.45 0.45 0.42 - - - -
49 0.28 0.50 0.50 0.44 0.43 0.42 - - - -
50 0.30 0.50 0.50 0.41 0.43 0.42 - - - -
51 0.29 0.49 0.49 0.45 0.44 0.42 - - - -
52 0.30 0.49 0.49 0.43 0.43 0.42 - - - -
53 0.29 0.50 0.48 0.44 0.43 0.42 - - - -
54 0.29 - - 0.43 0.43 0.42 - - - -
55 0.28 0.49 0.49 0.45 0.43 0.42 - - - -
68
APÊNDICE B. Coerência CV com top-20 palavras para base Reuters
K-means K-means Ward Ward
MST MST máximo médio máximo médio
k LDA NMF K-means Ward
máximo médio (com (com (com (com
SOM) SOM) SOM) SOM)
56 0.29 0.51 0.51 0.44 0.43 0.42 - - - -
57 0.30 0.50 0.50 0.44 0.44 0.42 - - - -
58 0.30 0.51 0.51 0.45 0.43 0.42 - - - -
59 0.30 0.48 0.48 0.45 0.44 0.42 - - - -
60 0.29 0.48 0.48 0.43 0.44 0.42 - - - -
61 0.30 - - 0.47 0.44 0.42 - - - -
62 0.29 0.48 0.48 0.43 0.44 0.42 - - - -
63 0.29 0.49 0.49 0.43 0.44 0.43 - - - -
64 0.29 0.49 0.49 0.44 0.42 0.42 - - - -
65 0.30 0.50 0.50 0.45 - - - - - -
66 0.30 0.49 0.49 0.45 0.42 0.42 - - - -
67 0.29 0.49 0.49 0.45 0.41 0.41 - - - -
68 0.29 0.49 0.49 0.46 - - - - - -
69 0.29 0.49 0.49 0.43 - - - - - -
70 0.29 0.50 0.50 0.45 0.42 0.42 - - - -
71 0.29 0.49 0.49 0.43 - - - - - -
72 0.29 0.49 0.49 0.44 0.42 0.42 - - - -
73 0.29 0.49 0.49 0.43 - - - - - -
74 0.29 0.51 0.51 0.44 - - - - - -
75 0.30 0.49 0.49 0.44 - - - - - -
69
APÊNDICE B. Coerência CV com top-20 palavras para base Reuters
K-means K-means Ward Ward
MST MST máximo médio máximo médio
k LDA NMF K-means Ward
máximo médio (com (com (com (com
SOM) SOM) SOM) SOM)
76 0.29 0.49 0.49 0.43 - - - - - -
77 0.29 0.49 0.49 0.42 - - - - - -
78 0.30 0.49 0.49 0.44 - - - - - -
79 0.29 0.49 0.49 0.44 - - - - - -
80 0.29 0.50 0.50 0.46 - - - - - -
81 0.29 0.49 0.49 0.43 - - - - - -
82 0.29 - - 0.44 - - - - - -
83 0.28 0.51 0.51 0.45 - - - - - -
84 0.29 0.51 0.51 0.43 - - - - - -
85 0.29 - - 0.42 - - - - - -
86 0.29 0.49 0.49 0.44 - - - - - -
87 0.29 0.49 0.49 0.45 - - - - - -
88 0.29 - - 0.44 - - - - - -
89 0.29 0.49 0.49 0.44 - - - - - -
90 0.29 - - 0.43 - - - - - -
91 0.29 - - 0.44 - - - - - -
92 0.29 0.50 0.50 0.44 - - - - - -
93 0.29 0.50 0.50 0.45 - - - - - -
94 0.29 - - 0.43 - - - - - -
95 0.29 - - 0.43 - - - - - -
70
APÊNDICE B. Coerência CV com top-20 palavras para base Reuters
K-means K-means Ward Ward
MST MST máximo médio máximo médio
k LDA NMF K-means Ward
máximo médio (com (com (com (com
SOM) SOM) SOM) SOM)
96 0.29 - - 0.43 - - - - - -
97 0.30 - - 0.43 - - - - - -
98 0.30 - - 0.44 - - - - - -
99 0.29 - - 0.43 - - - - - -
100 0.28 - - 0.43 - - - - - -
Tabela 19 – Coerência CV com top-20 palavras para base
Reuters
71
APÊNDICE C – Coerência W2V com top-10 palavras para
base Reuters
72
APÊNDICE C. Coerência W2V com top-10 palavras para base Reuters
K-means K-means Ward Ward
MST MST máximo médio máximo médio
k LDA NMF K-means Ward
máximo médio (com (com (com (com
SOM) SOM) SOM) SOM)
16 0.27 - - 0.35 0.70 0.66 0.69 0.62 0.59 0.68
17 0.24 0.49 0.49 0.35 0.69 0.66 0.71 0.62 0.60 0.69
18 0.26 - - 0.36 0.69 0.66 0.71 0.61 0.60 0.69
19 0.26 0.52 0.51 0.31 0.70 0.66 0.71 0.62 0.60 0.69
20 0.26 0.48 0.48 0.35 0.70 0.66 0.71 0.60 0.59 0.69
21 0.28 0.48 0.48 0.36 0.70 0.66 0.71 0.61 0.59 0.70
22 0.27 - - 0.36 0.70 0.67 0.71 0.61 0.59 0.69
23 0.27 0.50 0.50 0.35 0.71 0.67 0.70 0.61 0.59 0.69
24 0.28 0.49 0.49 0.36 0.71 0.67 0.71 0.61 0.60 0.69
25 0.26 - - 0.36 0.71 0.67 0.70 0.60 0.60 0.69
26 0.26 0.52 0.51 0.38 0.71 0.67 0.72 0.60 0.60 0.70
27 0.27 0.50 0.49 0.36 0.71 0.67 0.71 0.60 0.60 0.70
28 0.27 - - 0.35 0.72 0.68 0.72 0.60 0.60 0.70
29 0.26 0.47 0.47 0.36 0.72 0.68 0.71 0.60 0.60 -
30 0.26 0.47 0.47 0.33 0.72 0.68 - 0.60 0.60 -
31 0.27 0.46 0.46 0.36 0.70 0.67 - 0.60 0.60 -
32 0.26 0.46 0.46 0.35 0.71 0.67 - 0.60 0.60 -
33 0.25 0.46 0.46 0.33 0.71 0.68 0.71 0.60 0.60 -
34 0.26 0.46 0.46 0.34 0.71 0.67 0.71 0.60 0.60 -
35 0.27 0.48 0.47 0.36 0.71 0.67 0.71 0.60 0.60 -
73
APÊNDICE C. Coerência W2V com top-10 palavras para base Reuters
K-means K-means Ward Ward
MST MST máximo médio máximo médio
k LDA NMF K-means Ward
máximo médio (com (com (com (com
SOM) SOM) SOM) SOM)
36 0.28 0.46 0.46 0.36 0.70 0.67 0.71 - - -
37 0.27 0.47 0.47 0.35 0.70 0.67 0.71 - - -
38 0.27 0.45 0.45 0.35 0.71 0.67 - - - -
39 0.26 0.45 0.45 0.33 0.70 0.67 - - - -
40 0.27 0.45 0.45 0.36 0.71 0.67 0.72 - - -
41 0.26 0.44 0.44 0.33 0.70 0.67 - - - -
42 0.26 - - 0.37 0.71 0.67 - - - -
43 0.27 0.47 0.47 0.35 0.70 0.67 0.71 - - -
44 0.27 0.43 0.43 0.35 0.71 0.67 - - - -
45 0.26 0.44 0.44 0.35 0.71 0.66 0.70 - - -
46 0.27 0.45 0.45 0.35 0.70 0.67 - - - -
47 0.27 - - 0.34 0.70 0.67 0.72 - - -
48 0.26 0.45 0.45 0.35 0.70 0.67 - - - -
49 0.26 0.45 0.45 0.35 0.71 0.67 - - - -
50 0.27 0.44 0.44 0.33 0.70 0.67 - - - -
51 0.26 0.45 0.44 0.34 0.70 0.67 - - - -
52 0.27 0.46 0.46 0.34 0.70 0.67 - - - -
53 0.26 0.47 0.45 0.35 0.70 0.67 - - - -
54 0.26 - - 0.35 0.70 0.66 - - - -
55 0.26 0.45 0.45 0.35 0.69 0.66 - - - -
74
APÊNDICE C. Coerência W2V com top-10 palavras para base Reuters
K-means K-means Ward Ward
MST MST máximo médio máximo médio
k LDA NMF K-means Ward
máximo médio (com (com (com (com
SOM) SOM) SOM) SOM)
56 0.26 0.43 0.43 0.34 0.70 0.66 - - - -
57 0.26 0.42 0.42 0.36 0.70 0.66 - - - -
58 0.26 0.42 0.42 0.36 0.70 0.66 - - - -
59 0.27 0.45 0.45 0.35 0.70 0.66 - - - -
60 0.27 0.45 0.45 0.35 0.70 0.66 - - - -
61 0.27 - - 0.34 0.70 0.66 - - - -
62 0.27 0.44 0.44 0.34 0.70 0.66 - - - -
63 0.26 0.44 0.44 0.33 0.70 0.66 - - - -
64 0.27 0.45 0.45 0.35 0.70 0.66 - - - -
65 0.26 0.43 0.43 0.35 0.69 0.66 - - - -
66 0.27 0.43 0.43 0.35 0.69 0.66 - - - -
67 0.26 0.42 0.42 0.37 0.69 0.66 - - - -
68 0.26 0.43 0.43 0.36 0.69 0.66 - - - -
69 0.26 0.44 0.43 0.34 0.69 0.66 - - - -
70 0.27 0.44 0.44 0.34 0.69 0.66 - - - -
71 0.27 0.42 0.42 0.34 0.69 0.66 - - - -
72 0.25 0.42 0.42 0.35 0.69 0.66 - - - -
73 0.26 0.42 0.42 0.35 0.70 0.66 - - - -
74 0.27 0.42 0.42 0.35 0.70 0.66 - - - -
75 0.26 0.42 0.42 0.33 0.69 0.66 - - - -
75
APÊNDICE C. Coerência W2V com top-10 palavras para base Reuters
K-means K-means Ward Ward
MST MST máximo médio máximo médio
k LDA NMF K-means Ward
máximo médio (com (com (com (com
SOM) SOM) SOM) SOM)
76 0.26 0.41 0.41 0.33 0.69 0.64 - - - -
77 0.26 0.43 0.43 0.34 0.69 0.65 - - - -
78 0.26 0.42 0.42 0.34 0.69 0.65 - - - -
79 0.26 0.43 0.43 0.36 0.69 0.64 - - - -
80 0.25 0.41 0.41 0.36 0.69 0.64 - - - -
81 0.26 0.42 0.42 0.34 0.69 0.67 - - - -
82 0.25 - - 0.34 0.68 0.65 - - - -
83 0.25 0.40 0.40 0.35 0.69 0.65 - - - -
84 0.26 0.39 0.39 0.35 0.69 0.66 - - - -
85 0.25 - - 0.34 0.68 0.65 - - - -
86 0.27 0.42 0.42 0.34 0.69 0.65 - - - -
87 0.26 0.41 0.41 0.35 0.69 0.66 - - - -
88 0.25 0.41 0.41 0.36 0.68 0.65 - - - -
89 0.26 0.41 0.41 0.35 0.69 0.66 - - - -
90 0.25 0.40 0.40 0.33 0.69 0.66 - - - -
91 0.26 - - 0.35 0.69 0.66 - - - -
92 0.26 0.38 0.38 0.35 0.69 0.63 - - - -
93 0.26 0.38 0.38 0.35 0.69 0.65 - - - -
94 0.26 0.38 0.38 0.35 0.69 0.66 - - - -
95 0.25 - - 0.34 0.67 0.62 - - - -
76
APÊNDICE C. Coerência W2V com top-10 palavras para base Reuters
K-means K-means Ward Ward
MST MST máximo médio máximo médio
k LDA NMF K-means Ward
máximo médio (com (com (com (com
SOM) SOM) SOM) SOM)
96 0.26 - - 0.35 0.69 0.65 - - - -
97 0.27 - - 0.34 0.57 0.57 - - - -
98 0.26 - - 0.35 0.69 0.65 - - - -
99 0.26 - - 0.34 0.69 0.63 - - - -
100 0.26 - - 0.34 - - - - - -
Tabela 20 – Coerência W2V com top-10 palavras para
base Reuters
77
APÊNDICE D – Coerência W2V com top-20 palavras para
base Reuters
78
APÊNDICE D. Coerência W2V com top-20 palavras para base Reuters
K-means K-means Ward Ward
MST MST máximo médio máximo médio
k LDA NMF K-means Ward
máximo médio (com (com (com (com
SOM) SOM) SOM) SOM)
16 0.18 - - 0.29 0.62 0.59 0.62 0.55 0.52 0.61
17 0.17 0.43 0.41 0.28 0.62 0.59 0.64 0.56 0.53 0.61
18 0.18 - - 0.29 0.62 0.59 0.64 0.55 0.53 0.61
19 0.17 0.43 0.42 0.28 0.62 0.59 0.64 0.55 0.53 0.62
20 0.18 0.41 0.41 0.27 0.63 0.59 0.64 0.54 0.52 0.61
21 0.18 0.39 0.39 0.29 0.62 0.59 0.64 0.54 0.52 0.61
22 0.18 - - 0.29 0.63 0.59 0.64 0.54 0.52 0.61
23 0.19 0.40 0.40 0.29 0.64 0.59 0.63 0.54 0.52 0.62
24 0.19 0.42 0.42 0.29 0.63 0.59 0.63 0.55 0.53 0.61
25 0.17 - - 0.29 0.63 0.60 0.63 0.54 0.54 0.62
26 0.18 0.42 0.42 0.30 0.63 0.60 0.64 0.54 0.54 0.62
27 0.18 0.41 0.40 0.28 0.63 0.60 0.63 0.53 0.53 0.61
28 0.17 - - 0.28 0.63 0.60 0.64 0.53 0.53 0.61
29 0.19 0.38 0.38 0.30 0.63 0.60 0.64 0.53 0.53 -
30 0.18 0.40 0.40 0.27 0.63 0.60 - 0.53 0.53 -
31 0.18 0.38 0.38 0.29 0.63 0.59 - 0.52 0.52 -
32 0.18 0.38 0.38 0.29 0.63 0.60 - 0.53 0.53 -
33 0.17 0.36 0.36 0.28 0.63 0.60 0.64 0.53 0.53 -
34 0.17 0.37 0.37 0.28 0.63 0.60 - 0.52 0.52 -
35 0.18 0.38 0.38 0.30 0.63 0.60 - 0.52 0.52 -
79
APÊNDICE D. Coerência W2V com top-20 palavras para base Reuters
K-means K-means Ward Ward
MST MST máximo médio máximo médio
k LDA NMF K-means Ward
máximo médio (com (com (com (com
SOM) SOM) SOM) SOM)
36 0.18 0.38 0.38 0.27 0.63 0.60 - - - -
37 0.19 0.37 0.37 0.29 0.62 0.60 - - - -
38 0.18 0.36 0.36 0.28 0.63 0.60 - - - -
39 0.18 0.36 0.36 0.28 0.62 0.60 - - - -
40 0.19 0.36 0.36 0.30 0.63 0.60 - - - -
41 0.18 0.36 0.36 0.27 0.63 0.60 - - - -
42 0.18 - - 0.29 0.63 0.61 - - - -
43 0.18 0.37 0.37 0.28 0.62 0.60 - - - -
44 0.19 0.36 0.36 0.29 0.62 0.60 - - - -
45 0.18 0.36 0.36 0.29 0.62 0.60 - - - -
46 0.19 0.36 0.36 0.28 0.62 0.60 - - - -
47 0.18 - - 0.28 0.63 0.60 - - - -
48 0.18 0.36 0.36 0.29 0.63 0.60 - - - -
49 0.17 0.36 0.36 0.28 0.63 0.60 - - - -
50 0.18 0.35 0.35 0.26 0.62 0.60 - - - -
51 0.18 0.35 0.34 0.29 0.62 0.61 - - - -
52 0.18 0.35 0.35 0.27 0.63 0.61 - - - -
53 0.18 0.36 0.36 0.27 0.62 0.60 - - - -
54 0.18 - - 0.27 0.62 0.59 - - - -
55 0.17 0.36 0.36 0.28 0.62 0.60 - - - -
80
APÊNDICE D. Coerência W2V com top-20 palavras para base Reuters
K-means K-means Ward Ward
MST MST máximo médio máximo médio
k LDA NMF K-means Ward
máximo médio (com (com (com (com
SOM) SOM) SOM) SOM)
56 0.18 0.33 0.33 0.27 0.62 0.60 - - - -
57 0.18 0.33 0.33 0.28 0.62 0.60 - - - -
58 0.19 0.34 0.34 0.29 0.62 0.60 - - - -
59 0.19 0.34 0.34 0.28 0.62 0.59 - - - -
60 0.18 0.35 0.35 0.28 0.62 0.59 - - - -
61 0.18 - - 0.29 0.62 0.58 - - - -
62 0.18 0.33 0.33 0.27 0.61 0.59 - - - -
63 0.18 0.33 0.33 0.27 0.62 0.58 - - - -
64 0.18 0.33 0.33 0.28 0.61 0.61 - - - -
65 0.19 0.32 0.32 0.28 - - - - - -
66 0.18 0.33 0.33 0.28 0.61 0.61 - - - -
67 0.18 0.32 0.32 0.29 0.61 0.61 - - - -
68 0.18 0.33 0.33 0.29 - - - - - -
69 0.18 0.33 0.33 0.27 - - - - - -
70 0.18 0.32 0.32 0.29 0.61 0.61 - - - -
71 0.19 0.32 0.32 0.28 - - - - - -
72 0.17 0.31 0.31 0.28 0.61 0.61 - - - -
73 0.18 0.31 0.31 0.27 - - - - - -
74 0.18 0.29 0.29 0.28 - - - - - -
75 0.18 0.30 0.30 0.28 - - - - - -
81
APÊNDICE D. Coerência W2V com top-20 palavras para base Reuters
K-means K-means Ward Ward
MST MST máximo médio máximo médio
k LDA NMF K-means Ward
máximo médio (com (com (com (com
SOM) SOM) SOM) SOM)
76 0.18 0.30 0.30 0.27 - - - - - -
77 0.17 0.30 0.30 0.27 - - - - - -
78 0.18 0.30 0.30 0.28 - - - - - -
79 0.18 0.31 0.31 0.27 - - - - - -
80 0.18 0.29 0.29 0.29 - - - - - -
81 0.18 0.29 0.29 0.27 - - - - - -
82 0.18 - - 0.27 - - - - - -
83 0.17 0.28 0.28 0.28 - - - - - -
84 0.18 0.28 0.28 0.27 - - - - - -
85 0.18 - - 0.26 - - - - - -
86 0.18 0.29 0.29 0.28 - - - - - -
87 0.19 0.29 0.29 0.28 - - - - - -
88 0.17 - - 0.28 - - - - - -
89 0.18 0.29 0.29 0.28 - - - - - -
90 0.17 - - 0.27 - - - - - -
91 0.18 - - 0.28 - - - - - -
92 0.18 0.26 0.26 0.28 - - - - - -
93 0.17 0.27 0.27 0.28 - - - - - -
94 0.18 - - 0.28 - - - - - -
95 0.18 - - 0.27 - - - - - -
82
APÊNDICE D. Coerência W2V com top-20 palavras para base Reuters
K-means K-means Ward Ward
MST MST máximo médio máximo médio
k LDA NMF K-means Ward
máximo médio (com (com (com (com
SOM) SOM) SOM) SOM)
96 0.18 - - 0.27 - - - - - -
97 0.18 - - 0.27 - - - - - -
98 0.18 - - 0.27 - - - - - -
99 0.18 - - 0.27 - - - - - -
100 0.17 - - 0.27 - - - - - -
Tabela 21 – Coerência W2V com top-20 palavras para
base Reuters
83
APÊNDICE E – Coerência CV com top-10 palavras para base
Twenty Newsgroups
84
APÊNDICE E. Coerência CV com top-10 palavras para base Twenty Newsgroups
K-means K-means Ward Ward
MST MST máximo médio máximo médio
k LDA NMF K-means Ward
máximo médio (com (com (com (com
SOM) SOM) SOM) SOM)
16 0.63 - - 0.68 0.47 0.41 0.39 0.46 0.41 0.43
17 0.66 0.49 0.47 0.69 0.48 0.41 0.39 0.47 0.41 0.43
18 0.65 - - 0.65 0.47 0.41 0.41 0.45 0.41 0.42
19 0.63 0.48 0.48 0.64 0.45 0.41 0.39 0.45 0.41 0.42
20 0.64 0.45 0.45 0.62 0.45 0.41 0.39 0.45 0.41 0.40
21 0.65 0.46 0.46 0.63 0.45 0.40 0.40 0.45 0.41 0.42
22 0.63 - - 0.69 0.45 0.41 0.42 0.45 0.41 0.42
23 0.64 0.47 0.47 0.66 0.46 0.40 0.40 0.45 0.41 0.42
24 0.64 0.46 0.46 0.60 0.44 0.40 0.42 0.45 0.41 0.44
25 0.66 - - 0.67 0.45 0.40 0.41 0.45 0.40 0.44
26 0.66 0.47 0.47 0.61 0.44 0.40 0.40 0.46 0.40 0.44
27 0.63 0.47 0.46 0.64 0.46 0.41 - 0.46 0.40 0.44
28 0.64 - - 0.60 0.44 0.40 0.38 0.46 0.40 0.43
29 0.64 0.45 0.45 0.66 0.43 0.40 0.41 0.46 0.40 0.43
30 0.65 0.47 0.47 0.68 0.44 0.41 - 0.46 0.41 -
Tabela 22 – Coerência CV com top-10 palavras para base
Twenty Newsgroups
85
APÊNDICE F – Coerência CV com top-20 palavras para base
Twenty Newsgroups
86
APÊNDICE F. Coerência CV com top-20 palavras para base Twenty Newsgroups
K-means K-means Ward Ward
MST MST máximo médio máximo médio
k LDA NMF K-means Ward
máximo médio (com (com (com (com
SOM) SOM) SOM) SOM)
16 0.56 - - 0.61 0.61 0.53 0.49 0.61 0.53 -
17 0.56 0.60 0.59 0.66 0.61 0.53 0.48 0.61 0.53 -
18 0.55 - - 0.62 0.61 0.53 0.49 0.60 0.52 -
19 0.55 0.60 0.59 0.60 0.60 0.52 0.48 0.60 0.52 -
20 0.56 0.60 0.60 0.58 0.60 0.52 0.48 0.60 0.52 -
21 0.55 0.60 0.60 0.57 0.59 0.52 0.47 0.59 0.52 -
22 0.55 - - 0.63 0.59 0.52 0.49 0.59 0.52 -
23 0.55 0.59 0.59 0.57 0.59 0.52 0.48 0.59 0.52 -
24 0.56 0.59 0.59 0.55 0.59 0.51 0.48 0.59 0.51 -
25 0.55 - - 0.61 0.58 0.51 0.47 0.58 0.51 -
26 0.56 0.59 0.59 0.56 0.58 0.51 0.46 0.59 0.51 -
27 0.54 0.58 0.58 0.58 0.59 0.51 - 0.59 0.51 -
28 0.55 - - 0.54 0.58 0.51 0.46 0.58 0.50 -
29 0.55 0.58 0.58 0.59 0.58 0.51 - 0.59 0.51 -
30 0.55 0.58 0.58 0.61 0.58 0.51 - 0.58 0.50 -
Tabela 23 – Coerência CV com top-20 palavras para base
Twenty Newsgroups
87
APÊNDICE G – Coerência W2V com top-10 palavras para
base Twenty Newsgroups
88
APÊNDICE G. Coerência W2V com top-10 palavras para base Twenty Newsgroups
K-means K-means Ward Ward
MST MST máximo médio máximo médio
k LDA NMF K-means Ward
máximo médio (com (com (com (com
SOM) SOM) SOM) SOM)
16 0.27 - - 0.44 0.74 0.71 0.74 0.74 0.70 0.74
17 0.29 0.61 0.59 0.46 0.74 0.71 0.74 0.74 0.70 0.74
18 0.31 - - 0.44 0.74 0.71 0.74 0.74 0.70 0.74
19 0.26 0.59 0.58 0.41 0.75 0.70 0.75 0.73 0.70 0.73
20 0.29 0.60 0.60 0.41 0.73 0.70 0.74 0.73 0.70 0.73
21 0.30 0.59 0.59 0.42 0.74 0.70 0.74 0.73 0.70 0.73
22 0.30 - - 0.43 0.73 0.70 0.74 0.73 0.70 0.74
23 0.28 0.58 0.58 0.44 0.74 0.70 0.74 0.73 0.70 0.74
24 0.27 0.59 0.59 0.38 0.73 0.70 0.75 0.73 0.70 0.74
25 0.32 - - 0.44 0.75 0.70 0.74 0.73 0.70 0.74
26 0.29 0.59 0.58 0.40 0.73 0.70 0.75 0.73 0.70 0.74
27 0.27 0.59 0.58 0.41 0.74 0.70 - 0.73 0.70 0.73
28 0.27 - - 0.39 0.73 0.70 0.74 0.73 0.70 0.73
29 0.30 0.60 0.60 0.42 0.74 0.70 0.74 0.73 0.70 0.73
30 0.31 0.58 0.58 0.42 0.74 0.70 - 0.74 0.70 -
Tabela 24 – Coerência W2V com top-10 palavras para
base Twenty Newsgroups
89
APÊNDICE H – Coerência W2V com top-20 palavras para
base Twenty Newsgroups
90
APÊNDICE H. Coerência W2V com top-20 palavras para base Twenty Newsgroups
K-means K-means Ward Ward
MST MST máximo médio máximo médio
k LDA NMF K-means Ward
máximo médio (com (com (com (com
SOM) SOM) SOM) SOM)
16 0.18 - - 0.36 0.68 0.65 0.69 0.68 0.65 -
17 0.17 0.54 0.53 0.37 0.68 0.65 0.68 0.68 0.64 -
18 0.17 - - 0.36 0.68 0.65 0.69 0.68 0.64 -
19 0.16 0.53 0.52 0.34 0.68 0.65 0.69 0.67 0.64 -
20 0.17 0.53 0.53 0.34 0.68 0.65 0.68 0.67 0.64 -
21 0.18 0.53 0.53 0.34 0.68 0.64 0.69 0.67 0.64 -
22 0.18 - - 0.35 0.68 0.64 0.68 0.67 0.64 -
23 0.17 0.52 0.52 0.34 0.68 0.64 0.69 0.67 0.64 -
24 0.18 0.52 0.52 0.33 0.68 0.64 0.70 0.67 0.64 -
25 0.18 - - 0.36 0.68 0.64 0.69 0.67 0.64 -
26 0.18 0.52 0.51 0.33 0.68 0.64 0.70 0.67 0.64 -
27 0.18 0.51 0.51 0.34 0.68 0.64 - 0.67 0.64 -
28 0.16 - - 0.32 0.67 0.64 0.69 0.67 0.64 -
29 0.17 0.51 0.51 0.35 0.67 0.64 - 0.67 0.63 -
30 0.19 0.51 0.51 0.35 0.68 0.64 - 0.67 0.64 -
Tabela 25 – Coerência W2V com top-20 palavras para
base Twenty Newsgroups
91