Você está na página 1de 18

MAM: Mtodo para Agrupamentos Mltiplos

em Redes Sociais Online Baseado em Emoes,


Personalidades e Textos
Gustavo Paiva Guedes1,2, Eduardo Bezerra1,2,
Eduardo Ogasawara2, Geraldo Xexo1
1

Programa de Engenharia de Sistemas e Computao COPPE / UFRJ

Centro Federal de Educao Tecnolgica Celso Suckow da Fonseca CEFET/RJ


{gguedes, ebezerra, eogasawara}@cefet-rj.br, xexeo@cos.ufrj.br

Abstract. An important problem in social network analysis is the partitioning of its


users to discover groups that have common interests or characteristics. Given a
collection of objects, typically there is not a single way of clustering. Besides, when
objects are users of a social network, each object may be described by several datasets.
These datasets offers opportunities to explore users behaviors according to different
perspectives. This work describes a multi-view clustering method to cluster objects that
contains such properties. Our method produces alternative non-redundant clusterings.
Due to their difference, they may reveal novel ways of interpreting these users. We have
conducted experiments using a Brazilian online social network named MQD. In MQD
users are represented by three datasets. Each one corresponds to a particular
perspective: emotion, personality and posts. Our experimental results indicate that our
method is able to produce difference clusterings that encompasses the three
perspectives of users.
Resumo. Um problema importante em anlise de redes sociais o particionamento de
seus usurios com o objetivo de descobrir grupos que possuem interesses ou
caractersticas comuns. Dada uma coleo de objetos, tipicamente no existe apenas
uma nica maneira de formar as parties. Alm disto, quando objetos so usurios de
uma rede social, cada objeto pode ser representado por diferentes conjuntos de dados.
Esses conjuntos de dados oferecem oportunidades para explorar os comportamentos
dos usurios a partir de diferentes perspectivas. Esse trabalho descreve um mtodo
agrupamento de mltiplas vises para agrupar objetos que contenham tais
propriedades. Os agrupamentos produzidos por nosso mtodo produzem agrupamentos
alternativos no-redundantes. Devido a essas diferenas, eles podem revelar novas
maneiras de interpretar os dados. Os experimentos conduzidos nesses trabalho usaram
uma rede social online brasileira denominada MQD. No MQD os usurios so
representados por trs conjuntos de dados. Cada um deles corresponde a uma
particular perspectiva: emoo, personalidade e postagem. Os resultados
experimentais indicam que nosso mtodo capaz de produzir agrupamentos diferentes
que consideram as trs perspectivas dos usurios.
GUEDES, G. P.; BEZERRA, E.; OGASAWARA, E.; XEXEO, G.
MAM: Mtodo para Agrupamentos Mltiplos em Redes Sociais Online Baseado em Emoes, Personalidades e Textos
iSys - Revista Brasileira de Sistemas de Informao, Rio de Janeiro, vol. 7, No. 3, p. 38-55, 2014.

Introduo

As redes sociais online se encontram bastante presentes em nossa sociedade. Por meio
delas, um usurio pode, por exemplo, compartilhar suas emoes e estados psicolgicos
com outros usurios. Em redes sociais tpicas, cada usurio pode ser representado, por
exemplo, pelo conjunto de mensagens que publica, pelos dados de um teste de
personalidade que realiza, ou at mesmo pelos padres de interao com os demais
usurios, o que resulta em diversas estruturas de associao, como, por exemplo, a
associao de amizade. Nas redes sociais existem alguns aspectos interessantes para
estudo, dentre os quais aparecem a deteco de comunidades, predio de links e
deteco de padres. Um problema relevante agrupar os usurios da rede social com o
objetivo de evidenciar padres associados aos seus comportamentos, caractersticas e
interesses (Wasserman e Faust 1994) .
H inmeras pesquisas recentes em agrupamento de dados que tm mostrado que,
dada uma coleo de objetos, h vrias maneiras alternativas de agrup-las, de modo
que cada um dos agrupamentos possa revelar uma perspectiva diferente e interessante
desses objetos (Bae e Bailey 2006, Davidson e Qi 2008, Xuan Hong Dang 2014). A
ideia geral compreende a utilizao de algoritmos que possam prover solues de
agrupamentos mltiplos (multiple clusterings).
No contexto das redes sociais, embora haja trabalhos que realizam agrupamento
com mltiplas vises (Greene e Cunningham 2013), no foram observadas abordagens
semi-supervisionadas que combinassem mltiplas vises (multi-view) com
agrupamentos mltiplos. Isso deixa espao para investigaes dessa lacuna. Tais
investigaes so relevantes em pesquisas com redes sociais, uma vez que cada usurio
pode fazer parte de diferentes grupos a partir de suas diferentes interaes na rede.
Essas diferentes parties podem ser exploradas por diferentes reas como, por
exemplo, a rea de marketing (Dalgic 2006). A Figura 1 ilustra uma rede social
hipottica. Agrupar os usurios <[1,2,3,4],[5,6,7]> poderia ser interessante para uma
empresa que vendesse roupas para adolescentes. Por outro lado, agrupar os usurios
<[1,2,6,7],[3,4,5]> poderia ser mais interessante para uma empresa que vendesse artigos
esportivos de futebol. No primeiro caso, a idade poderia ser mais importante e no
segundo o gnero.

Figura 1. Exemplo de uma pequena rede social.

GUEDES, G. P.; BEZERRA, E.; OGASAWARA, E.; XEXEO, G.


MAM: Mtodo para Agrupamentos Mltiplos em Redes Sociais Online Baseado em Emoes, Personalidades e Textos
iSys - Revista Brasileira de Sistemas de Informao, Rio de Janeiro, vol. 7, No. 3, p. 38-55, 2014.

Este trabalho apresenta o MAM, um mtodo para gerar agrupamentos mltiplos


alternativos no-redundantes em uma rede social online a partir de mltiplas vises
(emoes, personalidade e textos). O objetivo gerar agrupamentos alternativos e noredundantes a partir de uma coleo de usurios representados por dados relacionados a
suas emoes, personalidades e postagens. Utilizamos uma abordagem de agrupamento
semi-supervisionado, que, comparada abordagem no-supervisionada oferece o
benefcio de permitir que informao externa seja incorporada no processo de
agrupamento, na forma de relacionamentos (restries) entre objetos a serem agrupados.
Assim, existe a possibilidade de que as restries reflitam as necessidades dos usurios.
Esta abordagem estende a abordagem proposta em Guedes et al. (2013) ao desenvolver
um novo mtodo de agrupamento mltiplo, alm de apresentar uma avaliao
experimental mais completa. Nessa avaliao experimental, utilizamos dados
provenientes da rede social online denominada Meu Querido Dirio (MQD)1. O MQD
uma rede social brasileira na qual os usurios descrevem suas experincias dirias, de
forma similar ao uso de um dirio pessoal. Os resultados obtidos a partir de
experimentos computacionais sobre o MQD indicam que o MAM foi capaz de gerar
agrupamentos alternativos no-redundantes utilizando diferentes perspectivas dos
usurios.
Alm dessa introduo, esse trabalho est organizado em mais cinco sees. A
seo 2 apresenta uma introduo s tcnicas de agrupamento em redes sociais. A seo
3 descreve a utilizao de dados sobre emoo, personalidade e postagens em redes
sociais. As sees 4 e 5 descrevem, respectivamente, o mtodo proposto e os resultados
obtidos. Por fim, a seo 0 descreve a concluso de nosso estudo.

Tcnicas de Agrupamento em Redes Sociais

Agrupamento uma tarefa popular da rea de minerao de dados, muitas vezes


utilizada como um passo inicial para a anlise exploratria de conjuntos de dados
complexos. Muitos algoritmos de agrupamento podem ser considerados como
procedimentos de otimizao discreta orientada por uma funo objetivo. Tipicamente,
o espao de busca bastante grande, posto que cada estado desse espao corresponde a
uma possvel partio do conjunto de objetos. O procedimento de otimizao tenta
encontrar uma partio na qual os objetos de cada grupo sejam semelhantes e objetos
diferentes fiquem em grupos distintos (Han et al. 2011).
O resultado final de um agrupamento uma partio dos dados que apresenta uma
perspectiva dos objetos. A maioria dos algoritmos de agrupamento evidencia apenas
uma partio dos dados disponveis (Jain et al. 1999). Entretanto, dados multifacetados
tm se tornado relativamente comuns nos ltimos anos, o que possibilita a gerao de
diversas parties no-redundantes dos mesmos dados. Em funo disso, diversos
algoritmos de agrupamentos mltiplos foram propostos recentemente.
De acordo com Nguyen (2010), as abordagens existentes que tratam sobre
agrupamentos mltiplos podem ser divididas em duas categorias: as orientadas a funo
objetivo e as orientadas a transformao dos dados. Na primeira abordagem, o
agrupamento guiado por uma funo objetivo que segmenta os objetos em um nmero
1

Disponvel em http://www.meuqueridodiario.com.br

GUEDES, G. P.; BEZERRA, E.; OGASAWARA, E.; XEXEO, G.


MAM: Mtodo para Agrupamentos Mltiplos em Redes Sociais Online Baseado em Emoes, Personalidades e Textos
iSys - Revista Brasileira de Sistemas de Informao, Rio de Janeiro, vol. 7, No. 3, p. 38-55, 2014.

pr-estabelecido de grupos. Na abordagem orientada a transformao dos dados, o


processo de agrupamento guiado por uma transformao nos dados antes de se utilizar
um algoritmo de agrupamento. Essa transformao tem a inteno de revelar uma nova
perspectiva que estava escondida na representao original. H tambm pesquisas que
investigam algoritmos que utilizam mltiplas vises (multi-view) dos dados. Nesse caso,
almeja-se produzir um agrupamento que combine os dados dessas vises (Muller et al.
2010).
No contexto de redes sociais, algumas abordagens baseadas em grafos so
aplicveis. Uma das abordagens mais populares denominada agrupamento espectral
(spectral clustering), que particiona recursivamente os vrtices do grafo que representa
a rede social, usando informaes estruturais (Luxburg 2007). Recorrentemente, os
algoritmos de agrupamento espectral calculam autovalores e autovetores da matriz
laplaciana do grafo. Uma das desvantagens desses algoritmos est no custo
computacional, que no pior caso da ordem de O(n3).
O algoritmo Girvan-Newman (Girvan e Newman 2002) um mtodo que consiste
em remover progressivamente arestas de um grafo para detectar comunidades. Esse
mtodo utiliza o conceito de centralidade para encontrar fronteiras entre as
comunidades, removendo as arestas com maior centralidade de intermediao. Com
isso, a tendncia os componentes que permanecem conectados formem as
comunidades. Esse algoritmo possui uma complexidade de O(n2), embora no consiga
produzir agrupamentos mltiplos provenientes de dados multifacetados.

Emoo, Personalidade e Postagens em Redes Sociais

Em redes sociais tpicas, os usurios podem, por exemplo, escrever postagens (posts),
realizar comentrios e incluir fotos. As redes sociais fornecem um substrato interessante
que pode ser analisado por estudiosos de diversas reas, como sociologia, psicologia e,
mais recentemente, cincia da computao. Pennebaker (2013) afirma que diferentes
padres de palavras funcionais (function words) revelam partes importantes da
personalidade de indivduos e como eles pensam. Dimitrius e Mazzarella (2008)
observam que os padres de personalidade podem, por exemplo, auxiliar em tomadas de
deciso. Neste contexto, aspectos como personalidade e emoes podem ser explorados
nessas redes.
A personalidade pode ser definida como um conjunto dinmico e organizado de
caractersticas possudas por uma pessoa que unicamente influencia suas opinies,
motivao e comportamento em vrias situaes (Ryckman 2013). Na psicologia, a
personalidade de um indivduo modelada como traos ou fatores. Existem diversos
modelos utilizados para realizar essa representao. O modelo dos cinco grandes fatores
da personalidade (Big Five) se tornou a abordagem dominante para modelar a
personalidade na psicologia (Raad e Perugini 2002). Esse modelo composto pela
representao de cinco fatores da personalidade: abertura, conscienciosidade,
extroverso, agradabilidade e neuroticismo. Ao responder a um questionrio
relacionado aos fatores da personalidade composto por 44 perguntas baseadas na escala
de Likert, o usurio escolhe um nmero de 1 a 5 para cada questo, onde 1 denota forte
discordncia e 5 denota forte concordncia. Utilizando as respostas apresentadas a cada
uma das 44 perguntas, cada fator da personalidade calculado da seguinte forma:
GUEDES, G. P.; BEZERRA, E.; OGASAWARA, E.; XEXEO, G.
MAM: Mtodo para Agrupamentos Mltiplos em Redes Sociais Online Baseado em Emoes, Personalidades e Textos
iSys - Revista Brasileira de Sistemas de Informao, Rio de Janeiro, vol. 7, No. 3, p. 38-55, 2014.

Extroverso: ! + ! + !! + !" + !" + !" + !" + !" .


Agradabilidade: ! + ! + !" + !" + !! + !" + !" + !" + !"
Conscienciosidade: ! + ! + !" + !" + !" + !" + !! + !" + !"
Neuroticismo: ! + ! + !" + !" + !" + !" + !" + !"
Abertura: ! + !" + !" + !" + !" + !" + !" + !" + !" + !!

Na lista acima, ! denota o valor da i-sima questo e ! denota que i-sima


questo computada com o valor da resposta invertido. Para ilustrar o clculo dos
fatores, considere que um usurio responde s perguntas do teste de personalidade como
demonstrado na Tabela 1. Podemos observar que esse usurio marcou 3 para a questo
1, 4 para a questo 6 e assim por diante. Com isso, podemos calcular o fator da
extroverso conforme a Equao 1. Logo, o usurio apresenta o valor 3,13
representando seu fator de extroverso. Os demais fatores da personalidade so
calculados de forma anloga.
Tabela 1. Resposta para algumas questes do teste de personalidade.
Questo
1
6
11
16
21
26
31
36

Valor
3
4
2
3
1
5
4
3

(3 + 6 4 + 2 + 3 + 6 1 + 5 + 6 4 + 3
= 3,13
8

(1)

No que tange s emoes, essas tm sido estudadas em diversos campos, como


psicologia, sociologia e filosofia. Recentemente, pesquisadores a comunidade de cincia
da computao tem mostrado interesse por estudos relacionados a emoes,
principalmente na rea de lingustica computacional. Diversas teorias foram propostas
para o estudo de emoes, entretanto, a mais frequentemente adotada entre os
pesquisadores em processamento de linguagem natural a proposta (Ekman e Friesen
1978), que prope a existncia de seis emoes bsicas: felicidade, tristeza, raiva,
medo, nojo e surpresa.
O uso da linguagem de palavras em postagens pode refletir a personalidade,
humor, situao social, classe e uma srie de outros aspectos sobre os indivduos
(Pennebaker 2002). Neste contexto, uma pergunta interessante a ser respondida no
estudo de redes sociais compreende: possvel observar padres emocionais e de
personalidade nas postagens utilizadas para representar os usurios dessas redes?
Existem alguns estudos relacionados personalidade e emoo em redes sociais.
Golbeck et al. (Golbeck et al. 2011) demonstra ser possvel prever a personalidade de
usurios do Twitter utilizando algoritmos de aprendizado de mquina. Esse trabalho
tambm utilizou os cinco traos de personalidade descritos na Seo 3. Wehrli (Wehrli
2008) estuda como as caractersticas na personalidade podem influenciar o
comportamento nas redes sociais. Nesse contexto, caso a rede social permita que o
GUEDES, G. P.; BEZERRA, E.; OGASAWARA, E.; XEXEO, G.
MAM: Mtodo para Agrupamentos Mltiplos em Redes Sociais Online Baseado em Emoes, Personalidades e Textos
iSys - Revista Brasileira de Sistemas de Informao, Rio de Janeiro, vol. 7, No. 3, p. 38-55, 2014.

usurio escreva textos, disponibilize um teste de personalidade para seus usurios e


permita a associao dos textos com emoes, podemos representar os usurios a partir
dessas trs perspectivas: emoes, personalidades e postagens, trazendo oportunidades
para agrup-los de diferentes formas.

MAM - Mtodo de Agrupamento Mltiplo

O Mtodo de Agrupamento Mltiplo (MAM) apresentado nesse trabalho tem o objetivo


de agrupar usurios de uma rede social a partir de informaes de personalidade,
emoes e postagens associadas a esses usurios. Formalmente, cada usurio
representado com uma tripla (, , ) de vetores nos espaos vetoriais E, P e W,
representando, respectivamente, as emoes, personalidades e postagens. Nos prximos
pargrafos, descrevemos de que forma esses vetores so formados.
A dimenso E (de emoo) composta por n valores, para cada usurio. Dessa
forma, um usurio ui representado em E por um vetor ! = (!! , !! , , !" ), onde !"
o valor de entrada associada a emoo j pelo usurio u, tal que 1 j n. Da mesma
forma, representamos cada usurio u no espao P (de personalidades), composta por m
valores, como um vetor p! = (p!" , p!" , , p!" ). Cada !" o valor de entrada associada
a personalidade j pelo usurio u, tal que 1 j m.
Para representar os usurios em W, foi utilizado o modelo de espao vetorial
(Manning et al. 2008). A partir dos contedos das postagens de cada usurio do
conjunto considerado, gerado um dicionrio, i.e., um conjunto de termos que ocorre ao
menos uma vez em pelo menos uma daquelas postagens. Em seguida, so removidas as
palavras funcionais (function words), (e.g., preposies, artigos, etc.) desse dicionrio.
Tambm foi aplicado o processo de stemming para reduzir as palavras a sua raiz
morfolgica.
Considere que T corresponde ao conjunto de termos resultantes do prprocessamento e que |T| = q. Para cada usurio, foi construdo o vetor correspondente
no espao W utilizando uma medida conhecida na rea de Recuperao de Informao,
denominada TF-IDF (Manning et al. 2008). Assim, o usurio u representado no
espao vetorial W como um vetor ! = (!! , !! , , !" ), no qual a componente
!" , 1 , computada utilizando a medida TF-IDF. Dado um usurio ! e o
termo ! , !" calculado utilizando a Equao 2. Nesta equao, corresponde ao
nmero total de usurios, ! , ! o nmero de vezes que um termo ! ocorre no
conjunto de postagens postadas pelo usurio ! e ! o nmero de usurios que
utilizaram o termo ! ao menos uma vez em suas postagens. Dessa forma, !" um
nmero que reflete o quo importante um termo ! nos contedos escritos pelo usurio
! na rede social.
!" = ! , ! ! = ! , !

||
!

(2)

As triplas (, , ) de todos os usurios representam a entrada para nosso


mtodo de agrupamento mltiplo. O objetivo gerar agrupamentos alternativos e noredundantes a partir de uma coleo de usurios representados pelas suas emoes,
personalidades e postagens. Para isso, utilizamos o algoritmo k-means (MacQueen
1967). Dada uma coleo de usurios e um nmero k como entrada, o k-means gera
GUEDES, G. P.; BEZERRA, E.; OGASAWARA, E.; XEXEO, G.
MAM: Mtodo para Agrupamentos Mltiplos em Redes Sociais Online Baseado em Emoes, Personalidades e Textos
iSys - Revista Brasileira de Sistemas de Informao, Rio de Janeiro, vol. 7, No. 3, p. 38-55, 2014.

partio de de tamanho k, isto , um agrupamento composto por k grupos no


sobrepostos. O k-means determina k centroides (um para cada grupo) otimizando
localmente uma funo objetivo que procura maximizar a similaridade dentre de cada
grupo e minimizar a similaridade intergrupos.
Nosso mtodo de agrupamento mltiplo composto por dois passos. O primeiro
passo compreende a gerao (por meio do k-means clssico) de trs agrupamentos-base
a partir de cada uma das trs perspectivas dos usurios (E, P, W). Esses agrupamentosbase so ento utilizados para guiar a gerao dos demais agrupamentos. O propsito
gerar um agrupamento dos usurios no espao W diferente do agrupamento-base. Para
isso, a funo objetivo do k-means foi modificada para penalizar solues similares
soluo de agrupamento-base. O objetivo dessa modificao fazer com que as novas
solues sejam distintas do agrupamento-base.
Para formalizar, temos = {! } o conjunto de usurios e cada grupo dos
agrupamentos-base possui um rtulo , onde = {1, 2, , }. Temos :
a funo que retorna o rtulo do grupo associado a um determinado usurio e ! o
centroide do grupo ! . A funo objetivo utilizada para gerar os novos agrupamentos
distintos do agrupamento-base est definida na Equao 3 (Bezerra et al. 2007, da
Bezerra et al. 2006).

! , !(!! )

(3)

!!

A funo objetivo composta de trs parcelas. Na primeira parcela,


! , !(!! ) a funo que calcula a similaridade entre o usurio ! e o centroide
correspondente ! ! . A escolha da medida de similaridade depende da viso
selecionada para gerar o agrupamento-base. No caso desse trabalho, foi utilizada a
distncia por cosseno, visto que essa abordagem comumente adotada para dados
esparsos e com muitas dimenses.
A segunda e terceira parcelas da funo objetivo correspondem ao custo de violar
restries provenientes dos agrupamentos-base. Considerando ! e ! usurios
pertencentes ao conjunto de usurios, a notao de uma restrio must-link criada entre
dois usurios presentes no mesmo grupo pode ser representada por ML(! , ! ).
Analogamente, representou-se CL( ! , ! ) como uma restrio cannot-link. Estas
restrio so criadas de modo a produzir agrupamentos diferentes dos agrupamentosbase. Conforme Bezerra et al. (2007) e da Silva et al. (2006) as Equaes 4 e 5
apresentam o custo total de violao de uma restrio must-link e cannot-link,
respectivamente.

!"
!"
1 ! , !

=
!! ,!! !!"

GUEDES, G. P.; BEZERRA, E.; OGASAWARA, E.; XEXEO, G.


MAM: Mtodo para Agrupamentos Mltiplos em Redes Sociais Online Baseado em Emoes, Personalidades e Textos
iSys - Revista Brasileira de Sistemas de Informao, Rio de Janeiro, vol. 7, No. 3, p. 38-55, 2014.

(4)

!"
!"
! , !

(5)

!! ,!! !!"

Nas Equaes 4 e 5, , a funo indicadora (i.e., I retorna 1 quando = e


!"
!"
I retorna 0 quando ). Os valores de !"
e !"
so os custos de se violar uma
restrio must-link e cannot-link respectivamente. Vale notar que as regras TotalCostCL
e TotalCostML na funo objetivo servem para penalizar as solues de agrupamento
que so similares soluo do agrupamento-base. O nmero de restries utilizadas
provenientes do agrupamento-base um parmetro do nosso mtodo de agrupamento
mltiplo.
Para ilustrar o efeito das restries sobre o processo de agrupamento, considere o
exemplo apresentado na Figura 2. Esse exemplo ilustra a utilizao de uma restrio
ML, supondo que cada usurio seja representado pelas palavras que usou nas postagens
que escreveu. As cores azul e vermelho servem apenas para ilustrar adjetivos positivos e
negativos. O agrupamento em (b) foi produzido a partir do uso do k-means clssico. Ao
introduzir uma restrio em (c), uma nova perspectiva pode ser evidenciada em (d), na
qual os elementos positivos ficaram em um grupo, enquanto os negativos ficaram em
outro. Desta forma, as restries permitem que sejam formados agrupamentos
alternativos para os usurios.

(a)

(b)

(c)

(d)

Figura 2. Resultado da aplicao de uma restrio entre os usurios u3 e u6:


documentos no agrupados em (a); documentos agrupados naturalmente pelo
k-means em (b); usurios u3 e u6 recebendo uma restrio ML em (c); resultado
final do agrupamento pelo nosso algoritmo com a restrio ML apresentada
em (d).

GUEDES, G. P.; BEZERRA, E.; OGASAWARA, E.; XEXEO, G.


MAM: Mtodo para Agrupamentos Mltiplos em Redes Sociais Online Baseado em Emoes, Personalidades e Textos
iSys - Revista Brasileira de Sistemas de Informao, Rio de Janeiro, vol. 7, No. 3, p. 38-55, 2014.

O pseudocdigo proposto no Mtodo 1 ilustra de forma mais clara o


funcionamento da abordagem apresentada nesse trabalho.
Mtodo 1: MAM
1: Input:
! = conjunto de dados de postagens
! =conjunto de dados de emoes
! =conjunto de dados de personalidades
! =nmero de grupos do conjunto de postagens
! =nmero de grupos do conjunto de emoes
! =nmero de grupos do conjunto de personalidades
!" =nmero de restries ML a serem geradas
!" =nmero de restries CL a serem geradas
nc=incremento no nmero de restries
2: Output: , conjunto de solues de agrupamentos em ! .
3:
4: ! (! , ! )
5: ! (! , ! )
6: ! !! , ! !
7: !" !! , ! , !" !
8: !" (! , ! , !" )
9: !!!!
!" (!" )
10: !!!!!
!" (!" )
11: (! , !!!!,
!" !!!!!,
!" , ! )
12:
O mtodo inicia recebendo nove parmetros. Em seguida, nos passos 4, 5 e 6, os
agrupamentos-base para cada um dos conjuntos de dados (emoes, personalidades e
postagens) so obtidos a partir do k-means clssico utilizando um nmero k de grupos.
No passo 7, a funo generateMLConstraints gera um nmero !" de restries
must-link utilizando os agrupamentos ! e ! . Primeiramente, a funo seleciona
os pares de usurios pertencentes ao mesmo grupo tanto em ! como em ! para
gerar restries ML. Com isso, se dois usurios ! e ! pertencem ao mesmo grupo em
! e pertencem ao mesmo grupo em ! , foi gerada uma restrio ML. Assim,
geramos todas as restries ML possveis. Em seguida, essa funo calcula a distncia
euclidiana entre esses pares de objeto e atribui as !" restries mais similares a !" .
Analogamente, o passo 8 realiza o procedimento inverso para produzir as restries CL.
Nesse caso, so selecionados os pares de usurios que esto em grupos distintos tanto
em ! como em ! e as !" restries mais similares so atribudas a !" .
Os passos 9 e 10 utilizam a funo invert para inverter todas as restries
presentes em !" e !" . Assim, as restries must-link presentes em !" so
GUEDES, G. P.; BEZERRA, E.; OGASAWARA, E.; XEXEO, G.
MAM: Mtodo para Agrupamentos Mltiplos em Redes Sociais Online Baseado em Emoes, Personalidades e Textos
iSys - Revista Brasileira de Sistemas de Informao, Rio de Janeiro, vol. 7, No. 3, p. 38-55, 2014.

transformadas em restries cannot-link e inseridas em !" . Analogamente, as restries


cannot-link presentes em !" so transformadas em restries must-link e inseridas em
!" .
A funo generateClusterings, invocada no passo 11, responsvel por aplicar,
separadamente, as restries !" e !" no conjunto de dados ! . O retorno da funo
generateClusterings um conjunto de agrupamentos . Os agrupamentos gerados a
partir do conjunto de restries !" so gerados com 0 a !" restries, incrementados
com o valor de . Assim, se tivermos o valor = 50 e !" = 100, teremos 3
agrupamentos, o primeiro gerado com 0 restries, o segundo com 50 e o ltimo com
100. Da mesma forma, os agrupamentos gerados a partir de !" so gerados com 0 a
!" restries, incrementados com o valor de . Com a utilizao dessas restries e
a funo objetivo modificada do k-means (Equao 3), o propsito produzir
agrupamentos distintos dos agrupamentos-base.

5
5.1

Avaliao Experimental
Conjunto de dados

No presente trabalho, utilizamos dados provenientes de uma rede social online chamada
Meu querido Dirio (MQD). Essa rede permite que usurios escrevam postagens e
associem marcaes de emoes a elas. Durante a utilizao do MQD, os usurios
podem descrever o que fizeram durante o dia, quais seus sentimentos ou alguma
informao sobre seus estados emocionais. Alm disso, podem escolher uma entre seis
emoes para associar a suas postagens. Essas emoes fazem parte das seis emoes
bsicas propostas por Ekman e Friesen (Ekman e Friesen 1978).
Os usurios do MQD tambm podem responder a um teste de personalidade
(Andrade 2008), que uma verso em portugus do Brasil do Modelo dos Cinco
Fatores da Personalidade proposto por Piedmont (2008). As informaes presentes no
conjunto de dados do MQD tambm apresentam idade, sexo, data de nascimento,
estado, estado civil, dentre outros. Quando o usurio escreve uma postagem, ele
necessita inserir o ttulo, texto e data do evento. Caso o usurio queira, pode associar
sua postagem a uma emoo, mas isso no obrigatrio. Assim como em outras redes
sociais online, os usurios podem escrever comentrios em cada postagem. Cada
postagem do MQD pode ter diversos comentrios.
Atualmente, existem mais de 47.000 usurios cadastrados e mais de 11.000
responderam ao teste de personalidade. Alm disso, o MQD possui mais de 26.000
relaes de amizade e aproximadamente 51.000 postagens com emoes associadas.
Existem aproximadamente 100.000 comentrios escritos. Para esse estudo, foi utilizado
um conjunto de dados no qual todos os usurios responderam ao teste de personalidade
e escreveram ao menos cinco postagens com emoes associadas. Essa base foi
denominada MQD1093 e possui 1.093 usurios e 20.047 postagens com emoes
associadas.
importante ressaltar que existem trs perspectivas sobre os mesmos usurios:
emoes, personalidades e postagens. Dado que o objetivo principal do website a partir
do qual o conjunto de dados MQD1093 (MQD1093) foi gerado a escrita de
postagens (a realizao do teste de personalidade e a associao de emoes a cada
GUEDES, G. P.; BEZERRA, E.; OGASAWARA, E.; XEXEO, G.
MAM: Mtodo para Agrupamentos Mltiplos em Redes Sociais Online Baseado em Emoes, Personalidades e Textos
iSys - Revista Brasileira de Sistemas de Informao, Rio de Janeiro, vol. 7, No. 3, p. 38-55, 2014.

postagem so opcionais), nosso mtodo consiste em aplicar restries apenas no


conjunto de dados de postagens.
5.2

Metodologia

O objetivo do MAM utilizar as restries geradas a partir dos agrupamentos-base de


emoes e personalidades para gerar um conjunto de agrupamentos alternativos noredundantes sobre o conjunto de postagens . Em seguida, cada agrupamento !
comparado com o agrupamento base de postagens ! , de forma que se possa avaliar
a redundncia desses agrupamentos. Essa avaliao feita com a utilizao de algumas
medidas de qualidade, conforme mencionado na Seo 1.
H dois tipos de medidas para avaliao da qualidade de um agrupamento
disponveis na literatura: as internas e as externas. Na avaliao interna, a prpria
funo-objetivo empregada no agrupamento usada como medida de qualidade. O
propsito que os valores da funo objetivo para os agrupamentos ! fiquem prximos
ao valor da funo objetivo do agrupamento ! .
As medidas externas de validao comparam o resultado obtido por um algoritmo
de agrupamento com um gold standard, ou seja, um conjunto de dados em que os
rtulos so conhecidos e cada objeto pertence a apenas um grupo. Utilizamos duas
medidas externas para a avaliao da qualidade dos agrupamentos gerados: Pureza e
NMI. Essas medidas so empregadas com o intuito de avaliar se os agrupamentos
gerados so distintos de ! . Nesse caso, ! considerado o gold standard.
O ndice de pureza de um agrupamento dado pela soma ponderada da pureza de
cada grupo. Quanto mais semelhantes so dois agrupamentos, mais a medida se
aproxima de 1 ao passo que quanto mais distintos os agrupamentos, mais a medida se
aproxima de 0. Essa medida calcula a relao entre a classe dominante e o tamanho do
grupo. Considere que = {! , ! , , ! } o conjunto de grupos e = {! , ! , , ! }
representa o conjunto de classes. Cada elemento de o rtulo do usurio ! nos novos
agrupamentos e cada elemento de o rtulo do usurio ! no agrupamento-base. A
Eq. (6) apresenta a expresso utilizada para o clculo do ndice de pureza de um
agrupamento .
(, ) =

max ! !
!

(6)

No caso extremo em que cada objeto representa um grupo, seu valor 1, pois a
classe dominante sempre ser a classe do nico objeto. Da mesma forma, essa medida
no avalia os demais elementos do grupo; apenas considera os elementos da classe de
maior ocorrncia, no avaliando se os demais objetos so todos de uma classe ou de
classes variadas. Por essa razo, consideramos a incluso do ndice NMI.
O NMI uma medida proveniente da Teoria da Informao capaz de quantificar a
informao comum entre duas distribuies, que no nosso caso, dois agrupamentos.
Essa medida, diferente da Pureza, no considera apenas os elementos da classe de maior
ocorrncia. A Equao 7 representa a medida do NMI, onde, corresponde
informao mtua, apresentada na Equao 8. A informao mtua calcula a quantidade
de informao que a presena ou ausncia de um objeto contribui para a classificao
GUEDES, G. P.; BEZERRA, E.; OGASAWARA, E.; XEXEO, G.
MAM: Mtodo para Agrupamentos Mltiplos em Redes Sociais Online Baseado em Emoes, Personalidades e Textos
iSys - Revista Brasileira de Sistemas de Informao, Rio de Janeiro, vol. 7, No. 3, p. 38-55, 2014.

correta em um grupo. (! ) a probabilidade de um objeto pertencer ao grupo ! ,


(! ) a probabilidade de um objeto pertencer classe ! e (! ! ) a
probabilidade de um objeto pertencer a um grupo ! e a uma classe ! ao mesmo
tempo.
, =
, =

(, )
+ () /2

(! ! ) log
!

(! ! )
(! )(! )

(7)
(8)

A informao mtua possui um problema anlogo ao encontrada na pureza. A


utilizao do denominador + () /2 normaliza a informao mtua,
resolvendo esse problema, onde a entropia, demonstrada nas Equaes 9 e 10. A
entropia tende a ser maior conforme haja aumento no nmero de grupos. Essa medida
calcula a incerteza em uma varivel aleatria. Dessa forma, quo maior for a incerteza,
maior ser o valor da entropia.
=

(! ) log (! )

(9)

(! ) log (! )

(10)

=
!

5.3

Resultados

Nessa seo apresentamos dois experimentos realizados com o mtodo MAM. O


primeiro considerou o uso das restries CL e ML, variando-se o nmero de restries
de 0 a 500 com incrementos de 50. O segundo considerou apenas as restries ML,
variando-se de 0 a 50 com incremento de 1. Os agrupamentos produzidos pelo MAM
so comparados com o agrupamento-base aplicado diretamente sobre os dados.
O agrupamento-base para cada um dos conjuntos de dados (emoes,
personalidades e postagens) foi obtido a partir do k-means clssico. O critrio para
escolha do valor de k para cada um dos conjuntos de dados utilizou o ponto mximo de
curvatura (Munaga et al. 2012), considerando-se agrupamentos variando entre 2 a 20.
Como resultado, o nmero de grupos em cada perspectiva foi definido da seguinte
forma: emoes (k=6), personalidades (k=4), postagens (k=8).
Como o conjunto de postagens apresentou o valor de k=8, optamos por apresentar
os resultados com uma variao no nmero k de grupos das postagens entre 6 e 10, de
forma que pudssemos observar a variao no comportamento dos novos agrupamentos.
Os experimentos no consideraram variaes nos valores de k para emoes e
personalidades, pois os mesmos so utilizados apenas para a gerao das restries a
serem aplicadas no conjunto de postagens.
Conforme descrito na Seo 5.2, as medidas de NMI e Pureza foram utilizadas
para avaliar a qualidade dos agrupamentos, assim como a prpria funo objetivo. A
Figura 1(a) ilustra que a medida NMI decresce conforme o nmero de restries CL
aumenta, evidenciando que, de forma geral, quanto mais restries, mais os novos
agrupamentos de postagens gerados se diferenciam de ! . Da mesma forma, a
GUEDES, G. P.; BEZERRA, E.; OGASAWARA, E.; XEXEO, G.
MAM: Mtodo para Agrupamentos Mltiplos em Redes Sociais Online Baseado em Emoes, Personalidades e Textos
iSys - Revista Brasileira de Sistemas de Informao, Rio de Janeiro, vol. 7, No. 3, p. 38-55, 2014.

Figura 1(b) demonstra que a Pureza tambm tende a decrescer em funo do aumento
do nmero de restries CL. Para exemplificar, podemos observar o valor de k=7. Com
500 restries, o valor do NMI se aproxima de 0.5, indicando que a qualidade do
agrupamento gerado alta.
A Figura 1(c) ilustra a funo objetivo dos agrupamentos gerados. Embora a
funo objetivo cresa conforme o nmero de restries inseridas aumente, esse
crescimento no significativamente relevante, o que se pode ser analisado a partir da
tabela 2. Podemos verificar que a funo objetivo teve uma variao de menos de 1%
para todos os novos agrupamentos gerados, quando comparados aos agrupamentos-base
de palavras. Isso indica que conseguimos um resultado relevante, visto que, por mais
que tenha havido uma variao de 1% na funo objetivo, o NMI e a Pureza variaram
de forma considervel (e.g. 50.30% para k=7).
1

k=6

k=7

k=8

k=9

k=10

k=6

k=7

k=8

k=9

k=10

0.9
0.9

Pureza

NMI

0.8
0.7
0.6

0.8

0.5
0.4
0

50

100

150

200

250

300

350

400

450

0.7
0

500

50

100

150

200

250

300

350

Nmero de restries ML

Nmero de restries CL

(a)

(b)
764

k=6

k=7

k=8

k=9

400

450

500

k=10

762

Funo Objetivo

760
758
756
754
752
750
748
0

50

100

150

200

250

300

350

400

450

500

Nmero de restries CL

(c)
Figura 1. Resultado da aplicao de restries CL: em NMI (a) em funo
objetivo (b).

A Tabela 2 apresenta a comparao entre os agrupamentos gerados pelo MAM


com restries CL e o agrupamento-base de postagens. Os nmeros apresentados
representam a variao percentual entre o mximo e mnimo para a funo objetivo,
pureza e NMI nos diferentes valores de k. Como exemplo, podemos observar que para
k=6 houve uma variao percentual de 0,38% entre a no-utilizao de restries (0
restries) e a utilizao de 500 restries.

GUEDES, G. P.; BEZERRA, E.; OGASAWARA, E.; XEXEO, G.


MAM: Mtodo para Agrupamentos Mltiplos em Redes Sociais Online Baseado em Emoes, Personalidades e Textos
iSys - Revista Brasileira de Sistemas de Informao, Rio de Janeiro, vol. 7, No. 3, p. 38-55, 2014.

Tabela 2. Porcentagem de variao na mudana da pureza, NMI e funo


objetivo para restries CL.
K
6
7
8
9
10

Funo Objetivo [%]


0,38
0,46
0,54
0,36
0,44

Pureza [%]
20,60
23,06
22,15
19,31
17,48

NMI [%]
43,11
50,30
41,98
36,00
32,92

Os resultados apresentados pelas restries ML apresentaram uma diferena


significativa com relao s restries CL. Ao analisar a Figura 3(a), pode-se observar
que a incluso de um pequeno nmero de restries provoca uma alterao nos
resultados da funo NMI, fazendo com que a mesma alcance um resultado menor que
0,2 com apenas 50 restries (para todos os valores de k). Da mesma forma, a Figura
3(b) ilustra que a Pureza apresenta uma queda bastante relevante com a incluso de
aproximadamente 50 restries. A pequena variao na funo objetivo pode ser
observada na Figura 3(c), que evidencia que existe uma tendncia de aumento da funo
objetivo conforme se aumenta o nmero de restries.
1

k=6
k=7
k=8
k=9
k=10

0.9
0.8
0.7

0.8
0.7

Pureza

NMI

0.6
0.5
0.4

0.6
0.5
0.4

0.3

0.3

0.2

0.2

0.1

0.1

0
0

50

100

150

200

250

300

350

400

450

k=6
k=7
k=8
k=9
k=10

0.9

0
0

500

50

100

150

200

250

300

350

Nmero de restries ML

Nmero de restries ML

(a)

(b)

400

450

500

780

Funo Objetivo

775
770
765
760

k=6
k=7
k=8
k=9
k=10

755
750
0

50

100

150

200

250

300

350

400

450

500

Nmero de restries ML

(c)
Figura 3. Resultado da aplicao de restries ML: em NMI (a) em Pureza (b)
em funo objetivo (c).

A Tabela 3 apresenta a comparao entre os agrupamentos gerados pelo MAM


utilizando restries ML e o agrupamento-base de postagens. Os nmeros apresentados
representam a variao percentual entre o mximo e mnimo para a funo objetivo,
pureza e NMI nos diferentes valores de k.
GUEDES, G. P.; BEZERRA, E.; OGASAWARA, E.; XEXEO, G.
MAM: Mtodo para Agrupamentos Mltiplos em Redes Sociais Online Baseado em Emoes, Personalidades e Textos
iSys - Revista Brasileira de Sistemas de Informao, Rio de Janeiro, vol. 7, No. 3, p. 38-55, 2014.

Tabela 3. Porcentagem de variao na mudana da pureza, NMI e funo


objetivo para restries ML.
K
6
7
8
9
10

Funo Objetivo [%]


2.,2
2,28
2,77
2,59
2,55

Pureza [%]
76,80
77,80
80,33
83,35
84,82

NMI [%]
96,70
96,92
94,06
94,31
94,44

Ressalta-se que houve uma mudana relativamente pequena na funo objetivo


(menor que 3%) quando comparada s funes objetivo dos demais agrupamentos
(incluindo o agrupamento-base). Por outro lado, observamos uma alta percentagem nas
medidas de Pureza e NMI (em torno de 80% e 95% respectivamente), o que indica um
bom resultado. A utilizao de restries ML apresentou um comportamento distinto do
apresentado pelas restries CL, pois com um nmero relativamente pequeno de
restries (50) foi alcanado um valor muito baixo nas medidas externas de qualidade,
significando que a gerao de agrupamentos com restries ML necessitam de poucas
restries para se tornarem muito distintos do agrupamento-base. Assim, foi realizado
um novo experimento utilizando um nmero de restries de 0 a 50 com variaes de
uma em uma conforme ilustra a Figura 4. Pode-se observar que com um nmero entre
cinco e dez restries, os valores mnimos da medida de NMI foram alcanados. Os
valores apresentados para a Pureza e o NMI destacam que os novos agrupamentos
formados variaram significantemente com relao ao agrupamento-base.
1

k=6
k=7
k=8
k=9
k=10

0.9
0.8
0.7

k=8

k=9

k=10

0.7

Pureza

NMI

k=7

0.8

0.6
0.5
0.4

0.6
0.5
0.4

0.3

0.3

0.2

0.2

0.1
0
0

k=6

0.9

0.1
5

10

15

20

25

30

35

40

45

0
0

50

10

15

20

25

30

35

Nmero de restries ML

Nmero de restries ML

(a)

(b)
780

k=6

k=7

k=8

k=9

40

45

k=10

Funo Objetivo

775
770
765
760
755
750
745
0

10

15

20

25

30

35

40

45

50

Nmero de restries ML

(c)
Figure 4. Resultado da aplicao de restries ML: em NMI (a) em funo
objetivo (b).
GUEDES, G. P.; BEZERRA, E.; OGASAWARA, E.; XEXEO, G.
MAM: Mtodo para Agrupamentos Mltiplos em Redes Sociais Online Baseado em Emoes, Personalidades e Textos
iSys - Revista Brasileira de Sistemas de Informao, Rio de Janeiro, vol. 7, No. 3, p. 38-55, 2014.

50

A tabela 4 apresenta o nmero de restries ML variando de 1 a 50. A utilizao


dessas restries geraram alta variao nas medidas de pureza e NMI, enquanto a
funo objetivo variou menos de 4% em todos os casos, o que demonstra um resultado
bastante satisfatrio.
Tabela 4. Porcentagem de variao na mudana da pureza, NMI e funo
objetivo para restries ML-1-50.
K
6
7
8
9
10

Funo Objetivo [%]


2.41
2.14
2.55
2.55
3.03

Pureza [%]
76.67
77.68
77.59
81.37
82.35

NMI [%]
97.05
95.40
88.27
86.72
88.13

Concluso

Nesse estudo, apresentamos o MAM, uma nova abordagem para gerar agrupamentos
mltiplos em redes sociais online baseadas em emoes, personalidade e textos. Nosso
algoritmo permite a entrada de restries, o que faz com que solues semelhantes aos
agrupamentos gerados naturalmente sejam penalizadas. A utilizao de uma abordagem
semi-supervisionada permite que o usurio final possa interferir na gerao dos novos
agrupamentos.
Em nossa avaliao, utilizamos restries provenientes de perspectivas distintas
para cada usurio, baseadas em emoes e personalidades. As restries foram
selecionadas quanto maior fosse a similaridade entre os pares de usurios. Em seguida,
essas restries foram aplicadas na perspectiva de postagens. A abordagem foi
implementada tomando como base uma verso modificada do algoritmo k-means que
permite incluir restries com inteno de gerar solues alternativas s obtidas
naturalmente pelo algoritmo do k-means. As restries indicam que dois objetos devem
ficar no mesmo grupo (must-link) e que no devem ficar no mesmo grupo (cannot-link).
Os experimentos realizados utilizaram os dados extrados da rede social online
MQD. Os experimentos variaram o nmero de grupos de entrada para o mtodo
proposto (de 6 a 10). Para avaliar nosso experimento, foram utilizadas trs medidas de
qualidade: Pureza, NMI e a funo objetivo. Essas medidas demonstraram resultados
significantes visto que foi possvel gerar agrupamentos alternativos no-redundantes
quando comparados ao agrupamento-base, havendo apenas uma pequena variao na
funo objetivo: menos de 6% em todo o experimento com as restries ML e CL. As
medidas externas de avaliao (NMI e Pureza) apresentaram valores baixos,
significando que agrupamentos alternativos e no-redundantes foram gerados. A medida
interna de avaliao (funo objetivo) apresentou uma variao pequena, indicando que
o resultado bastante satisfatrio. Nesse contexto, foi possvel gerar agrupamentos
alternativos com boa qualidade.
Observamos alguns trabalhos futuros que podem derivar da abordagem proposta
nesse trabalho. Dentre eles, a criao de um novo mtodo capaz de lidar com
perspectivas genricas (no apenas com emoes, personalidades e postagens), bem
GUEDES, G. P.; BEZERRA, E.; OGASAWARA, E.; XEXEO, G.
MAM: Mtodo para Agrupamentos Mltiplos em Redes Sociais Online Baseado em Emoes, Personalidades e Textos
iSys - Revista Brasileira de Sistemas de Informao, Rio de Janeiro, vol. 7, No. 3, p. 38-55, 2014.

como a utilizao de mtricas da estrutura das redes sociais para gerao dos
agrupamentos, como, por exemplo, a centralidade ou o grau. Um outro trabalho
interessante, seria um estudo comparativo entre o MAM e outros trabalhos da literatura.
Alm disso, planejamos investigar a correlao entre as vises, visto que pode haver
dependncias entre elas.

Referncias
Andrade, J. M. de, (2008). Evidncias de validade do inventrio dos cinco grandes
fatores
de
personalidade
para
o
Brasil.
Disponvel
em:
http://repositorio.unb.br/handle/10482/1751. Acesso em: 1 abr 2014.
Bae, E., Bailey, J., (2006), "COALA: A Novel Approach for the Extraction of an
Alternate Clustering of High Quality and High Dissimilarity". In: Sixth
International Conference on Data Mining, 2006. ICDM 06, p. 5362
Bezerra, E., Xexo, G., Mattoso, Marta, (2007), "On the Usage of Structural
Information in Constrained Semi-Supervised Clustering of XML Documents",
Successes and New Directions in Data Mining:, IGI Global
Dalgic, T., (2006), Handbook of Niche Marketing: Principles and Practice. Best
Business Books, Haworth Reference Press.
Davidson, I., Qi, Z., (2008), "Finding Alternative Clusterings Using Constraints". In:
Eighth IEEE International Conference on Data Mining, 2008. ICDM 08, p.
773778
Dimitrius, J.-E., Mazzarella, M., (2008), Reading people: how to understand people and
predict their behavior-- anytime, anyplace. New York, Ballantine Books.
Ekman, P., Friesen, W., (1978), Facial Action Coding System: A Technique for the
Measurement of Facial Movement. Consulting Psychologists Press.
Girvan, M., Newman, M. E. J., (2002), "Community structure in social and biological
networks", Proceedings of the National Academy of Sciences, v. 99, n. 12 (nov.),
p. 78217826.
Golbeck, J., Robles, C., Edmondson, M., Turner, K., (2011), "Predicting Personality
from Twitter". In: Privacy, security, risk and trust (passat), 2011 ieee third
international conference on and 2011 ieee third international conference on
social computing (socialcom), p. 149156
Greene, D., Cunningham, P., (2013), "Producing a Unified Graph Representation from
Multiple Social Network Views". In: Proceedings of the 5th Annual ACM Web
Science Conference, p. 118121, New York, NY, USA.
Guedes, G., Bezerra, E., Geraldo Xexo, (2013), "Multi-view Clustering in a Social
Network".
Han, J., Kamber, M., Pei, J., (2011), Data Mining: Concepts and Techniques, Third
Edition. 3 ed. Morgan Kaufmann.
Jain, A. K., Murty, M. N., Flynn, P. J., (1999), "Data clustering: a review", ACM
Comput. Surv., v. 31, n. 3, p. 264323.
GUEDES, G. P.; BEZERRA, E.; OGASAWARA, E.; XEXEO, G.
MAM: Mtodo para Agrupamentos Mltiplos em Redes Sociais Online Baseado em Emoes, Personalidades e Textos
iSys - Revista Brasileira de Sistemas de Informao, Rio de Janeiro, vol. 7, No. 3, p. 38-55, 2014.

Luxburg, U. von, (2007), "A tutorial on spectral clustering", Statistics and Computing,
v. 17, n. 4 (dez.), p. 395416.
MacQueen, J. B., (1967), "Some Methods for Classification and Analysis of
MultiVariate Observations". In: Proc. of the fifth Berkeley Symposium on
Mathematical Statistics and Probability, p. 281297
Manning, C. D., Raghavan, P., Schtze, H., (2008), Introduction to Information
Retrieval. Cambridge University Press.
Muller, E., Gunnemann, S., Farber, I., Seidl, T., (2010), "Discovering Multiple
Clustering Solutions: Grouping Objects in Different Views of the Data". In:
2010 IEEE 10th International Conference on Data Mining (ICDM), p. 1220
1220
Munaga, H., D. R. Mounica Sree, M., V. R. Murthy, J., (2012), "DenTrac: A Density
based Trajectory Clustering Tool", International Journal of Computer
Applications, v. 41, n. 10 (mar.), p. 1721.
Nguyen, J. E. X. V., (2010), "minCEntropy: A Novel Information Theoretic Approach
for the Generation of Alternative Clusterings.", p. 521530.
Pennebaker, J. W., (2002), "What our words can say about us: Toward a broader
language psychology", Psychological Science Agenda, v. 15, n. 1, p. 89.
Pennebaker, J. W., (2013), The secret life of pronouns: what our words say about us.
New York, Bloomsbury Press.
Piedmont, R. L., (2008), "The revised NEO Personality Inventory: Clinical and research
applications"
Ryckman, R. M., (2013), Theories of personality. Australia; Belmont, CA, Wadworth
Cengage Learning.
Da Silva, E. B., Mattoso, M., Xexo, G., (2006), "Semi-Supervised Clustering of XML
Documents: Getting the Most from Structural Information.". In: ICDE
Workshops, p. 88
Wasserman, S., Faust, K., (1994), Social Network Analysis: Methods and Applications.
1 edition ed. Cambridge; New York, Cambridge University Press.
Wehrli, S., (2008), Personality on Social Network Sites: An Application of the Five
Factor Model, ETH Zurich Sociology Working Paper 7, ETH Zurich, Chair of
Sociology. Disponvel em: http://econpapers.repec.org/paper/etswpaper/7.htm.
Xuan Hong Dang, J. B., (2014), "Generating multiple alternative clusterings via
globally optimal subspaces", Data Mining and Knowledge Discovery
Big Five Assessment. , (2002), 1st edition ed. Seattle, WA, Hogrefe & Huber Pub.
.MQD1093. Disponvel em: http://sourceforge.net/p/gpca/wiki/MQD1093/. Acesso em:
7 nov 2014.

GUEDES, G. P.; BEZERRA, E.; OGASAWARA, E.; XEXEO, G.


MAM: Mtodo para Agrupamentos Mltiplos em Redes Sociais Online Baseado em Emoes, Personalidades e Textos
iSys - Revista Brasileira de Sistemas de Informao, Rio de Janeiro, vol. 7, No. 3, p. 38-55, 2014.

Você também pode gostar