Escolar Documentos
Profissional Documentos
Cultura Documentos
Introduo
As redes sociais online se encontram bastante presentes em nossa sociedade. Por meio
delas, um usurio pode, por exemplo, compartilhar suas emoes e estados psicolgicos
com outros usurios. Em redes sociais tpicas, cada usurio pode ser representado, por
exemplo, pelo conjunto de mensagens que publica, pelos dados de um teste de
personalidade que realiza, ou at mesmo pelos padres de interao com os demais
usurios, o que resulta em diversas estruturas de associao, como, por exemplo, a
associao de amizade. Nas redes sociais existem alguns aspectos interessantes para
estudo, dentre os quais aparecem a deteco de comunidades, predio de links e
deteco de padres. Um problema relevante agrupar os usurios da rede social com o
objetivo de evidenciar padres associados aos seus comportamentos, caractersticas e
interesses (Wasserman e Faust 1994) .
H inmeras pesquisas recentes em agrupamento de dados que tm mostrado que,
dada uma coleo de objetos, h vrias maneiras alternativas de agrup-las, de modo
que cada um dos agrupamentos possa revelar uma perspectiva diferente e interessante
desses objetos (Bae e Bailey 2006, Davidson e Qi 2008, Xuan Hong Dang 2014). A
ideia geral compreende a utilizao de algoritmos que possam prover solues de
agrupamentos mltiplos (multiple clusterings).
No contexto das redes sociais, embora haja trabalhos que realizam agrupamento
com mltiplas vises (Greene e Cunningham 2013), no foram observadas abordagens
semi-supervisionadas que combinassem mltiplas vises (multi-view) com
agrupamentos mltiplos. Isso deixa espao para investigaes dessa lacuna. Tais
investigaes so relevantes em pesquisas com redes sociais, uma vez que cada usurio
pode fazer parte de diferentes grupos a partir de suas diferentes interaes na rede.
Essas diferentes parties podem ser exploradas por diferentes reas como, por
exemplo, a rea de marketing (Dalgic 2006). A Figura 1 ilustra uma rede social
hipottica. Agrupar os usurios <[1,2,3,4],[5,6,7]> poderia ser interessante para uma
empresa que vendesse roupas para adolescentes. Por outro lado, agrupar os usurios
<[1,2,6,7],[3,4,5]> poderia ser mais interessante para uma empresa que vendesse artigos
esportivos de futebol. No primeiro caso, a idade poderia ser mais importante e no
segundo o gnero.
Disponvel em http://www.meuqueridodiario.com.br
Em redes sociais tpicas, os usurios podem, por exemplo, escrever postagens (posts),
realizar comentrios e incluir fotos. As redes sociais fornecem um substrato interessante
que pode ser analisado por estudiosos de diversas reas, como sociologia, psicologia e,
mais recentemente, cincia da computao. Pennebaker (2013) afirma que diferentes
padres de palavras funcionais (function words) revelam partes importantes da
personalidade de indivduos e como eles pensam. Dimitrius e Mazzarella (2008)
observam que os padres de personalidade podem, por exemplo, auxiliar em tomadas de
deciso. Neste contexto, aspectos como personalidade e emoes podem ser explorados
nessas redes.
A personalidade pode ser definida como um conjunto dinmico e organizado de
caractersticas possudas por uma pessoa que unicamente influencia suas opinies,
motivao e comportamento em vrias situaes (Ryckman 2013). Na psicologia, a
personalidade de um indivduo modelada como traos ou fatores. Existem diversos
modelos utilizados para realizar essa representao. O modelo dos cinco grandes fatores
da personalidade (Big Five) se tornou a abordagem dominante para modelar a
personalidade na psicologia (Raad e Perugini 2002). Esse modelo composto pela
representao de cinco fatores da personalidade: abertura, conscienciosidade,
extroverso, agradabilidade e neuroticismo. Ao responder a um questionrio
relacionado aos fatores da personalidade composto por 44 perguntas baseadas na escala
de Likert, o usurio escolhe um nmero de 1 a 5 para cada questo, onde 1 denota forte
discordncia e 5 denota forte concordncia. Utilizando as respostas apresentadas a cada
uma das 44 perguntas, cada fator da personalidade calculado da seguinte forma:
GUEDES, G. P.; BEZERRA, E.; OGASAWARA, E.; XEXEO, G.
MAM: Mtodo para Agrupamentos Mltiplos em Redes Sociais Online Baseado em Emoes, Personalidades e Textos
iSys - Revista Brasileira de Sistemas de Informao, Rio de Janeiro, vol. 7, No. 3, p. 38-55, 2014.
Valor
3
4
2
3
1
5
4
3
(3 + 6 4 + 2 + 3 + 6 1 + 5 + 6 4 + 3
= 3,13
8
(1)
||
!
(2)
! , !(!! )
(3)
!!
!"
!"
1 ! , !
=
!! ,!! !!"
(4)
!"
!"
! , !
(5)
!! ,!! !!"
(a)
(b)
(c)
(d)
5
5.1
Avaliao Experimental
Conjunto de dados
No presente trabalho, utilizamos dados provenientes de uma rede social online chamada
Meu querido Dirio (MQD). Essa rede permite que usurios escrevam postagens e
associem marcaes de emoes a elas. Durante a utilizao do MQD, os usurios
podem descrever o que fizeram durante o dia, quais seus sentimentos ou alguma
informao sobre seus estados emocionais. Alm disso, podem escolher uma entre seis
emoes para associar a suas postagens. Essas emoes fazem parte das seis emoes
bsicas propostas por Ekman e Friesen (Ekman e Friesen 1978).
Os usurios do MQD tambm podem responder a um teste de personalidade
(Andrade 2008), que uma verso em portugus do Brasil do Modelo dos Cinco
Fatores da Personalidade proposto por Piedmont (2008). As informaes presentes no
conjunto de dados do MQD tambm apresentam idade, sexo, data de nascimento,
estado, estado civil, dentre outros. Quando o usurio escreve uma postagem, ele
necessita inserir o ttulo, texto e data do evento. Caso o usurio queira, pode associar
sua postagem a uma emoo, mas isso no obrigatrio. Assim como em outras redes
sociais online, os usurios podem escrever comentrios em cada postagem. Cada
postagem do MQD pode ter diversos comentrios.
Atualmente, existem mais de 47.000 usurios cadastrados e mais de 11.000
responderam ao teste de personalidade. Alm disso, o MQD possui mais de 26.000
relaes de amizade e aproximadamente 51.000 postagens com emoes associadas.
Existem aproximadamente 100.000 comentrios escritos. Para esse estudo, foi utilizado
um conjunto de dados no qual todos os usurios responderam ao teste de personalidade
e escreveram ao menos cinco postagens com emoes associadas. Essa base foi
denominada MQD1093 e possui 1.093 usurios e 20.047 postagens com emoes
associadas.
importante ressaltar que existem trs perspectivas sobre os mesmos usurios:
emoes, personalidades e postagens. Dado que o objetivo principal do website a partir
do qual o conjunto de dados MQD1093 (MQD1093) foi gerado a escrita de
postagens (a realizao do teste de personalidade e a associao de emoes a cada
GUEDES, G. P.; BEZERRA, E.; OGASAWARA, E.; XEXEO, G.
MAM: Mtodo para Agrupamentos Mltiplos em Redes Sociais Online Baseado em Emoes, Personalidades e Textos
iSys - Revista Brasileira de Sistemas de Informao, Rio de Janeiro, vol. 7, No. 3, p. 38-55, 2014.
Metodologia
max ! !
!
(6)
No caso extremo em que cada objeto representa um grupo, seu valor 1, pois a
classe dominante sempre ser a classe do nico objeto. Da mesma forma, essa medida
no avalia os demais elementos do grupo; apenas considera os elementos da classe de
maior ocorrncia, no avaliando se os demais objetos so todos de uma classe ou de
classes variadas. Por essa razo, consideramos a incluso do ndice NMI.
O NMI uma medida proveniente da Teoria da Informao capaz de quantificar a
informao comum entre duas distribuies, que no nosso caso, dois agrupamentos.
Essa medida, diferente da Pureza, no considera apenas os elementos da classe de maior
ocorrncia. A Equao 7 representa a medida do NMI, onde, corresponde
informao mtua, apresentada na Equao 8. A informao mtua calcula a quantidade
de informao que a presena ou ausncia de um objeto contribui para a classificao
GUEDES, G. P.; BEZERRA, E.; OGASAWARA, E.; XEXEO, G.
MAM: Mtodo para Agrupamentos Mltiplos em Redes Sociais Online Baseado em Emoes, Personalidades e Textos
iSys - Revista Brasileira de Sistemas de Informao, Rio de Janeiro, vol. 7, No. 3, p. 38-55, 2014.
(, )
+ () /2
(! ! ) log
!
(! ! )
(! )(! )
(7)
(8)
(! ) log (! )
(9)
(! ) log (! )
(10)
=
!
5.3
Resultados
Figura 1(b) demonstra que a Pureza tambm tende a decrescer em funo do aumento
do nmero de restries CL. Para exemplificar, podemos observar o valor de k=7. Com
500 restries, o valor do NMI se aproxima de 0.5, indicando que a qualidade do
agrupamento gerado alta.
A Figura 1(c) ilustra a funo objetivo dos agrupamentos gerados. Embora a
funo objetivo cresa conforme o nmero de restries inseridas aumente, esse
crescimento no significativamente relevante, o que se pode ser analisado a partir da
tabela 2. Podemos verificar que a funo objetivo teve uma variao de menos de 1%
para todos os novos agrupamentos gerados, quando comparados aos agrupamentos-base
de palavras. Isso indica que conseguimos um resultado relevante, visto que, por mais
que tenha havido uma variao de 1% na funo objetivo, o NMI e a Pureza variaram
de forma considervel (e.g. 50.30% para k=7).
1
k=6
k=7
k=8
k=9
k=10
k=6
k=7
k=8
k=9
k=10
0.9
0.9
Pureza
NMI
0.8
0.7
0.6
0.8
0.5
0.4
0
50
100
150
200
250
300
350
400
450
0.7
0
500
50
100
150
200
250
300
350
Nmero de restries ML
Nmero de restries CL
(a)
(b)
764
k=6
k=7
k=8
k=9
400
450
500
k=10
762
Funo Objetivo
760
758
756
754
752
750
748
0
50
100
150
200
250
300
350
400
450
500
Nmero de restries CL
(c)
Figura 1. Resultado da aplicao de restries CL: em NMI (a) em funo
objetivo (b).
Pureza [%]
20,60
23,06
22,15
19,31
17,48
NMI [%]
43,11
50,30
41,98
36,00
32,92
k=6
k=7
k=8
k=9
k=10
0.9
0.8
0.7
0.8
0.7
Pureza
NMI
0.6
0.5
0.4
0.6
0.5
0.4
0.3
0.3
0.2
0.2
0.1
0.1
0
0
50
100
150
200
250
300
350
400
450
k=6
k=7
k=8
k=9
k=10
0.9
0
0
500
50
100
150
200
250
300
350
Nmero de restries ML
Nmero de restries ML
(a)
(b)
400
450
500
780
Funo Objetivo
775
770
765
760
k=6
k=7
k=8
k=9
k=10
755
750
0
50
100
150
200
250
300
350
400
450
500
Nmero de restries ML
(c)
Figura 3. Resultado da aplicao de restries ML: em NMI (a) em Pureza (b)
em funo objetivo (c).
Pureza [%]
76,80
77,80
80,33
83,35
84,82
NMI [%]
96,70
96,92
94,06
94,31
94,44
k=6
k=7
k=8
k=9
k=10
0.9
0.8
0.7
k=8
k=9
k=10
0.7
Pureza
NMI
k=7
0.8
0.6
0.5
0.4
0.6
0.5
0.4
0.3
0.3
0.2
0.2
0.1
0
0
k=6
0.9
0.1
5
10
15
20
25
30
35
40
45
0
0
50
10
15
20
25
30
35
Nmero de restries ML
Nmero de restries ML
(a)
(b)
780
k=6
k=7
k=8
k=9
40
45
k=10
Funo Objetivo
775
770
765
760
755
750
745
0
10
15
20
25
30
35
40
45
50
Nmero de restries ML
(c)
Figure 4. Resultado da aplicao de restries ML: em NMI (a) em funo
objetivo (b).
GUEDES, G. P.; BEZERRA, E.; OGASAWARA, E.; XEXEO, G.
MAM: Mtodo para Agrupamentos Mltiplos em Redes Sociais Online Baseado em Emoes, Personalidades e Textos
iSys - Revista Brasileira de Sistemas de Informao, Rio de Janeiro, vol. 7, No. 3, p. 38-55, 2014.
50
Pureza [%]
76.67
77.68
77.59
81.37
82.35
NMI [%]
97.05
95.40
88.27
86.72
88.13
Concluso
Nesse estudo, apresentamos o MAM, uma nova abordagem para gerar agrupamentos
mltiplos em redes sociais online baseadas em emoes, personalidade e textos. Nosso
algoritmo permite a entrada de restries, o que faz com que solues semelhantes aos
agrupamentos gerados naturalmente sejam penalizadas. A utilizao de uma abordagem
semi-supervisionada permite que o usurio final possa interferir na gerao dos novos
agrupamentos.
Em nossa avaliao, utilizamos restries provenientes de perspectivas distintas
para cada usurio, baseadas em emoes e personalidades. As restries foram
selecionadas quanto maior fosse a similaridade entre os pares de usurios. Em seguida,
essas restries foram aplicadas na perspectiva de postagens. A abordagem foi
implementada tomando como base uma verso modificada do algoritmo k-means que
permite incluir restries com inteno de gerar solues alternativas s obtidas
naturalmente pelo algoritmo do k-means. As restries indicam que dois objetos devem
ficar no mesmo grupo (must-link) e que no devem ficar no mesmo grupo (cannot-link).
Os experimentos realizados utilizaram os dados extrados da rede social online
MQD. Os experimentos variaram o nmero de grupos de entrada para o mtodo
proposto (de 6 a 10). Para avaliar nosso experimento, foram utilizadas trs medidas de
qualidade: Pureza, NMI e a funo objetivo. Essas medidas demonstraram resultados
significantes visto que foi possvel gerar agrupamentos alternativos no-redundantes
quando comparados ao agrupamento-base, havendo apenas uma pequena variao na
funo objetivo: menos de 6% em todo o experimento com as restries ML e CL. As
medidas externas de avaliao (NMI e Pureza) apresentaram valores baixos,
significando que agrupamentos alternativos e no-redundantes foram gerados. A medida
interna de avaliao (funo objetivo) apresentou uma variao pequena, indicando que
o resultado bastante satisfatrio. Nesse contexto, foi possvel gerar agrupamentos
alternativos com boa qualidade.
Observamos alguns trabalhos futuros que podem derivar da abordagem proposta
nesse trabalho. Dentre eles, a criao de um novo mtodo capaz de lidar com
perspectivas genricas (no apenas com emoes, personalidades e postagens), bem
GUEDES, G. P.; BEZERRA, E.; OGASAWARA, E.; XEXEO, G.
MAM: Mtodo para Agrupamentos Mltiplos em Redes Sociais Online Baseado em Emoes, Personalidades e Textos
iSys - Revista Brasileira de Sistemas de Informao, Rio de Janeiro, vol. 7, No. 3, p. 38-55, 2014.
como a utilizao de mtricas da estrutura das redes sociais para gerao dos
agrupamentos, como, por exemplo, a centralidade ou o grau. Um outro trabalho
interessante, seria um estudo comparativo entre o MAM e outros trabalhos da literatura.
Alm disso, planejamos investigar a correlao entre as vises, visto que pode haver
dependncias entre elas.
Referncias
Andrade, J. M. de, (2008). Evidncias de validade do inventrio dos cinco grandes
fatores
de
personalidade
para
o
Brasil.
Disponvel
em:
http://repositorio.unb.br/handle/10482/1751. Acesso em: 1 abr 2014.
Bae, E., Bailey, J., (2006), "COALA: A Novel Approach for the Extraction of an
Alternate Clustering of High Quality and High Dissimilarity". In: Sixth
International Conference on Data Mining, 2006. ICDM 06, p. 5362
Bezerra, E., Xexo, G., Mattoso, Marta, (2007), "On the Usage of Structural
Information in Constrained Semi-Supervised Clustering of XML Documents",
Successes and New Directions in Data Mining:, IGI Global
Dalgic, T., (2006), Handbook of Niche Marketing: Principles and Practice. Best
Business Books, Haworth Reference Press.
Davidson, I., Qi, Z., (2008), "Finding Alternative Clusterings Using Constraints". In:
Eighth IEEE International Conference on Data Mining, 2008. ICDM 08, p.
773778
Dimitrius, J.-E., Mazzarella, M., (2008), Reading people: how to understand people and
predict their behavior-- anytime, anyplace. New York, Ballantine Books.
Ekman, P., Friesen, W., (1978), Facial Action Coding System: A Technique for the
Measurement of Facial Movement. Consulting Psychologists Press.
Girvan, M., Newman, M. E. J., (2002), "Community structure in social and biological
networks", Proceedings of the National Academy of Sciences, v. 99, n. 12 (nov.),
p. 78217826.
Golbeck, J., Robles, C., Edmondson, M., Turner, K., (2011), "Predicting Personality
from Twitter". In: Privacy, security, risk and trust (passat), 2011 ieee third
international conference on and 2011 ieee third international conference on
social computing (socialcom), p. 149156
Greene, D., Cunningham, P., (2013), "Producing a Unified Graph Representation from
Multiple Social Network Views". In: Proceedings of the 5th Annual ACM Web
Science Conference, p. 118121, New York, NY, USA.
Guedes, G., Bezerra, E., Geraldo Xexo, (2013), "Multi-view Clustering in a Social
Network".
Han, J., Kamber, M., Pei, J., (2011), Data Mining: Concepts and Techniques, Third
Edition. 3 ed. Morgan Kaufmann.
Jain, A. K., Murty, M. N., Flynn, P. J., (1999), "Data clustering: a review", ACM
Comput. Surv., v. 31, n. 3, p. 264323.
GUEDES, G. P.; BEZERRA, E.; OGASAWARA, E.; XEXEO, G.
MAM: Mtodo para Agrupamentos Mltiplos em Redes Sociais Online Baseado em Emoes, Personalidades e Textos
iSys - Revista Brasileira de Sistemas de Informao, Rio de Janeiro, vol. 7, No. 3, p. 38-55, 2014.
Luxburg, U. von, (2007), "A tutorial on spectral clustering", Statistics and Computing,
v. 17, n. 4 (dez.), p. 395416.
MacQueen, J. B., (1967), "Some Methods for Classification and Analysis of
MultiVariate Observations". In: Proc. of the fifth Berkeley Symposium on
Mathematical Statistics and Probability, p. 281297
Manning, C. D., Raghavan, P., Schtze, H., (2008), Introduction to Information
Retrieval. Cambridge University Press.
Muller, E., Gunnemann, S., Farber, I., Seidl, T., (2010), "Discovering Multiple
Clustering Solutions: Grouping Objects in Different Views of the Data". In:
2010 IEEE 10th International Conference on Data Mining (ICDM), p. 1220
1220
Munaga, H., D. R. Mounica Sree, M., V. R. Murthy, J., (2012), "DenTrac: A Density
based Trajectory Clustering Tool", International Journal of Computer
Applications, v. 41, n. 10 (mar.), p. 1721.
Nguyen, J. E. X. V., (2010), "minCEntropy: A Novel Information Theoretic Approach
for the Generation of Alternative Clusterings.", p. 521530.
Pennebaker, J. W., (2002), "What our words can say about us: Toward a broader
language psychology", Psychological Science Agenda, v. 15, n. 1, p. 89.
Pennebaker, J. W., (2013), The secret life of pronouns: what our words say about us.
New York, Bloomsbury Press.
Piedmont, R. L., (2008), "The revised NEO Personality Inventory: Clinical and research
applications"
Ryckman, R. M., (2013), Theories of personality. Australia; Belmont, CA, Wadworth
Cengage Learning.
Da Silva, E. B., Mattoso, M., Xexo, G., (2006), "Semi-Supervised Clustering of XML
Documents: Getting the Most from Structural Information.". In: ICDE
Workshops, p. 88
Wasserman, S., Faust, K., (1994), Social Network Analysis: Methods and Applications.
1 edition ed. Cambridge; New York, Cambridge University Press.
Wehrli, S., (2008), Personality on Social Network Sites: An Application of the Five
Factor Model, ETH Zurich Sociology Working Paper 7, ETH Zurich, Chair of
Sociology. Disponvel em: http://econpapers.repec.org/paper/etswpaper/7.htm.
Xuan Hong Dang, J. B., (2014), "Generating multiple alternative clusterings via
globally optimal subspaces", Data Mining and Knowledge Discovery
Big Five Assessment. , (2002), 1st edition ed. Seattle, WA, Hogrefe & Huber Pub.
.MQD1093. Disponvel em: http://sourceforge.net/p/gpca/wiki/MQD1093/. Acesso em:
7 nov 2014.