Você está na página 1de 186

Redes Sociais Online: Técnicas de Coleta e

Abordagens de Medição

Fabrício Benevenuto
Formas de coleta de dados

Entrevistas Proxies ou agregadores Dados de servidores


ou coleta de dados Dados de aplicações
públicos na Web

Agregadores Rede social Aplicações de


de tráfego online Terceiros

InWeb . Instituto Nacional de Ciência e Tecnologia para a Web


Coletores

• Coleta de IDs sequencias: Twitter


– APIs, scripts em perl e python
– Measuring User Influence in Twitter: The million Follower Fallacy. ICWSM’10
• Coleta do Orkut
– Firebug e coleta de chamadas ocultas
• Coleta do WCC, distribuída e por snowball
– Measurement and Analysis of Online Social Networks. IMC’07

InWeb . Instituto Nacional de Ciência e Tecnologia para a Web


API do Twitter

• Permitem a construção de aplicações, mas podem ser utilizadas


por crawlers
– statuses/filter
– statuses/sample
– trends
– trends/daily
– trends/weekly
– statuses/retweets_of_me
– statuses/mentions
– account/rate_limit_status

InWeb . Instituto Nacional de Ciência e Tecnologia para a Web


API do Twitter

• Profile do usuário: http://twitter.com/users/show/44446416.xml

InWeb . Instituto Nacional de Ciência e Tecnologia para a Web


API do Twitter

• Tweets: http://twitter.com/statuses/user_timeline.xml?user_id=44446416&co
unt=200&page=1

InWeb . Instituto Nacional de Ciência e Tecnologia para a Web


API do Twitter

• Followees: Provê 5000 IDs por requisição


• http://twitter.com/friends/ids/44446416.xml?page=1

InWeb . Instituto Nacional de Ciência e Tecnologia para a Web


API do Twitter

• Followers: http://twitter.com/followers/ids/44446416.xml?page=1

InWeb . Instituto Nacional de Ciência e Tecnologia para a Web


http://firefoxtweetmachine.com/

InWeb . Instituto Nacional de Ciência e Tecnologia para a Web


InWeb . Instituto Nacional de Ciência e Tecnologia para a Web
http://observatorio.inweb.org.br/eleicoes2010/destaques/

InWeb . Instituto Nacional de Ciência e Tecnologia para a Web


http://www.nytimes.com/interactive/2010/07/02/sports/soccer/facebook-worldcup.html/

InWeb . Instituto Nacional de Ciência e Tecnologia para a Web


API do Twitter

• http://twitter.com/help/request_whitelisting

InWeb . Instituto Nacional de Ciência e Tecnologia para a Web


Crawler – código em perl

• Biblioteca LWP da linguagem PERL

InWeb . Instituto Nacional de Ciência e Tecnologia para a Web


Crawler – código em perl

• Com mais detalhes no cabeçalho

InWeb . Instituto Nacional de Ciência e Tecnologia para a Web


Crawler – código em python

• Biblioteca urllib da linguagem PYTHON

InWeb . Instituto Nacional de Ciência e Tecnologia para a Web


Coleta do WCC

Seguindo apenas
uma direção

Seguindo ambas
as direções

Início

InWeb . Instituto Nacional de Ciência e Tecnologia para a Web


Amostragem com Snowball

1 Nível 0

2 3 4 5 Nível 1

6 7 8 9 Nível 2

InWeb . Instituto Nacional de Ciência e Tecnologia para a Web


Problemas com Snowball

InWeb . Instituto Nacional de Ciência e Tecnologia para a Web


Crawlers distribuídos

• Clientes
– Recebem páginas do servidor
para coletar
– Coletam páginas
– Encontram novas páginas a …
serem coletadas e devolvem
Cliente 2
ao servidor Cliente 1 Cliente 50
• Servidor
– coordena clientes
Gerencia clientes
– evita redundância e evita coleta
redundante
– O servidor pode ser um Servidor
simples banco de dados
InWeb . Instituto Nacional de Ciência e Tecnologia para a Web
Firebug/tcpdump

• JavaScript e Ajax muitas vezes escondem o HTML que procuramos


com os crawlers.
• O Firebug é um add on do firefox que pode ajudar
• Qualquer ferramenta tcpdump like também pode resolver

InWeb . Instituto Nacional de Ciência e Tecnologia para a Web


Coletando o Orkut

InWeb . Instituto Nacional de Ciência e Tecnologia para a Web


Coletando o Orkut

• Main# não permite que o fonte das páginas sejam visualizadas


– http://www.orkut.com.br/Main#FriendsList?uid=8605703562113146391

• Solução: desabilitar Javascript e não utilizar o Main#


– http://www.orkut.com.br/FriendsList?uid=8605703562113146391

InWeb . Instituto Nacional de Ciência e Tecnologia para a Web


Ajax no YouTube

InWeb . Instituto Nacional de Ciência e Tecnologia para a Web


Coleta de IDs sequenciais

• IDs dos usuários são sequenciais no Twitter


– Inspecionamos 80M de usuários, coletando perfil, todos os elos e tweets
– Nenhum ID nas listas de seguidores/seguidos era superior a 80M

• Total de 55M de usuários, 2B de elos e 1.8B de tweets


– Cerca de 2 TB coletados
– Lista branca para 58 máquinas no MPI-SWS
– 20.000 requisições/hora em cada máquina

• Grafo de 55 milhões de nodos e 2 bilhões de arestas


– Como armazenar um grafo desses?
InWeb . Instituto Nacional de Ciência e Tecnologia para a Web
Informações coletadas

• Informação do usuário:
userid, screen_name, nfollowers, nfollowees, ntweets, utc_offset, verified
name, date, timezone, location

• Informação dos links (seguidor/seguido):


userid_from userid_to

• Informação dos tweets:


userid, tweetid, tweetid_replied, user_replied, date, source, text,
screen_name, nfollowers, nfollowees, ntweets, utc_offset, protected
verified, name, date, timezone, location

InWeb . Instituto Nacional de Ciência e Tecnologia para a Web


Permite reprodução de eventos

#musicmonday

Susan Boyle

Michael Jackson

InWeb . Instituto Nacional de Tecnologia para a Web


ICWSM 2010

Measuring User Influence in Twitter:


The Million Follower Fallacy

M. Cha1, H. Haddadi2, F. Benevenuto3, K. Gummadi4

¹Korea Advanced Institute of Science and Technology (KAIST)


²Unviersity of London
3Universidade Federal de Minas Gerais
4Max Planck Institute for Software Systems (MPI-SWS)

InWeb . Instituto Nacional de Ciência e Tecnologia para a Web


Our goal

Characterize influence in social media and study its dynamics


(Influence: potential to cause others to engage in a certain act)

1. How can we measure influence of a single user?

2. Does influence of a user hold across topics?

3. What behaviors make ordinary users influential?

Considered Twitter as a medium of influence for our study

InWeb . Instituto Nacional de Tecnologia para a Web


Why ?

 One of the most popular social media


 Created in 2006, top-11 visited site by Alexa.com in 2010

 Social links are the primary way how information flows


 Users can follow any public messages, called tweets, they like

 Traditional media sources and word-of-mouth coexist


 Mainstream media sources (BBC, CNN, DowningSteet)
 Celebrities (Oprah Winfrey), politicians (Barack Obama)
 Ordinary users (like you and me!)

InWeb . Instituto Nacional de Tecnologia para a Web


Examples

 Various conventions help interaction among users


 RT means to “re-tweet” or forward a tweet
 @ reference refers to a user’s screen name
mention

retweet
InWeb . Instituto Nacional de Tecnologia para a Web
High-level data characteristics

 95% of users belong to the largest connected component (LCC)


 Power-law node degree distribution with extremely large hubs
 99% of users have fewer than 200 followers
 500 users have more than 100,000 followers

 Low tweeting activity in general


 Only 6,189,636 or 11% of all users posted at least 10 tweets

Studied how 6M active users interact with the entire 54M users

InWeb . Instituto Nacional de Tecnologia para a Web


Three measures of influence

• Indegree
 How many people get to hear you, measured by the number of followers

• Mentions
 How many people have read carefully what you said and have bothered to
respond to you

• Retweets
 How many people have read what you said and have bothered to forward the
message further

InWeb . Instituto Nacional de Tecnologia para a Web


Example from the top 100 users

Indegree rank 1 rank 4 rank 2


3.3M 2.6M 3.1M

Mentions rank 6 - rank 71

Retweets rank 7 rank 24 -

The million follower fallacy!


InWeb . Instituto Nacional de Tecnologia para a Web
ACM WOSN 2009

Hot Today, Gone Tomorrow:


On the Migration of MySpace Users

Mojtaba Torkjazi1, Reza Rejaie1, Walter Willinger2

1 University of Oregon
2 AT&T Labs-Research

InWeb . Instituto Nacional de Ciência e Tecnologia para a Web


MySpace Features

 Provides explicit profile status


 Public
 Private
 Invalid
 Availability of users’ last login
 Enables assessment of the level of activity among users
 Importantly, allows inference of population growth of MySpace (see
later for details)
 Global visibility
 http://www.myspace.com/user_id

InWeb . Instituto Nacional de Tecnologia para a Web


36
MySpace Features

 Monotonic assignment of numeric ID

 No evidence for re-assignement of deleted IDs

 Makes the selection of random samples of MySpace users easy.

InWeb . Instituto Nacional de Tecnologia para a Web


37
Measurement

 Feb. 26th 2009: MySpace ID space [1 … 455,881,700]


 50 parallel samplers to collect 360K users in less than 12 hours (0.1%
of MySpace population)
 Using HTML parser to post-process the downloaded profiles and
extract
 User s’ profile status (invalid, public, private)
 Users’ last login date
 Users’ friend list (only for public profiles)
 Unable to parse last login info for 0.96% of public and 0.08% of
private profiles
 Last login info is not provided or is provided with obvious errors (e.g. 1/1/0001)

InWeb . Instituto Nacional de Tecnologia para a Web


38
On the Population size of MySpace

Total Invalid Public Private

362K 149K (41.2%) 150K (41.5%) 63K (17.3%)

 Population of valid MySpace users (Feb. 26, 2009) was about


(41.5 + 17.3)% of 455,881,700 = 268M

 Compare with www.myspace.com/tom who has 266,029,430


friends (Aug. 13, 2009)

InWeb . Instituto Nacional de Tecnologia para a Web


39
Todos tem pelo menos 1 amigo
no MySpace

InWeb . Instituto Nacional de Tecnologia para a Web


On User Arrival

 What does user ID say about account creation time?

 Users joining the system earlier are more active

InWeb . Instituto Nacional de Tecnologia para a Web


MySpace Life Cycle

 Possible reasons behind MySpace’s decline?

 Slow-down in the growth rate


of MySpace is related to
emergence of Facebook
 Informal evidence
(Alexa.com): Daily accesses to
Facebook surpassed that of
MySpace, at around April
2008

InWeb . Instituto Nacional de Tecnologia para a Web


42
ACM IMC 2007

Measurement and Analysis of


Online Social Networks

Alan Mislove, Massimiliano Marcon, Krishna Gummadi,


Peter Druschel, Bobby Bhattacharjee

Max Planck Institute for Software Systems (MPI-SWS)

InWeb . Instituto Nacional de Ciência e Tecnologia para a Web


InWeb . Instituto Nacional de Ciência e Tecnologia para a Web
Medição de OSNs

InWeb . Instituto Nacional de Ciência e Tecnologia para a Web


InWeb . Instituto Nacional de Ciência e Tecnologia para a Web
InWeb . Instituto Nacional de Ciência e Tecnologia para a Web
InWeb . Instituto Nacional de Ciência e Tecnologia para a Web
InWeb . Instituto Nacional de Ciência e Tecnologia para a Web
InWeb . Instituto Nacional de Ciência e Tecnologia para a Web
InWeb . Instituto Nacional de Ciência e Tecnologia para a Web
InWeb . Instituto Nacional de Ciência e Tecnologia para a Web
InWeb . Instituto Nacional de Ciência e Tecnologia para a Web
InWeb . Instituto Nacional de Ciência e Tecnologia para a Web
Confirmou propriedades small-world

Redes sociais online possuem características Small World

InWeb . Instituto Nacional de Ciência e Tecnologia para a Web


ACM TOMCCAP 2009

Video interactions in Online Video Social Networks

F. Benevenuto1, T. Rodrigues1, V. Almeida1, J. Almeida, K. Ross2

1Universidade Federal de Minas Gerais

2Polytechnic Institute of NYU

InWeb . Instituto Nacional de Ciência e Tecnologia para a Web


Detecção de usuários oportunistas

Longas discussões em alguns tópicos

InWeb . Instituto Nacional de Tecnologia para a Web


Coleta de vídeo respostas

Video response user graph

• Effective performed a BFS of our graph


• Collect entire weakly connected components (WCCs)
• 417,759 video responses, 223,851 video topics, and160,765 users
• Validation with random searches

InWeb . Instituto Nacional de Tecnologia para a Web


Bow-tie structure of the web

Broder & al. WWW 2000 TENDRILS


44M

IN SCC OUT
44 M 56 M 44 M

DISC
17 M

InWeb . Instituto Nacional de Tecnologia para a Web


Bow-tie structure

Java Fórum
Web

Vídeos

InWeb . Instituto Nacional de Tecnologia para a Web


ACM WOSN 2009

On the Evolution of User Interactions in Facebook

B. Viswanath, A. Mislove, M. Cha, K. Gummadi

Max Planck Institute for Software Systems (MPI-SWS)

InWeb . Instituto Nacional de Ciência e Tecnologia para a Web


InWeb . Instituto Nacional de Ciência e Tecnologia para a Web
InWeb . Instituto Nacional de Ciência e Tecnologia para a Web
InWeb . Instituto Nacional de Ciência e Tecnologia para a Web
InWeb . Instituto Nacional de Ciência e Tecnologia para a Web
InWeb . Instituto Nacional de Ciência e Tecnologia para a Web
InWeb . Instituto Nacional de Ciência e Tecnologia para a Web
Ética dos crawlers

• Possibilidade de bloquear crawlers: robots.txt


– Especifica diretórios e páginas que podem ou não podem ser coletadas com o
uso de crawler

User-agent: Googlebot
Disallow: /confidencial User-agent: *
Disallow: /temp
Disallow: /protegido

• Mais detalhes
– http://www.robotstxt.org/wc/robots.html
– http://pt.wikipedia.org/wiki/Robots.txt

InWeb . Instituto Nacional de Ciência e Tecnologia para a Web


Robots.txt – globo.com

InWeb . Instituto Nacional de Ciência e Tecnologia para a Web


Robots.txt – orkut

InWeb . Instituto Nacional de Ciência e Tecnologia para a Web


Agregadores de tráfego

• Proxies: reconstrução de transações e sessões


– YouTube Traffic Characterization: A view from the Edge. IMC’07
– Understanding Online Social Networks Usage from a Network Perspective.
IMC’09

• Agregadores de redes sociais


– Characterizing User Behavior in Online Social Networks. IMC’09

InWeb . Instituto Nacional de Ciência e Tecnologia para a Web


ACM IMC 2007

YouTube Traffic Characterization:


A View From the Edge

Phillipa Gill¹, Martin Arlitt²¹,


Zongpeng Li¹, Anirban Mahanti³

¹Dept. of Computer Science, University of Calgary, Canada


²Enterprise Systems & Software Lab, HP Labs, USA
³Dept. of Computer Science and Engineering, IIT Delhi, India

InWeb . Instituto Nacional de Ciência e Tecnologia para a Web


GET: /watch?v=wQVEPFzkhaM

OK (text/html)

GET: /vi/fNaYQ4kM4FE/2.jpg

OK (img/jpeg)

InWeb . Instituto Nacional de Ciência e Tecnologia para a Web


GET: swfobject.js

OK (application/x-javascript)

GET: /p.swf

OK (application/shockwave-flash)

GET: /get_video?video_id=wQVEPFzkhaM

OK (video/flv)

InWeb . Instituto Nacional de Ciência e Tecnologia para a Web


Edge = Campus de uma
universidade

Campus
28.000 estudantes e 5.300 professores e funcionários
Link de 300Mb/s full-duplex
Objetivo:
Coletar o uso do YouTube em todo o campus
Obter dados de um período extenso
Proteger a privacidade dos usuários
Desafios:
Popularidade do YouTube
Limitação dos monitores de tráfego
Volume do uso da Internet do campus

InWeb . Instituto Nacional de Ciência e Tecnologia para a Web


Metodologia

• Identificar servidores provendo conteúdo do YouTube


• Utilizar bro para sumarizar cada transação HTTP em tempo real
• Reiniciar bro diariamente e comprimir o log diariamente
• Mapear cada visitante a um ID único

InWeb . Instituto Nacional de Ciência e Tecnologia para a Web


Bro

http://www.bro-ids.org/

InWeb . Instituto Nacional de Ciência e Tecnologia para a Web


Categorias de transações

Status % of Total % of Video

Complete 90.82 24.66

Interrupted 1.88 24.25

Gap 1.56 51.09

Failure 5.75 -

InWeb . Instituto Nacional de Ciência e Tecnologia para a Web


Sumário dos dados

Start Date: Jan. 14, 2007

End Date: Apr. 8, 2007

Total Valid Transactions: 23,250,438

Total Bytes: 6.54 TB

Total Video Requests: 625,593

Total Video Bytes: 6.45 TB

Unique Video Requests: 323,677

Unique Video Bytes: 3.26 TB

InWeb . Instituto Nacional de Ciência e Tecnologia para a Web


HTTP Response Codes

Code % of Responses % of Bytes

200 (OK) 75.80 89.78

206 (Partial Content) 1.29 10.22

302 (Found) 0.05 0.00

303 (See Other) 5.33 0.00

304 (Not Modified) 17.34 0.00

4xx (Client Error) 0.19 0.00

5xx (Server Error) 0.01 0.00

InWeb . Instituto Nacional de Tecnologia para a Web


Campus Usage Patterns

Fim de
semana

InWeb . Instituto Nacional de Tecnologia para a Web


Unique File Sizes

Video data is significantly larger than the other content types

InWeb . Instituto Nacional de Tecnologia para a Web


Time Since Modification

• Videos and images rarely


modified

• Text and application data


modified more frequently

InWeb . Instituto Nacional de Tecnologia para a Web


ACM IMC 2009

Characterizing User Behavior in Online Social Networks

Fabrício Benevenuto¹, Tiago Rodrigues1,


Meeyoung Cha2, Virgílio Almeida1

¹Universidade Federal de Minas Gerais


²Max Planck Institute for Software Systems (MPI-SWS)

InWeb . Instituto Nacional de Ciência e Tecnologia para a Web


O que os usuários fazem nas redes
sociais

Post status Watch videos


Search
Upload videos
Send messages and pictures

Join communities
Browse list of friends

Use applications Browse profiles and pictures

Entender navegação e interação dos


usuários através de todas as atividades
Agregador de tráfego

Dados podem ser coletados de um agregador de redes sociais

2. Autenticação
a todos os sites

1. Login Agregador de
Redes Sociais
3. Navegação Online

InWeb . Instituto Nacional de Ciência e Tecnologia para a Web


Dados obtidos

• 12 dias (26 de março a 6 de abril de 2009)


• Sumários de sessões HTTP
- User ID, session ID, URL, timestamp, IP address, traffic bytes

InWeb . Instituto Nacional de Tecnologia para a Web


Padrões de acesso

• Best fittings para várias medidas


– inter-session time, inter-request time, session duration

InWeb . Instituto Nacional de Tecnologia para a Web


Atividades no Orkut

Scrapbook Photos
write Edit/Organize photos
Profile & Friends browse browse photos, albums,
Browse profile, homepage, photos, list of albums,
list of friends, friend comments in photos,
updates, members of photos tagged
communities, fans, etc. Messages
write
Communities browse Search
join/leave
post in topics
Testimonials
browse communities, Videos write Others
browse written Applications
topics, list of communities, browse list of
and received user settings
etc. favorites
watch a video

Browsing corresponde a 92% das atividades!


InWeb . Instituto Nacional de Ciência e Tecnologia para a Web
Seqüência das atividades

Strong self-loops presented in all states


Profile & Friends plays a central rule

• Profile & Friends são centrais


• Self-loops são dominantes em todas as categorias

InWeb . Instituto Nacional de Ciência e Tecnologia para a Web


Interações no Orkut

• Usuários acessam mais as páginas de seus amigos


• Interação com desconhecidos é alta

InWeb . Instituto Nacional de Ciência e Tecnologia para a Web


Interações no Orkut

1) Marge faz upload de uma foto


2) Homer recebe a atualização
3) Um amigo de Marge comenta a foto
4) O comentário também aparece para Homer
5) E Homer fica curioso para saber quem é esse
cara que comentou na foto de sua esposa!

Nice picture, Marge.

• Descoberta de conteúdo através de elos sociais


– Acessos vêm da homepage e do scrapbook

InWeb . Instituto Nacional de Ciência e Tecnologia para a Web


Obtendo informações geográficas

• Informações geográficas são muitas vezes texto livre


– Usuários podem preencher qualquer coisa. Ex. Sampa, BH, Marte
– http://developer.yahoo.com/maps/rest/V1/geocode.html

InWeb . Instituto Nacional de Tecnologia para a Web


Interações através da distância física

Conteúdo produzido e consumido localmente

InWeb . Instituto Nacional de Tecnologia para a Web


ACM IMC 2009

Understanding Online Social Network Usage


from a Network Perspective

Fabian Schneider¹, Anja Feldmann1,


Balachander Krishnamurthy¹, Walter Willinger2

¹Technische Universtit¨at Berlin / Deutsche Telekom Laboratories


²AT&T Labs–Research

InWeb . Instituto Nacional de Ciência e Tecnologia para a Web


InWeb . Instituto Nacional de Ciência e Tecnologia para a Web
InWeb . Instituto Nacional de Ciência e Tecnologia para a Web
InWeb . Instituto Nacional de Ciência e Tecnologia para a Web
InWeb . Instituto Nacional de Ciência e Tecnologia para a Web
InWeb . Instituto Nacional de Ciência e Tecnologia para a Web
InWeb . Instituto Nacional de Ciência e Tecnologia para a Web
Popularidade das atividades

InWeb . Instituto Nacional de Ciência e Tecnologia para a Web


Volume por categoria

InWeb . Instituto Nacional de Ciência e Tecnologia para a Web


Sequência de atividades

InWeb . Instituto Nacional de Ciência e Tecnologia para a Web


Aplicações e jogos online

• Funcionamento e construção de aplicações em redes sociais


– Unveiling Facebook: A measurement study of social network based applications.
IMC’08

• Jogos Online
– Social influence and the diffusion of user-created content. EC’09.

InWeb . Instituto Nacional de Ciência e Tecnologia para a Web


Aplicações

• Dominante em vários sistemas


– Facebook, Orkut, Hi5, MySpace

• Duas plataformas maiores


– Facebook Developer Platform (FDP)
– OpenSocial

InWeb . Instituto Nacional de Ciência e Tecnologia para a Web


Facebook - aplicações

• Mais de 1 milhão de desenvolvedores em 180 países

• Mais de 550 mil aplicações ativas

• Mais de 100 milhões de usuários utilizando aplicações

InWeb . Instituto Nacional de Ciência e Tecnologia para a Web


Facebook - aplicações

InWeb . Instituto Nacional de Ciência e Tecnologia para a Web


Facebook - Aplicações

InWeb . Instituto Nacional de Ciência e Tecnologia para a Web


Orkut - Aplicações

InWeb . Instituto Nacional de Ciência e Tecnologia para a Web


Aplicações

4. Requisição do
usuário recebida
3. Requisição é
repassada ao 5. Resposta à
servidor da aplicação requisição Servidor da
Aplicação
6. Resposta recebida
pelo Facebook
8. Requisição recebida

7. Resposta processada
e repassada
1. requisição
2. Requisição recebida enviada
pelo Facebook
InWeb . Instituto Nacional de Ciência e Tecnologia para a Web
Como criar uma aplicação no Orkut?

• Crie uma conta no sandbox.orkut


• Determine um local onde sua aplicação vai ficar
– Página pessoal, repositórios, etc.
• Entendimento da API do Orkut
• Crie uma aplicação que seja legal
• Se o Orkut aprovar, a aplicação se torna pública.

InWeb . Instituto Nacional de Ciência e Tecnologia para a Web


Como criar uma aplicação no Orkut?

• http://sandbox.orkut.com/SandboxSignup.aspx

InWeb . Instituto Nacional de Ciência e Tecnologia para a Web


Como criar uma aplicação no Orkut?

InWeb . Instituto Nacional de Ciência e Tecnologia para a Web


Como criar uma aplicação no Orkut?

http://homepages.dcc.ufmg.br/~fabricio/hello.xml

• Mais informações:
- http://code.google.com/apis/orkut/articles/tutorial/tutorial.html#gadget-basics

InWeb . Instituto Nacional de Ciência e Tecnologia para a Web


ACM IMC 2008

Unveiling Facebook: A measurement


study of social network based Applications

A. Nazir, S. Raza, C. Chuah


University of California, Davis

InWeb . Instituto Nacional de Ciência e Tecnologia para a Web


Our Applications

• We deployed three applications on Facebook:


Social
– Fighters’ Club (FC, 3.4M+, Jun 2007) Gaming

– Got Love? (GL, 4M+, Nov 2007)


Social Utility
– Hugged (0.7M+, Feb 2008)

117

InWeb . Instituto Nacional de Tecnologia para a Web


GL, HUGGED: SOCIAL UTILITY
APPLICATIONS

• GL: friend-friend, one request per target friend

• Hugged: friend-friend, multiple requests per target friend

• Similar functionality:
• User A hugs/loves (friend) User B
• User B accepts/ignores hug/love

Inform

View
Hug
118

InWeb . Instituto Nacional de Tecnologia para a Web


FIGHTERS’ CLUB: A GAMING
APPLICATION
Winner

Pick Fight
• Friend-friend, non-friend
to non-friend interaction
Hit/Attack More
Damaging
• Number of blows limited
Offender’s
through points system Supporters

Pick a Side

119

InWeb . Instituto Nacional de Tecnologia para a Web


DATA SET SUMMARY

120

InWeb . Instituto Nacional de Tecnologia para a Web


SOCIAL GAMING VS. SOCIAL
UTILITY APPLICATIONS: RESULTS

• Other differences:
– Average number of activities higher on FC than on GL, Hugged
– Average number of friends on application, total number of friends
on Facebook, significantly higher for FC than GL, Hugged

1500
Average No. of Activities
Average No. of Subscribing Friends
Average No. of Total Friends
1000

500

0
FC Hugged GL 121

InWeb . Instituto Nacional de Tecnologia para a Web


INTERACTION GRAPHS:
DATA AND RESULTS SUMMARY

122

InWeb . Instituto Nacional de Tecnologia para a Web


INTERACTION GRAPHS:
DATA AND RESULTS SUMMARY

Actually Small World


123
Networks!
InWeb . Instituto Nacional de Tecnologia para a Web
ACM EC 2009

Social Influence and the Diffusion of User-created Content

E. Bakshy, B. Karrer, L. Adamic


University of Michegan

InWeb . Instituto Nacional de Ciência e Tecnologia para a Web


InWeb . Instituto Nacional de Ciência e Tecnologia para a Web
InWeb . Instituto Nacional de Ciência e Tecnologia para a Web
InWeb . Instituto Nacional de Ciência e Tecnologia para a Web
InWeb . Instituto Nacional de Ciência e Tecnologia para a Web
InWeb . Instituto Nacional de Ciência e Tecnologia para a Web
InWeb . Instituto Nacional de Ciência e Tecnologia para a Web
InWeb . Instituto Nacional de Ciência e Tecnologia para a Web
InWeb . Instituto Nacional de Ciência e Tecnologia para a Web
InWeb . Instituto Nacional de Ciência e Tecnologia para a Web
Dados dos servidores

• Dados do MSN
– Planetary-Scale Views on a Large Instant-Messaging Network. WWW’08.

• Dados do CyWorld
– Comparison of Online Social Relations in Terms of Volume vs. Interaction: A Case Study
of Cyworld. IMC’08.

• Dados do YouTube
– Video Suggestion and Discovery for YouTube: Taking Random Walks Through The View
Graph. WWW’08.

• Dados do UOL
– Characterization and Analysis of User Profiles in Online Video Sharing Systems. JIDM’10.

InWeb . Instituto Nacional de Ciência e Tecnologia para a Web


WWW 2008

Planetary-Scale Views on a Large Instant-Messaging Network

Jure Leskovec and Eric Horvitz

Carnegie Mellon University


Microsoft Research

InWeb . Instituto Nacional de Ciência e Tecnologia para a Web


Small-world effect

8
10
• Microsoft Messenger network
7
10
– 180 million people Pick a random
– 1.3 billion edges 6
10
node, count
how many

Number of nodes
– Edge if two people exchanged 5
10 nodes are at
at least one message in one distance
4
month period 10
1,2,3... hops
3
10 7
2
10

1
10

0
10
0 5 10 15 20 25 30
Distance (Hops)

InWeb . Instituto Nacional de Tecnologia para a Web


WWW 2008

Comparison of Online Social Relations in Terms of Volume vs.


Interaction: A Case Study of Cyworld

Hyunwoo Chun, Haewoon Kwak, Young-Ho Eom, Yong-Yeol Ahn, Sue


Moon, Hawoong Jeong

KAIST

InWeb . Instituto Nacional de Ciência e Tecnologia para a Web


Cyworld

• Most popular OSN in Korea (22M users)

• Guestbook is the most popular feature


• Each guestbook message has 3 attributes
– < From, To, When >

• We analyze 8 billion guestbook msgs of 2.5yrs

InWeb . Instituto Nacional de Tecnologia para a Web


Dunbar’s number
Behavioral and brain scineces, 16(4):681–735, 1993

The maximum number of social relations


managed by modern human is 150.

InWeb . Instituto Nacional de Tecnologia para a Web


Cyworld 200 vs.
Dunbar’s 150

• Has human networking capacity really grown?


– Yes, technology helps users to manage relations
– No, it is only an inflated number

InWeb . Instituto Nacional de Tecnologia para a Web


Dunbar’s number

Orkut Facebook

Twitter

InWeb . Instituto Nacional de Tecnologia para a Web


WWW 2008

Video Suggestion and Discovery for YouTube: Taking Random


Walks Through The View Graph

S. Baluja and R. Seth and D. Sivakumar and Y. Jing and J. Yagnik and S.
Kumar and D. Ravichandran and M. Aly

Google

InWeb . Instituto Nacional de Ciência e Tecnologia para a Web


InWeb . Instituto Nacional de Ciência e Tecnologia para a Web
InWeb . Instituto Nacional de Ciência e Tecnologia para a Web
JIDM 2010

Characterization and Analysis of User Profiles in


Online Video Sharing Systems

Fabrício Benevenuto1, Adriano Pereira2, Tiago Rodrigues1,


Virgílio Almeida1, Jussara Almeida1, Marcos Gonçalves1

1UFMG

2CEFET-MG

InWeb . Instituto Nacional de Ciência e Tecnologia para a Web


UOL Video Service Dataset

• Logs from the OVSN service from UOL


• Period: 12/12/2007 a 01/07/2008
• 3,681,232 requests from 1,127,537 different IPs
• Each line contains IP, time, request type, status, size,
referee, and user-agent (anonymized)

InWeb . Instituto Nacional de Tecnologia para a Web


Navegação de tipos de usuários

• Probabilistic direct graph


– Nodes = types of user requests. Direct edges = probability of navigation
– Compute individual graphs based on all sessions of the user. Apply a clustering
technique to identify different groups of users
– Use X-means to define suitable number of groups

Exemplo

InWeb . Instituto Nacional de Tecnologia para a Web


User Navigation Model
Graphs
• Found 15 groups of users (also useful for service differentiation)
• Found a group of suspect users

InWeb . Instituto Nacional de Tecnologia para a Web


Entrevistas formatadas

• Usuários respondem questionários formatados ou entrevistas,


visando validar/refutar hipóteses
• Vários artigos do CHI. http://www.chi2010.org/

Feed Me: Motivating Newcomer Contribution in Social Network Sites.


M. Burke, C. Marlow, and T. Lento. CHI’2009.

InWeb . Instituto Nacional de Ciência e Tecnologia para a Web


Honeypots e coleções rotuladas

• Honeypots
– Uncovering Social Spammers: Social Honeypots + Machine Learning. SIGIR’10

• Coleções rotuladas
– Detecting Spammers on Twitter. CEAS’10
– Detecting Spammers and Content Promoters on YouTube. SIGIR’09

InWeb . Instituto Nacional de Ciência e Tecnologia para a Web


ACM SIGIR 2010

Uncovering Social Spammers:


Social Honeypots + Machine Learning

K. Lee, J. Caverlee, and S. Webb

Texas A&M University

InWeb . Instituto Nacional de Ciência e Tecnologia para a Web


Abordagem

• Honeypots em dois sistemas: Myspace e Twitter

InWeb . Instituto Nacional de Ciência e Tecnologia para a Web


CEAS 2010

Detecting Spammers on Twitter

F. Benevenuto, A. Veloso, G. Magno, T. Rodrigues, V. Almeida

Universidade Federal de Minas Gerais

InWeb . Instituto Nacional de Ciência e Tecnologia para a Web


Spam no Twitter

InWeb . Instituto Nacional de Tecnologia para a Web


Spam no Twitter

SPAM

Usuários postam URLs não relacionadas ao conteúdo

InWeb . Instituto Nacional de Tecnologia para a Web


Spam on Twitter

Afeta mashups e ferramentas meme-tracking


E.g. Conferences:
http://www.wsdm2011.org/
E.g. Observatório da Web:
http://observatorio.inweb.org.br/

InWeb . Instituto Nacional de Tecnologia para a Web


Objetivos e Metodologia

1. Coleta do Twitter e criação de uma coleção de usuários


manualmente rotulados como spammers ou não spammers

2. Caracterização do comportamento dos usuários


- Identificação de características capazes de distinguir spammers de
não spammers

3. Criação de um método de detecção de spammers que utiliza as


características do comportamento dos usuários

InWeb . Instituto Nacional de Tecnologia para a Web


Propriedades desejáveis da coleção
rotulada

1) Ter um número significativo de spammers e usuários legítimos

2) Incluir spammers que são agressivos em suas estratégias

3) Escolher usuários aleatoriamente e não baseados em suas


características

InWeb . Instituto Nacional de Tecnologia para a Web


Coleção rotulada

#musicmonday

Susan Boyle

Michael Jackson

Foco em eventos populares de 2009


InWeb . Instituto Nacional de Tecnologia para a Web
Coleção rotulada

• Volunteers analyze tweets of randomly selected users that post to


the three trending topics analyzed
– Development of a Web system to ease the process
– Each user is analyzed by at least two volunteers
– Agreement in 99% of cases

• 8,207 users were analyzed out of which 355 are spammers

Labeled collection:
355 spammers + 710 non-spammers = 1,065 users

InWeb . Instituto Nacional de Tecnologia para a Web


Distinguishing classes of users

Spammers postam mais tweets contendo URLs

InWeb . Instituto Nacional de Tecnologia para a Web


Coeficiente de Clusterização

Coeficiente de clusterização
probabilidade dos vizinhos
de um nodo estarem
conectados
Mais de 60% dos
spammers com CC
abaixo de 0.01

Amigos dos spammers não estão conectados entre si


InWeb . Instituto Nacional de Tecnologia para a Web
Comportamento dos spammers

Spammers postam mais tweets contendo URLs


Spammers postam tweets similares
Spammers postam tweets com palavras de um dicionário de spam
Spammers possuem contas mais novas
Spammers não respondem ou são respondidos
Spammers postam em rajadas
Spammers possuem menos seguidores que seguidos
Amigos dos spammers não estão bem conectados
Spammers são menos recíprocos
Spammers são menos influentes

Identificação de 70 atributos com poder discriminativo

InWeb . Instituto Nacional de Tecnologia para a Web


Atributos

• User behavior (total = 19, 4 among the top 10)


– number of tweets
– age of the user account, etc.
• Tweet content (total = 43, 2 among the top 10)
– Fraction of tweets with spam words
– Fraction of tweets with URL
– Tweet Similarity, etc.
• Social network (total = 8, 4 among the top)
– Clustering Coefficient
– Fraction of tweets with URL
– Reciprocity, etc.

InWeb . Instituto Nacional de Tecnologia para a Web


Classification results

Micro-F1 = 88.6%
Macro-F1 = 86.2%

Spammer importance = 0.6: correctly


classify 57% spammers,
misclassifying 0.4% non-spammers

Spammer importance = 3: correctly


classify 90% spammers, paying the
cost of misclassifying 30% non-
spammers

InWeb . Instituto Nacional de Tecnologia para a Web


Reducing the attribute set

Profile
Micro F1 = 83.7%
Macro F1 = 78.8%

Content
Micro F1 = 87.3%
Macro F1 = 84.1%

Social network
Micro F1 = 86%
Macro F1 = 82.4%

Different
InWeb subsetsdeofTecnologia
. Instituto Nacional featurespara
can obtain competitive
a Web results
Detecting tweets instead of users

Micro F1 = 93.2%
Macro F1 = 92.6%

Good results! There is no dual behavior


However, the attributes used are easy to be faked.
Are spammers on Twitter in an early stage?

InWeb . Instituto Nacional de Tecnologia para a Web


Making spammer detection practical

• Active learning using LAC


– LAC chooses the users that will produce less rules to include on the training set

LAC stopped
InWeb . Institutoafter inserting
Nacional 39 users.
de Tecnologia para aMicro
Web F1 = 86% and Macro F1 = 81%
SIGIR 2009

Detecting Spammers and Content Promoters in


Online Video Social Networks

F. Benevenuto, T. Rodrigues, V. Almeida, J. Almeida, M. Gonçalves

Universidade Federal de Minas Gerais

InWeb . Instituto Nacional de Ciência e Tecnologia para a Web


Example of unrelated videos

Video response
Video

Advertising of Lynda.com, teaching to program on Javascript as a video response to a very


popular video of Miss in troubles to answer a question
InWeb . Instituto Nacional de Tecnologia para a Web
Example of unrelated video
Video
Video Response

Advertisement of a proxy service as video response to a soccer game video: Liverpool x Arsenal

InWeb . Instituto Nacional de Tecnologia para a Web


Example of unrelated videos
Video Video response

Video pornography posted as video response to a cartoon


InWeb . Instituto Nacional de Tecnologia para a Web
Video Spam

InWeb . Instituto Nacional de Tecnologia para a Web


Video Promotion

InWeb . Instituto Nacional de Tecnologia para a Web


Negative Impact of Promotion and
Spam

• Challenges for users in identifying video promotion and spam


• consumes system resources, especially bandwidth
• compromise user patience and satisfaction with the system

• Pollution in top lists

• Difficulty in ranking and recommendation


• Promoted or spam videos may be temporarily ranked high or considered
related to the video topic

InWeb . Instituto Nacional de Tecnologia para a Web


Goal

Detect video spammers and promoters

4-step approach
1. Sample YouTube video responses and users

2. Manually create a user test collection


(promoters, spammers, and legitimate users)

3. Identify attributes that can distinguish spammers and promoters from legitimate users

4. Classification approach to detect spammers and promoters

InWeb . Instituto Nacional de Tecnologia para a Web


Coleta de vídeo respostas

Video response user graph

• Effective performed a BFS of our graph


• Collect entire weakly connected components (WCCs)
• 417,759 video responses, 223,851 video topics, and160,765 users

InWeb . Instituto Nacional de Tecnologia para a Web


Sampling video responses

• Crawls subject to rate-limiting


– Use of a master-slave crawler with 10 client machines

• Effective performed a BFS of our graph


– Seeds: ist of top-100 most responded videos of all time
– Follows links in both directions
– Collect entire weakly connected components (WCCs)

• Collected 701,950 video responses and 381,616 video topics, 264,460


users in 7 days in January, 2008

InWeb . Instituto Nacional de Tecnologia para a Web


Test Collection – desired properties

Desired Properties

1) Have a significant number of users in each class

2) Include spammers and promoters which are aggressive in their


strategies

3) Include a large number of legitimate users with different


behavioral profiles

InWeb . Instituto Nacional de Tecnologia para a Web


Create Test Collection

• Users selected according to three strategies


1) Manually identified 150 suspect in the top 100 most responded lists
2) Randomly select 300 users from those who posted video responses to videos
in the top 100 most responded lists
3) Collected 400 users across 4 different levels of interaction
- sent and received video responses
• Volunteers analyze users and videos
- Conservative approach -> favor legitimate
- Agreement in 97% of the analyzed videos

In total 829 users: 641 legitimate, 157 spammers, 31 promoters

InWeb . Instituto Nacional de Tecnologia para a Web


Step3. Attributes

User-Based:
number of friends, subscriptions, subscribers, favorites, videos watched, etc

Video-Based:
duration, numbers of views received, comments, ratings, favorite marked, honors, external
links, etc
3 sets of videos: video topics, video responses, and all the videos

Social Network:
clustering coefficient, betweenness, reciprocity, assortativity,
UserRank (pagerank), etc

InWeb . Instituto Nacional de Tecnologia para a Web


Distinguishing classes of users

Promoters target
unpopular content

Spammers target
popular content

InWeb . Instituto Nacional de Tecnologia para a Web


Distinguishing classes of users

Social network metrics have potential


Even low-ranked features have potential
to to
separate
separate classes apart
classes apart

InWeb . Instituto Nacional de Tecnologia para a Web


Attributes

Feature Selection: χ2 ranking

Even low-ranked features have potential


to separate classes apart

InWeb . Instituto Nacional de Tecnologia para a Web


Classification Approach

• SVM (Support vector machine) as classifier


– Use all attributes
– Two classification approaches

Hierarchical

Flat

Promoters Non-promoters

Promoters Spammers Legitimates

Legitimates
InWeb . Instituto Nacional de Tecnologia para a Light
Web Heavy Spammers
Obrigado!

Fabrício Benevenuto
e-mail: fabricio@dcc.ufmg.br
www.dcc.ufmg.br/~fabricio