Slide-Efficient Top-K Querying Over Social-Tagging Networks

Efficient top-k querying over social-tagging networks
Cleyton Caetano de Souza FPCC 3
Referncia
Schenkel, R., Crecelius, T., Kacimi, M., Michel, S., Neumann, T., Parreira, J. X., et al. (2008). Efficient top-k querying over social-tagging networks. Proceedings of the 31st annual international ACM SIGIR conference on Research and development in information retrieval - SIGIR 08, 523.
Roteiro
Contextualizao Identificao do Problema Formalizao do Problema Soluo do Modelo
Parte 1 Parte 2
Validao do Modelo Empacotamento do Modelo Manuteno do Modelo
Contextualizao
Redes Sociais x Ferramentas de Busca Personalizao dos Resultados Contexto Social
Grande Quantidade de Dados
Identificao do Problema
Business Problem
Os algoritmos utilizados atualmente pelos ferramentas de busca no esto aptos a executar milhes de consultas diariamente utilizando a informao presente nas redes sociais
Technical Problem
Como combinar a informao presente nas redes sociais aos algoritmos de busca de forma computacionalmente eficiente
Social Tagging Networks

Rede Social onde usurios marcam com tags (rtulo, termo, palavra, marcao, label) as postagens uns dos outros e as suas prprias
Formalizao do Problema
Varivel (, 1 ) ( ) , , Tipo Independente Independente Independente Independente Dependente Dependente Dependente Dependente Independente Significado Uma query postada por e formada pelos rtulos 1 Conjunto de usurios Conjunto de documentos Conjunto de rtulos (tags) Funo que quantifica a importncia da recomendao de um usurio para um usurio Funo que calcula a similaridade entre os usurios e com base nos rtulos comuns utilizados por eles Mxima semelhana encontrada nas ligaes indiretas entre dois usurios que no esto diretamente ligados Nmero de vezes que o utilizou o rtulo no documento , tipicamente assume o valor 1 ou 0 uma constante pr-definida que implica a influncia do fator social na recomendao, se for 0 apenas a informao social utilizada se for 1 no utilizada informao social Corresponde a uma frequncia global ponderada do termo (nmero de vezes que o rtulo foi utilizado no documento ) A pontuao final de um documento para cada termo
(, )
Dependente
, 1
Dependente
Formalizao do Problema
Dada uma consulta (, 1 ) postada por um usurio qualquer e com . Encontrar de forma computacionalmente eficiente os melhores documentos de acordo com a funo score . Find: documentos To: max , 1 =1 Over: , , , Subject to: max
Soluo do Modelo (1/2)

Tradicionalmente
, = , ()
O Social Scoring Model estende as tcnicas tradicionais de RI adicionando os seguintes elementos

Friendship Similarity Social Frequency Tag Expansion
Friendship Similarity ( )
O interesse que u tem em receber recomendaes de u ( ) = 1 uma probabilidade Por definio = 0 calculado com base em dois contextos
Social Global
Similarity
,
2 ) ( = |()| + |( )|
Onde tagset(u) corresponde ao conjunto de tags utilizado pelo usurio u
Social Similarity
1
= = 0 =
=
, +1
Onde path corresponde a uma ligao indireta entre dois usurios
Friendship Similarity

= + 1 ( ) ||
Onde a razo em destaque corresponde a uma probabilidade uniforme
Social Frequency ( , )
(, ) uma funo binria que retorna 1 caso o usurio tenha marcado com o rotulo e 0 caso contrrio. Define-se social frequency, denotada por , , como a importncia da recomendao de um documento que foi (ou no) marcado com o rtulo por um usurio . O valor de , calculado pela frmula: , =

(, )
Social Frequency
= , =

1 + 1 ( ) || (, )
, =

, + 1 , ] , = (, )

||
1 ( ) (, ))

Tag Expansion
No modelo (, ) determinado pela probabilidade de coocorrncia de dois rtulos no mesmo documento:
( ) ( ) , = = = () ()
Onde ( ) o nmero de documentos onde ambos os rtulos ocorrem. A expanso adiciona consulta apenas os rtulos que tem maior probabilidade de aparecerem juntos.
Social Score
Para calcular a pontuao (, ) de um documento que recebeu um rtulo em relao ao usurio que est realizando a consulta foi usado BM25: 1 + 1 (, ) , = () 1 + (, ) Onde 1 o coeficiente de sintonia e () a freqncia inversa do rtulo nos documentos e calculado nesse contexto como: = + 0.5 + 0.5
Com () representando o nmero de documentos onde o rtulo aparece.
BM25
Na recuperao da informao, Okapi BM25 uma funo de classificao usada por ferramentas de busca para classificar documentos de acordo com sua relevncia para uma consulta. baseado na estrutura de recuperao probabilstico desenvolvido entre as dcadas de 70 e 80. 1 + 1 , , = () 1 1 + + (, ) log + 0.5 = + 0.5 Onde corresponde ao tamanho mdio dos documentos, e 1 e so parmetros da funo.
Social Score
Dessa forma, a importncia de um documento para uma consulta a soma da importncia do documento para cada termo que compe a consulta e dada por:
, 1 =
1
(, )
Soluo do Modelo (2/2)

Embora o modelo seja parte essencial do trabalho, como a restrio do trabalho est relacionada ao custo computacional do algoritmo considerou-se tambm como soluo o algoritmo em si
Context Merge
O que o faz to bom?

Como o Social Score depende de quem est consultando totalmente invivel (e impossvel) pr-computar todos os dados necessrios, entretanto o Context Merge utiliza quatro diferentes tipos de listas de ndices processadas previamente e que so acessadas de forma seqencial. 1. () contem a lista de documentos que foram rotulados ao menos uma vez com e o valor de (, ) para cada documento 2. (, ) contem a lista de documentos que foram rotulados com pelo usurio
3. representa lista de usurios diretamente conectados

com e suas respectivas similaridades , ordenados de forma decrescente
4. () contem para um rotulo todos os rtulos similares

com seus respectivos (, ), ordenados de forma decrescente de acordo com , ( )
O que o faz to bom?

Basicamente, o que torna o algoritmo to eficiente so 3 fatores principais:
As quatro listas pr-processadas O fato de acessar os elementos da listas de forma seqencial O fato do algoritmo ser executado apenas enquanto os primeiros documentos podem ser alterados
Validao do Modelo
Validao do Modelo Conceitual
Comparao com outros Modelos Validade Aparente
Avaliao Disjuntiva dos Resultados
Validao do Modelo
Para realizar a validao do Context Merge foram utilizados dados de trs redes sociais diferentes: del.icio.us, Flicker e LibraryThing
Relevncia
user-specific ground truth user study
Eficincia Computacional
cost measure # clocks
Validao do Modelo
Precision@10 variando o alfa user specific ground truth
Validao do Modelo
NDCG-variando o alfa - user study
Validao do Modelo
Comparao com standard join-then-sort
Esse algoritmo l todas as listas relacionadas com a consulta do usurio, usa uma tabela hash em memria para sumarizar as entradas do mesmo documento e, finalmente, ordena, ainda em memria, os melhores k resultados
Validao do Modelo
Cost Measure
Validao do Modelo
# clocks
Empacotamento do Modelo
Manuteno do Modelo

Slide-Efficient Top-K Querying Over Social-Tagging Networks

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Slide-Efficient Top-K Querying Over Social-Tagging Networks

Enviado por

Direitos autorais:

Formatos disponíveis

Efficient top-k querying over social-tagging networks

Cleyton Caetano de Souza FPCC 3

Validao do Modelo Empacotamento do Modelo Manuteno do Modelo

Social Tagging Networks

Soluo do Modelo (1/2)

O Social Scoring Model estende as tcnicas tradicionais de RI adicionando os seguintes elementos

Onde tagset(u) corresponde ao conjunto de tags utilizado pelo usurio u

Onde path corresponde a uma ligao indireta entre dois usurios

Onde a razo em destaque corresponde a uma probabilidade uniforme

Com () representando o nmero de documentos onde o rtulo aparece.

Soluo do Modelo (2/2)

O que o faz to bom?

3. representa lista de usurios diretamente conectados

4. () contem para um rotulo todos os rtulos similares

O que o faz to bom?

Avaliao Disjuntiva dos Resultados

Você também pode gostar