Escolar Documentos
Profissional Documentos
Cultura Documentos
Referncia
Schenkel, R., Crecelius, T., Kacimi, M., Michel, S., Neumann, T., Parreira, J. X., et al. (2008). Efficient top-k querying over social-tagging networks. Proceedings of the 31st annual international ACM SIGIR conference on Research and development in information retrieval - SIGIR 08, 523.
Roteiro
Contextualizao Identificao do Problema Formalizao do Problema Soluo do Modelo
Parte 1 Parte 2
Contextualizao
Redes Sociais x Ferramentas de Busca Personalizao dos Resultados Contexto Social
Grande Quantidade de Dados
Identificao do Problema
Business Problem
Os algoritmos utilizados atualmente pelos ferramentas de busca no esto aptos a executar milhes de consultas diariamente utilizando a informao presente nas redes sociais
Technical Problem
Como combinar a informao presente nas redes sociais aos algoritmos de busca de forma computacionalmente eficiente
Formalizao do Problema
Varivel (, 1 ) ( ) , , Tipo Independente Independente Independente Independente Dependente Dependente Dependente Dependente Independente Significado Uma query postada por e formada pelos rtulos 1 Conjunto de usurios Conjunto de documentos Conjunto de rtulos (tags) Funo que quantifica a importncia da recomendao de um usurio para um usurio Funo que calcula a similaridade entre os usurios e com base nos rtulos comuns utilizados por eles Mxima semelhana encontrada nas ligaes indiretas entre dois usurios que no esto diretamente ligados Nmero de vezes que o utilizou o rtulo no documento , tipicamente assume o valor 1 ou 0 uma constante pr-definida que implica a influncia do fator social na recomendao, se for 0 apenas a informao social utilizada se for 1 no utilizada informao social Corresponde a uma frequncia global ponderada do termo (nmero de vezes que o rtulo foi utilizado no documento ) A pontuao final de um documento para cada termo
(, )
Dependente
, 1
Dependente
Formalizao do Problema
Dada uma consulta (, 1 ) postada por um usurio qualquer e com . Encontrar de forma computacionalmente eficiente os melhores documentos de acordo com a funo score . Find: documentos To: max , 1 =1 Over: , , , Subject to: max
Friendship Similarity ( )
O interesse que u tem em receber recomendaes de u ( ) = 1 uma probabilidade Por definio = 0 calculado com base em dois contextos
Social Global
Similarity
,
2 ) ( = |()| + |( )|
Social Similarity
1
= = 0 =
=
, +1
Friendship Similarity
= + 1 ( ) ||
Social Frequency ( , )
(, ) uma funo binria que retorna 1 caso o usurio tenha marcado com o rotulo e 0 caso contrrio. Define-se social frequency, denotada por , , como a importncia da recomendao de um documento que foi (ou no) marcado com o rtulo por um usurio . O valor de , calculado pela frmula: , =
(, )
Social Frequency
= , =
1 + 1 ( ) || (, )
, =
, + 1 , ] , = (, )
||
1 ( ) (, ))
Tag Expansion
No modelo (, ) determinado pela probabilidade de coocorrncia de dois rtulos no mesmo documento:
( ) ( ) , = = = () ()
Onde ( ) o nmero de documentos onde ambos os rtulos ocorrem. A expanso adiciona consulta apenas os rtulos que tem maior probabilidade de aparecerem juntos.
Social Score
Para calcular a pontuao (, ) de um documento que recebeu um rtulo em relao ao usurio que est realizando a consulta foi usado BM25: 1 + 1 (, ) , = () 1 + (, ) Onde 1 o coeficiente de sintonia e () a freqncia inversa do rtulo nos documentos e calculado nesse contexto como: = + 0.5 + 0.5
BM25
Na recuperao da informao, Okapi BM25 uma funo de classificao usada por ferramentas de busca para classificar documentos de acordo com sua relevncia para uma consulta. baseado na estrutura de recuperao probabilstico desenvolvido entre as dcadas de 70 e 80. 1 + 1 , , = () 1 1 + + (, ) log + 0.5 = + 0.5 Onde corresponde ao tamanho mdio dos documentos, e 1 e so parmetros da funo.
Social Score
Dessa forma, a importncia de um documento para uma consulta a soma da importncia do documento para cada termo que compe a consulta e dada por:
, 1 =
1
(, )
Context Merge
Validao do Modelo
Validao do Modelo Conceitual
Comparao com outros Modelos Validade Aparente
Validao do Modelo
Para realizar a validao do Context Merge foram utilizados dados de trs redes sociais diferentes: del.icio.us, Flicker e LibraryThing
Relevncia
user-specific ground truth user study
Eficincia Computacional
cost measure # clocks
Validao do Modelo
Precision@10 variando o alfa user specific ground truth
Validao do Modelo
NDCG-variando o alfa - user study
Validao do Modelo
Comparao com standard join-then-sort
Esse algoritmo l todas as listas relacionadas com a consulta do usurio, usa uma tabela hash em memria para sumarizar as entradas do mesmo documento e, finalmente, ordena, ainda em memria, os melhores k resultados
Validao do Modelo
Cost Measure
Validao do Modelo
# clocks
Empacotamento do Modelo
Manuteno do Modelo