Você está na página 1de 6

1. The classical IR models.

(a) The design of the Boolean model makes it unsuitable for use in large full-text collections.
Please give two reasons for this. [2 p]

R: O modelo boleano não é utilizável para textos largos pelos seguintes motivos:
• Só permite duas opções de resposta, sendo elas verdadeiro ou falso;
• Não permite meio-termo;

(b) The vector space model differs in several significant ways from the Boolean model.
Briefly describe two of these differences

R: O Modelo Vetorial, segundo Baeza Yates e Ribeiro Neto (1999), reconhece que o uso de pesos
binários é muito limitado, e propõe uma condição intermediária. Isto é realizado, nomeando pesos não-
binários para indexar condições em questões e em documentos. Estes pesos analisam o grau de
similaridade entre um documento armazenado em um sistema e a query do usuário. Após esta análise,
os documentos são ordenados em ordem crescente em grau de similaridade. Um resultado importante, é
que o resultado obtido é um conjunto bem mais preciso do que o conjunto obtido pelo modelo
Booleano.

(c) What categories of information does an IR system based on the classical probabilistic
model (also known as the binary independence model) need to access in order to be able
to fully estimate the relevance of a document, given a query?

O processo de consulta pode ser visto como um processo de especificação das propriedades do
conjunto ideal de respostas.
• Problema: como definir tais propriedades? Já que as propriedades não são conhecidas, deve-se definir
um conjunto inicial de respostas como sendo o ideal (suposição);
Iniciam-se interações com o usuário no intuito de melhorar a descrição probabilística do conjunto ideal
de respostas.
• Logo, o modelo é descrito como uma série de interações com o usuário, no intuito de refinar o
conjunto ideal de respostas. Dada uma consulta q e um documento dj, o modelo estima a probabilidade
que o usuário ache tal documento relevante.
O modelo assume que tal probabilidade de relevância depende apenas das representações da consulta e
do documento. No modelo, são associados pesos binários aos termos de índice dos documentos e
consultas.
• O conjunto ideal de respostas R deve maximizar a probabilidade de relevância. Documentos em R são
considerados relevantes.

2. Assume that we, in an IR system based on the Boolean model, formulate a query q having the
following structure:

q = (renewable OR (NOT oil)) AND energy

(a) With respect to the presence/absence of the three query terms – which documents will be retrieved
as (system) relevant? [2 p]
(b) Which of the three terms should the system first examine to determine as quickly as possible
whether a given document should be retrieved or not? Why this term in particular?
[2 p]

3. One of the potential disadvantages of the Boolean IR model is that it does not allow partial
matching on the query.
(a) What is meant by partial matching in this context? [1 p]
R: No contexto do modelo Boleano correspondência parcial seria a capacidade de o modelo (sistema)
poder recuperar ou localizar a informação sem utilizar valores precisos e com a variação normal do
peso da mesma.

(b) Please describe a search situation where the lack of partial matching is a clear disadvantage. [1 p]

(c) The Boolean IR model applies binary term weighting. Please give an argument for why
this is not always an optimal form of term weighting. [2 p]
R: Mesmo sendo de simples compreensão e de semântica precisa, este modelo possui limitações, não
conseguindo expressar uma necessidade através de expressões.
Entretanto, tanto no passado como no presente este modelo recebe o seu destaque, pois muitos sistemas
necessitam trabalhar com valores precisos sem pesos intermediários.
Este modelo verifica se os termos ordenados estão ou não no documento, não tendo alternativas
intermediárias. Ele prediz se este documento é ou não relevante, ou seja, o retorno é um valor binário
{0,1 }.

4. A commonly used similarity measure in the vector space model (VSM) is the cosine measure. Please
explain the general reasoning behind the design and use of this measure. You do not need to use any
mathematical formulas in your answer. [2 p]
O modelo de espaço vetorial, ou simplesmente modelo vetorial, representa documentos e consultas
como vetores de termos. Termos são ocorrências únicas nos documentos. Os documentos devolvidos
como resultado para uma consulta são representados similarmente, ou seja, o vetor resultado para uma
consulta é montado através de um cálculo de similaridade. Aos termos das consultas e documentos são
atribuídos pesos que especificam o tamanho e a direção de seu vetor de representação. Ao ângulo
formado por estes vetores dá-se o nome de . O termo determina a proximidade da ocorrência. O
cálculo da similaridade é baseado neste ângulo entre os vetores que representam o documento e a
consulta, através da seguinte fórmula [Salton (1988)]

5. In the following three scenarios we are about to install (or even implement!) an IR system that is
optimal for the stated needs. The system should be based on one of the so-called classical IR models,
i.e., the Boolean model, the vector space model, or the classical probabilistic model (the binary
independence model). Which model do you think is best suited for each specific scenario? To get points
for your answers, a substantial (but preferably concise) argument is required, explaining why you have
chosen the specific IR model and not one of the other two models.
(a) We intend to install an IR system that can search for fiction so that the user can find literature
according to the user’s personal preferences. The system is expected to be able to operate in a full-text
environment. [1 p]
R: neste caso seguiria o modelo probabilistico porque o modelo determina que esta probabilidade de
relevância depende somente da query e da representação do documento. Além disso, o modelo
determina que existe um sub-conjunto de todos os documentos que o usuário pretende como resultado
de sua busca para a query (q). O resultado ideal, que é denominado por (R), deve maximizar toda
probabilidade relevante para o usuário. Documentos no conjunto (R) são previstos ser relevante para a
query. Documentos fora deste conjunto são previstos ser não relevantes.

(b) We need a system that can search for bibliographic records using controlled, thesaurus based,
nouns. [1 p]

R:O Modelo Vetorial, segundo Baeza Yates e Ribeiro Neto (1999), reconhece que o uso de pesos
binários é muito limitado, e propõe uma condição intermediária. Isto é realizado, nomeando pesos não-
binários para indexar condições em questões e em documentos. Estes pesos analisam o grau de
similaridade entre um documento armazenado em um sistema e a query do usuário. Após esta análise,
os documentos são ordenados em ordem crescente em grau de similaridade.

(c) We need an IR system that can perform searches in the article texts (i.e., operate in a full-text
environment) in a collection of scientific journals. [1 p]
R: Sabe-se que o modelo booleano, é baseado na álgebra booleana. Pela sua simplicidade e
praticidade, este modelo de fácil assimilação, tem sido aplicado em vários sistemas, e em particular
sistemas bibliográficos. Mesmo sendo de simples compreensão e de semântica precisa, este modelo
possui limitações, não conseguindo expressar uma necessidade através de expressões.

6. Term weighting. Let k1 and k2 be two terms (if you want to, you can replace these variables with
two concrete terms in the answer), D a document collection, and d a document in D.
Assume that the term k1 occurs 4 times in the document d and that the term k2 also occurs 4 times in
d. Finally, assume that the term k1 occurs in 24 documents in D and that the term k2 term is found in
15 documents in D. Use reasoning* to find out whether the term weight of k1 in d will be greater than,
less than or equal to the term weight of k2 in d, given that the following IR models and/or term
weighting schemes are used:
(a) the vector space model using tf weighting [1 p]

(b) the vector space model using tf-idf weighting [1 p]

(c) the classical probabilistic model (binary independence model) [1 p]


7. What is the principal difference between Google’s published ranking algorithm PageRank and
the ranking functions (similarity functions) used in the classical IR models (the Boolean model, the
vector space model, the classical probabilistic model)? [2 p]
R: O PageRank mede a importância de uma página contabilizando a quantidade e qualidade de links
apontando para ela enquanto que os modelos classicos de RI por função “representar o conteúdo dos
documentos do corpus e apresenta-los ao usuário de uma maneira que lhe permita uma rápida seleção
dos itens que satisfazem total ou parcialmente a sua necessidade de informação .

8. Lexical analysis.
(a) When we perform lexical analysis of a set of documents in a collection, and possibly
morphological normalization of the extracted words, a set of unique words are formed which we call
the collection vocabulary. A component in the document representation mechanism of the vector space
model contributes to reduce the impact of the stop words in the document representation – especially
in large document collections. What component is indicated and why does it contribute to reduce the
impact of the stop words? Hint: the component is a measure. [2 p]
R:

(b) It is not uncommon that about 50 % of the word occurrences in a text are stop words and can be
filtered out. However, it seems unreasonable that 50 % of the collection vocabulary should consist of
stop words. How can Zipf’s law shed light on this? [2 p]
R: A lei de Zipfś pode ajudar porque ela rege a dimensão, importância ou frequência dos elementos de
uma lista ordenada. Trata-se de uma lei de potências sobre a distribuição de valores de acordo com o nº
de ordem numa lista. Numa lista, o membro n teria uma relação de valor com o 1º da lista segundo 1/n.

9. We perform a search in a reference collection (a test environment consisting of documents,


search tasks and relevance assessments performed on these search tasks) on a topic with 14 known
relevant documents. The IR system used on this occasion is based on the vector space model. The
returned documents are relevance assessed up until position 20, whereby the following relevance list is
obtained. We let R represent a relevant document and 0 a non-relevant document.

For the search result presented above, using DCV = 20, please calculate
(a) recall [1 p]
r=Relevant retrieved documents /All relevant documents in the document collection
r=7/14
r=0.5

(b) precision [1 p]
p=Relevant documents/All retrieved documents
p=7/20
p=0.35
(c) R-precision [1 p]
R-precision = r/R
R-precision=
Also, please answer the following questions concerning the search result above:
(d) Which recall levels do we find in the list? [1 p]

(e) What is the precision at these recall levels? [2 p]

10. Relevance feedback.


(a) What is generally meant by relevance feedback? [1 p]
O princípio básico do funcionamento dos mecanismos de feedback de relevância é baseado no fato de
que um usuário pode enfrentar dificuldades ao formular uma consulta óptima sem um conhecimento
mais detalhado do acervo digital, mas ele consegue facilmente avaliar ou julgar, de acordo com os seus
interesses, a relevância de um documento específico do acervo . Assim, os mecanismos que utilizam o
feedback de relevância são capazes de recuperar esses feedbacks feitos pelos os usuários para tentar
melhorar o funcionamento do motor de busca, retornando mais resultados relevantes e melhorando a
ordenação dos resultados.

(b) Please explain the basic mechanism of the Rocchio method for relevance feedback. [2 p]
O algoritmo de Rocchio baseia-se em um método de feedback de relevância encontrado em sistemas de recuperação de
informação que resultou do SMART Information Retrieval System, desenvolvido entre 1960 e 1964. Como muitos outros
sistemas de recuperação, a abordagem de feedback da Rocchio foi desenvolvida usando o modelo de espaço vetorial. O
algoritmo baseia-se no pressuposto de que a maioria dos usuários tem uma concepção geral de quais documentos devem ser
denotados como relevantes ou não relevantes.

(c) Compare relevance feedback with query expansion. What similarities and differences
regarding purpose and approach can you identify? [2 p]

feedback de relevância: melhorar a qualidade dos resultados iniciais informando o sistema sobre a
relevância dos resultados retornados;
expamsão de consulta: melhorar os resultados de consulta adicionando sinonimos e termos
relacionados a consulta.

(d) What is the difference between explicit and implicit relevance feedback? [2 p]
A estratégia de feedback explícito consiste em perguntar diretamente ao usuário quais documentos ele
considera relevante ou não. Depois do usuário realizar uma consulta inicial no sistema, ele pode julgar
os resultados devolvidos pelo motor de busca e retroalimentar o sistema informando explicitamente
quais desses documentos são relevantes para a consulta feita. Assim, o sistema pode processar esses
feedbacks e agir de acordo, a ação mais comum tomada é a realizar uma nova consulta considerando as
novas informações recebidas.
enquanto que o feedback implicito julgam a relevância dos documentos diante da consulta inicial,
apesar do valor deste mecanismo . Desse modo, surgiu a necessidade de implementação de um
mecanismo de feedback implícito, ou seja, surgiu a necessidade do sistema obter informações sobre a
relevância dos documentos percebida pelos usuários sem fazê-los a explicitamente julgar os
documentos e enviar feedbacks. Isto é realizado tanto através de rastreamento dos olhos do usuário
quanto através da análise dos cliques realizados pelo usuário nas páginas do sistema após a realização
de consultas.
11. What is the Levenshtein distance between the terms court and caught? [1 p]
R: A distância Levenshtein entre os termos court e caught é 3.

Você também pode gostar