Introdução à recuperação de informação e aplicação de conceitos à busca de medicamentos na web

INTRODUÇÃO A RECUPERAÇÃO DE INFORMAÇÃO E APLICAÇÃO DE
CONCEITOS A BUSCA DE MEDICAMENTOS NA WEB
INTRODUCTION TO INFORMATION RETRIEVAL AND CONCEPTS

APPLICATIONS TO THE SEARCH OF DRUGS ON THE WEB
Giovani Fonseca Ravagnani Disperati

giovani_ravagnani@hotmail.com
IFSP – Instituto Federal de Educação Ciência e Tecnologia de São Paulo - Campus Guarulhos - Tecnologia em Análise
e Desenvolvimento de Sistemas - PIBIT/CNPq
Profa. Dra. Jussara Pimenta Matos (orientador)

jussara.pimenta@cefetsp.br
Prof. Felipe Mancini (co-orientador)
fmancini@cefetsp.br
Palavras-chave: recuperação de informação; recuperação binária.

Keywords: information retrieval; boolean retrieval.
1.INTRODUÇÃO
O termo recuperação de informação tem um significado muito amplo. Quando olhamos uma agenda
telefônica em busca de um contato, estamos realizando uma recuperação de informação.
Em informática, esta é área da computação que trata da busca por informações em um, ou mais,
documento(s). Esses documentos estão contidos em coleções de dados, que podem ser, por
exemplo, uma coleção pessoal de e-mails ou a base de dados de uma empresa multinacional. A idéia
de utilizar computadores para procurar informações relevantes foi popularizada por Vannevar Bush
em 1945, no artigo “As We May Think”.
Atualmente, com o volume de dados das empresas aumentando de maneira significativa devido ao
baixo custo de mídias de armazenamento, e com a popularização da internet, os sistemas de
recuperação têm se tornado mais complexos, e a busca de determinada informação pode se tornar
uma tarefa desafiadora. O objetivo de nossa pesquisa é adaptar os sistemas de busca existentes
direcionando os esforços para a área de buscas de medicamentos.
2.FUNDAMENTAÇÃO TEÓRICA E OBJETIVOS
2.1- Fundamentação Teórica
No âmbito computacional, Manning, Raghavan e Schütze (2008) definem a recuperação de

informação como:
“Recuperação da informação (IR) é encontrar materiais (normalmente documentos) de uma

natureza não-estruturada (normalmente texto) que satisfaz uma necessidade de informação a
partir de grandes coleções (normalmente armazenadas em computadores).“
2.2- Objetivos
• Discorrer acerca do histórico da recuperação de informação, comparando como esse
processo era realizado na anteriormente e como ele está atualmente.
• Introduzir os conceitos básicos de recuperação de informação na informática e explicar, de
maneira simplificada, como se dá o seu funcionamento.
• Introduzir a aplicação de conceitos de recuperação de informação nos sistemas de busca
WEB.
3.HISTÓRICO
Na Idade Média, também conhecida como Idade das trevas, houve um problema de falta de livros e,
conseqüentemente, de informações. No entanto, após a invenção da prensa de Gutenberg, o
problema se tornouem como gerenciar a quantidade de material impresso que havia disponível.
Francesco Doni, escritor Italiano, em 1550 queixou-se de que existem “tantos livros que não temos
nem tempo de ler os títulos”.
A biblioteca, apesar de ainda ser um importante centro de reunião de conhecimento, vem perdendo
espaço para os arquivos e mídias digitais. A facilidade de acesso que as novas tecnologias nos
proporcionaram mostra-se um novo elemento no âmbito da recuperação da informação.
4.CLASSIFICAÇÃO DE SISTEMAS DE RECUPERAÇÃO DA INFORMAÇÃO
Podemos classificar o processo de recuperação de informação de três maneiras distintas. Essas

classificações são dadas de acordo com a escala na qual o sistema opera. De um lado temos
sistemas, denominados de Web Search, como o Google, por exemplo, os quais buscam informações
em uma ordem de bilhões de documentos espalhados por milhões de computadores. No outro
extremo temos sistemas de recuperação de informações pessoais, tais como, o Spotlight do Mac OS
X e o Instant Search do Windows Vista/Seven. A maioria dos sistemas de gerenciamento de
endereços eletrônicos também se encaixa nessa categoria, pois possuem sistema de busca de
mensagens e também pastas de classificação. A recuperação de informação se daria nos arquivos e
computadores pessoais do utilizador do sistema.
Entre esses extremos, se encontram os sistemas corporativos de recuperação de informação, onde

esta deve ser aplicada em uma, ou mais, coleção de dados. Nesse caso, a recuperação de informação
se dá por um ou mais computadores buscando informações em uma base de dados específica.
5.INTRODUÇÃO AOS CONCEITOS DE RECUPERAÇÃO BINÁRIA
Em Manning, Raghavan e Schütze (2008), os trabalhos de Shakespeare servem de base como

exemplo aos conceitos que serão expostos. Suponhamos que alguém deseje determinar em quais
textos da obra de Shakespeare se encontram os termos Brutus e César e não se encontra Calpurnia.
Uma forma de se realizar esse processo é ler todos os textos, verificar quais tem Brutus e César e
caso eles contenham Calpurnia desconsiderá-los.
A maneira mais simples para um computador encontrar determinada informação em um texto é

vasculhar o mesmo de maneira linear, buscando essas informações. Esse processo é chamado de
Grepping, nome derivado do comando “Grep” do Unix. Esse processo de grepping pode ser muito
efetivo considerando a velocidade dos computadores modernos. Para busca em coleções reduzida
de dados, como os trabalhos de Shakespeare, por exemplo, os quais somados não ultrapassam mais
do que um milhão de palavras, o processo de grepping é o suficiente para o processo de recuperação
de informação.
Porém, por diversos fatores, precisaremos de mais do que o processo de grepping. Para realizar uma
busca rápida dentro de grandes coleções de documentos, como os dados online, por exemplo, será
necessário fazer uma busca em uma ordem de trilhões de palavras. Além disso, precisaremos de um
sistema que nos permita buscas mais flexíveis.
A maneira de evitarmos o escaneamento linear do texto é indexarmos os documentos com

antecedência. Vamos novamente tomar as obras de Shakespeare como exemplo, e supor que,
utilizando um modelo de recuperação binária, se deseje determinar em quais textos se encontram
César e Brutus, mas não se encontra Calpurnia. Para o registro de cada documento verificamos se
contém cada uma das palavras (Shakespeare utilizou aproximadamente trinta e duas mil palavras
diferentes) procuradas. O resultado será uma matriz de incidência de termos, conforme apresentado
na tabela 1 (adaptada de Manning, Raghavan e Schütze (2008)). As colunas representam as obras de
Shakespeare e as linhas os termos a serem encontrados.
Tabela 1. Matriz de incidência de termos.
Com essa matriz pronta, aplica-se um E lógico bit a bit dos vetores Brutus, César e Calpurnia. Com
isso, a resposta para os textos onde aparecem os termos Brutus e César e não aparece Calpurnia é
“Antônio e Cleópatra” e “Hamlet”.
O modelo de recuperação booleana identifica o documento como um depósito de palavras e permite

que coloquemos quaisquer termos que podem ser expressos na forma booleana para serem
buscados. Após isso, podemos combinar a matriz de incidência com os operadores lógicos E, OU e
NÃO. É importante ressaltar que um documento é uma coleção de informações, e que ele é definido
de acordo com critérios específicos e apropriados a cada caso.
Porém, vamos considerar um cenário mais realístico. Vamos supor que temos N = 1 milhão de
documentos. Por documentos compreende-se qualquer unidade sobre a qual decidimos submeter a
um sistema de recuperação da informação. Vamos nos referir a esse grupo de documentos como
coleção. Suponha que cada documento tem 1000 palavras, e que cada palavra possua seis bytes
incluindo espaços e pontuação. Dessa maneira, essa coleção possui um tamanho de seis Gb.
Normalmente, M = 500.000, ou seja, haveria aproximadamente 500.000 termos distintos.
Considerando um problema dessa magnitude, não podemos ser ingênuos ao construir nossa matriz
de incidência, pois ela teria quase meio trilhão de zeros e uns, mais do que a memória da maioria
dos computadores poderia suportar. Contudo, se analisarmos melhor esse problema, veremos que
essa matriz tem poucas entradas diferentes de zero. Se cada documento tem 1000 palavras, não
existem mais do que um bilhão de uns. Isso significa que ao menos 99.8% das células são zeros.
Com isso, uma alternativa muito melhor seria gravar apenas as posições um.
Essa é a idéia principal do índice invertido. Mantemos um dicionário de termos (também

referenciado como Lexicon ou Vocabulário) e vamos construindo nosso a índice a partir da
incidência desses termos. Ao final temos uma lista de palavras e onde elas ocorrem, conforme
apresentado na figura 2.
Figura 2. Índice Invertido.
O conceito de índice invertido é muito importante no processo de recuperação de informação, uma

vez que nos permite aumentar a abrangência das bases de dados em que as pesquisas serão
realizadas, além de permitir buscas mais flexíveis e eficientes. Esse conceito também é essencial na
máquinas de busca de WEB.
6.ESTUDO DE CASO – PROTÓTIPO DA MÁQUINA DE BUSCA GOOGLE
O Google nasceu com o objetivo de melhorar a qualidade das máquinas de busca Web. A maior
parte do Google foi implementada em C ou C++ e roda sobre sistemas solaris ou Linux. O Google
apresenta duas características importantes que ajudam a produzir resultados precisos. A primeira é o
sistema de medida de qualidade das páginas que faz uso da estrutura de links da Web e é chamado
de PageRank. O PageRank pode ser interpretado como um modelo de comportamento de um
usuário. A segunda característica é a utilização das informações contidas em links para produzir
uma melhoria no resultado das pesquisas. Além disso, o Google é constituído por três aplicações
principais: o rastreador de páginas (crawler), o indexador (indexer) e o pesquisador (searcher).
7.CONCLUSÃO
Com o aumento do volume de dados disponível, a recuperação da informação se mostra essencial
na informática. Nosso objetivo nesse artigo foi o de mostrar de maneira resumida os conceitos
básicos de recuperação da informação que serão utilizados no desenvolvimento do sistema de busca
de medicamentos na WEB.
Referências
[1] Burke, P. A social history of knowledge from Gutenberg to Diderot. Polity, 2000.
[2] Manning, C., Raghavan, P., Schütze, H. Introduction to Information Retrieval. Disponível em
http://nlp.stanford.edu/IR-book/information-retrievalbook.html. Acesso em 17/10/2010 às 16h17min.
[3] http://www.microsoft.com/uk/windows/products/windowsvista/features/details/instant search.mspx
Acesso em 17/10/2010 às 16h21min
[4] http://support.apple.com/kb/HT2531 Acesso em 17/10/2010 às 16h22min
[5] Bush, V. As We May Think. The Atlantic Magazine, 1945. Disponível em
http://www.theatlantic.com/magazine/archive/1969/12/as-we-may-think/3881/ acesso em 17/10/2010 às
16h23min
[6] Brin, S., Page, L. The Anatomy of a Large-Scale Hypertextual Web Search Engine. Disponível em
http://infolab.stanford.edu/~backrub/google.html acesso em 17/10/2010 às 18h16min.
[7] http://www.opengroup.org/onlinepubs/7990989775/xcu/grep.html Acesso em 17/10/2010 às 18h00min

Introdução à recuperação de informação e aplicação de conceitos à busca de medicamentos na web

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Introdução à recuperação de informação e aplicação de conceitos à busca de medicamentos na web

Enviado por

Direitos autorais:

Formatos disponíveis

INTRODUÇÃO A RECUPERAÇÃO DE INFORMAÇÃO E APLICAÇÃO DE

CONCEITOS A BUSCA DE MEDICAMENTOS NA WEB

INTRODUCTION TO INFORMATION RETRIEVAL AND CONCEPTS

Giovani Fonseca Ravagnani Disperati

Profa. Dra. Jussara Pimenta Matos (orientador)

Palavras-chave: recuperação de informação; recuperação binária.

2.FUNDAMENTAÇÃO TEÓRICA E OBJETIVOS

2.1- Fundamentação Teórica

No âmbito computacional, Manning, Raghavan e Schütze (2008) definem a recuperação de

“Recuperação da informação (IR) é encontrar materiais (normalmente documentos) de uma

4.CLASSIFICAÇÃO DE SISTEMAS DE RECUPERAÇÃO DA INFORMAÇÃO

Podemos classificar o processo de recuperação de informação de três maneiras distintas. Essas

Entre esses extremos, se encontram os sistemas corporativos de recuperação de informação, onde

5.INTRODUÇÃO AOS CONCEITOS DE RECUPERAÇÃO BINÁRIA

Em Manning, Raghavan e Schütze (2008), os trabalhos de Shakespeare servem de base como

A maneira mais simples para um computador encontrar determinada informação em um texto é

A maneira de evitarmos o escaneamento linear do texto é indexarmos os documentos com

Tabela 1. Matriz de incidência de termos.

O modelo de recuperação booleana identifica o documento como um depósito de palavras e permite

Essa é a idéia principal do índice invertido. Mantemos um dicionário de termos (também

O conceito de índice invertido é muito importante no processo de recuperação de informação, uma

6.ESTUDO DE CASO – PROTÓTIPO DA MÁQUINA DE BUSCA GOOGLE

Você também pode gostar