Você está na página 1de 4

INTRODUÇÃO A RECUPERAÇÃO DE INFORMAÇÃO E APLICAÇÃO DE

CONCEITOS A BUSCA DE MEDICAMENTOS NA WEB

INTRODUCTION TO INFORMATION RETRIEVAL AND CONCEPTS


APPLICATIONS TO THE SEARCH OF DRUGS ON THE WEB

Giovani Fonseca Ravagnani Disperati


giovani_ravagnani@hotmail.com
IFSP – Instituto Federal de Educação Ciência e Tecnologia de São Paulo - Campus Guarulhos - Tecnologia em Análise
e Desenvolvimento de Sistemas - PIBIT/CNPq

Profa. Dra. Jussara Pimenta Matos (orientador)


jussara.pimenta@cefetsp.br
Prof. Felipe Mancini (co-orientador)
fmancini@cefetsp.br

Palavras-chave: recuperação de informação; recuperação binária.


Keywords: information retrieval; boolean retrieval.

1.INTRODUÇÃO

O termo recuperação de informação tem um significado muito amplo. Quando olhamos uma agenda
telefônica em busca de um contato, estamos realizando uma recuperação de informação.
Em informática, esta é área da computação que trata da busca por informações em um, ou mais,
documento(s). Esses documentos estão contidos em coleções de dados, que podem ser, por
exemplo, uma coleção pessoal de e-mails ou a base de dados de uma empresa multinacional. A idéia
de utilizar computadores para procurar informações relevantes foi popularizada por Vannevar Bush
em 1945, no artigo “As We May Think”.

Atualmente, com o volume de dados das empresas aumentando de maneira significativa devido ao
baixo custo de mídias de armazenamento, e com a popularização da internet, os sistemas de
recuperação têm se tornado mais complexos, e a busca de determinada informação pode se tornar
uma tarefa desafiadora. O objetivo de nossa pesquisa é adaptar os sistemas de busca existentes
direcionando os esforços para a área de buscas de medicamentos.

2.FUNDAMENTAÇÃO TEÓRICA E OBJETIVOS

2.1- Fundamentação Teórica

No âmbito computacional, Manning, Raghavan e Schütze (2008) definem a recuperação de


informação como:

“Recuperação da informação (IR) é encontrar materiais (normalmente documentos) de uma


natureza não-estruturada (normalmente texto) que satisfaz uma necessidade de informação a
partir de grandes coleções (normalmente armazenadas em computadores).“

2.2- Objetivos
• Discorrer acerca do histórico da recuperação de informação, comparando como esse
processo era realizado na anteriormente e como ele está atualmente.
• Introduzir os conceitos básicos de recuperação de informação na informática e explicar, de
maneira simplificada, como se dá o seu funcionamento.
• Introduzir a aplicação de conceitos de recuperação de informação nos sistemas de busca
WEB.
3.HISTÓRICO

Na Idade Média, também conhecida como Idade das trevas, houve um problema de falta de livros e,
conseqüentemente, de informações. No entanto, após a invenção da prensa de Gutenberg, o
problema se tornouem como gerenciar a quantidade de material impresso que havia disponível.
Francesco Doni, escritor Italiano, em 1550 queixou-se de que existem “tantos livros que não temos
nem tempo de ler os títulos”.

A biblioteca, apesar de ainda ser um importante centro de reunião de conhecimento, vem perdendo
espaço para os arquivos e mídias digitais. A facilidade de acesso que as novas tecnologias nos
proporcionaram mostra-se um novo elemento no âmbito da recuperação da informação.

4.CLASSIFICAÇÃO DE SISTEMAS DE RECUPERAÇÃO DA INFORMAÇÃO

Podemos classificar o processo de recuperação de informação de três maneiras distintas. Essas


classificações são dadas de acordo com a escala na qual o sistema opera. De um lado temos
sistemas, denominados de Web Search, como o Google, por exemplo, os quais buscam informações
em uma ordem de bilhões de documentos espalhados por milhões de computadores. No outro
extremo temos sistemas de recuperação de informações pessoais, tais como, o Spotlight do Mac OS
X e o Instant Search do Windows Vista/Seven. A maioria dos sistemas de gerenciamento de
endereços eletrônicos também se encaixa nessa categoria, pois possuem sistema de busca de
mensagens e também pastas de classificação. A recuperação de informação se daria nos arquivos e
computadores pessoais do utilizador do sistema.

Entre esses extremos, se encontram os sistemas corporativos de recuperação de informação, onde


esta deve ser aplicada em uma, ou mais, coleção de dados. Nesse caso, a recuperação de informação
se dá por um ou mais computadores buscando informações em uma base de dados específica.

5.INTRODUÇÃO AOS CONCEITOS DE RECUPERAÇÃO BINÁRIA

Em Manning, Raghavan e Schütze (2008), os trabalhos de Shakespeare servem de base como


exemplo aos conceitos que serão expostos. Suponhamos que alguém deseje determinar em quais
textos da obra de Shakespeare se encontram os termos Brutus e César e não se encontra Calpurnia.
Uma forma de se realizar esse processo é ler todos os textos, verificar quais tem Brutus e César e
caso eles contenham Calpurnia desconsiderá-los.

A maneira mais simples para um computador encontrar determinada informação em um texto é


vasculhar o mesmo de maneira linear, buscando essas informações. Esse processo é chamado de
Grepping, nome derivado do comando “Grep” do Unix. Esse processo de grepping pode ser muito
efetivo considerando a velocidade dos computadores modernos. Para busca em coleções reduzida
de dados, como os trabalhos de Shakespeare, por exemplo, os quais somados não ultrapassam mais
do que um milhão de palavras, o processo de grepping é o suficiente para o processo de recuperação
de informação.

Porém, por diversos fatores, precisaremos de mais do que o processo de grepping. Para realizar uma
busca rápida dentro de grandes coleções de documentos, como os dados online, por exemplo, será
necessário fazer uma busca em uma ordem de trilhões de palavras. Além disso, precisaremos de um
sistema que nos permita buscas mais flexíveis.

A maneira de evitarmos o escaneamento linear do texto é indexarmos os documentos com


antecedência. Vamos novamente tomar as obras de Shakespeare como exemplo, e supor que,
utilizando um modelo de recuperação binária, se deseje determinar em quais textos se encontram
César e Brutus, mas não se encontra Calpurnia. Para o registro de cada documento verificamos se
contém cada uma das palavras (Shakespeare utilizou aproximadamente trinta e duas mil palavras
diferentes) procuradas. O resultado será uma matriz de incidência de termos, conforme apresentado
na tabela 1 (adaptada de Manning, Raghavan e Schütze (2008)). As colunas representam as obras de
Shakespeare e as linhas os termos a serem encontrados.

Tabela 1. Matriz de incidência de termos.

Com essa matriz pronta, aplica-se um E lógico bit a bit dos vetores Brutus, César e Calpurnia. Com
isso, a resposta para os textos onde aparecem os termos Brutus e César e não aparece Calpurnia é
“Antônio e Cleópatra” e “Hamlet”.

O modelo de recuperação booleana identifica o documento como um depósito de palavras e permite


que coloquemos quaisquer termos que podem ser expressos na forma booleana para serem
buscados. Após isso, podemos combinar a matriz de incidência com os operadores lógicos E, OU e
NÃO. É importante ressaltar que um documento é uma coleção de informações, e que ele é definido
de acordo com critérios específicos e apropriados a cada caso.
Porém, vamos considerar um cenário mais realístico. Vamos supor que temos N = 1 milhão de
documentos. Por documentos compreende-se qualquer unidade sobre a qual decidimos submeter a
um sistema de recuperação da informação. Vamos nos referir a esse grupo de documentos como
coleção. Suponha que cada documento tem 1000 palavras, e que cada palavra possua seis bytes
incluindo espaços e pontuação. Dessa maneira, essa coleção possui um tamanho de seis Gb.
Normalmente, M = 500.000, ou seja, haveria aproximadamente 500.000 termos distintos.

Considerando um problema dessa magnitude, não podemos ser ingênuos ao construir nossa matriz
de incidência, pois ela teria quase meio trilhão de zeros e uns, mais do que a memória da maioria
dos computadores poderia suportar. Contudo, se analisarmos melhor esse problema, veremos que
essa matriz tem poucas entradas diferentes de zero. Se cada documento tem 1000 palavras, não
existem mais do que um bilhão de uns. Isso significa que ao menos 99.8% das células são zeros.
Com isso, uma alternativa muito melhor seria gravar apenas as posições um.

Essa é a idéia principal do índice invertido. Mantemos um dicionário de termos (também


referenciado como Lexicon ou Vocabulário) e vamos construindo nosso a índice a partir da
incidência desses termos. Ao final temos uma lista de palavras e onde elas ocorrem, conforme
apresentado na figura 2.
Figura 2. Índice Invertido.

O conceito de índice invertido é muito importante no processo de recuperação de informação, uma


vez que nos permite aumentar a abrangência das bases de dados em que as pesquisas serão
realizadas, além de permitir buscas mais flexíveis e eficientes. Esse conceito também é essencial na
máquinas de busca de WEB.

6.ESTUDO DE CASO – PROTÓTIPO DA MÁQUINA DE BUSCA GOOGLE

O Google nasceu com o objetivo de melhorar a qualidade das máquinas de busca Web. A maior
parte do Google foi implementada em C ou C++ e roda sobre sistemas solaris ou Linux. O Google
apresenta duas características importantes que ajudam a produzir resultados precisos. A primeira é o
sistema de medida de qualidade das páginas que faz uso da estrutura de links da Web e é chamado
de PageRank. O PageRank pode ser interpretado como um modelo de comportamento de um
usuário. A segunda característica é a utilização das informações contidas em links para produzir
uma melhoria no resultado das pesquisas. Além disso, o Google é constituído por três aplicações
principais: o rastreador de páginas (crawler), o indexador (indexer) e o pesquisador (searcher).

7.CONCLUSÃO
Com o aumento do volume de dados disponível, a recuperação da informação se mostra essencial
na informática. Nosso objetivo nesse artigo foi o de mostrar de maneira resumida os conceitos
básicos de recuperação da informação que serão utilizados no desenvolvimento do sistema de busca
de medicamentos na WEB.

Referências
[1] Burke, P. A social history of knowledge from Gutenberg to Diderot. Polity, 2000.
[2] Manning, C., Raghavan, P., Schütze, H. Introduction to Information Retrieval. Disponível em
http://nlp.stanford.edu/IR-book/information-retrievalbook.html. Acesso em 17/10/2010 às 16h17min.
[3] http://www.microsoft.com/uk/windows/products/windowsvista/features/details/instant search.mspx
Acesso em 17/10/2010 às 16h21min
[4] http://support.apple.com/kb/HT2531 Acesso em 17/10/2010 às 16h22min
[5] Bush, V. As We May Think. The Atlantic Magazine, 1945. Disponível em
http://www.theatlantic.com/magazine/archive/1969/12/as-we-may-think/3881/ acesso em 17/10/2010 às
16h23min
[6] Brin, S., Page, L. The Anatomy of a Large-Scale Hypertextual Web Search Engine. Disponível em
http://infolab.stanford.edu/~backrub/google.html acesso em 17/10/2010 às 18h16min.
[7] http://www.opengroup.org/onlinepubs/7990989775/xcu/grep.html Acesso em 17/10/2010 às 18h00min

Você também pode gostar