Você está na página 1de 4

INTRODUÇÃO A RECUPERAÇÃO DE INFORMAÇÃO E APLICAÇÃO DE CONCEITOS A BUSCA DE MEDICAMENTOS NA WEB

INTRODUCTION TO INFORMATION RETRIEVAL AND CONCEPTS APPLICATIONS TO THE SEARCH OF DRUGS ON THE WEB

Giovani Fonseca Ravagnani Disperati

giovani_ravagnani@hotmail.com IFSP – Instituto Federal de Educação Ciência e Tecnologia de São Paulo - Campus Guarulhos - Tecnologia em Análise e Desenvolvimento de Sistemas - PIBIT/CNPq

Profa. Dra. Jussara Pimenta Matos (orientador)

Prof. Felipe Mancini (co-orientador)

Palavras-chave: recuperação de informação; recuperação binária. Keywords: information retrieval; boolean retrieval.

1.INTRODUÇÃO

O termo recuperação de informação tem um significado muito amplo. Quando olhamos uma agenda telefônica em busca de um contato, estamos realizando uma recuperação de informação. Em informática, esta é área da computação que trata da busca por informações em um, ou mais, documento(s). Esses documentos estão contidos em coleções de dados, que podem ser, por exemplo, uma coleção pessoal de e-mails ou a base de dados de uma empresa multinacional. A idéia de utilizar computadores para procurar informações relevantes foi popularizada por Vannevar Bush em 1945, no artigo “As We May Think”.

Atualmente, com o volume de dados das empresas aumentando de maneira significativa devido ao baixo custo de mídias de armazenamento, e com a popularização da internet, os sistemas de recuperação têm se tornado mais complexos, e a busca de determinada informação pode se tornar uma tarefa desafiadora. O objetivo de nossa pesquisa é adaptar os sistemas de busca existentes direcionando os esforços para a área de buscas de medicamentos.

2.FUNDAMENTAÇÃO TEÓRICA E OBJETIVOS

2.1- Fundamentação Teórica

No âmbito computacional, Manning, Raghavan e Schütze (2008) definem a recuperação de informação como:

“Recuperação da informação (IR) é encontrar materiais (normalmente documentos) de uma natureza não-estruturada (normalmente texto) que satisfaz uma necessidade de informação a partir de grandes coleções (normalmente armazenadas em computadores).“

2.2- Objetivos

Discorrer acerca do histórico da recuperação de informação, comparando como esse processo era realizado na anteriormente e como ele está atualmente.

Introduzir os conceitos básicos de recuperação de informação na informática e explicar, de maneira simplificada, como se dá o seu funcionamento.

Introduzir a aplicação de conceitos de recuperação de informação nos sistemas de busca

WEB.

3.HISTÓRICO

Na Idade Média, também conhecida como Idade das trevas, houve um problema de falta de livros e, conseqüentemente, de informações. No entanto, após a invenção da prensa de Gutenberg, o problema se tornouem como gerenciar a quantidade de material impresso que havia disponível. Francesco Doni, escritor Italiano, em 1550 queixou-se de que existem “tantos livros que não temos nem tempo de ler os títulos”.

A biblioteca, apesar de ainda ser um importante centro de reunião de conhecimento, vem perdendo

espaço para os arquivos e mídias digitais. A facilidade de acesso que as novas tecnologias nos

proporcionaram mostra-se um novo elemento no âmbito da recuperação da informação.

4.CLASSIFICAÇÃO DE SISTEMAS DE RECUPERAÇÃO DA INFORMAÇÃO

Podemos classificar o processo de recuperação de informação de três maneiras distintas. Essas classificações são dadas de acordo com a escala na qual o sistema opera. De um lado temos sistemas, denominados de Web Search, como o Google, por exemplo, os quais buscam informações em uma ordem de bilhões de documentos espalhados por milhões de computadores. No outro

extremo temos sistemas de recuperação de informações pessoais, tais como, o Spotlight do Mac OS

X e o Instant Search do Windows Vista/Seven. A maioria dos sistemas de gerenciamento de

endereços eletrônicos também se encaixa nessa categoria, pois possuem sistema de busca de mensagens e também pastas de classificação. A recuperação de informação se daria nos arquivos e computadores pessoais do utilizador do sistema.

Entre esses extremos, se encontram os sistemas corporativos de recuperação de informação, onde esta deve ser aplicada em uma, ou mais, coleção de dados. Nesse caso, a recuperação de informação

se dá por um ou mais computadores buscando informações em uma base de dados específica.

5.INTRODUÇÃO AOS CONCEITOS DE RECUPERAÇÃO BINÁRIA

Em Manning, Raghavan e Schütze (2008), os trabalhos de Shakespeare servem de base como exemplo aos conceitos que serão expostos. Suponhamos que alguém deseje determinar em quais textos da obra de Shakespeare se encontram os termos Brutus e César e não se encontra Calpurnia. Uma forma de se realizar esse processo é ler todos os textos, verificar quais tem Brutus e César e caso eles contenham Calpurnia desconsiderá-los.

A maneira mais simples para um computador encontrar determinada informação em um texto é

vasculhar o mesmo de maneira linear, buscando essas informações. Esse processo é chamado de

Grepping , nome derivado do comando “Grep” do Unix. Esse processo de grepping pode ser muito efetivo considerando a velocidade dos computadores modernos. Para busca em coleções reduzida

de

dados, como os trabalhos de Shakespeare, por exemplo, os quais somados não ultrapassam mais

do

que um milhão de palavras, o processo de grepping é o suficiente para o processo de recuperação

de

informação.

Porém, por diversos fatores, precisaremos de mais do que o processo de grepping . Para realizar uma busca rápida dentro de grandes coleções de documentos, como os dados online, por exemplo, será necessário fazer uma busca em uma ordem de trilhões de palavras. Além disso, precisaremos de um sistema que nos permita buscas mais flexíveis.

A maneira de evitarmos o escaneamento linear do texto é indexarmos os documentos com

antecedência. Vamos novamente tomar as obras de Shakespeare como exemplo, e supor que, utilizando um modelo de recuperação binária, se deseje determinar em quais textos se encontram

César e Brutus, mas não se encontra Calpurnia. Para o registro de cada documento verificamos se contém cada uma das palavras (Shakespeare utilizou aproximadamente trinta e duas mil palavras diferentes) procuradas. O resultado será uma matriz de incidência de termos, conforme apresentado na tabela 1 (adaptada de Manning, Raghavan e Schütze (2008)). As colunas representam as obras de Shakespeare e as linhas os termos a serem encontrados.

de Shakespeare e as linhas os termos a serem encontrados. Tabela 1. Matriz de incidência de

Tabela 1. Matriz de incidência de termos.

Com essa matriz pronta, aplica-se um E lógico bit a bit dos vetores Brutus, César e Calpurnia. Com isso, a resposta para os textos onde aparecem os termos Brutus e César e não aparece Calpurnia é “Antônio e Cleópatra” e “Hamlet”.

O modelo de recuperação booleana identifica o documento como um depósito de palavras e permite que coloquemos quaisquer termos que podem ser expressos na forma booleana para serem buscados. Após isso, podemos combinar a matriz de incidência com os operadores lógicos E, OU e NÃO. É importante ressaltar que um documento é uma coleção de informações, e que ele é definido de acordo com critérios específicos e apropriados a cada caso. Porém, vamos considerar um cenário mais realístico. Vamos supor que temos N = 1 milhão de documentos. Por documentos compreende-se qualquer unidade sobre a qual decidimos submeter a um sistema de recuperação da informação. Vamos nos referir a esse grupo de documentos como coleção. Suponha que cada documento tem 1000 palavras, e que cada palavra possua seis bytes incluindo espaços e pontuação. Dessa maneira, essa coleção possui um tamanho de seis Gb. Normalmente, M = 500.000, ou seja, haveria aproximadamente 500.000 termos distintos.

Considerando um problema dessa magnitude, não podemos ser ingênuos ao construir nossa matriz de incidência, pois ela teria quase meio trilhão de zeros e uns, mais do que a memória da maioria dos computadores poderia suportar. Contudo, se analisarmos melhor esse problema, veremos que essa matriz tem poucas entradas diferentes de zero. Se cada documento tem 1000 palavras, não existem mais do que um bilhão de uns. Isso significa que ao menos 99.8% das células são zeros. Com isso, uma alternativa muito melhor seria gravar apenas as posições um.

Essa é a idéia principal do índice invertido. Mantemos um dicionário de termos (também referenciado como Lexicon ou Vocabulário) e vamos construindo nosso a índice a partir da incidência desses termos. Ao final temos uma lista de palavras e onde elas ocorrem, conforme apresentado na figura 2.

Figura 2. Índice Invertido. O conceito de índice invertido é muito importante no processo de

Figura 2. Índice Invertido.

O conceito de índice invertido é muito importante no processo de recuperação de informação, uma

vez que nos permite aumentar a abrangência das bases de dados em que as pesquisas serão realizadas, além de permitir buscas mais flexíveis e eficientes. Esse conceito também é essencial na

máquinas de busca de WEB.

6.ESTUDO DE CASO – PROTÓTIPO DA MÁQUINA DE BUSCA GOOGLE

O Google nasceu com o objetivo de melhorar a qualidade das máquinas de busca Web. A maior

parte do Google foi implementada em C ou C++ e roda sobre sistemas solaris ou Linux. O Google apresenta duas características importantes que ajudam a produzir resultados precisos. A primeira é o sistema de medida de qualidade das páginas que faz uso da estrutura de links da Web e é chamado de PageRank. O PageRank pode ser interpretado como um modelo de comportamento de um usuário. A segunda característica é a utilização das informações contidas em links para produzir uma melhoria no resultado das pesquisas. Além disso, o Google é constituído por três aplicações principais: o rastreador de páginas (crawler), o indexador (indexer) e o pesquisador (searcher).

7.CONCLUSÃO

Com o aumento do volume de dados disponível, a recuperação da informação se mostra essencial

na informática. Nosso objetivo nesse artigo foi o de mostrar de maneira resumida os conceitos básicos de recuperação da informação que serão utilizados no desenvolvimento do sistema de busca

de medicamentos na WEB.

Referências [1] Burke, P. A social history of knowledge from Gutenberg to Diderot . Polity, 2000. [2] Manning, C., Raghavan, P., Schütze, H. Introduction to Information Retrieval. Disponível em http://nlp.stanford.edu/IR-book/information-retrievalbook.html. Acesso em 17/10/2010 às 16h17min. [3] http://www.microsoft.com/uk/windows/products/windowsvista/features/details/instant search.mspx Acesso em 17/10/2010 às 16h21min [4] http://support.apple.com/kb/HT2531 Acesso em 17/10/2010 às 16h22min [5] Bush, V. As We May Think. The Atlantic Magazine, 1945. Disponível em http://www.theatlantic.com/magazine/archive/1969/12/as-we-may-think/3881/ acesso em 17/10/2010 às

16h23min

[6] Brin, S., Page, L. The Anatomy of a Large-Scale Hypertextual Web Search Engine. Disponível em http://infolab.stanford.edu/~backrub/google.html acesso em 17/10/2010 às 18h16min. [7] http://www.opengroup.org/onlinepubs/7990989775/xcu/grep.html Acesso em 17/10/2010 às 18h00min