Escolar Documentos
Profissional Documentos
Cultura Documentos
1.INTRODUÇÃO
O termo recuperação de informação tem um significado muito amplo. Quando olhamos uma agenda
telefônica em busca de um contato, estamos realizando uma recuperação de informação.
Em informática, esta é área da computação que trata da busca por informações em um, ou mais,
documento(s). Esses documentos estão contidos em coleções de dados, que podem ser, por
exemplo, uma coleção pessoal de e-mails ou a base de dados de uma empresa multinacional. A idéia
de utilizar computadores para procurar informações relevantes foi popularizada por Vannevar Bush
em 1945, no artigo “As We May Think”.
Atualmente, com o volume de dados das empresas aumentando de maneira significativa devido ao
baixo custo de mídias de armazenamento, e com a popularização da internet, os sistemas de
recuperação têm se tornado mais complexos, e a busca de determinada informação pode se tornar
uma tarefa desafiadora. O objetivo de nossa pesquisa é adaptar os sistemas de busca existentes
direcionando os esforços para a área de buscas de medicamentos.
2.2- Objetivos
• Discorrer acerca do histórico da recuperação de informação, comparando como esse
processo era realizado na anteriormente e como ele está atualmente.
• Introduzir os conceitos básicos de recuperação de informação na informática e explicar, de
maneira simplificada, como se dá o seu funcionamento.
• Introduzir a aplicação de conceitos de recuperação de informação nos sistemas de busca
WEB.
3.HISTÓRICO
Na Idade Média, também conhecida como Idade das trevas, houve um problema de falta de livros e,
conseqüentemente, de informações. No entanto, após a invenção da prensa de Gutenberg, o
problema se tornouem como gerenciar a quantidade de material impresso que havia disponível.
Francesco Doni, escritor Italiano, em 1550 queixou-se de que existem “tantos livros que não temos
nem tempo de ler os títulos”.
A biblioteca, apesar de ainda ser um importante centro de reunião de conhecimento, vem perdendo
espaço para os arquivos e mídias digitais. A facilidade de acesso que as novas tecnologias nos
proporcionaram mostra-se um novo elemento no âmbito da recuperação da informação.
Porém, por diversos fatores, precisaremos de mais do que o processo de grepping. Para realizar uma
busca rápida dentro de grandes coleções de documentos, como os dados online, por exemplo, será
necessário fazer uma busca em uma ordem de trilhões de palavras. Além disso, precisaremos de um
sistema que nos permita buscas mais flexíveis.
Com essa matriz pronta, aplica-se um E lógico bit a bit dos vetores Brutus, César e Calpurnia. Com
isso, a resposta para os textos onde aparecem os termos Brutus e César e não aparece Calpurnia é
“Antônio e Cleópatra” e “Hamlet”.
Considerando um problema dessa magnitude, não podemos ser ingênuos ao construir nossa matriz
de incidência, pois ela teria quase meio trilhão de zeros e uns, mais do que a memória da maioria
dos computadores poderia suportar. Contudo, se analisarmos melhor esse problema, veremos que
essa matriz tem poucas entradas diferentes de zero. Se cada documento tem 1000 palavras, não
existem mais do que um bilhão de uns. Isso significa que ao menos 99.8% das células são zeros.
Com isso, uma alternativa muito melhor seria gravar apenas as posições um.
O Google nasceu com o objetivo de melhorar a qualidade das máquinas de busca Web. A maior
parte do Google foi implementada em C ou C++ e roda sobre sistemas solaris ou Linux. O Google
apresenta duas características importantes que ajudam a produzir resultados precisos. A primeira é o
sistema de medida de qualidade das páginas que faz uso da estrutura de links da Web e é chamado
de PageRank. O PageRank pode ser interpretado como um modelo de comportamento de um
usuário. A segunda característica é a utilização das informações contidas em links para produzir
uma melhoria no resultado das pesquisas. Além disso, o Google é constituído por três aplicações
principais: o rastreador de páginas (crawler), o indexador (indexer) e o pesquisador (searcher).
7.CONCLUSÃO
Com o aumento do volume de dados disponível, a recuperação da informação se mostra essencial
na informática. Nosso objetivo nesse artigo foi o de mostrar de maneira resumida os conceitos
básicos de recuperação da informação que serão utilizados no desenvolvimento do sistema de busca
de medicamentos na WEB.
Referências
[1] Burke, P. A social history of knowledge from Gutenberg to Diderot. Polity, 2000.
[2] Manning, C., Raghavan, P., Schütze, H. Introduction to Information Retrieval. Disponível em
http://nlp.stanford.edu/IR-book/information-retrievalbook.html. Acesso em 17/10/2010 às 16h17min.
[3] http://www.microsoft.com/uk/windows/products/windowsvista/features/details/instant search.mspx
Acesso em 17/10/2010 às 16h21min
[4] http://support.apple.com/kb/HT2531 Acesso em 17/10/2010 às 16h22min
[5] Bush, V. As We May Think. The Atlantic Magazine, 1945. Disponível em
http://www.theatlantic.com/magazine/archive/1969/12/as-we-may-think/3881/ acesso em 17/10/2010 às
16h23min
[6] Brin, S., Page, L. The Anatomy of a Large-Scale Hypertextual Web Search Engine. Disponível em
http://infolab.stanford.edu/~backrub/google.html acesso em 17/10/2010 às 18h16min.
[7] http://www.opengroup.org/onlinepubs/7990989775/xcu/grep.html Acesso em 17/10/2010 às 18h00min