Você está na página 1de 80

Tecnologia da Informação II

Componente curricular na modalidade de educação a distância

Divino Ignácio Ribeiro Júnior


Possui graduação em Tecnologia de Processamento de dados pela UNIMAR
(1994), Mestrado em Ciência da Informação pela UNESP (2001) e Doutorado em
Engenharia e Gestão de Conhecimento pela UFSC (2010). Tem experiência em
pesquisas nas áreas de Recuperação da Informação, Bibliotecas Digitais, Engenharia
de Conhecimento. Participa dos grupos de pesquisa GPNTI – Grupo de Pesquisa em
Novas Tecnologias da Informação – UNESP e Grupo de Pesquisa em Informação –
GPInfo – da UDESC.

Chapecó, 2016
Reitor
Claudio Alcides Jacoski

Vice-Reitora de Pesquisa, Extensão e Pós-Graduação


Silvana Muraro Wildner

Vice-Reitor de Planejamento e Desenvolvimento


Márcio da Paixão Rodrigues

Vice-Reitor de Administração
José Alexandre de Toni

Coordenação: Rosane Natalina Meneghetti Silveira Coordenadora Geral: Marcela do Prado


Secretaria: Marcos Domingos Robal dos Santos
Equipe Multidisciplinar: Henrique Telles Neto, Marcia Ione
Comercial: Neli Ferrari Surdi, Monica Tissiani De Toni Pereira, Carla dos Reis Rezer
Assistente editorial: Caroline Kirschner
Revisão: Juliane Fernanda Kuhn de Castro
Conselho Editorial: (2016-2018) Titulares: Murilo Cesar Assistente Administrativo: Manon Aparecida Pereira de
Costelli (presidente), Clodoaldo Antônio de Sá (vice- Jesus
presidente), Celso Francisco Tondin, Rosane Natalina
Meneghetti Silveira, Cesar da Silva Camargo, Silvana Muraro Capa: Marcela do Prado, Juliane Fernanda Kuhn de Castro
Wildner, Ricardo Rezer, Rodrigo Barichello, Mauro Antonio Diagramação: Marcela do Prado, Roberta Rodrigues Kunst
Dall Agnol, Vagner Dalbosco, Carolina Riviera Duarte
Maluche Baretta Suplentes: Arlene Renk, Fátima Ferretti,
Fernando Tosini, Hilário Junior dos Santos, Irme Salete
Bonamigo, Maria Assunta Busato.

_________________________________________________________________________________________
025.524 Ribeiro Júnior, Divino Ignácio
R484t Tecnologia da informação II / Divino Ignácio Ribeiro
Júnior. – Chapecó,SC : Argos, 2016.
80 p. : il. ; 28 cm. - (EaD ; 22)

Inclui bibliografias
ISBN 978-85-7897-179-3

1. Gestão do conhecimento. 2. Base de dados.


3. Recursos de informação. 4. Bibliotecas digitais. I. Título.
IV. Série.

CDD 025.524
_________________________________________________________________________________________
Catalogação elaborada por Caroline Miotto Pecini CRB 14/1178
Biblioteca Central da Unochapecó

Av. Sen. Attílio Fontana, 591-E - Bairro Efapi - Chapecó (SC)


CEP 89809-000 - Caixa Postal 1141 - Fone: (49) 3321 8088
E-mail: unovirtual@unochapeco.edu.br
Home Page: www.unochapeco.edu.br/ead

Não estão autorizadas nenhuma forma de reprodução, parcial ou integral deste material, sem autorização expressa do autor e da
UnochapecóVirtual
CARTA AO ESTUDANTE

Seja bem-vindo!
Você está recebendo o livro do componente curricular de Tecnologia da
Informação II.

No atual cenário educacional, em que, cada vez mais, as pessoas buscam por
uma formação complementar e há a inserção massiva das tecnologias de informação
e comunicação, a modalidade de educação a distância é vislumbrada como uma
importante contribuição à expansão do ensino superior no país, que permite formas
alternativas de geração e disseminação do conhecimento.
A educação a distância tem sido importante para atingir um grande contingente
de estudantes de vários locais, com disponibilidade de tempo para o estudo diversa,
além daqueles que não têm a possibilidade de deslocamento até uma instituição de
ensino superior todos os dias. Desta forma, a Unochapecó, comprometida com o
desenvolvimento do ensino superior, vê a educação a distância como um aporte para
a transformação dos métodos de ensino em uma proposta inovadora.
Levando em consideração o pressuposto da necessidade de autodesenvolvimento
do estudante da modalidade de educação a distância, este material foi elaborado de
forma dialógica, baseada em uma linguagem clara e pertinente aos estudos, além de
permitir vários momentos de aprofundamento do conteúdo ao estudante, através da
mobilidade do para outros meios (como filmes, livros, sites).
Temos como princípio a responsabilidade e o desafio de oferecer uma formação
de qualidade, para tanto, a cada novo material, você está convidado a encaminhar
sugestões de melhoria para nossa equipe, sempre que julgar relevante.
Lembre-se: a equipe da UnochapecóVirtual estará à disposição sempre que
necessitar de um auxílio, pois assumimos um compromisso com você e com o
conhecimento.

Acreditamos no seu sucesso!

Núcleo de Educação a Distância


UnochapecóVirtual

Tecnologia da Informação II
SUMÁRIO

APRESENTAÇÃO...............................................................................7

UNIDADE 1 FUNDAMENTOS DA RECUPERAÇÃO DA INFORMAÇÃO.9


1 POR QUE ESTUDAR RECUPERAÇÃO DA INFORMAÇÃO?..................11
2 BREVE HISTÓRICO DA RECUPERAÇÃO DA INFORMAÇÃO................12
3 CONCEITOS IMPORTANTES..............................................................14
3.1 Recuperação da Informação.....................................................16
REFERÊNCIAS.....................................................................................33

UNIDADE 2 BUSCA E ESTRATÉGIAS DE BUSCA EM BASES DE DADOS


E NA INTERNET..............................................................................37
1 ESTRATÉGIAS DE BUSCA NOS PROCESSOS DE RECUPERAÇÃO DA
INFORMAÇÃO.....................................................................................39
1.1 A formação de estratégias sob a perspectiva da comunicação...
........................................................................................................39
1.2 Contextos de formação das estratégias de busca...................41
1.3 A necessidade de informação..................................................43
2 MECANISMOS DE BUSCA NA INTERNET..........................................48
2.1 Os Crawlers...............................................................................49
2.2 Os Índices..................................................................................49
2.3 O Processador de Consulta.......................................................52
3 TÉCNICAS DE BUSCA EM BASES DE DADOS E NA INTERNET...........56
3.1 Operadores Booleanos.............................................................57
3.2 Técnicas de Busca na Internet com Google.............................60
REFERÊNCIAS.....................................................................................64

UNIDADE 3 PROTOCOLOS PARA RECUPERAÇÃO DA INFORMAÇÃO...


......................................................................................................67
1 O PROTOCOLO Z39.50.....................................................................69
1.1 Z39.50: um velho conhecido....................................................69
1.2 Arquitetura...............................................................................70
1.3 Aplicações em Bibliotecas........................................................71
1.4 Exemplo de aplicação: Software Mercury Z39.50....................72
REFERÊNCIAS.....................................................................................74

Tecnologia da Informação II
APRESENTAÇÃO

Seja bem-vindo!
O componente curricular de Tecnologias da Informação II, pelas características
de sua ementa, trata de temáticas relacionadas à área da Recuperação da Informação,
com foco na elaboração e avaliação dos processos de busca e recuperação, e suas
tecnologias.
A ementa deste componente curricular traz os seguintes temas: Estratégias
de busca em diferentes sistemas de informação. Conceitos básicos de recuperação
da informação eletrônica. Técnicas para pesquisa em bases de dados e na Internet.
Lógica Booleana. Protocolos padronizados. Z39.50.
A motivação para estudo dessa temática é a necessidade de formação de
conhecimento de alto nível para atingir o seguinte objetivo: recuperar informação de
maneira eficaz e eficiente. Assim, este material aborda questões como:
• Conceitos sobre a Recuperação da Informação, origens e tecnologias;
• Dificuldades na recuperação de informação em bases de dados e demais fontes de
informação;
• Estratégias para melhorar a disponibilidade e a acessibilidade de fontes de
informação, por meio de tecnologias para interoperabilidade;
• Estratégias para auxiliar o usuário na recuperação da informação.

Tais itens serão estudados sob uma ótica científica, ou de outra forma, o
conhecimento produzido pela área de Ciência da Informação, na forma de artigos,
livros, teses e dissertações, será a referência para seus estudos.
Esse material está organizado em três unidades, a Unidade 1 possui diversos
conceitos que requerem atenção e leitura. Você deverá interagir com os materiais da
bibliografia (todos dispõe de versões online) para realizar as atividades, anotar, fazer
seus esquemas de leitura e fichamento.
A Unidade 2 possui diversos conceitos que requerem atenção e leitura. Você
deverá interagir com os materiais da bibliografia (todos dispõe de versões online) para
realizar as atividades, anotar, fazer seus esquemas de leitura e fichamento, e precisará
também de acesso às ferramentas de busca citadas ao longo do texto.
A Unidade 3 possui carga horária menor que as outras Unidades, no entanto,
requer dedicação para realizar as atividades, anotar, fazer seus esquemas de leitura
e fichamento, e precisará também de acesso às ferramentas de busca citadas nas
atividades.

Tecnologia da Informação II
Segue o cronograma do componente curricular para que você possa acompanhar
o andamento de seus estudos.

Carga Unidades
horária
25h Unidade 1. Fundamentos da Recuperação da Informação
25h Unidade 2. Busca e Estratégias de busca em Bases de Dados e na
Internet
10h Unidade 3. Protocolos para Recuperação da Informação

Leia o material e analise as fontes de leitura recomendadas com atenção. O


sucesso do seu aprendizado sobre esse tema dependerá da formação de uma visão
crítica sobre os problemas e necessidades de quem precisa recuperar informação.

Bom estudo!
Divino Ignácio Ribeiro Júnior

Tecnologia da Informação II
Unidade 1
Fundamentos da Recuperação da
Informação

Objetivo:

• Entender os conceitos sobre Recuperação da


Informação;
• Conhecer um pouco da história e a evolução
das Tecnologias aplicadas à Recuperação da
Informação;
• Conhecer os tipos de estudos realizados nessa
área.

Conteúdo programático:
• Motivação e Importância do estudo sobre a
Recuperação da Informação;
• Breve Histórico sobre a Recuperação da
Informação;
• Entendendo Conceitos e Definições da
Literatura.
Faça aqui seu planejamento de estudos

10 Tecnologia da Informação II
1 POR QUE ESTUDAR RECUPERAÇÃO DA INFORMAÇÃO?

“De todas as resistências por atrito, a que mais


retarda o movimento humano é a ignorância.”
(Nikola Tesla)

Vivemos dias nos quais temos de empregar muitos recursos para administrar as
atividades e tarefas, tanto no trabalho quanto no lar, enfim, em nossas vidas. Aquele
lembrete autoadesivo preso na mesa, no monitor do computador ou no painel do carro
pode conter uma informação importante para a realização de alguma tarefa inadiável,
e só está ali para que ela seja facilmente localizada, enquanto, provavelmente, estamos
cuidando de outras tarefas.
A informação é um elemento-chave e estratégico para realização de atividades,
tanto aquelas do dia a dia quanto as que são de alta complexidade, sem a qual não
podemos realizar ou atingir objetivos.
Podemos compreender, com base em nossas experiências, o valor que a
informação possui no contexto de realização de nossas atividades. De acordo
com Ribeiro Jr. (2001) não se trata de valor da mesma natureza que o bem de
consumo tangível possui, mas de um valor agregado, que é estratégico, temporal
e especializado.

Saiba mais

• Estratégico: porque se caracteriza como um elemento que pode direcionar


ou desencadear novos processos, seja em um negócio empresarial, seja
para um trabalho escolar. Ao se administrar recursos, necessitamos de
informação para que exista algum tipo ou grau de controle.
• Temporal: está relacionada ao contexto e ao tempo de vida útil que o valor
de uma informação possui. Vale ressaltar que relacionamos vida útil com a
necessidade da informação e não com a informação em si.
• Especializado: de forma análoga à temporalidade, também está
relacionada à necessidade que se tem dela, ou de outra forma, se é ou não
aplicável em um determinado contexto de necessidades.

Tal caracterização da informação a define como algo cuja recuperação não


é trivial; precisa ser tratada e organizada e quando recuperada ainda atenda à
necessidade de informação do usuário.
Profissionais e pesquisadores envolvidos na área da Ciência da Informação
dedicam-se, entre outras atividades, à criação de técnicas e teorias sobre informação,
lidando com sua representação, armazenamento e recuperação, sempre com relações

Tecnologia da Informação II 11
interdisciplinares com áreas como a Linguística, Ciência da Computação, Ciências
Cognitivas, entre outras.
Para recuperar é preciso organizar, indexar, enfim, estabelecer uma linguagem
de normalização que, aplicada aos documentos, ofereça condições para recuperá-
los. Diante da quantidade de informações colocadas à disposição por meio das
diversas tecnologias de computação e telecomunicações, nem sempre temos acesso
a uma base ou repositório de documentos que sofreu algum tipo de organização.
Um exemplo ainda atual é a Internet, na qual encontramos muitas informações de
diversos gêneros, porém, oferece uma dificuldade enorme em localizá-las, de acordo
com nossas necessidades.
Essa breve introdução enfatiza a importância da necessidade do desenvolvimento
de habilidades pelo bibliotecário para atuar de maneira bem sucedida nas tarefas de
recuperação da informação.

Reflita

Conhecer e aplicar as técnicas de tratamento documentário não garante o


sucesso na recuperação da informação; é preciso conhecer os seus
processos para utilizar os Sistemas de Recuperação de Informação
de maneira estratégica.

2 BREVE HISTÓRICO DA RECUPERAÇÃO DA INFORMAÇÃO

A Recuperação da Informação vem sendo estudada há algumas décadas, desde


os primórdios da computação nos anos 50. Desde então, estudiosos, pesquisadores e
profissionais estudam essa área, objetivando compreender seus fenômenos e propor
melhores técnicas e novas tecnologias para aperfeiçoar e melhorar qualitativamente
essa etapa do processo de aquisição da informação.
O termo foi cunhado por Calvin Northrup Mooers, um cientista da computação
americano matemático de formação. A primeira aparição do termo Recuperação
da Informação – Information Retrieval - foi feita numa publicação dele num evento
científico ocorrido em 1950.

12 Tecnologia da Informação II
Saiba mais

Saiba mais sobre Mooers em:


http://en.wikipedia.org/wiki/Calvin_Mooers e em <http://garfield.library.upenn.
edu/commentaries/tsv11%2806%29p09y19970317.pdf>

Desde então tem sido objeto de estudo na área da Ciência da Computação,


objetivando, principalmente, o desenvolvimento de sistemas computacionais capazes
de recuperar informações e documentos com velocidade e confiabilidade. Outro
importante nome é Gerard Salton, que revolucionou as técnicas computacionais com
o sistema S.M.A.R.T. De acordo com Ferneda (2003, p.31):

O projeto SMART (Sistem for the Manipulation and Retrieval of Text) teve
início em 1961 na Universidade de Harvard e mudou-se para a Universidade
de Cornell após 1965. O sistema SMART é o resultado da vida de pesquisa
de Gerard Salton e teve um papel significativo no desenvolvimento de toda
a área da Recuperação de Informação. O SMART é uma implementação do
modelo vetorial, proposto pelo próprio Salton nos anos 60.

Saiba mais

Saiba mais lendo o capítulo 4 da tese de Edberto Ferneda, item “O Sistema


SMART”; é uma excelente contribuição sobre o tema voltada para os estudiosos
da área de Ciência da Informação.

O interesse pelo tema por pesquisadores da área de Ciência da Informação logo


se manifestou, especialmente em função das possibilidades computacionais aplicáveis
nos anos 60 e 70 nas técnicas de indexação e criação de catálogos informatizados.

Tecnologia da Informação II 13
Reflita

Para que você tenha ideia da importância desses esforços de pesquisa nas
décadas de 60 e 70, os estudiosos procuravam soluções computacionais
para facilitar os processos de recuperação da informação, tanto por meio
da indexação automática quanto por meio de técnicas que localizassem a
informação de maneira objetiva dentro dos textos. Mesmo que tais iniciativas
nem sempre funcionassem bem, foram elas que construíram o conhecimento
de base que evoluiu para as técnicas que empresas como Google, Yahoo e
tantas outras utilizam para encontrar informações úteis na internet, e que são
parte do mercado bilionário.

Outro grande momento da área de Recuperação da Informação ocorre


juntamente com a popularização da Internet nos anos 90. Vários pesquisadores, em
empresas e universidades, começam a dedicar-se no desenvolvimento de tecnologias
que deem conta da “grande explosão informacional” causada pela disseminação da
Internet.
Na década de 2000, até os dias atuais, novas frentes de pesquisa e
desenvolvimento se configuraram: Desenvolvimento da Web Semântica, da Web 2.0,
do avanço das tecnologias que pretendem fornecer informação e conhecimento para
negócios na web, entre outros tantos interesses de pesquisa.

Anote

No contexto desse componente curricular, será considerado o enfoque que


a Ciência da Informação tem sobre a Recuperação da Informação e suas
tecnologias; isso será realizado por meio dos periódicos e livros da área.

3 CONCEITOS IMPORTANTES

Vamos estudar alguns conceitos essenciais para você compreender o contexto


da área de Recuperação da Informação na Biblioteconomia.
A Recuperação da Informação é uma área multidisciplinar. Isso significa que
ela é um campo de estudo de interesse de pesquisadores de diversas áreas, como
demonstra um estudo relativamente recente de Sales e Viera (2007):

14 Tecnologia da Informação II
Figura 1 - Grupos de Pesquisa sobre Recuperação da Informação no Brasil, por Área de
Conhecimento

Fonte: Sales e Viera (2007).

Vemos por esse levantamento que há várias áreas do conhecimento que


estudam os fenômenos da Recuperação da Informação. Isso a define como uma área
multidisciplinar, e que requer foco nos autores da área de Ciência da Informação para
que possamos formar uma visão apropriada para atuação do profissional bibliotecário.

Saiba mais

Leia o estudo publicado pelos autores, Rodrigo de Sales e Angel Freddy Godoy
Viera, intitulado “Grupos e linhas de pesquisa sobre recuperação da informação
no Brasil”, acessível em <http://sisbib.unmsm.edu.pe/bibvirtualdata/
publicaciones/biblios/n28/a04n28.pdf>.

A seguir, você terá oportunidade de verificar os seguintes conceitos:


• Recuperação da Informação;
• Sistemas de Recuperação da Informação;
• Evolução dos Sistemas de Recuperação de Informação.

Tecnologia da Informação II 15
3.1 Recuperação da Informação

A literatura, ao longo dos anos e em diversas áreas do conhecimento, mostra-


nos várias definições do Processo de Recuperação da Informação. Todas elas são
pertinentes e caracterizadas pelo contexto de pesquisa nos quais os autores estão
atuando.
Assim, você irá ver algumas definições, com o objetivo de formar uma visão do
que é a Recuperação da Informação e suas características, sem a pretensão de realizar
um levantamento exaustivo da literatura sobre esse tema.
Segundo Lancaster (1979), o termo recuperação da informação é usado
para designar buscas bibliográficas, ou seja, busca em fontes de informação (ex.:
bases de dados, repositórios, entre outras).
Nesse contexto, esse autor define a Recuperação da Informação na seguinte
forma: “[...] é o processo de busca em alguma coleção de documentos, usando termos
do documento, no seu sentido amplo, de modo a identificar documentos com algum
assunto específico” (LANCASTER, 1979).
Já Belkin e Croft (1987) definem a RI como um processo de localizar itens de
informação ou documentos que tenham sido objeto de armazenamento, sendo que
essa recuperação se dá por meio da comparação do que se solicitou com o que está
armazenado.
Esse conceito se assemelha ao de Rowley (2002), que define a Recuperação de
Informação como um processo de três etapas:
a. A aceitação da consulta como insumo (uma representação da necessidade de
informação) formulada pelo usuário;
b. Execução da consulta ou processo de comparação dessa representação da
necessidade com os registros existentes na base de dados;
c. Produção como resultado de um conjunto de registros recuperados a ser submetido
ao usuário.

A formação do conceito de recuperação de informação normalmente é abordada
como um fluxo de processos operando de maneira conjugada, caracterizando
um processo global. Existem diversos modelos para representar a recuperação de
informação. Tague-Sutcliffe (1996, p. 1) define recuperação de informação da seguinte
forma:

Um conjunto de registros ou documentos que são processados para


encontrar itens que poderão ajudar a satisfazer a necessidade ou interesse
de informações de algum indivíduo ou grupo. Os principais componentes
deste processo são: o conjunto de registros ou documentos (documentos),
o índice ou método de acesso para o conjunto de documentos (método de
acesso), a informação necessária para o usuário (necessidade do usuário), a
verbalização destas necessidades em uma sequência de comandos de busca
ou seleção de menus (a estratégia de busca), a sequência de itens recuperados
como resultado da estratégia de busca (o conjunto recuperado) e o grau
que o conjunto recuperado satisfaz a necessidade do usuário (julgamento
de relevância).

16 Tecnologia da Informação II
Um esquema, baseado na definição anterior, poderia ser apresentado na forma
da figura a seguir:

Figura 2 - Processo de recuperação de informação

Necessidade do Estratégia de Método de Acesso


Usuário Busca

Feedback

Julgamento de Conjunto Conjunto de


Relevância Recuperado Documentos

Fonte: Ribeiro Jr. (2001).

Ricarte e Gomide (2001, p. 81) apresentam um modelo similar, só que tratando


da busca de informação em ambientes que usam tecnologias computacionais. A
Base de Dados é composta por informações sobre os documentos (metadados) que
podem ser localizados, podendo ser atualizado por tecnologias de apoio. Vejamos
esse modelo:

Figura 3 - Modelo de Recuperação de Informação

Interface do Usuário

Representação da Consulta

Estratégias de matching Base de


Feedback Dados

Métodos para o ranking

Resultado da consulta

Fonte: Ricarte e Gomide (2001, p. 81).

A recuperação de informação, no entendimento dos autores Spink e Saracevic


(1997, p. 744), pode ser dividida em dois modelos distintos: o modelo tradicional e
o modelo interativo. Os modelos podem ser esquematizados como segue:

Tecnologia da Informação II 17
Figura 4 - Representação do modelo tradicional de recuperação de informação
Problema - Pergunta Representação em Matching
necessidade termos de busca entre
do usuário (verbal ou documentos
escrita) e consulta

feedback
Fonte: Ribeiro Jr. (2001).

Note que um ponto forte deste modelo é que ele permite, com relativa facilidade,
o isolamento de componentes para comparação e modelagem. O feedback aqui é
visto como um instrumento de reformulação de consultas. Ele não aborda diretamente
a interação, que está implícita apenas por trás do feedback.
Veja que no modelo interativo, os autores dividem em níveis ou camadas as
entidades: usuário e sistema de recuperação. Para que você compreenda melhor,
imagine essa interação como uma série de episódios no tempo ocorrendo em
níveis conectados em série. Cada nível envolve elementos diferentes e/ou processos
específicos.
Assim, o modelo interativo pode ser representado no esquema a seguir:

Figura 5 - Esquema dos componentes do modelo interativo


Usuário Sistema de Recuperação

Superficial Superficial

Cognitivo Mecanismos de acesso

Situacional Processamento
Afetivo Conteúdo

Fonte: Ribeiro Jr. (2001).

• No nível superficial, a interação ocorre em uma série de eventos no tempo, nos


quais os usuários interagem por meio de uma interface com o sistema, não somente
realizando buscas, mas explorando atributos e informações sobre a interface, sobre
os feedbacks gerados etc.
• No nível cognitivo, ocorrem o julgamento e a interpretação dos resultados. O
nível situacional inclui o conhecimento, as crenças, as intenções e a motivação do
usuário. Em outras palavras, trata-se do contexto e experiências do usuário. Do
lado do sistema, encontramos os mecanismos de acesso a dados, a interface, o
processamento adicional da consulta, se houver, e o conteúdo representado.

18 Tecnologia da Informação II
Os autores Spink e Saracevic (1997) ainda afirmam que o discurso do usuário
progride através dos episódios (cada episódio é uma tentativa de busca), nos quais
aspectos dos níveis cognitivos, situacionais e afetivos na interação podem mudar o
problema ou questão, redefinindo o foco, de acordo com um conjunto de satisfações
ou frustrações. Esse progresso na interação é sinalizado no nível superficial pela
mudança de comportamento, por exemplo, na seleção de novos termos de busca,
outros termos são abandonados, táticas de busca são adaptadas e/ou alteradas por
meio da combinação ou substituição de termos.

Saiba mais

Discurso, nesse contexto, é o conjunto de termos que o usuário utiliza


para expressar suas ideias. Neste caso para expressar suas necessidades de
informação ao SRI.

Reflita

Você já observou esse comportamento durante suas buscas em


bases de dados ou sites de internet?

Tomando como referência esse modelo de recuperação interativo, podemos


focalizar nossa atenção nas camadas superficiais, por onde flui a comunicação,
representada nos termos de busca do usuário e nas informações retornadas pelo
sistema de recuperação de informação.
“Termos de busca são determinantes na recuperação de informação, e a
escolha da terminologia de busca é uma força e variável direcionadora no processo
de recuperação de informação”, de acordo com Spink e Saracevic (1997, p. 742). Esta
afirmação, segundo os autores, define a importância de qualquer investigação sobre
termos de busca. Este fato é também constatado na área da Análise Documentária,
quando trata da construção de uma Linguagem Documentária. As relações linguísticas
existentes no sistema de termos usado podem determinar o sucesso da aplicação de
um produto da análise como, por exemplo, um tesauro.
Observe que Araújo Jr. (2007) entende que uma visão mais elaborada que
as anteriores é apresentada por Grogan (1995) em seu esquema de oito passos do

Tecnologia da Informação II 19
processo decisório do serviço de referência; neles o processo de recuperação é descrito
sob a perspectiva do processo mediado por um profissional da informação:
1. Problema: início do processo de referência e do processo de recuperação da
informação; o problema configura-se a partir de uma questão que um indivíduo
apresenta;
2. Necessidade de informação: elemento que precisa ser exaustivamente estudado
para que seja encontrada uma solução para o problema apresentado. Essa tarefa
é sempre realizada com apoio de um profissional da informação;
3. Questão inicial: neste momento a necessidade de informação é expressa por meio
de uma construção lógica, com apoio de uma linguagem (termos de um vocabulário
combinados com operadores de busca) com a qual se expressa, finalmente, a
questão apresentada pelo usuário. Como essa construção é fruto da interação entre
o usuário e o profissional de referência (mediador), o seu resultado é influenciado
por vários fatores que caracterizam um processo dinâmico;
4. Questão negociada: é a fase na qual se ajusta aquela construção lógica para uma
clara compreensão da demanda informacional. A interação entre o usuário e o
profissional da informação (a comunicação entre eles) definirá o grau de sucesso
dessa fase;
5. Estratégia de busca: em função das etapas anteriores, se configura como será
efetuada a busca, e essa estratégia poderá ser alterada à medida que o usuário e o
profissional de referência interagem com as fontes de informação;
6. Processo de busca: refere-se à concretização da busca nas fontes de informação;
7. Resposta: é o momento em que o usuário obtém o resultado das etapas anteriores,
e obtém a base para reformular, avaliar, funcionando como um feedback para o
processo.
8. Solução: é o momento no qual se verifica que o problema (a demanda informacional)
foi amplamente resolvido. Nesse momento não se realizam novas tentativas ou
reformulações no processo, caracterizando, assim, o seu término.

Dica

No 5º período do curso você irá estudar o Serviço de Referência, e terá


oportunidade de aprofundamento nesse tema.

Araújo Jr. (2007) observa que nos conceitos mais antigos ou tradicionais sobre
Recuperação da Informação, o objeto central do processo desta está na melhoria
contínua das técnicas de recuperação da informação e nos métodos de representação
(na formulação da consulta e na indexação). Mais recentemente esse autor constata
que há uma mudança no conceito da natureza da Recuperação da Informação. Os
modelos mais recentes publicados na literatura definem que não há estratégia de

20 Tecnologia da Informação II
busca a não ser a partir das necessidades de informação do usuário, e também, o
objeto final do processo não é mais o conjunto de documentos recuperados, mas
o julgamento de relevância realizado por parte do usuário e se o usuário realmente
resolveu sua necessidade de informação.

Reflita

E para você, essa constatação faz sentido? Assista ao vídeo do Prof. Murilo
Bastos Cunha, sobre “Organização e Recuperação da Informação no Século XXI:
Paradigmas e Desafios – Parte 1” em:
http://youtu.be/HxmIzdj4gF4

Reflita sobre essas questões.

3.1.1 Sistema de Recuperação de Informação (SRI)

O que lhe vem à mente quando ouve o termo “Sistema de Recuperação da


informação?”
Um SRI não é, como poderia sugerir o sentido popular do termo “sistema”,
um software ou uma tecnologia. Trata-se de um conjunto de processos, habilidades
humanas, técnicas e tecnologias, fontes de informação unidas de maneira sistêmica
com a finalidade de proporcionar efetivamente a Recuperação da Informação.
Na visão de Lancaster (1979), a Recuperação de Informação é algo que ocorre em
ambientes documentários controlados, ou seja, sujeitos ao tratamento documentário
(hoje em dia, no contexto do uso de Bases de Dados e outros produtos do trabalho
de unidades de informação), como ilustrado a seguir:

Tecnologia da Informação II 21
Figura 6 - Um Sistema de Recuperação de Informação

Fonte: adaptado de Lancaster (1979).

22 Tecnologia da Informação II
Observe que, nessa visão, o Sistema de Recuperação da Informação começa a
partir do conjunto de documentos que são selecionados para serem submetidos ao
que se denomina como tratamento documentário.
Esse tratamento documentário é o resultado da aplicação de processos de
catalogação e indexação (representação descritiva e temática, respectivamente).

Curiosidade

Devemos observar que esses conceitos independem das tecnologias aplicadas;


os SRI podem existir na forma de papel, usando índices impressos e fichas
catalográficas, ou criados com uso de tecnologias computacionais.

Como dito anteriormente, a palavra “Sistema” não se refere a uma tecnologia


ou artefato computacional; significa um conjunto de processos e atividades, inter-
relacionados entre si e que possuem uma dinâmica de funcionamento, recebendo
insumos e recursos e oferecendo resultados e produtos.
A figura 6 ilustra, então, um conjunto de processos que nos oferece uma
visão geral do funcionamento da maioria dos tipos de unidades de informação (ex.:
bibliotecas, arquivos, centros de informação, entre outros) e é um conceito atual,
mesmo com os avanços tecnológicos aplicados nesses contextos.
Mas como Lancaster (1979) idealizava esse processo?
Essa figura ilustra de maneira geral as etapas do tratamento documentário
e da recuperação da informação, explicados como se segue:

A Etapa do Tratamento Documentário


1. A partir de um conjunto de documentos (livros, artigos, entre outros, referidos na
figura como População de Documentos) é selecionado um grupo (denominado
na figura como Documentos Selecionados), de acordo com alguma política de
seleção de documentos, constituída pela unidade de informação. Essa etapa inclui
as assinaturas de periódicos, aquisição de livros e outras formas de aquisição de
documentos;
2. As etapas Análise Conceitual ou de Conteúdo e Criação ou Adoção de
Vocabulários Controlados são constituídas por procedimentos para a indexação
do documento, como a de análise de conteúdo, criação ou adoção de vocabulários
controlados, traduzindo esses conteúdos em representações materializadas nos
termos do vocabulário controlado.

Tecnologia da Informação II 23
Saiba mais

Um vocabulário controlado é um conjunto de termos previamente


selecionados, com significado claro e preciso, sem ambiguidades e definições
sem redundâncias. Há diversas formas de vocabulário controlado, mais
informações podem ser encontradas na norma NISO Z39.19 <http://www.niso.
org/standards/resources/Z39-19.html>

A etapa de Análise Conceitual requer conhecimento sobre o conteúdo do documento


e alguma compreensão sobre a temática do mesmo. O reconhecimento do que o
documento trata e por que os usuários podem se interessar por ele, ou seja, que
aspectos do documento são mais relevantes, constituem a Análise Conceitual.
A etapa da Criação ou Adoção de Vocabulários Controlados é o momento do
processo de indexação em que a Análise Conceitual é expressa nos termos de
algum vocabulário controlado, ou seja, termos preferenciais desse vocabulário são
escolhidos e associados ao documento, criando, assim, pontos de acesso que serão
usados no momento da Recuperação da Informação.

Saiba mais

Veja mais sobre os padrões para construção de vocabulários controlados no


artigo de Vera Regina Casari Boccato, intitulado “Os Sistemas de organização
do conhecimento nas perspectivas atuais das normas internacionais de
construção”, disponível em: <http://www.revistas.usp.br/incid/article/
view/42340>. Esse artigo apresenta um estudo sobre as normas internacionais
para construção de vocabulários controlados, proporcionando uma visão sobre
seus processos de elaboração e a evolução dessas normas.

3. Por fim, temos o produto final do tratamento documentário: a Base de Dados.

Veja a figura 7 e observe que há dois blocos distintos: Repositório de


documentos tratados e Base de dados bibliográfica (metadados do Repositório
de documentos tratados):

24 Tecnologia da Informação II
Figura 7 - Base de Dados

Fonte: extraído da Figura 6.

Como podemos explicar essa distinção, ou seja, por qual motivo há duas partes?
As bases de dados de conhecimentos não são um só produto, como por exemplo, a
Base de Dados SCIELO?

Dica

A Scientific Electronic Library Online - SciELO é uma biblioteca eletrônica que


abrange uma coleção selecionada de periódicos científicos brasileiros. Acesse a
base de dados SCIELO em:
http://www.scielo.br/scielo.php?script=sci_home&lng=pt&nrm=iso

De fato, existem dois componentes fundamentais em uma Base de Dados: os


documentos (previamente escolhidos e disponibilizados em um suporte de papel ou
digital) e os seus metadados, ou seja, os dados que fornecem elementos descritivos
sobre o documento.
Até o início dos anos 80 era muito comum a construção de Bases de Dados
sem uso de tecnologias computacionais. Os índices eram feitos em papel e remetiam
às fichas catalográficas, que, por sua vez, remetiam aos documentos também em
papel.
Com a popularização dos computadores, aos poucos as Bases de Dados foram
absorvendo recursos tecnológicos; assim foram surgindo as primeiras Bases de Dados
eletrônicas, distribuídas em CD-ROM ou dispostas na forma on-line nas redes das
bibliotecas (ainda sem a presença da Internet).

Tecnologia da Informação II 25
Essas Bases de Dados eletrônicas continham apenas os metadados, ou seja,
apenas as referências aos documentos, pois, dispor o documento na forma digital
ainda era algo caro e complexo. Mesmo assim, significou um avanço muito grande
para os processos de recuperação da informação.
Ao final dos anos 90, com a diminuição dos custos de armazenamento (evolução
dos discos rígidos, com mais capacidade de armazenamento, mais rápidos e mais
baratos que as gerações anteriores) e com a popularização da Internet, tornou-se
mais comum a criação de Bases de Dados eletrônicas com documentos completos,
que, além dos metadados, contêm a versão digital do documento.
Nas bases de dados atuais ainda estão presentes esses dois componentes
fundamentais, mesclados em um único produto. Antes, tínhamos os documentos,
índices e metadados dissociados e na forma de papel; hoje temos os índices, metadados
descritivos e documentos na forma digital.
Rowley (2002) apresentava as gerações de sistemas de recuperação de
informação na seguinte forma:

Quadro 1 - Gerações de Sistemas de Recuperação da Informação

Geração Nome Descrição


Primeira Metadados Interfaces baseadas em comandos; para usuários
Geração especialistas e mediadores; número limitado de sistemas
on-line nas instituições.

Segunda Dados Interfaces baseadas em menus e comandos; buscas em


Geração com texto texto completo; para usuário final, com treinamento;
integral disponíveis on-line e CD-ROM.

Terceira Multimídia Interface multimídia e gráfica; voltadas para usuário final;


Geração distribuição on-line e CD-ROM; o mediador (profissional
de referência) tem papel apenas de instrução; acesso
público.

Fonte: Rowley (2002).

Observe que esta classificação de gerações cita o acesso on-line e não via
Internet, pois foi escrita em 1998 no original em inglês The eletronic library e
traduzida no Brasil em 2002. Nessa época não havia a grande disseminação de bases
de dados pela Internet que encontramos hoje.
Assim, para os dias atuais, poderíamos incluir uma Quarta Geração de Sistemas
de Recuperação de Informação, denominada “Sistemas por Metabusca”, com duas
características que a diferenciaria das anteriores: Acesso exclusivo pela Internet e
Interface de busca em várias bases de dados simultaneamente (Metabusca).

26 Tecnologia da Informação II
Curiosidade

Você sabia que é cada vez mais comum a criação de Interfaces de metabusca
em bases de dados? Essas interfaces permitem que o usuário final realize
a busca de maneira simultânea em diferentes bases de dados que adotam
padronização de metadados e/ou de protocolos de busca, como o Z39.50 (que
veremos ao final deste texto) e o protocolo OAI-PMH.
Vejamos alguns exemplos atuais:
BDTD – Biblioteca Digital de Teses e Dissertações: busca simultaneamente teses
e dissertações nas instituições participantes
(saiba mais em <http://bdtd.ibict.br/>)

SCIELO - Scientific Electronic Library Online, que provê busca simultânea para
mais de 360.000 artigos distribuídos em 921 periódicos, por meio de uma
busca integrada
(veja mais em <http://www.scielo.org/php/index.php?lang=pt>)

Portal de Periódicos da CAPES, que oferece acesso completo às instituições


públicas de ensino e pesquisa com pós-graduação, instituições privadas com
programas de pós-graduação com conceito CAPES 5 ou superior, e também,
acesso à comunidade em geral para as bases de acesso livre.
(veja mais em <http://www.periodicos.capes.gov.br/>)

A Etapa Recuperação da Informação


A visão de Lancaster (1979), mesmo que bem genérica, ainda é pertinente nos
dias atuais. Os processos de Recuperação da Informação são integrantes de um Sistema
de Recuperação da Informação, sem o qual não faria sentido dispender recursos nos
processos de tratamento documentário.
Para facilitar a leitura, extraímos essa etapa da Figura 6:

Tecnologia da Informação II 27
Figura 8 - Representação da Etapa de Recuperação

Fonte: extraído da Figura 6.

Reflita

Esse fluxo faz sentido para você? Ele é compatível com suas experiências de
busca e recuperação da informação?

28 Tecnologia da Informação II
Veja o diagrama; observe que é bem genérico, mas descreve as etapas
fundamentais do processo de RI.
1. Definição da necessidade de informação: a partir da necessidade de informação
do usuário, é formalizada por meio da linguagem dele sobre o que ele precisa. Tal
necessidade é algo complexo, que envolve aspectos pessoais do usuário, como sua
motivação, conhecimento prévio do tema, aspectos cognitivos e psicológicos.
Segundo Le Coadic (1996), a Recuperação da Informação possui limitações que
dependem de como a necessidade de informação é expressa, sendo essa necessidade
a motivação para o envolvimento com o processo de RI.
Foskett (1996) entende que esses aspectos pessoais acabam por gerar o que
denominamos como imprecisão, ou seja, nem sempre a base de dados retorna
exatamente o que o usuário deseja para atender suas necessidades informacionais.
Isso ocorre não somente porque o tratamento documentário não está adequado ou
não foi bem feito, mas talvez porque a expressão e a formulação de sua necessidade
de informação não foram realizadas de maneira suficiente para recuperar informações
que ele necessita.
2. Análise da necessidade de informação e Conversão da Necessidade em Termos
de Busca: essas etapas do processo de recuperação definem a criação do processo
das estratégias de busca ou, em outras palavras, como o usuário irá realizar a busca.
A análise pode ocorrer de duas maneiras:
a. Por meio de um mediador (profissional de referência), alguém especializado no
auxílio do usuário para formar as expressões de consulta, escolher termos e usar
o índice ou vocabulário;
b. O usuário formula sua própria estratégia, utilizando seu conhecimento sobre
como interagir com o Sistema de Recuperação da Informação. Nesse momento
considera o que necessita e como poderá recuperar o que precisa
A Conversão da Necessidade em termos de busca é o momento em que o
usuário expressa sua pergunta de pesquisa em uma composição de termos e
operadores de busca (serão abordados mais adiante) para realizar a pesquisa.
Na prática, essas duas etapas não ocorrem de maneira dissociada, ou seja, estão
sempre interligadas para formar as Estratégias de Busca.

3.1.2 Evolução dos Sistemas de Recuperação da Informação

De acordo com Spink e Saracevic (1997, p. 742), durante os anos 50 e 60, os


sistemas de recuperação de informação eram estáticos, realizando processamento em
lotes.
Nos anos 70, com a evolução das telecomunicações, esses sistemas evoluíram
para formas mais dinâmicas e interativas. Várias formas de recuperação e modelos
foram surgindo, mas ainda hoje não se conhece totalmente muitos aspectos complexos
destes processos. Os autores ainda acrescentam que a pesquisa e o desenvolvimento
da recuperação de informação têm se concentrado no aumento da eficácia da busca,

Tecnologia da Informação II 29
em termos de velocidade e estes processos de recuperação de informação têm sido
abordados, na sua maioria, como sistemas estáticos e não dinâmicos. Em outras
palavras, os estudos sobre recuperação de informação estiveram focalizados em alguns
aspectos durante muito tempo e que mais recentemente têm sido abordadas outras
visões deste assunto.
De acordo com Spink e Saracevic (1997), as abordagens para investigações
relacionadas à recuperação de informação podem ser agrupadas em duas categorias:
a Algorítmica e a Humana. Na primeira, estão envolvidos o computador e softwares
usados como ferramentas aplicadas à recuperação de informação, estudando-se,
daí, os fenômenos existentes. Na segunda, estudam-se os fenômenos e caracteres
relacionados propriamente aos fatores humanos como, por exemplo, os aspectos
cognitivos envolvidos em uma determinada modalidade de recuperação de informação.
Ainda de acordo com os mesmos autores, a abordagem Algorítmica pode ser
subdividida em quatro categorias:
1. Na primeira, os termos possuem atributos (pesos), que são atribuídos na forma de
um qualificador que é usado para aumentar a sua prioridade na recuperação. Assim,
os documentos cujo termo fornecido possui maior peso serão recuperados primeiro.
2. Na segunda, usa-se o feedback automático de relevância, que consiste no registro
dos termos que retornaram documentos relevantes, e usados para a expansão de
consultas posteriores. Esta abordagem é semelhante à anterior, com a diferença
que a formulação dos pesos é baseada em técnicas estatísticas, de acordo com as
escolhas feitas pelo usuário, como no trabalho de Chen et al. (1998, p. 695).
3. Na terceira, o processamento de linguagem natural, que estuda técnicas e teorias que
permitem a um computador processar o significado contido em expressões escritas
em linguagem natural. Estão envolvidos especialmente os aspectos linguísticos,
com o fim de prover a aproximação do usuário com o sistema de recuperação e,
com isso, obter resultados mais expressivos na recuperação, como exemplos os
trabalhos de Strzalkowski et al. (1999) e Barbosa e Castilho (2001). Há dezenas de
publicações nesse segmento, até os dias atuais, e ainda é um campo de pesquisa
bastante promissor.
4. Finalmente, na quarta, o desenvolvimento do que Spink e Saracevic (1997, p. 742)
chamam de intermediários computacionais inteligentes, que são baseados em
sistemas inteligentes como, por exemplo, a aplicação de sistemas especialistas e
agentes inteligentes.

Já a abordagem humana investiga aspectos como comportamento, elaboração


de estratégias de busca, mudanças no discurso em função dos resultados, entre outros.
Assim, podemos citar:
1. Investigação de termos de busca e suas variações, publicado por Spink e Saracevic
(1997);
2. Identificação e classificação dos tipos de feedback na recuperação e a frequência
com que ocorrem, publicado por Spink (1997);
3. O problema do estabelecimento de medidas para eficácia da recuperação de
informação (ELLIS, 1996);

30 Tecnologia da Informação II
4. O problema da avaliação e uso de medidas e critérios apropriados para avaliar
sistemas de recuperação de informação Tague-Sutcliffe (1996);
5. Identificação das variações de discursos envolvidos no processo de recuperação
(IIVONEN; SONNENWALD, 1998);
6. Estudo exploratório do processo de recuperação de informação, como foco nas
sessões de busca do usuário, examinando aspectos como variações de termos e
evolução dos resultados (SPINK, 1996);
7. A influência da experiência do usuário final no seu comportamento durante a busca
de informações, observando aspectos como a variação dos termos e a formação de
expressões de busca para filtragem de informações (YUAN, 1997);
8. Aspectos linguísticos da informação documentária e sua influência na recuperação
de informação, como parte de um estudo para uma metodologia de análise
documentária (KOBASHI, 1994);
9. O problema da subjetividade no processo de indexação de sistemas de recuperação
de informação (PINTO, 1985);
10. O problema das variações de relevância e os efeitos na eficácia de recuperação
de informação (HARTER, 1996).

Nesses contextos de pesquisa há centenas de publicações nos periódicos


especializados da área de Recuperação de Informação, como por exemplo:
• Revista Ciência da Informação
• Journal of information science
• Journal of librarianship and information science
• Journal of systems and information technology
• Journal of the American Society for Information Science
• Journal of the American Society for Information Science and Technology
• Text REtrieval Conference – TREC (Anais do Evento)
• SIGIR: Annual ACM Conference on Research and Development in Information
Retrieval
• Information retrieval
• Foundations and trends in information retrieval
• Perspectivas em Ciência da Informação
• Estudos recentes em Sistemas de Recuperação da Informação investigam questões
relacionadas aos fenômenos de busca nos seguintes contextos:
• Busca de Imagens e Vídeos;
• Recuperação de Informação em Redes Sociais e Microblogs;
• Identificação de interesses de usuário para comércio eletrônico na Internet.

Tecnologia da Informação II 31
Saiba mais

Microblog é uma forma de publicação de blog que permite aos usuários que
façam atualizações breves de texto (geralmente com menos de 200 caracteres)
e publicá-las para que sejam vistas publicamente ou apenas por um grupo
restrito escolhido pelo usuário. Estes textos podem ser enviados por uma
diversidade de meios tais como SMS, mensageiro instantâneo, e-mail, MP3 ou
pela Web. <http://pt.wikipedia.org/wiki/Microblogging>

Síntese

Vimos que os Sistemas de Recuperação da Informação são objeto de estudo


na área da Ciência da Informação há vários anos. Os cursos de Biblioteconomia
têm incluído esses conteúdos em suas matrizes curriculares com o objetivo de
proporcionar ao bibliotecário as competências e habilidades para lidar com os
produtos documentários e melhorar qualitativamente os serviços de recuperação
da informação nas unidades de informação.
Paralelamente, os institutos de pesquisa, empresas e universidades têm
desenvolvido pesquisas, tanto com a abordagem humana quanto a abordagem
algorítmica, e disponibilizado esse conhecimento na literatura.

Para ler…

Recomendo a leitura do livro “A Busca”, de John Battelle, que trata sobre


as empresas que desenvolveram os mecanismos de busca da Internet e de que
maneira eles reinventaram o conceito de busca e o transformaram num negócio
bilionário.

Esse livro é um excelente contraponto à visão tradicional sobre Recuperação


da Informação estudada pela Ciência da informação, proporcionando a você
uma ótima oportunidade de reflexão sobre o assunto.

32 Tecnologia da Informação II
REFERÊNCIAS

ARAÚJO Jr., Rogério Henrique de. Precisão no Processo de Busca e Recuperação da


Informação. Brasília: Thesaurus, 2007.

BELKIN, Nicholas J.; CROFT, W. Bruce. Retrieval Techniques. Annual Review of


Information Science and Technology (ARIST), v. 22, p. 109-145, 1987.

CHEN, Hsinchun et al. A machine learning approach to inductive query by examples:


An experiment using relevance feedback, ID3, genetic algorithms, and simulated
annealing. Journal of the American Society for Information Science, v. 49, n. 8,
p. 693-705, 1998.

FOSKETT, Antony Charles. The Subject approach to information. 5. ed. Londres:


Library Association Publishing, 1996.

GROGAN, Denis Joseph. A prática do serviço de referência. Brasília: Briquet de


Lemos, 1995.

LANCASTER, Frederick Wilfrid. Information Retrieval Systems: Characteristics, Testing


and Evaluation. 2. ed. Los Angeles: John Wiley & Sons, 1979. (Information Sciences
Series).

LE COADIC, Yves-François. A ciência da informação. Brasília: Lemos Informação e


Comunicação, 1996.

RIBEIRO JR., Divino Ignacio Ribeiro. Agentes Inteligentes como Mediadores na


Recuperação da Informação. 113 f. Dissertação (Mestrado) - Departamento de Ciência
da Informação, Universidade Estadual Paulista ‘Júlio de Mesquista Filho’, Marília, 2001.

RICARTE, Ivan; GOMIDE, Fernando. A Reference Model for Intelligent Information


Search. FLINT 2001 - International Workshop On Fuzzy Logic And The Internet. v.
8, California, p. 80-85, 2001.

ROWLEY, Jennifer. A Biblioteca Eletrônica. Tradução de A. A. B. D. Lemos. Brasília:


Briquet de Lemos, 2002.

SALES, Rodrigo de; VIERA, Angel Freddy Godoy. Grupos e linhas de pesquisa sobre
recuperação da informação no Brasil. Biblios, v. 28, p.1-14, 2007. Disponível em:
<http://www.scielo.org.pe/pdf/biblios/n28/a04n28.pdf>. Acesso em: 10 jan. 2012.

SPINK, Amanda. Study of interactive feedback during mediated information retrieval.


Journal of the American Society for Information Science, v. 48, n. 5, p. 382-394,
1997.

Tecnologia da Informação II 33
SPINK, Amanda; SARACEVIC, Tefko. Interaction in information retrieval: Selection and
effectiveness of search terms. Journal of the American Society for Information
Science, v. 48, n. 8, p. 741-761, 1997.

STRZALKOWSKI, Tomek et al. Natural Language Information Retrieval: TREC-8 Report.


In: Proceedings of the Text REtrieval Conference (TREC-8). Conference Proceedings.
Place. Published, 1999. Disponível em:<http://trec.nist.gov/pubs/trec8/papers/
ge8adhoc2.pdf>. Acesso em:10 jan. 2012.

TAGUE-SUTCLIFFE, Jean M. Some perspectives on the evaluation of information retrieval


systems. Journal of the American Society for Information Science, v. 47, n. 1, p.
1-3, 1996.

Anotações

________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________

34 Tecnologia da Informação II
Anotações

________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
_______________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
_______________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________

Tecnologia da Informação II 35
Anotações

________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
_______________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
_______________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________

36 Tecnologia da Informação II
Unidade 2
Busca e Estratégias de busca em
Bases de Dados e na Internet

Objetivo:

• Formar conceitos sobre a necessidade de


informação, conceitos da literatura;
• Apresentar uma discussão acerca da busca
e de suas estratégias em bases de dados
tradicionais e em mecanismos de busca da
Internet;
• Entender os conceitos sobre Necessidade da
Informação existentes na literatura;
• Conhecer recursos para busca em bases de
dados e na Internet.

Conteúdo programático:
• Necessidades de informação e estratégias de
busca;
• Mecanismos de Busca na Internet;
• Busca Booleana aplicada em bases de dados;
• Busca na Internet: usando recursos para
melhorar a qualidade dos resultados.
Faça aqui seu planejamento de estudos

38 Tecnologia da Informação II
1 ESTRATÉGIAS DE BUSCA NOS PROCESSOS DE RECUPERAÇÃO DA
INFORMAÇÃO

“Julgue um homem por suas perguntas e não


por suas respostas.” (Voltaire)

Estudos sobre Estratégias de Busca em RI têm sido objeto de investigação de


profissionais da área da Ciência da Informação e, nos dias atuais, das empresas que
desenvolvem pesquisas sobre o comportamento de busca dos usuários da internet
com a finalidade de identificar e caracterizar suas necessidades, e tentar direcionar
informação e produtos que potencialmente lhe interessam.
Nesse tópico abordaremos essa temática, com o objetivo de compreender como
essas estratégias são elaboradas e em que contextos ocorrem.

1.1 A formação de estratégias sob a perspectiva da comunicação

A necessidade de informação do usuário possui características e aspectos


individuais e ele a expressa segundo sua linguagem, ou seja, na forma de uma
representação ou formulação por meio de expressões ou palavras aquilo que deseja
encontrar. A linguagem desta representação é natural, constituída ao longo das
experiências no escopo de conhecimento do assunto relacionado à necessidade de
informação.
De outro lado, temos o sistema de informações, que possui aquelas
armazenadas, também representadas por meio de expressões ou palavras, de acordo
com uma linguagem artificial, quase sempre, constituída sobre um léxico com limites
estabelecidos e conhecidos.
A interação entre o sistema e o usuário depende do grau de intersecção entre
a linguagem do usuário e a linguagem de descrição do conteúdo do documento
(KOBASHI, 1994, p.31). Assim, podemos caracterizar, neste contexto, a recuperação
de informação como um conjunto de processos, no qual aquela intersecção determina
o sucesso da recuperação.
Observando o processo de recuperação sob a ótica de um fenômeno de
comunicação, podemos identificar uma das origens do problema, que está situado em
uma zona de comunicação, que envolve o léxico do processo, ou seja, os termos de
busca utilizados pelo usuário e os descritores do documento (obtidos por indexação,
análise documentária, indexação automática, entre outros) e também o conhecimento
que é expresso por esse léxico.
A figura a seguir ilustra os elementos desta interação:

Tecnologia da Informação II 39
Figura 9 - Zona de comunicação no processo de recuperação de informação

Linguagem do Linguagem do
Usuário Sistema de
Recuperação

Zona de
Comunicação
Fonte: Ribeiro Jr. (2001, p.76).

Essa zona de comunicação pode ser vista como um local estratégico para o
processo de recuperação de informação. A interação entre o usuário e o sistema de
recuperação pode facilitar o estreitamento entre essas linguagens, facilitando
o processo de recuperação. Quanto mais o usuário interagir com a linguagem
do sistema de recuperação, melhores condições e chances de sucesso ele possui
para recuperar as informações de que necessita. Em outras palavras, quanto maior
o grau de intersecção entre a linguagem do usuário e a linguagem do sistema, melhor
serão os resultados do processo de recuperação.
Tal princípio também é encontrado na literatura sobre análise documentária,
como podemos ver na citação a seguir:

A condição para se obter resultados positivos na busca de informação é


que a pergunta e a resposta sejam formuladas no mesmo sistema. Assim é
necessário realizar a tradução de uma pergunta feita em Linguagem Natural,
para o sistema em que foi traduzido o conteúdo do documento, isto é, em
uma Linguagem Documentária. (CINTRA et al, 1994, p. 28)

Sob este ponto de vista, o sucesso da comunicação entre o usuário e o sistema


de recuperação contribui para o melhor desempenho do processo de recuperação.

40 Tecnologia da Informação II
Curiosidade

Você já observou, durante o uso de alguma base de dados ou site de busca,


que a cada tentativa melhoramos nossa habilidade em buscar e encontrar o
que desejamos nesse local?
Se ainda não observou, experimente realizar uma busca sobre o tema “Serviço
de Referência Digital” usando o Google e usado o portal SCIELO, e anote numa
folha de papel o seguinte:
1. Use uma folha para cada local (Google e SCIELO)
2. Para cada busca realizada anote:
a) Quantos documentos você encontrou
b) Quantos documentos são sobre o assunto
c) Os termos que você usou em cada tentativa de busca

Considere qualquer tipo de documento (página web, artigo, matéria de jornal,


blog, entre outros).

Ao final, compare a forma dos termos e os resultados que você obteve e


verifique: em qual recurso (Google ou SCIELO) você obteve mais resultados
relevantes?

A compreensão da natureza do processo de busca é indispensável para


uma efetiva elaboração de estratégias de busca, tanto no contexto em que a busca
é auxiliada por um mediador quanto naquele em que o usuário elabora por si mesmo
tais estratégias.

1.2 Contextos de formação das estratégias de busca

Sob a perspectiva da comunicação, a formação de estratégias de busca está


intrinsicamente relacionada com a capacidade que o usuário tem para interagir com
as ferramentas de busca e com o conhecimento que ele tem sobre as linguagens que
representam os documentos, ou seja, os padrões de linguagem documentária usados
no tratamento documentário.
No entanto, alguns autores entendem que é necessário que essa perspectiva
seja mais ampla, incluindo o contexto em que o usuário está, ou em outras palavras,
estudando como e em que circunstâncias ele sente a necessidade da informação, e
então interage com o Sistema de Recuperação.
Vejamos o diagrama a seguir:

Tecnologia da Informação II 41
Figura 10 - Comportamento de Busca da Informação

Fonte: Wilson (2006) e Wilson (1999).

Esse diagrama não é um modelo, mas uma maneira de ilustrar as relações entre
os conceitos que estão apresentados. A figura 10 sugere que o comportamento de
busca da informação resulta do reconhecimento de alguma necessidade percebida
pelo usuário. Esse comportamento pode tomar diversas formas, como por exemplo:
uso de “fontes formais” ou produtos e serviços oferecidos por bibliotecas e outros
tipos de unidades de informação; fontes informais ou sem o caráter de tratamento
que observamos naquelas disponíveis em unidades de informação.
Alternativamente, o usuário pode buscar informação a partir de outras pessoas,
demonstrado no diagrama como “troca de informação”, no seu sentido amplo, ou
seja, entendendo que há uma comunicação recíproca e positiva.
O uso da informação também produz mudanças no comportamento de busca
da informação; esse uso presume a aquisição de novos conhecimentos e o julgamento
da satisfação de uma necessidade informacional e, portanto, pode alterar aquele
comportamento.

42 Tecnologia da Informação II
1.3 A necessidade de informação

A motivação principal para formulação da estratégia de busca, como vimos,


é a necessidade de informação. Como dissemos, há vários autores na literatura que
investigam esse aspecto, e você verá alguns dos conceitos mais citados neste tópico.
Analise cada figura a seguir, para observar esses conceitos:

Figura 11 - O contexto da busca da informação

Fonte: Wilson (2006, p. 661).

Wilson (2006) nos explica que esse diagrama tenta representar o contexto do
usuário, diferentemente dos outros modelos apresentados anteriormente.
Ainda em conformidade com Wilson (2006), há uma dificuldade sistemática
em se definir o que é o contexto do usuário, pois, metodologicamente, é complexo
definir e distinguir “desejos do usuário”, “demanda expressa”, “demanda satisfeita”,
dada sua subjetividade.
Assim, esse diagrama ilustra as relações (representadas pelas setas) da seguinte
forma, agrupando os tipos de estratégias que o usuário pode realizar em quatro
Categorias:
• As setas a, b, c, d formam a Categoria A, que representam as estratégias de busca
de informação fora do contexto do Sistema de Informação; o usuário pode procurar
o que precisa em outros locais, por exemplo, na comunidade profissional em que
atua;
• As setas e, f formam a Categoria B, que representam as estratégias geradas a
partir da interação com um mediador ou diretamente com alguma tecnologia de
apoio (ressalta-se que tecnologia aqui é qualquer técnica que apoie a busca, não

Tecnologia da Informação II 43
necessariamente computacional, como fichas catalográficas, índices em papel ou
automatizados, interfaces de metabusca, entre outras);
• As setas g, h, i formam a Categoria C, que são as estratégias de busca empregadas
pelo mediador para satisfazer a demanda do usuário por informação.
• As setas j, k forma a Categoria D, referentes a estratégias elaboradas
computacionalmente com apoio de tecnologias com características inteligentes,
como por exemplo:
• Mecanismos de busca baseados em perfis de interesses;
• Sistemas de recebimento de notícias de interesses do usuário;
• Detecção de interesses do usuário a partir das escolhas feitas durante a navegação
em um site de busca (ex.: Google, Yahoo etc.) a partir do seu clickstream.

Saiba mais

Clickstream é o registro da trajetória que um usuário de computador


percorre ao clicar em links das páginas web, feita por meio da captura
desses endereços e de informações adicional, muito útil para análise
das atividades das pessoas durante a navegação.
(http://pt.wikipedia.org/wiki/Clickstream)

Os processos e fenômenos da Categoria A são mais difíceis de investigar, pois


ocorrem fora do contexto de atuação dos Sistemas de Informação; avaliar, medir e
afirmar o quão eficiente e eficaz é a satisfação do usuário é algo complexo, em função
da sua subjetividade.
Já estudos nas Categorias B e C são mais comuns, existindo metodologias e
técnicas consolidadas para sua realização, e estudos da Categoria D estão em condição
semelhante. É o campo de processos e de fenômenos no qual manteremos foco no
estudo de estratégias de busca.
Optou-se em preservar a forma original do diagrama de Wilson (2006, p. 661),
ainda que aparentemente complexa, e mostrar as categorias de estratégias na forma
textual para fins de clareza.
Outro modelo igualmente relevante é o de Ingwersen (1996). Peter Ingwersen
tem realizado estudos nos processos de recuperação da informação com foco na
cognição humana, procurando elucidar aspectos que definem as estratégias de busca
elaboradas pelos usuários. Vejamos o modelo desse autor:

44 Tecnologia da Informação II
Figura 12 - Modelo Cognitivo da Interação nos processos de Recuperação da Informação

Fonte: Ingwersen (1996, p. 9).

Observe que, em relação ao modelo anterior, ele insere formalmente as ideias


de “Espaço cognitivo” e “Meio ambiente organizacional e Social”.
Na visão de Ingwersen (1996), a recuperação de informação acontece na forma
de uma série de transformações e interações entre atores humanos (indexadores,
profissionais de referência, usuários especialistas etc.), o ambiente de recuperação da
informação, constituído por suas tecnologias, linguagens documentárias e, também,
a influência do meio ambiente, com seus contextos organizacionais e sociais.
Outro modelo que considera questões relativas aos processos cognitivos é
o de Wilson (1999, p. 252); trata-se de um modelo geral que ilustra as variáveis
influenciadoras do comportamento de busca da informação. O diagrama apresenta
uma relação entre fatores intrínsecos ao indivíduo e que devem ser considerados como
elementos que influenciam os processos de tomada de decisão durante a recuperação
da informação, ou seja, influenciam como o usuário poderá elaborar suas estratégias
de busca, como ele reagirá perante a interação com o sistema de recuperação de
informação e com o mediador. Segue o modelo:

Tecnologia da Informação II 45
Figura 13 - Modelo de Comportamento de Busca da Informação

Fonte: Wilson (1999, p. 252).

Os modelos que consideram os aspectos cognitivos do processo de recuperação


da informação e para elaboração de estratégias de busca pretendem contribuir para
a melhoria de métodos e técnicas mais bem-sucedidas do que outros modelos.
No entanto, Saracevic (1996) entende que colocar esses modelos em prática
é difícil, pois eles não oferecem elementos metodológicos para que o profissional da
informação se instrumentalize para melhorar os processos de auxílio na formulação
de estratégias de busca.
Por essa razão é que esse autor apresenta um modelo mais simples e abrangente,
que leva em conta os diferentes estágios da recuperação da informação. Nele, a
elaboração de estratégias de busca não aparece explicitamente, mas como um
processo resultante da interação e adaptação entre usuário e sistema de recuperação
da informação. Vejamos esse modelo:

46 Tecnologia da Informação II
Figura 14 - Modelo de RI

Fonte: Saracevic (1996).

Observe que ele ainda preserva algumas características dos modelos com
abordagens cognitivas, e o apresenta como um processo interativo, considerando
as dimensões de comunicação, interação com a interface de busca, análise das
necessidades do usuário, com um foco claramente centrado no usuário e nos elementos
necessários para elaboração de estratégias de busca.

Reflita

Vimos até agora uma variedade de conceitos que é apenas uma amostra do
que a literatura nos oferece para o entendimento da necessidade da informação
e como o usuário se comporta na busca. A partir deles você terá condições para
explorar a literatura da área da Ciência da Informação e examinar como essa
temática é tratada.

Tecnologia da Informação II 47
2 MECANISMOS DE BUSCA NA INTERNET

Como funciona um mecanismo de busca na internet? Basicamente, um


mecanismo de busca permite ao usuário enviar uma expressão de consulta na forma
de palavras ou frases e recuperar uma lista de endereços de páginas da web e outros
recursos (documentos, imagens, links para vídeos, entre outros), sendo que esse
mecanismo utiliza, além dessa expressão de consulta, outros recursos para priorizar o
ranqueamento dos itens exibidos na lista de resultados. Grande parte dos mecanismos
de busca segue esse princípio de funcionamento.
De acordo com Battelle (2006), um mecanismo de busca é composto por três
partes principais: o crawler, o índice e o processador de perguntas (query processor).

Figura 15 - Modelo de um mecanismo de busca da Internet

Fonte: Battelle (2006).

Assim temos:
• O processador de consultas realiza tarefas de combinação e arranjo dos termos, e
também, realiza tarefas de classificação, por meio de definição de relevância (que
envolve diversos fatores) que é expressa na forma do ranqueamento;
• Os índices são artefatos criados a partir do registro obtido do processamento de
conteúdo das páginas web capturadas pelos crawlers, e também, pelo associação
dos termos frequentes que os usuários utilizam no momento que informam os
termos de busca, ligando-os aos links escolhidos;
• O Crawler é um software especializado que verifica as URLs existentes nas páginas,
navegando a medida que os encontram, colhendo páginas e processando seu
conteúdo, enviando para os softwares de indexação. Popularmente são vistos como
pequenos “robôs de busca”, mas, em verdade, são apenas agentes de entrega de
páginas para os indexadores realizarem o processamento.

48 Tecnologia da Informação II
As tecnologias usadas para construí-los são complexas, mas seu papel é
relativamente simples: tentar conexões com as URLs, baixar seus conteúdos e entregar
para os mecanismos de indexação.
Pode-se considerar que esse é o componente mais importante, pois quanto
mais sites os crawlers visitam, mais completos são os índices produzidos.

2.1 Os Crawlers

As primeiras versões de crawlers identificavam alguns metadados básicos das
páginas web, contidas nas tags <META> e <HEAD>, colhendo informações básicas
como o título e outros termos ali existentes.
Com a evolução das tecnologias para captura dos conteúdos de websites, os
crawlers passaram a processar todo o conteúdo dessas páginas, processando não
somente o código HTML, mas, lendo outros documentos, como o Portable Document
Format (.pdf) e documentos produzidos por pacotes de escritório, como o Microsoft
Office e o BROffice.
O resultado desse processo de captura é armazenado em grandes bancos de
dados, para produção dos índices.

2.2 Os Índices

A partir desses bancos de dados formados pela captura de conteúdos realizada


pelos crowlers, é iniciado um processo de análise sobre esses conteúdos.
Tradicionalmente (e não mais nos mecanismos de busca atuais), a geração de
um índice passa por duas etapas:
1. Coletar ou selecionar termos do documento ou arquivo do computador
2. Criar um “arquivo invertido”, ou seja, um segundo arquivo que contém todos os
índices e apontadores para os documentos ou arquivos correspondentes.

Para ilustrar o arquivo invertido, vejamos a figura a seguir:

Tecnologia da Informação II 49
Figura 16 - Representação de um arquivo invertido na forma de uma matriz termo/
documentos

Fonte: Ribeiro Jr (2012).

A técnica de criação é relativamente simples: a partir da extração dos termos


do documento (página web, arquivo etc.) é construída uma matriz que relaciona os
termos com os documentos.
No momento da busca ocorre o seguinte:
a. O usuário fornece os termos de busca por meio da interface;
b. O mecanismo de busca procura no banco de dados um termo idêntico ou
semelhante, conforme os operadores que ele forneceu (analisaremos mais adiante
esses operadores);
c. Ao encontrar um ou mais termos, o mecanismo verifica que documentos estão
vinculados ao termo encontrado, e devolve à interface da base de dados uma
lista de links para esses documentos. Na Ao encontrar um ou mais termos, o
mecanismo verifica que documentos estão vinculados ao termo encontrado, e
devolve à interface da base de dados uma lista de links para esses documentos. Na
Figura 16, por exemplo, se o “Termo E” for encontrado, o mecanismo de busca irá
listar os Documentos 3, 5, 7 e 9.16, por exemplo, se o “Termo E” for encontrado,
o mecanismo de busca irá listar os Documentos 3, 5, 7 e 9.

Tal abordagem de busca é bem antiga, data das primeiras construções de


ferramentas de recuperação. Em termos computacionais, buscar no índice é muito
mais rápido que buscar em todos os documentos de maneira integral.

50 Tecnologia da Informação II
Reflita

Fazendo uma analogia, é como localizar um conteúdo em um livro; você


folheia todo o livro para encontrar determinado tópico ou consulta o
sumário? O que é mais rápido?

Nos primórdios dos mecanismos de busca da Web, nos anos 90, essa era
a principal técnica utilizada para montar os índices. No entanto, as empresas que
mantinham esses mecanismos de busca continuaram investindo em pesquisas para
aprimorar tais técnicas de geração de índices; elas estudaram como esses termos
se organizavam, observando padrões estatísticos e desenvolvendo algoritmos que
identificassem características relevantes que melhorassem os resultados de uma busca
na Internet.
Assim, o processamento dos conteúdos da Web coletados pelos crawlers evoluiu
muito; da simples extração de termos dessas páginas para complexos processos de
análise que levam em conta, ao menos, as seguintes características:
• Que conexões determinados termos possuem com outras páginas;
• Que palavras se assemelham mais com aquelas usadas em locais importantes, como
título e meta-tags;
• A frequência em que ocorrem determinadas sequências de cliques nos links.

Há dezenas de outros fatores considerados pelos algoritmos de análise no


momento em que estão identificando os termos do conteúdo encontrado.
Um processo criado pela Universidade de Stanford e usado pelo Google é o
PageRank, famoso por inovar o sistema de indexação de páginas web nos mecanismos
de busca.

Saiba mais

Veja uma animação sobre o PageRank em:


<http://pt.wikipedia.org/wiki/PageRank>

Tecnologia da Informação II 51
Saiba mais

Veja mais sobre o funcionamento do PageRank do Google


no artigo da professora Terezinha Moreira de Magalhães, disponível em:
<http://www.trabalhosfeitos.com/ensaios/Algoritmo-Page-Rank/429759.html>.

A autora explica o funcionamento desse conjunto de algoritmos e por


que ele ficou tão famoso.

2.3 O Processador de Consulta

No momento que o usuário submete sua consulta, por meio dos termos, o
mecanismo de busca realiza um processamento prévio antes de recorrer aos índices.
Esse processamento prévio pode ser feito por meio de diversas técnicas, na sua
maioria com o objetivo de tornar mais rápida e precisa a resposta para a consulta.
Os mecanismos de busca, como o Google, organizam um “servidor de perguntas”.
Esse recurso tem o papel de manter questões que são frequentemente realizadas, e
antecipar respostas para elas.

52 Tecnologia da Informação II
Reflita

Já observou como o Google exibe sugestões para autocompletar sua


pergunta ou frase digitada? Veja o que acontece quando se começa a
digitar a frase “curso de biblioteconomia”.

Observe:
• Antes de completar a digitação dessa frase (“curso de bibli”) há mais 4
sugestões de frases.
• Essas sugestões podem variar se você tem uma conta no Google; então ele
irá usar os clickstreams que você percorreu enquanto estava logado na
interface de busca para priorizar a exibição de resultados de acordo com
as páginas que você costuma navegar.
• Os primeiros resultados são links patrocinados: o Google exibe primeiramente
links para empresas anunciantes, pois essa é a principal meta da empresa;
fornecer informação orientada para perfis de interesses de consumo em
potencial para empresas.
• Os demais resultados são apresentados em seguida, conforme a ordem de
exibição da possível pergunta (que você ainda não terminou de digitar...).
• Tal recurso é possível por meio do processamento de milhares de
clickstreams e de perguntas realizadas anteriormente, previamente
processadas para gerar um gigantesco “servidor de perguntas”.

Tecnologia da Informação II 53
Leia esta transcrição de alguns trechos do livro “A Busca”, de John Battelle,
sobre a “Base de Dados de Intenções” Battelle (2006):

Nos últimos anos, a busca transformou-se num método universalmente


compreendido de navegar pelo nosso universo de informações: assim como a interface
Windows definiu nossas intenções com o computador pessoal, busca define nossas
intenções com a Internet.
[...] Bilhões de pesquisas passam pelos servidores de busca, informação e comércio
na Internet – o fluxo de pensamento agregado da espécie humana, on-line. O que
estamos criando, intenção por intenção, quando dizemos ao mundo o que queremos?
De conexão em conexão, de clique em clique, a busca está construindo possivelmente o
mais duradouro, forte e significativo artefato cultural da história da espécie humana: A
Base de Dados de Intenções. Ela é constituída simplesmente pelos resultados agregados
de todas as buscas já feitas, todas as listas de resultados já oferecidas e todos os
caminhos tomados em consequência delas.
[...] Em conjunto estas informações representam uma história em tempo real da
cultura pós-Web – uma enorme base de dados de desejos, necessidades, vontades e
preferências que podem ser descobertas, citadas, arquivadas, seguidas e exploradas
para todos os fins.
Considere a Base de Dados de Intenções como uma rica camada superficial sobre
um sítio arqueológico de tecnologia que, ao longo do último meio século, criou o
potencial para o surgimento de uma cultura inteiramente nova. É fácil considerar a
Web um acontecimento relativamente recente, mas ela está construída sobre a Internet,
qual, por sua vez, está construída sobre uma vasta rede de computadores de todos
os tipos... Na próxima década [2010-2020, pois o livro foi publicado em 2005], ela irá
se expandir até os nossos televisores, nossos carros e nossos espaços públicos – quase
tudo que pode conter um chip irá contê-la e quase tudo que contiver um chip irá se
tornar uma conexão na sempre crescente Base de Dados de Intenções.
[...] Volte aos dias anteriores à Web, a era do PC de 1985 a 1995. [...] Quando
pesquisamos em nossos discos rígidos ou, mais tarde, em [redes] LANs e WANs,
assumimos que o rastro digital deixado para trás – nossa sequência de cliques – era
tão efêmero quanto um telefonema. Por que seria diferente? As sequências de cliques
não tinham valor além da ação que estabeleciam, servindo somente como meio para
o fim de encontrar um arquivo ou repassar uma mensagem.
[...] Mas, agora, detalhes de nossas vidas são registrados e preservados por centenas
de entidades, muitas vezes de natureza comercial. A razão para essa mudança é simples:
empresas inovadoras descobriram como prestar ótimos serviços baseados em Web
(serviços que também dão dinheiro) adivinhando padrões de sequências de cliques.
Como a maior parte da cultura material, a sequência de cliques está se tornando um
ativo, certamente para o indivíduo, mas em particular para a indústria da Internet.
[...] E o que significa o surgimento desse artefato? [a Base de Intenções] Que efeito
ele poderá ter sobre as indústrias multibilionárias de marketing e mídia? Por que os
governos da China, da Alemanha e da França ameaçaram proibir ferramentas de busca
como o Yahoo ou Google, e por que nossa segurança nacional [dos EUA, no contexto
do autor] pode depender da soldagem das profundezas de suas bases de dados? Afinal,
o que a busca pode nos dizer a nosso próprio respeito e a respeito da cultura global
que estamos criando juntos, on-line?

54 Tecnologia da Informação II
Curiosidade

Em essência, a Google e suas concorrentes criaram a primeira


aplicação para alavancar a Base de Dados de Intenções de uma
forma comercial: buscas pagas. Em menos de cinco anos, o negócio
cresceu de quase nada para mais de US$ 4 bilhões em receitas e
deverá quadruplicar nos próximos cinco anos. (BATTELLE, 2006)

Essa informação foi escrita em seu livro no ano de 2005; em 2011 o


Google faturou US$ 29,3 bilhões (bem maior que a expectativa escrita
pelo autor). Veja mais em: <http://www.businessmba.org/google-facts/>

3 TÉCNICAS DE BUSCA EM BASES DE DADOS E NA INTERNET

Vimos que as Bases de Dados desenvolvidas com base em modelos desenvolvidos


por profissionais da área de Biblioteconomia e Ciência da Informação têm, no mínimo,
as seguintes características:
• Têm um acervo desenvolvido de maneira criteriosa, baseado em políticas de seleção,
que definem limites de área, público-alvo e outros fatores de escolha de documentos;
• Esse acervo passa por processos de tratamento documentário, ou seja, submetido
a técnicas de representação descritiva e temática;
• Possui características de descrição padronizadas (padrão de metadados; ex.: Dublin
Core, Marc, MTD-BR, entre outros);
• Geralmente possui algum nível de padronização de vocabulário para indexação,
previamente convencionada. Quando não há, os termos normalmente são atribuídos
pelo próprio autor.

Essas características são fundamentalmente diferentes do que encontramos em


um portal ou site de busca da Internet, como o Yahoo e o Google. Assim, a elaboração
de estratégias de buscas nesses dois ambientes é realizada de maneira diferente;
em Bases de Dados, podemos contar com a padronização de metadados e realizar
buscas por autor, assunto, entre outros, combinando essas opções para especializar
os resultados e, dependendo das características da indexação, explorar a totalidade
do acervo disponível sobre determinado assunto.
Já na Internet, por meio de um mecanismo de busca, temos que contar com a
qualidade das técnicas de preparação dos índices; não é possível examinar a totalidade
dos itens encontrados (normalmente na ordem de milhares ou até milhões). Melhores
resultados de busca são obtidos quando se conhece trechos de texto dos conteúdos
pesquisados, ao invés de entradas de metadados.

Tecnologia da Informação II 55
3.1 Operadores Booleanos

A busca booleana é uma das formas mais antigas adotadas pelas interfaces de
busca, sua origem está na Lógica Booleana (criada pelo matemático George Boole),
que propõe um conjunto de operações para proposições lógicas binárias.

Curiosidade

Conheça um pouco da história desse matemático em:


<http://pt.wikipedia.org/wiki/George_Boole>

As proposições lógicas nesse contexto podem ser verdadeiras ou falsas;


utilizamos então os operadores lógicos AND, OR, NOT e XOR para realizar operações
com essas proposições e, então, determinar se o resultado de uma operação é
verdadeiro ou falso.
A Lógica Booleana é mais comum do que se pensa e está presente no raciocínio
das pessoas. Vejamos alguns exemplos:
1. “O carro é azul E pequeno” (= “o carro é azul” AND “o carro é pequeno”).
2. “Preciso de um artigo científico que trate dos assuntos ‘biblioteconomia’ E
‘formação profissional’” (=> assunto= “Biblioteconomia” AND assunto= “formação
profissional”).
3. “A camisa pode ser azul OU verde” (= camisa azul OR camisa verde)
4. “Um tipo de calçado DIFERENTE DE uma sandália serve.” (= calçado NOT EQUAL
sandália).
5. “Você pode usar uma das duas peças de roupa, a azul ou a verde, mas não as duas”
(= camisa azul XOR camisa verde).

Esses operadores são essenciais para busca booleana e estão presentes em


qualquer interface de base de dados. Vejamos alguns exemplos:

56 Tecnologia da Informação II
Figura 17 - Busca avançada da Base SCIELO

Fonte: Scielo (S.d).

Figura 18 - Busca avançada do Portal de Notícias do Senado Federal

Fonte: Portal de Notícias do Senado Federal (S.d).

Tecnologia da Informação II 57
Figura 19 - Busca Avançada da Biblioteca Digital de Teses e Dissertações

Fonte: BDTD (S.d).

Figura 20 - Interface de Busca avançada da Biblioteca Digital do Senado Federal

Fonte: Biblioteca Digital do Senado Federal (S.d).

58 Tecnologia da Informação II
Figura 21 - Interface de Busca Avançada do Portal de Periódicos da CAPES

Fonte: CAPES (S.d).

Há inúmeras outras interfaces com operadores booleanos; normalmente elas


aparecem disponíveis em uma “Busca Avançada” ou similar.

3.2 Técnicas de Busca na Internet com Google

O uso de mecanismos de busca como o Google requer algum conhecimento


sobre seus recursos para melhorar a qualidade dos resultados desejados. Normalmente,
somente o uso de operadores booleanos é insuficiente para obter bom resultados.
É improvável que um usuário da Internet ainda não conheça a interface de um
mecanismo de busca; em se tratando de um mecanismo popular como o Google,
essas chances são ainda menores...
A interface de busca simplificada do Google consiste em apenas um campo
no qual você digita um termo ou frase para obter os resultados. Nessa interface as
seguintes orientações1 devem ser levadas em conta para melhorar os resultados da
busca (usaremos colchetes [ ] para assinalar uma consulta de pesquisa, portanto [Preto
e branco] é uma consulta, enquanto [preto] e [branco] são duas consultas distintas):
• Todas as palavras são importantes. Geralmente, todas as palavras inseridas na
consulta serão usadas.
• As pesquisas nunca diferenciam o uso de maiúsculas e minúsculas. Uma pesquisa
sobre [new york times] gera os mesmos resultados que uma pesquisa sobre [New
York Times].
• Geralmente, a pontuação é ignorada, incluindo @#$%^&*()=+[]\ e outros
caracteres especiais.
• Mantenha a simplicidade. Se estiver procurando por uma empresa em particular,
insira apenas o nome ou a parte dele que você souber. Se estiver procurando por
um conceito, lugar ou produto específico, comece pelo nome. No caso de estar
buscando uma pizzaria, insira apenas “pizza” e o nome da sua cidade ou seu código

1
As orientações foram retiradas e adaptadas da ajuda do Google

Tecnologia da Informação II 59
postal. A maioria das consultas não necessitam de operadores avançados ou sintaxes
incomuns. A simplicidade é eficaz.
• Pense em como a página que você busca foi escrita. Um mecanismo de pesquisa
não é um ser humano, é um programa que combina as palavras pesquisadas com
páginas da web. Use as palavras com maior possibilidade de aparecer na página. Por
exemplo, em vez de dizer [minha cabeça dói], diga [dor de cabeça], porque esse é o
termo usado em uma página sobre medicina. A consulta [em que país os morcegos
são considerados prenúncio de boa sorte?] é bastante clara para uma pessoa, mas
o documento que responde a essa pergunta pode não ter essas palavras. Em vez
disso, use a consulta [morcegos são considerados boa sorte em] ou até mesmo
[morcegos boa sorte], já que é o que a página certa irá dizer.
• Descreva o que você precisa com o menor número de termos possível. O objetivo
de cada palavra em uma consulta é aumentar o seu foco. Como todas as palavras
são usadas, cada palavra adicional limita o número de resultados. Se a limitação for
demasiada, informações úteis serão perdidas. A maior vantagem de começar com
um número menor de palavras-chave é que, se você não encontrar o que procura,
os resultados provavelmente indicarão quais palavras adicionais serão necessárias
para refinar seus resultados na próxima pesquisa. Por exemplo, [tempo estadual]
é uma forma simples de encontrar informações sobre o tempo e é provável que
forneça melhores resultados do que [previsão do tempo para o estado].
• Escolha palavras descritivas. Quanto mais específica for a palavra, maior será
a chance de obter resultados relevantes. Palavras que não são muito descritivas,
como “documento”, “website”, “empresa” ou “informação”, geralmente não são
necessárias. Porém, lembre-se de que se a palavra tiver o significado correto, mas
não for a mais usada pelas pessoas, ela poderá não corresponder às páginas que
você busca. Por exemplo, [ toques de celebridades ] é uma pesquisa mais descritiva
e específica do que [ sons de celebridades ].

Recursos mais avançados que a pesquisa básica


• Pesquisa de frase (usando aspas ao redor da frase): Ao colocar conjuntos de
palavras entre aspas, você estará dizendo ao Google para procurar exatamente
essas palavras nessa mesma ordem, sem alterações. O Google já utiliza a ordenação
e o fato de palavras estarem juntas como um forte sinal e desviará desse padrão
somente por um bom motivo. Portanto, as aspas são desnecessárias. A insistência na
pesquisa de frases poderá fazer com que você não tenha acesso a bons resultados.
Por exemplo, uma pesquisa por [ “Pedro Cabral” ], entre aspas, excluirá páginas
que possam se referir a Pedro Álvares Cabral.
• Pesquisar uma única palavra exatamente como ela é (“palavra”): O Google
emprega sinônimos automaticamente, de maneira que sejam encontradas páginas
que mencionem, por exemplo, “Estadão” nas consultas por [ cata vento ] (com
espaço), ou prefeitura de Porto Alegre para a consulta [ prefeitura de poa ]. No
entanto, às vezes o Google ajuda um pouco além da conta, fornecendo um sinônimo
quando você não o deseja. Ao colocar aspas duplas em uma única palavra, significa
que a coincidência desta palavra deve ser exatamente igual ao que você digitou.

60 Tecnologia da Informação II
• Pesquisa em um site específico (site:): O Google permite que se especifique de
qual site deverão sair os resultados de pesquisa. Por exemplo, a consulta [ iraque
site:estadao.com.br ] retornará páginas sobre o Iraque, mas somente dentro do site
estadao.com.br. As consultas mais simples [ iraque estadão.com.br ] ou [ iraque
Estadão ] geralmente funcionarão com a mesma eficiência, ainda que possa haver
resultados de outros sites que mencionem o Estadão. Também é possível especificar
um tipo de site, por exemplo [ iraque site:.gov ] somente retornará resultados de
sites com domínio .gov, enquanto [ iraque site:.iq ] somente retornará resultados
de sites iraquianos.
• Termos a serem excluídos (-): Colocar um sinal de menos antes de uma palavra
indica que você não deseja que apareçam nos resultados as páginas que contenham
essa palavra. O sinal de menos deve aparecer imediatamente antes da palavra,
precedida por um espaço. Por exemplo, na consulta [ couve-flor ]o sinal de menos
não será interpretado como um símbolo de exclusão, enquanto que a consulta [
couve –flor ] pesquisará por ocorrências de “couve” em sites que não apresentem
a palavra flor. Você poderá excluir quantas palavras desejar, usando o sinal – antes
de todas, como por exemplo [ universal –studios –canal –igreja ]. O sinal – pode
ser usado para excluir mais do que palavras. Por exemplo, coloque um hífen antes
do operador “site:” (sem espaço) para excluir um site específico dos resultados de
pesquisa.
• Preenchimento de espaços (*): O asterisco *, ou caractere curinga, é um recurso
pouco conhecido que pode ser muito útil. Se você incluir o * em uma consulta,
o Google considerará o asterisco como um espaço reservado para termos
desconhecidos e tentará encontrar os resultados que melhor corresponderem. Por
exemplo, a pesquisa [ Google * ] retornará resultados sobre muitos dos produtos
Google (vá para a página seguinte, e para a seguinte -- nós temos diversos produtos).
A consulta [ * ganhou oscar de * ] retornará resultados sobre diferentes ganhadores
do Oscar. Observe que o operador * funciona somente com palavras completas e
não com partes de palavras.
• O operador OR: Por padrão, o Google considera todas as palavras em uma
pesquisa. Se você deseja que qualquer uma das palavras pesquisadas retornem
resultados, poderá usar o operador OR (observe que você precisará digitar OR em
LETRAS MAIÚSCULAS). Por exemplo, [ campeão brasileiro 1994 OR 2005 ] retornará
resultados sobre qualquer um desses anos, enquanto [ campeão brasileiro 1994
2005 ] (sem OR) mostrará páginas que incluam ambos os anos na mesma página.
O símbolo | pode substituir OR. A propósito, o operador AND é o padrão. Portanto,
não é necessário.

Pesquisa Avançada do Google


A Pesquisa Avançada é um recurso adicional de muito valor, quando se sabe
bem o que se procura, e melhorar bem a qualidade dos resultados. Vejamos essa
interface:

Tecnologia da Informação II 61
Figura 22 - Interface pesquisa avançada Google

Fonte: Google (S.d).

A forma dessa interface pode variar um pouco dependendo do navegador


utilizado. Observe que há dois grupos de campos: no primeiro, mais acima, você
informa o que deseja usando recursos booleanos; no segundo, você pode limitar os
resultados aplicando filtros (ou definindo características) para especificar o que você
deseja.

62 Tecnologia da Informação II
Síntese

Nesta unidade você estudou as principais abordagens teórico-


metodológicas da literatura da Ciência da Informação sobre a interação dos
usuários (interagentes) com os sistemas de recuperação da informação, com
especial atenção para os processos de elaboração de Estratégias de Busca.
Vimos que definir e investigar os processos envolvidos com este momento
da Recuperação da Informação não é algo trivial; vários autores fizeram isso
e trouxemos aqui os mais citados, para que você, futuro bibliotecário, tenha
conhecimento em nível científico e possa refletir acerca das questões dessa
temática.
Vimos também, como contraponto, a busca e recuperação de informação
na Internet, com especial atenção para o mecanismo de busca Google e para
as bases de dados na Internet.
Por fim, convidamos você para refletir sobre como o bibliotecário pode
interagir e atuar com esta nova geração de usuários, que cresceu interagindo
com a Internet e buscando informação fora do ambiente controlado das bases
de dados e estantes das bibliotecas.

REFERÊNCIAS

BATTELLE, John. A Busca: como o Google e seus competidores reiventaram os negócios


e estão transformando nossas vidas. Rio de Janeiro: Elsevier, 2006.

INGWERSEN, Peter. Cognitive perspectives of information retrieval interaction:


elements of a cognitive ir theory. Journal of Documentation, v. 52, n. 1, p.3-50,
1996. Disponível em: <http://citeseerx.ist.psu.edu/viewdoc/download;jsessionid=B
EACF5D8DDD0C7AC8BA56F1A570908EE?doi=10.1.1.116.2558&rep=rep1&type=p
df>. Acesso em: 20 jan. 2012.

GOOGLE. Site oficial de Ajuda do Google. 2012. Disponível em: https://support.


google.com/websearch/?hl=pt-BR#topic=3036131>. Acesso em> 20 jan. 2012.

SARACEVIC, Tefko. Modeling interaction in information retrieval (IR): A review and


proposal. Proceedings of the ASIS Annual Meeting, v. 33, p. 3-9, 1996.

WILSON, T. D. Models in information behaviour research. Journal of Documentation,


v. 55, n. 3, p.249-270, 1999. Disponível em: http://www.emeraldinsight.com/journals.
htm?issn=0022-0418&volume=55&issue=3&articleid=864102&show=pdf>. Acesso
em: 18 jan. 2012.

Tecnologia da Informação II 63
WILSON, T. D. On user studies and information needs. Journal of Documentation, v.
62, n. 6, p.658-670, 2006. Disponível em: http://www.emeraldinsight.com/journals.
htm?issn=0022-0418&volume=62&issue=6&articleid=1580621&show=pdf>.
Acesso em: 18 jan. 2012.

Anotações

________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
_______________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
_______________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________

64 Tecnologia da Informação II
Anotações

________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
_______________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
_______________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________

Tecnologia da Informação II 65
Anotações

________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
_______________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
_______________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________

66 Tecnologia da Informação II
Unidade 3
Protocolos para Recuperação da
Informação

Objetivo:

• Estudar o protocolo Z39.50, seus conceitos e


realizar testes de recuperação;
• Entender os conceitos sobre Necessidade da
Informação existentes na literatura;
• Conhecer recursos para busca em bases de
dados e na Internet.

Conteúdo programático:
• Necessidades de informação e estratégias de
busca em ambientes que usam o protocolo
Z39.50;
• Busca na Internet: usando recursos com esse
protocolo para melhorar a qualidade dos
resultados;
• Prática com softwares que usam o Z39.50.
Faça aqui seu planejamento de estudos

68 Tecnologia da Informação II
1 O PROTOCOLO Z39.50

Mas por que estudar o Protocolo Z39.50? De imediato, devemos lembrar


que, como afirmam Moreira e Ribeiro (2008), o volume crescente de informações
disponíveis atualmente, traz como imperativo a cooperação entre as diversas unidades
de informação (compreendidas aqui as bibliotecas e todas as outras). Não se trata,
formalmente, de mudança significativa no fazer biblioteconômico, mas de aceleração
do processo, tendo em vista, principalmente, as facilidades engendradas pelas
tecnologias da informação e pelos avanços das telecomunicações.
Conforme Marcum (2005), a produção de catálogos visa a prover identificadores
para um nível imediato de descrição das características físicas e intelectuais do
documento. A autora aponta algumas questões interessantes e provocadoras em
relação à catalogação atualmente, dentre elas: a) tendo-se em vista que há diversos
livros e periódicos acessíveis online, deve-se considerar os mecanismos de busca como
meio principal de localização e acesso? b) com o MARC generalizado e espalhado pelo
mundo, como promover mudanças sem criar o caos? São questões que evidenciam a
atualidade da problemática. Em outras palavras, é preciso discutir qual é exatamente
o papel reservado aos metadados e aos catálogos de bibliotecas neste cenário.
Tais questões não são novas, mas ainda são atuais. O compartilhamento do
trabalho de catalogação, da integração de diferentes sistemas de recuperação de
informação, o objetivo de aumentar o acesso aos catálogos online ainda são de alta
relevância para os serviços das unidades de informação. Assim, compreender o que são
e como são usadas as tecnologias envolvidas com o Protocolo Z39.50 é algo essencial
para o bibliotecário.

1.1 Z39.50: um velho conhecido

A origem do protocolo Z39.50 ocorreu nos anos 70 nos Estados Unidos, e com
o objetivo de responder a necessidades de um recurso tecnológico para padronização
das comunicações entre os sistemas de computadores a NISO criou um comitê de
criação de um protocolo de recuperação de informação. Os esforços desse comitê
tiveram origem com base nas análises efetuadas na mesma época pela Library of
Congress - EUA.
Os principais eventos da história da Z39.50 são os seguintes:
• 1970: início do desenvolvimento de um protocolo experimental, coordenado pela
Library of Congress – EUA;
• 1979: a NISO cria um comitê com o objetivo específico de criar um protocolo para
a recuperação de informação;
• 1988: é lançada a primeira versão do protocolo Z39.50. Depois disso, a NISO
designou a “Network Development and MARC stands Office” da Library of Congress
– EUA para ser a entidade responsável pela manutenção do protocolo, substituindo
o comitê inicial da ISO;

Tecnologia da Informação II 69
• 1991: são aprovadas duas normas complementares ao Z39.50: IS0 10162 (normas
destinadas aos serviços e aplicações de pesquisa e recuperação) e ISO 10161-1
(especificação do protocolo destinado à pesquisa e à recuperação);
• 1992: publicada a segunda versão do protocolo Z39.50. São feitas harmonizações
com as normas da ANSI. As empresas de desenvolvimento de software adotam a
norma em nível internacional;
• 1995 - publicada a terceira versão da pela ANSI/NISO;
• 2003 – publicada a versão aprovada em novembro de 2002, com a última revisão
da norma (http://www.loc.gov/z3950/agency/Z39-50-2003.pdf).

De acordo com Moreira e Ribeiro (2008), mesmo sendo um protocolo antigo,


o Z39.50 ainda é relativamente desconhecido fora do ambiente da Biblioteconomia.
Geralmente tratado como uma questão fundamentalmente técnica da própria
área, o protocolo é pouco difundido no mundo da Ciência da Computação e,
consequentemente, pouco utilizado nas mais diversas aplicações de sistemas de
informação bibliográficos ou documentários.
Por outro lado, quando conhecido pelo desenvolvedor, este protocolo também
lhe impõe um conhecimento mais elaborado das técnicas biblioteconômicas para
utilizá-lo, o que prejudica a eficácia da recuperação da informação nas aplicações desse
gênero quando não há desenvolvimento conjunto entre bibliotecário e desenvolvedor.

1.2 Arquitetura

A arquitetura faz referência à composição estrutural e funcional, explicando


como funcionam os processos de comunicação e os papéis realizados por cada
componente dessa arquitetura.
Vejamos um esquema que ilustra a arquitetura com o Z39.50:

70 Tecnologia da Informação II
Figura 23 - Arquitetura genérica com o protocolo Z39.50

Fonte: elaborado pelo autor.

Observe que há duas instâncias distintas: um “cliente” e um “servidor”. O cliente


consiste em um software que gerencie ou apenas visualize registros bibliográficos, e
que pode possuir sua própria base de dados (não aparece na Observe que há duas
instâncias distintas: um “cliente” e um “servidor”. O cliente consiste em um software
que gerencie ou apenas visualize registros bibliográficos, e que pode possuir sua
própria base de dados (não aparece na Figura 23).23).
Esse cliente pode se comunicar com outro computador (o servidor) que também
possua um software que mantenha uma base de dados com registros bibliográficos.
Não é necessário que ambos os computadores, o cliente e o servidor, tenham o
mesmo software; são os módulos com o protocolo Z39.50 que se encarregarão da
comunicação entre as duas instâncias.
Tal comunicação pode acontecer dentro de uma rede local (ex.: dentro de uma
mesma instituição, no mesmo prédio) ou via Internet.

1.3 Aplicações em Bibliotecas

São variadas as aplicações em bibliotecas, mas destacam-se as seguintes:


• Empréstimos entre bibliotecas: os registros podem ser acessados, independentemente

Tecnologia da Informação II 71
do software que essas bibliotecas utilizem (desde que implementem o Z39.50);
• Integração de Catálogos e catalogação cooperativa;
• Compartilhamento de metadados para outras bibliotecas.

Há diversos softwares proprietários e livres que implementam esse protocolo,


com duas finalidades fundamentais: possibilitar recuperação de registros bibliográficos
em softwares diferentes e compartilhar registros.

1.4 Exemplo de aplicação: Software Mercury Z39.50

O software Mercury Z39.50 é um aplicativo desenvolvido com arquitetura


cliente-servidor (você precisa baixar e instalar o software em seu computador)
destinado à realização de consultas em bibliotecas cujos sistemas disponham do
protocolo Z39.50.
É uma ferramenta livre e gratuita, pode ser utilizado como recurso experimental
para testar o funcionamento do protocolo ou ficar disponível na biblioteca, caso esta
tenha condições de oferecer ao usuário acesso aos materiais encontrados em outras
bibliotecas numa busca com esse software. Suas características são:
• Realizar recuperação em Servidores Z39.50;
• Útil para testar e recuperar dados bibliográficos em bibliotecas com servidores
Z39.50;
• Acompanha uma relação de servidores para consulta;
• É possível cadastrar novos servidores para consulta;
• Download: <http://www.basedowinfosys.com/sites/default/files/mzc1_3.zip>.

Orientações para instalação:


A instalação é rápida: você precisa possuir permissão para instalação de
programas em seu computador. Caso esteja no seu trabalho, procure seu setor de
informática.

72 Tecnologia da Informação II
Figura 24 - Instalação do software Mercury Z39.50 Client

Fonte: Z39.50 (S.d).

Esta é tela inicial da instalação do software Mercury Z39.50. Para prosseguir


com a instalação e finalizá-la, basta dar sequência com o botão “Next” e concordar
com o termo de instalação e uso. Ao final, o aplicativo deverá ser iniciado (se isso não
ocorrer, clique no atalho criado pelo instalador) e deverá aparecer a tela a seguir:

Figura 25 - Tela inicial do software Mercury Z39.50 Client

Janela de registros recuperados


Janela de
Servidores

Janela de mensagens da comunicação

Fonte: Z39.50 (S.d).

Tecnologia da Informação II 73
A interface inicial nos apresenta três áreas:
a. A Janela de Servidores Z39.50: lista de nomes de servidores que estão sendo
consultados no instante que a busca é realizada. Observe que, ao comandar a busca,
o software Mercury envia simultaneamente a mesma requisição de consulta para
todos os servidores listados;
b. A Janela de registros recuperados apresenta o resultado da pesquisa, de maneira
unificada;
c. A Janela de mensagens da comunicação exibe eventuais erros e mensagens pertinentes
para informar as condições de resposta dos servidores Z39.50 consultados.

Síntese

Nesta unidade estudamos o protocolo Z39.50, seus conceitos e a realização


de testes de recuperação de registros bibliográficos em plataformas que
suportam essa tecnologia.
Mesmo se tratado de uma tecnologia antiga, o software Z39.50 ainda é
utilizado em diversos softwares de bibliotecas para realizar troca de registros
bibliográficos e facilitar a recuperação de informação entre sistemas de
gerenciamento de bibliotecas em diferentes locais.
Para você, futuro bibliotecário, é interessante considerar que essa
tecnologia, aos poucos, está sendo substituída por outros formatos de
intercâmbio e padrões de interoperabilidade, como por exemplo, o protocolo
OAI-PMH (largamente utilizado no contexto de Repositórios e Bibliotecas
Digitais), que objetiva facilitar a oferta de metadados de maneira simples e
rápida, e também, os padrões de metadados disponibilizados em formato xml
(Dublin Core, MTD-BR, Marc-xml, entre outros).

REFERÊNCIAS

ARAÚJO JR., Rogério Henrique de. Precisão no Processo de Busca e Recuperação


da Informação. Brasília: Thesaurus, 2007.

BARBOSA, C. R. S. C.; CASTILHO, J. M. Gramática Livre de Contexto Lexicalizada


para a Análise da Língua Portuguesa – uma experiência na geração de consultas de
uma Interface em Linguagem Natural para Banco de dados. In: ENCONTRO PARA O
PROCESSAMENTO COMPUTACIONAL DA LÍNGUA PORTUGUESA ESCRITA E FALADA,
São Carlos – SP, 2001. Anais... São Carlos – SP, 2001.

74 Tecnologia da Informação II
BARBOSA, Eduardo Batista de Moraes and Sena, Galeno de Scientific data
dissemination a data catalogue to assist research organizations. Ci. Inf., vol.37, n.1,
p.19-25, apr. 2008.

BATTELLE, John. A Busca: como o Google e seus competidores reiventaram os


negócios e estão transformando nossas vidas. Rio de Janeiro: Elsevier, 2006.

BELKIN, Nicholas J.; CROFT, W. Bruce. Retrieval Techniques. Annual Review of


Information Science and Technology (ARIST), v. 22, p. 109-145, 1987.

CINTRA, A. M. M., et al. Para Entender as Linguagens Documentárias. São Paulo:


Polis, 1994.

CHEN, Hsinchun et al. A machine learning approach to inductive query by


examples: An experiment using relevance feedback, ID3, genetic algorithms, and
simulated annealing. Journal of the American Society for Information Science, v.
49, n. 8, p. 693-705, 1998.

FERNEDA, Edberto. Recuperação da Informação: Análise sobre a contribuição


da Ciência da Computação para a Ciência da Informação. 2003. 147 f. Tese
(Doutorado em Ciência da Informação) - Escola de Comunicação e Artes, USP, São
Paulo, 2003. Disponível em:<www.teses.usp.br/teses/disponiveis/27/27143/tde-
15032004-130230/>.

FOSKETT, Antony Charles. The Subject approach to information. 5. ed. Londres:


Library Association Publishing, 1996.

GROGAN, Denis Joseph. A prática do serviço de referência. Brasília: Briquet de


Lemos, 1995.

HARTER, S. P. Variations in Relevance Assessments and the Measurement of


Retrieval Effectiveness. Journal Of The American Society for Information Science,
v.47, n.1, p. 37-49, 1996

INGWERSEN, Peter. Cognitive perspectives of information retrieval interaction:


elements of a cognitive ir theory. Journal of Documentation, v. 52, n. 1, p.3-50,
1996. Disponível em:<http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.1
16.2558&rep=rep1&type=pdf>. Acesso em: 20 jan. 2012.

IIVONEN, M.; SONNENWALD, D. H. From Translation to Navigation of Different


Discourses: A model of search term selection during the pre-online stage of search
process. Journal Of The American Society for Information Science, v.49, n.4,
p.312-326, 1996.

KOBASHI, N. Y. A elaboração de informações documentárias: em busca de uma


metodologia. 1994. Tese (Doutorado em Ciências da Comunicação) - Escola de
Comunicações e Artes, Universidade de São Paulo, 1994.

Tecnologia da Informação II 75
LANCASTER, Frederick Wilfrid. Information Retrieval Systems: Characteristics,
Testing and Evaluation. 2. ed. Los Angeles: John Wiley & Sons, 1979. (Information
Sciences Series)

LE COADIC, Yves-François. A ciência da informação. Brasília: Lemos Informação e


Comunicação, 1996.

MARCUM, Deanna B. The future of cataloging. 2005. Disponível em:<http://


www.loc.gov/library/reports/CatalogingSpeech.pdf>. Acesso em: 15/01/2012.

MOREIRA, Walter; RIBEIRO, Thiago. Introdução ao uso dos protocolos SRU/


SRW: ferramentas para a catalogação cooperativa. Perspectivas em Ciência da
Informação, v. 13, p. 167-182, 2008.

PINTO, M. C. M. F., Análise e Representação de assuntos em sistemas de


recuperação de informação: linguagens de indexação. Revista Escola de
Biblioteconomia da UFMG, Belo Horizonte, v. 14, n.2, 169-186, set. 1985.

RIBEIRO JR., Divino Ignacio Ribeiro. Agentes Inteligentes como Mediadores na


Recuperação da Informação. 2001. 113 f. Dissertação (Mestrado) - Departamento
de Ciência da Informação, Universidade Estadual Paulista ‘Júlio de Mesquista Filho’ -
UNESP, Marília, 2001.

RICARTE, Ivan; GOMIDE, Fernando. A Reference Model for Intelligent Information


Search. FLINT 2001 - International Workshop On Fuzzy Logic And The Internet,
v. 8, California, 2001.

ROSETTO, Márcia. Uso do Protocolo Z39.50 para recuperação de informação em


redes eletrônicas. Ci. Inf., v.26, n. 2, maio 1997.

SALES, Rodrigo de; VIERA, Angel Freddy Godoy. Grupos e linhas de pesquisa sobre
recuperação da informação no Brasil. Biblios, v. 28, p.1-14, 2007. Disponível
em:<http://www.scielo.org.pe/pdf/biblios/n28/a04n28.pdf>.

SARACEVIC, Tefko. Modeling interaction in information retrieval (IR): A review and


proposal. Proceedings of the ASIS Annual Meeting, v. 33, p. 3-9, 1996.

SPINK, Amanda. Study of interactive feedback during mediated information


retrieval. Journal of the American Society for Information Science, v. 48, n. 5, p.
382-394, 1997.

SPINK, Amanda. Multiple search sessions model of end-user behavior: An


exploratory study. Journal of the American Society for Information Science, v.
47, n. 8, p. 603-609, 1996.

76 Tecnologia da Informação II
SPINK, Amanda; SARACEVIC, Tefko. Interaction in information retrieval: Selection
and effectiveness of search terms. Journal of the American Society for
Information Science, v. 48, n. 8, p. 741-761, 1997.

STRZALKOWSKI, Tomek et al. Natural Language Information Retrieval: TREC-8


Report. In: Proceedings of the Text REtrieval Conference (TREC-8). . Conference
Proceedings. Place. Published, 1999. Disponível em:<http://trec.nist.gov/pubs/trec8/
papers/ge8adhoc2.pdf>. Acesso em: 18 jan. 2012.

TAGUE-SUTCLIFFE, Jean M. Some perspectives on the evaluation of information


retrieval systems. Journal of the American Society for Information Science, v. 47,
n. 1, p. 1-3, 1996.

WILSON, T. D. On user studies and information needs. Journal of Documentation,


v. 62, n. 6, p.658-670, 2006. Disponível em: <http://www.emeraldinsight.com/
journals.htm?issn=0022-0418&volume=62&issue=6&articleid=1580621&show=p
df>. Acesso em: 18 jan. 2012.

WILSON, T. D. Models in information behaviour research. Journal of


Documentation, v. 55, n. 3, p.249-270, 1999. Disponível em:<http://www.
emeraldinsight.com/journals.htm?issn=0022-0418&volume=55&issue=3&articleid
=864102&show=pdf>. Acesso em: 18 jan. 2012.

Tecnologia da Informação II 77
Anotações

________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
_______________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
_______________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________

78 Tecnologia da Informação II
Anotações

________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
_______________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
_______________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________

Tecnologia da Informação II 79
Anotações

________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
_______________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
_______________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________
________________________________________________________________________

80 Tecnologia da Informação II

Você também pode gostar