Você está na página 1de 74

Universidade Federal de Pernambuco

Centro de Informática

Especialização em Gestão da Tecnologia da Informação

Aspectos das Ferramentas de

Busca Organizacional

por

JOSÉ MÁRCIO SOUZA MEDEIROS

Fernando da Fonseca de Souza

Orientador

Recife, outubro de 2006


José Márcio Souza Medeiros

zemarcio@yahoo.com

Aspectos das Ferramentas de

Busca Organizacional

Monografia apresentada ao curso de Pós-


graduação em Gestão da Tecnologia da Informação do
Centro de Informática da Universidade Federal de
Pernambuco

Orientador: Fernando da Fonseca de Souza

Recife, outubro de 2006


Aspectos das Ferramentas de Busca Organizacional

Agradecimentos

Meus sinceros agradecimentos ao meu orientador Prof. Fernando Fonseca pela


ajuda na organização das idéias e distribuição delas na monografia.

Ao professor Hermano Perrelli pela organização de todo o curso desde o primeiro


dia, controlando ansiedades e fornecendo o suporte necessário.

Agradeço aos colegas do Departamento de TI do Banco Central, especialmente ao


Dan Carlo, ao João Carlos e ao Davi Shamballa da divisão de sistemas operacionas e ao
Marcos Euzébio da divisão de segurança pela ajuda no levantamento de dados de uso nos
ambientes computacionais.

Ao colega Wylber pela disposição em fazer uma revisão do documento.

Finalmente, faço um agradecimento especial à Natália, minha esposa, por agüentar


junto comigo os dias presos em casa e pelo apoio logístico nos momentos mais críticos.

i
Aspectos das Ferramentas de Busca Organizacional

Resumo

Na última década, o volume de informações em meio eletrônico gerado e


armazenado pelas empresas e organizações públicas aumentou substancialmente, tendo
como uma das principais razões o declínio dos custos das commodities de armazenamento.
A popularização dos mecanismos de busca da Internet gerou o interesse pelos funcionários
em ter a mesma experiência ao procurar informações dentro de suas empresas. Este
trabalho apresenta as características das ferramentas de busca organizacional, como
funcionam e como avaliá-las em um processo de aquisição, analisando exemplos de
soluções comerciais. Além disso, são apresentadas as possibilidades de implantação de um
sistema desses na arquitetura de tecnologia da informação do Banco Central do Brasil.

Palavras-chaves: busca organizacional, recuperação da informação

ii
Aspectos das Ferramentas de Busca Organizacional

Abstract

In the last decade, the volume of digital information generated and stored by the
companies and public organizations has increased substantially, mostly due to the decrease
in the costs of storage commodities. The popularization of Internet search engines has
increased the interest of the employees in having the same experience – to look for
information – inside their companies. This paper presents the characteristics of enterprise
search tools, how they work, how to evaluate them in an acquisition process and analyzes
examples of commercial solutions. Not only that, but it is also presented some possibilities
of introducing a system like this in the information technology architecture of Banco
Central do Brasil.

Keywords: enterprise search, information retrieval

iii
Sumário

LISTA DE FIGURAS VI

LISTA DE QUADROS VII

CAPÍTULO 1 - INTRODUÇÃO 1

CAPÍTULO 2 - BUSCA ORGANIZACIONAL 3

2.1 CARACTERIZANDO BUSCA ORGANIZACIONAL 4


2.2 PROBLEMAS CHAVES DA ÁREA DE BUSCA ORGANIZACIONAL 8
2.3 CONSIDERAÇÕES PARA A AQUISIÇÃO DE UMA FERRAMENTA 11

CAPÍTULO 3 - FERRAMENTAS ANALISADAS 16

3.1 GOOGLE SEARCH APPLIANCE 16


3.1.1 COMO TRABALHA O GOOGLE SEARCH APPLIANCE 21
3.1.2 CARACTERÍSTICAS DA BUSCA 23
3.1.3 BUSCA EM ESTAÇÕES DE TRABALHO 27
3.2 AUTONOMY 28
3.3 APACHE LUCENE / SOLR 33
3.4 CONSIDERAÇÕES FINAIS 37

CAPÍTULO 4 - BUSCA ORGANIZACIONAL NO BANCO CENTRAL 42

4.1 CENÁRIO ATUAL DOS SISTEMAS DE INFORMAÇÃO 42


4.2 UM SISTEMA DE BUSCA ORGANIZACIONAL PARA O BANCO CENTRAL 45
4.2.1 CENÁRIO 1: ESCOPO DEPARTAMENTAL 46
4.2.2 CENÁRIO 2: ESCOPO AMPLO 48
Aspectos das Ferramentas de Busca Organizacional

4.2.3 CENÁRIO 3: SOFTWARE DE CÓDIGO ABERTO 49


4.2.4 CENÁRIO 4: SOFTWARE DE BUSCA PESSOAL 51
4.3 POSSÍVEIS DIFICULDADES 52

CAPÍTULO 5 - CONCLUSÃO 54

5.1 CONTRIBUIÇÕES DESTE TRABALHO 55


5.2 SUGESTÕES PARA TRABALHOS FUTUROS 55

REFERÊNCIAS BIBLIOGRÁFICAS 57

APÊNDICES 60

v
Aspectos das Ferramentas de Busca Organizacional

Lista de Figuras

FIGURA 2.1: CLASSIFICAÇÃO DOS USUÁRIOS DE FERRAMENTAS DE BUSCA [7]. ................... 12


FIGURA 2.2: O QUADRANTE MÁGICO PARA A TECNOLOGIA DE ACESSO À INFORMAÇÃO,
2005 [9]................................................................................................................... 15
FIGURA 3.1: MODELO GB-1001 DO GOOGLE SEARCH APPLIANCE..................................... 17
FIGURA 3.2: MODELO GB-5005 DO GOOGLE SEARCH APPLIANCE..................................... 17
FIGURA 3.3: MODELO GB-8008 DO GOOGLE SEARCH APPLIANCE..................................... 18
FIGURA 3.4: EXEMPLO DA CONFIGURAÇÃO ADMINISTRATIVA DO GOOGLE SEARCH
APPLIANCE. ............................................................................................................. 19
FIGURA 3.5: EXEMPLO DA CONFIGURAÇÃO DO LEIAUTE DA PÁGINA DE RESULTADOS. ........ 20
FIGURA 3.6: EXEMPLO DA CONFIGURAÇÃO DO CRAWLER DO GOOGLE SEARCH APPLIANCE. 22
FIGURA 3.7: EXEMPLO DE UMA PÁGINA DE RESULTADOS DO GOOGLE SEARCH APPLIANCE. 24
FIGURA 3.8: EXEMPLO DE RELATÓRIOS ADMINISTRATIVOS: NÚMERO DE BUSCAS POR DIA,
MÉDIA DE CONSULTAS POR HORA E AS 100 PALAVRAS MAIS PESQUISADAS.................. 26

FIGURA 3.9: EXEMPLO DA INTERFACE DE BUSCA RÁPIDA DO GOOGLE DESKTOP. ............... 27


FIGURA 3.10: ARQUITETURA DA PLATAFORMA DE BUSCA DA AUTONOMY [12]. ................. 29
FIGURA 3.11: ARQUITETURA DO APACHE SOLR [18]. ........................................................ 35
FIGURA 3.12: INTERFACE DE ADMINISTRAÇÃO DO SOLR [18]............................................. 36
FIGURA 4.1: INTERFACE DE BUSCA DO PORTAL INTRANET DO BANCO CENTRAL. ................ 44
FIGURA 4.2: CLASSIFICAÇÃO DOS FUNCIONÁRIOS DO BANCO CENTRAL EM RELAÇÃO AOS
USUÁRIOS PROPOSTOS POR SONDEREGGER [7]. .......................................................... 46

vi
Aspectos das Ferramentas de Busca Organizacional

Lista de Quadros

QUADRO 3.1: COMPARAÇÃO ENTRE AS CARACTERÍSTICAS DAS FERRAMENTAS DE BUSCA


ORGANIZACIONAL. ___________________________________________________ 37
QUADRO 3.2: TEMPO MÉDIO ESTIMADO DAS CINCO PRINCIPAIS TAREFAS DE IMPLANTAÇÃO DE
UM SISTEMA DE BUSCAS [4]. ____________________________________________ 38
QUADRO 3.3: ORDEM DE VALORES DAS LICENÇAS DOS SISTEMAS DE BUSCA POR CATEGORIA
[4]. _______________________________________________________________ 40

vii
Capítulo 1 - Introdução

A informação é o maior bem das organizações de hoje. Ela se tornou a nova moeda
do reino, passada de lá para cá entre comprador e vendedor na forma de transações
eletrônicas, entre funcionários na forma de mensagens de correio eletrônico, entre sistemas
de saúde e seus pacientes e entre órgãos do governo e os cidadãos. A partir do momento
que não é possível saber quais informações serão úteis amanhã, no próximo ano, ou na
próxima década, armazena-se tudo, em computadores pessoais, em datawarehouses, em
sistemas de gerenciamento de conteúdo e nas nossas mentes. Há repositórios de
informações em todos os lugares, e não saber o que a organização possui tem se tornado a
maior barreira das grandes instituições para conduzirem os negócios, manterem os clientes,
evitarem riscos e manterem a saúde de suas finanças.

Encontrar a informação correta ou mesmo um documento criado em coleções de


milhões de documentos tornou-se uma das tarefas mais árduas e angustiantes.

Nos últimos anos, uma nova categoria de software invadiu o mercado de aplicações
corporativas com a promessa de fornecer às empresas ferramentas de busca que realizam
consultas nos mais diferentes tipos de repositórios de dados e apresentam para o usuário a
resposta mais relevante. Tais ferramentas são classificadas internacionalmente como
soluções de enterprise search, e neste trabalho serão denominadas de soluções de busca
organizacional.

Acredita-se que os sistemas de busca organizacional podem alterar


fundamentalmente o modo como as organizações acessam, integram e analisam suas
múltiplas coleções de conteúdo e dados de forma que tenham uma visão unificada de tudo.

O Banco Central, como grande produtor e consumidor de informações eletrônicas,


precisa estar atento às tecnologias que possam agregar valor às suas decisões e que
permitam diminuir o tempo utilizado na procura de dados espalhados em seus repositórios.
Aspectos das Ferramentas de Busca Organizacional

O presente trabalho visa discutir o que são as ferramentas de busca organizacional,


entender como elas podem mudar o conceito de busca, como funcionam e como avaliá-las
em um processo de aquisição.

Em um segundo momento, é feita a análise das características de duas ferramentas


comerciais e de um projeto de buscas de código aberto, mostrando suas potencialidades e
seus pontos fracos com o objetivo de guiar um futuro projeto de aquisição dentro do Banco
Central do Brasil. Este levantamento de funcionalidades baseou-se exclusivamente em
informações obtidas nos sítios dos fornecedores e de institutos especializados em avaliação
de produtos. A utilização de laboratórios para essa avaliação mostrou-se inviável devido ao
tamanho e à complexidade de algumas soluções.

Por fim, são colocadas as possibilidades de implantação de um sistema desses na


estrutura de sistemas de informação do Banco Central a partir da apresentação de quatro
diferentes cenários, apontando vantagens e desvantagens de cada abordagem.

Além desta introdução, esta monografia conta com mais quatro capítulos, como se
segue:

Capítulo 2 – Busca organizacional – Esse capítulo apresenta a definição e detalha


os principais conceitos sobre busca organizacional.

Capítulo 3 – Ferramentas analisadas – Nesse capítulo, serão apresentadas três


ferramentas de categorias diferentes disponíveis no mercado para solucionar problemas de
busca organizacional, bem como, a análise do funcionamento dessas ferramentas.

Capítulo 4 – Busca organizacional no Banco Central – Esse capítulo apresenta


as possibilidades e dificuldades de implantação de uma solução de busca organizacional no
Banco Central do Brasil.

Capítulo 5 – Conclusão – Esse capítulo conclui a monografia com um breve


resumo das principais contribuições, apontando algumas limitações, além das
possibilidades de trabalhos futuros.

2
Capítulo 2 - Busca Organizacional

O termo “busca organizacional” ainda não é uma expressão, em português,


difundida por pesquisadores e empresas de tecnologia de computação, haja vista, o baixo
número de documentos retornados com esta expressão no sítio de buscas Google.com, e
mesmo esses não tratavam da tecnologia de busca computacional. Já os pesquisadores e
empresas estrangeiros utilizam o termo “enterprise search” de forma bem natural e como
forma de diferenciar tal tecnologia das chamadas “search engine” e “web search”, cujos
termos se referem, na maioria das vezes, aos mecanismos de sítios especializados em busca
de páginas na Internet. Assim, o termo “busca organizacional” será utilizado neste trabalho
como tradução da expressão em inglês “enterprise search”.

Atualmente, a área de recuperação de informação é confrontada com um desafio de


grandes dimensões – como apresentar buscas efetivas em espaços de informação
complexos dentro das organizações. Superar este desafio é o objetivo das soluções de
busca organizacional.

O termo busca organizacional pode incluir, no âmbito de uma empresa ou


instituição:

• a recuperação de conteúdo em formato textual através de busca;

• as buscas no sítio Web da organização;

• as buscas nos sítios Web internos (na Intranet); e

• as buscas em textos eletrônicos mantidos pela organização na forma de


mensagens de correio eletrônico, registros de banco de dados, documentos em
servidores de arquivos ou o que for semelhante.

Existem grandes diferenças entre busca organizacional e busca na Internet [1]. A


primeira delas refere-se à noção que um usuário tem de um bom resultado da busca. Na
Aspectos das Ferramentas de Busca Organizacional

Internet, o usuário freqüentemente está procurando o melhor documento ou aquele mais


relevante. Em uma Intranet, o usuário está procurando a resposta exata para uma consulta.
Ele pode conhecer ou ter visto um determinado documento e o está procurando. A resposta
certa para uma consulta na Intranet não necessariamente é o documento mais popular como
ocorre nas buscas na Internet.

Uma segunda diferença entre as buscas na Intranet de uma organização e na


Internet está nas diferentes motivações para criar conteúdo. O conteúdo na Internet reflete
a voz de muitos autores com liberdade de publicação que objetivam atrair e prender a
atenção de um determinado grupo de usuários. O conteúdo numa Intranet é criado para
disseminar informações institucionais ou como produto do trabalho diário dos funcionários
de uma organização. Não há incentivo para criação de conteúdo e pode ser que nem todos
os usuários tenham permissão de publicar seus conhecimentos.

A estrutura de ligações (apontamentos) como os “hiperlinks”, tão comuns em


conteúdos na Internet não são utilizados na maioria dos documentos publicados em uma
Intranet. Desse modo, algoritmos de cálculo de relevância, como o PageRank [2] utilizado
no sítio Google.com, que utilizam fortemente os “hiperlinks” no seu cálculo, têm baixa
efetividade nas buscas na Intranet.

A complexidade das informações das empresas, além de restringir o número de


produtos comerciais aplicáveis e aumentar o custo de implantação, torna difícil medir a
qualidade dos resultados obtidos pelas buscas e frustra os que tentam atingir o nível de
efetividade dos mecanismos de busca da Internet como o Google.com.

2.1 Caracterizando busca organizacional


No trabalho de Abrol et al. [3], foi proposto o que eles denominaram de “portal de
negócios” como a solução para os problemas da busca organizacional e os seguintes
requisitos deviam ser atendidos:

4
Aspectos das Ferramentas de Busca Organizacional

1. A necessidade de acessar informações em diversos repositórios incluindo sistemas


de arquivos, servidores Web, Lotus Notes, Microsoft Exchange, sistemas de
gerenciamento de conteúdo, bem como de bancos de dados relacionais;

2. A necessidade de respeitar direitos de acesso granulares, tipicamente no nível de


documento. Assim, dois usuários emitindo a mesma requisição de busca podem ver
diferentes conjuntos de documentos devido às diferenças dos seus privilégios;

3. A necessidade de indexar e realizar buscas em uma grande variedade de tipos


(formatos) de documentos, tais como, arquivos PDF, Microsoft Word ou
Powerpoint, e em idiomas diferentes; e

4. A necessidade de combinar informações estruturadas e não-estruturadas no


resultado de uma busca.

Entretanto, as características citadas acima não representam toda a complexidade da


situação. Por exemplo, a qualidade do resultado de uma busca não foi tratada
adequadamente.

A meta principal dos sistemas de recuperação de informação organizacional é


responder a uma solicitação do usuário pesquisando em todos os documentos que
possivelmente possam conter uma resposta útil e para os quais o mesmo tenha autorização
de leitura. Além disso, os resultados da busca devem estar em um formato e em uma ordem
que seja a de maior utilidade para o usuário do sistema. O que isso significa, na prática,
depende muito mais da natureza da organização, da identidade do usuário e das
características da tarefa para a qual os resultados da busca irão contribuir.

A diversidade de fontes de dados para a pesquisa é uma característica desejável das


ferramentas de busca organizacional, do mesmo modo que ocorre com os sítios de busca
da Internet. Também, não é esperado que os resultados de uma busca contenham dezenas
de links para o mesmo sítio Web, para o mesmo documento ou para a mesma conversação
de correio eletrônico.

Para Arnold [4], os componentes básicos de uma solução de busca organizacional


compreendem módulos que executem as funções de aquisição de conteúdo, indexação,

5
Aspectos das Ferramentas de Busca Organizacional

processamento de consultas e a formatação dos resultados.

O módulo de aquisição de conteúdo é responsável por percorrer diretórios e sítios


Web, extrair conteúdo de bancos de dados ou receber esses dados de forma periódica.

A função de indexação consiste em criar um índice de alto desempenho de todo o


conteúdo abrangido pelo sistema de buscas.

O processamento de consultas pode ter suas funções divididas nas seguintes tarefas:
análise sintática, que recebe as consultas de busca e as codifica no melhor formato para o
sistema; emparceiramento, que percorre a consulta pelo índice e procura os documentos
que atendem os critérios da busca; e um processamento posterior, responsável por ordenar
os documentos baseados, por exemplo, na relevância.

Para Andrews e Knox [5], devem ser funções básicas de uma solução de busca
organizacional:

• permitir busca simples por palavra-chave;

• permitir uma busca nos resultados da busca inicial;

• prover interfaces diferentes para buscas básicas e avançadas;

• enfatizar os termos buscados nos resultados apresentados;

• permitir buscas com caráter curinga;

• opção para o usuário escolher quais repositórios ou coleções ele quer


pesquisar;

• permitir buscas utilizando frases;

• informar de qual repositório o documento retornado pertence;

• ordenação automática dos resultados de acordo com a relevância dos


documentos;

• ordenação dos resultados por data de criação ou alteração, pelo repositório a


que pertence ou pelo nome do autor do documento;

6
Aspectos das Ferramentas de Busca Organizacional

• indicar o URL do documento e seu tamanho;

• apresentar o resultado da busca no formato XML;

• permitir buscas com operadores booleanos;

• realizar a indexação de arquivos comumente utilizados, como HTML,


arquivos do Microsoft Office e no formato PDF;

• ter capacidade de pesquisar diferenciando letras maiúsculas de minúsculas;

• possibilitar a adequação da página de resultados de acordo com os padrões


de apresentação da organização;

• gerar relatórios dos termos mais pesquisados pelos usuários; e

• coletar a satisfação dos usuários com os resultados da busca.

É possível ainda que outras funções adicionais sejam requeridas pela organização,
mas não representam funções obrigatórias das ferramentas de busca. São elas:

• armazenar uma busca para utilização futura;

• alertar os usuários através de e-mail com novos documentos que atendem a


uma busca realizada anteriormente;

• realizar buscas em campos específicos, como título, o URL ou metatags;

• apresentar ao usuário as opções de resultado com o plural ou o singular de


uma palavra pesquisada; e

• gerar relatórios com o número de hits e a relevância dos resultados.

A busca federada é outra característica avançada de alguns sistemas de busca.


Entende-se por busca federada aquela em que cada aplicação possui sua ferramenta de
busca própria, mas os usuários inserem suas consultas em um software de busca principal e
este aciona as diversas ferramentas de busca dos aplicativos. Os resultados são agrupados e
apresentados em uma lista única. Há desvantagens para essa abordagem, entre elas está a
de que o desenvolvimento e a manutenção de ferramentas de busca embutidas em

7
Aspectos das Ferramentas de Busca Organizacional

aplicativos costumam consumir bastantes recursos humanos e computacionais [6].

2.2 Problemas chaves da área de busca organizacional


A seguir, é colocada uma lista, que não pretende ser completa, de problemas chaves
a serem enfrentados pelos fabricantes de ferramentas de busca organizacional e pelos que
pretendem implantar tais sistemas:

I – Definição de uma coleção de testes apropriados às ferramentas de busca;

II – Critérios de relevância dos resultados da busca;

III – Construção de um portal de buscas corporativo;

IV – Busca efetiva em conversações por correio eletrônico;

V – Estimar a importância de documentos que não são parte da Intranet;

VI – Utilização de contexto nas buscas; e

VII – Buscas em mídias não textuais.

I – Definição de uma coleção de testes apropriados às ferramentas de busca.

O desenvolvimento de uma coleção de testes para as ferramentas de busca serve


como um benchmark para que os algoritmos possam ser ajustados e melhorados e para
permitir a comparação entre diferentes produtos. Verificar os logs de consultas realizadas
em sistemas de busca já existentes na organização pode não ser produtivo, porque as falhas
nas buscas rapidamente desencorajam os usuários de tentar utilizar o sistema que não é
capaz de atender suas necessidades.

Para dar suporte à análise dos problemas II, IV e V, uma coleção de testes deve
incluir uma combinação real de diferentes tipos de dados e de um número variado de
empresas. A informação contida nos testes deve ser naturalmente inter-relacionada e deve
ser possível obter informação real sobre os dados.

8
Aspectos das Ferramentas de Busca Organizacional

Para eliminar dificuldades como a necessidade de implementar adaptadores ou


filtros para uma variedade de sistemas de gerenciamento de bancos de dados,
processadores de texto, planilhas ou sistemas de gerenciamento de conteúdo, deve-se
considerar a conversão dos formatos proprietários para documentos no formato XML, de
modo que preserve a estrutura exata do documento e seus inter-relacionamentos.

II – Critérios de relevância dos resultados da busca.

A forma mais apropriada de apresentar os resultados de uma busca é através de uma


lista ordenada pelos documentos mais relevantes. Estabelecer os critérios de relevância
para os diferentes tipos de documentos é o desafio a ser enfrentado. Os documentos
geralmente diferem: no tipo de estrutura (por exemplo, os campos dos registros de um
banco de dados), nos tamanhos (um banco de dados pode conter registros de tamanho
constante, enquanto documentos de um processador de textos variam consideravelmente de
tamanho), na presença de links que indicam o relacionamento entre um documento e outro
(por exemplo, os sítios Web), na presença de conteúdos repetidos (como os elementos de
navegação nos documentos Web), e no modo em que a linguagem é usada (as funções em
uma planilha eletrônica usam certas palavras com um significado próprio). O uso de
funções de cálculo de relevância projetadas para um tipo de documento provoca resultados
tendenciosos para aquele tipo. Encontrar a função mais adequada para os dados que possui
é um dos desafios das empresas que procuram por sistemas de busca.

III – Construção de um portal de buscas corporativo.

A criação de um portal com um serviço de buscas que inclua todas as fontes de


informação pode ser bastante útil para os serviços executados pelos funcionários das
empresas. Essas fontes, na medida do possível, devem incluir arquivos privados do disco
rígido local, documentos departamentais, informações corporativas e fontes externas.

Um dos grandes benefícios de criar hiperlinks utilizando textos âncora (anchor text)
é a conseqüente habilidade de recuperar documentos que não são internos à organização

9
Aspectos das Ferramentas de Busca Organizacional

sem indexá-los, usando apenas as descrições fornecidas pelos textos âncora.

IV – Busca efetiva em conversações por correio eletrônico.

Um problema atual ainda não bem resolvido são as técnicas para recuperar de
dentro de um repositório de mensagens eletrônicas, as linhas de conversação das
mensagens trocadas entre os funcionários e entre eles e o ambiente externo. Uma única
mensagem de e-mail pode não ser um bom resultado de busca, tornando difícil o
entendimento do contexto sem a totalidade da conversação. A identificação de quais
mensagens constituem uma conversação é complicada a partir do momento em que o
campo Assunto evolui nas respostas e nos encaminhamentos podendo até ser alterado.

V – Estimar a importância de documentos que não são parte da Intranet.

Os mecanismos de busca da Internet popularizaram um paradigma no qual a


relevância dos resultados leva em conta, além do texto pesquisado, as evidências da busca
no URL, nos hiperlinks e nos textos âncora. Este paradigma pode não ser tão efetivo nas
buscas feitas dentro das organizações porque, em geral, tais evidências não estão
explicitamente disponíveis em compartilhamentos de arquivos, em bancos de dados e em
mensagens de correio eletrônico.

VI – Utilização de contexto nas buscas.

Muitas consultas em sites de busca da Internet podem ter o resultado melhorado


com a adição de uma pequena quantidade de informação sobre o contexto na qual a busca
foi iniciada.

Um grande número de fatores podem prover informação para que os resultados das
buscas sejam melhor apresentados de acordo com sua relevância, como por exemplo: a
localização geográfica, perfis do usuário (idade, língua, interesses), histórico de pesquisas
recentes e a natureza da tarefa sendo executada. Uma questão chave relativa às buscas está

10
Aspectos das Ferramentas de Busca Organizacional

em extrair e representar os aspectos do contexto da consulta que trarão um diferencial


qualitativo nos resultados, sem onerar o tempo de processamento da mesma.

VII – Buscas em mídias não textuais.

Muitas organizações possuem repositórios de dados multimídia, como gravações de


áudio e vídeo em formato digital. Já existem tecnologias que permitem criar hiperlinks
para esse tipo de dado da mesma forma como ocorre hoje nas páginas estáticas da Web, o
que permitirá que buscas possam ser realizadas também neste tipo de mídia.

2.3 Considerações para a aquisição de uma ferramenta


O Instituto Forrester Research, especializado em pesquisa de tendências e de
mercados na área de tecnologia da informação, entende que as empresas podem escolher a
ferramenta de busca organizacional mais adequada a partir de um estudo aprofundado dos
usuários que irão utilizar a tecnologia e dos conteúdos a serem indexados [7].

Esse mesmo instituto classifica de forma bem didática os usuários de acordo com
dois critérios: o grau de conhecimento que possuem sobre um determinado assunto e a
habilidade em realizar buscas. Dessa forma, os usuários podem ser distribuídos em um
gráfico conforme a Figura 2.1.

Os usuários comuns da Figura 2.1, ao tratar de buscas, apresentam as seguintes


características: fazem consultas de uma ou no máximo duas palavras; não estão
acostumados com os jargões de busca; desconhecem a utilidade dos operadores booleanos;
e para identificar conteúdos relevantes precisam de resultados detalhados.

Os usuários especialistas em uma área de conhecimento costumam usar jargões


próprios nas consultas, não gastam muito tempo aprendendo a linguagem do software de
busca e podem identificar resultados relevantes mesmo que suas descrições sejam pobres.

11
Aspectos das Ferramentas de Busca Organizacional

Alto

Especialistas por Consultores


área do analíticos
conhecimento

Grau de
conhecimento
de um assunto

Usuários comuns Especialistas em


pesquisa

Baixo

Baixo Habilidade Alto


com buscas

Figura 2.1: Classificação dos usuários de ferramentas de busca [7].

Os especialistas em pesquisa da Figura 2.1 englobam, em sua maioria,


bibliotecários e arquivistas acostumados com ferramentas de busca. Sabem como utilizar
linguagens de busca complexas e precisam de resultados adequadamente ordenados e com
descrições longas.

Os consultores analíticos agregam aqueles que dominam tanto o jargão técnico dos
especialistas por área quanto as linguagens de consulta dos programas. Estão em busca do
conhecimento profundo e máximo de suas análises e para tanto precisam achar todos os
resultados relevantes para uma pergunta.

O Gartner, outro instituto também dedicado ao estudo do mercado de tecnologia,


recomenda que as seguintes questões sejam levadas em conta quando um processo de
escolha de uma ferramenta de busca organizacional está tendo início [8]:

I – A organização deseja ou aceita um modelo de provedor de serviço de aplicação


para o serviço de busca?

12
Aspectos das Ferramentas de Busca Organizacional

II – A organização deseja ou aceita um modelo de ferramenta de busca do tipo


“appliance”, isto é, caixa fechada que inclui hardware e software com objetivo específico?

III – O fornecedor atenderá um projeto piloto simples ou somente um projeto que


englobe toda a organização?

IV – Quais repositórios de dados serão pesquisados? A ferramenta de busca fará


chamadas a aplicações ou simplesmente pesquisará um índice?

V – Qual será o nível de segurança necessário, e quais serão os meios de


autenticação que serão utilizados?

VI – Qual será a interface utilizada para a seleção dos resultados? A organização


deseja navegação por categorias?

VII – Qual será a interface utilizada para as consultas? A organização precisará usar
um formato de perguntas em linguagem natural, ou utilizará o formato familiar de palavra-
chave?

Para Delgado et.al [6] os programas de busca organizacional já estão em sua


terceira geração. Em uma primeira geração, tais programas estavam limitados em sua
maioria a realizar buscas em uma única fonte de dados. A segunda geração de ferramentas
de busca organizacional se propunha a realizar buscas universais, inclusive realizando
consultas a bancos de dados e a sistemas ERP (enterprise resource planning), por
exemplo. Além de resolver os problemas de busca tradicionais, as ferramentas de terceira
geração devem, segundo os autores, ser utilizadas para integração de informações, gestão
do conhecimento e colaboração, atendimento a obrigações legais e gestão de registros.

Com relação ao mercado de fornecedores de ferramentas de busca organizacional, o


Gartner em 2005 decidiu mudar o nome dessa categoria de sistemas de “enterprise search”
para “information access technology” [9]. A razão para esta mudança de enfoque, segundo
o Gartner, é que a maioria dos vendedores de soluções de busca inclui outras tecnologias
como: a classificação, categorização e agrupamento de conteúdo; a extração de fato e
entidade; a criação e o gerenciamento de taxonomia; a apresentação da informação
diferenciada (por exemplo, a visualização para dar suporte à análise); e a busca pessoal

13
Aspectos das Ferramentas de Busca Organizacional

(desktop search) indicada para os repositórios controlados pelo usuário.

Ainda afirma o Gartner: “Nós mudamos o nome porque os problemas solucionados


pela tecnologia de acesso à informação se estendem muito além das soluções de busca por
palavra-chave. Mais e mais, os usuários finais assumem que a experiência do Google.com
pode ser traduzida dentro das organizações [...] A realidade é que achar a informação e
agir sobre ela de forma inteligente demandam estratégias mais sofisticadas e inovadoras.
[...] Como resultado, a mudança na terminologia veio dar suporte a esta realidade.” [9].

O Gartner não inclui neste mercado os fornecedores de aplicações de


gerenciamento de informação, como gerenciadores de documentos, gerenciadores de
conteúdo Web ou sistemas de gerenciamento de banco de dados (SGBD).

O Gartner distribuiu os fornecedores de tecnologia de acesso à informação em


quatro grupos, como mostrado na Figura 2.2, também conhecida como quadrante mágico:
o dos líderes (leaders), o dos desafiadores (challengers), o dos visionários (visionaries) e o
dos que atuam em nichos de mercado (niche players).

Entre os líderes estão empresas que têm apresentado arquiteturas flexíveis. Seus
produtos têm amplos meios de determinar a relevância dos resultados para os usuários e
provêem os desenvolvedores da flexibilidade em ajustar as configurações de relevância.

As empresas no quadrante dos desafiadores possuem recursos suficientes para,


efetivamente, penetrar no mercado de tecnologia de acesso à informação.

No quadrante dos visionários, estão as empresas que, apesar de possuírem


abordagens inteligentes para a tecnologia, não possuem recursos para provar sua liderança
e garantir força no futuro.

14
Aspectos das Ferramentas de Busca Organizacional

Figura 2.2: O Quadrante Mágico para a Tecnologia de Acesso à Informação, 2005 [9].

As empresas que atuam em nichos possuem atributos que satisfazem categorias de


projetos particulares.

O Gartner em 2005, não detectou nenhum projeto open source em andamento que
pudesse servir como alternativa aos produtos dos fabricantes aqui abordados.

15
Capítulo 3 - Ferramentas Analisadas

Dois critérios foram utilizados para a escolha de quais ferramentas seriam


analisadas neste trabalho.

Primeiro, dadas três categorias de fabricantes de sistemas de busca organizacional –


appliances1 de busca, grandes plataformas de busca e software de busca de código aberto –
procurou-se analisar pelo menos um produto de cada categoria.

A seguir, procurou-se os produtos com a maior disponibilidade de informações,


principalmente na Internet, sobre suas características técnicas e de usabilidade.

A partir desses critérios chegou-se às três ferramentas analisadas neste trabalho: o


Google Search Appliance da Google, o IDOL Server junto com seus módulos da
Autonomy e o Apache Solr da The Apache Software Foundation.

No Apêndice B, são listadas outras ferramentas de busca organizacional divididas


em categorias e que não fizeram parte do escopo de análise deste trabalho.

3.1 Google Search Appliance


Conforme anuncia o fabricante em sua página sobre o produto: ”O Google Search
Appliance é um produto de hardware e software projetado para oferecer às grandes
empresas um aumento de produtividade com o poder do mecanismo de buscas Google”.
Disponível em (http://www.google.com/enterprise/index.html).

O Google Search Appliance é vendido como uma licença de dois anos, que inclui o
hardware, o software, as atualizações do produto e o suporte. O valor da licença é
calculado de acordo com o número de documentos indexados.

1
Appliances são equipamentos que integram hardware e software em uma única solução, não
permitindo o seu desmembramento. Este termo será utilizado em todo o trabalho.
Aspectos das Ferramentas de Busca Organizacional

Existem basicamente três modelos do produto:

• GB-1001 – um equipamento para montagem em rack e que ocupa um espaço de


2U, pode ser licenciado para pesquisar até 1,5 milhões de documentos e aceita até
300 consultas por minuto (Figura 3.1 obtida de
http://www.google.com/enterprise/gsa/product_models.html).

Figura 3.1: Modelo GB-1001 do Google Search Appliance.

• GB-5005 – um cluster de cinco pequenos servidores que podem indexar até 5


milhões de documentos e também pode processar até 300 consultas por minuto
(Figura 3.2 obtida de
http://www.google.com/enterprise/gsa/product_models.html).

Figura 3.2: Modelo GB-5005 do Google Search Appliance.

• GB-8008 – é um conjunto de servidores de rack de 8U de tamanho, com sistema


de segurança durante o processo de indexação e características adicionais de
balanceamento de carga. Pode pesquisar até 15 milhões de documentos e aceita
até 1000 consultas por minuto (Figura 3.3 obtida de
http://www.google.com/enterprise/gsa/product_models.html).

17
Aspectos das Ferramentas de Busca Organizacional

Figura 3.3: Modelo GB-8008 do Google Search Appliance.

O software utilizado é uma versão criada a partir do mecanismo de busca da


Internet Google.com, e roda sobre uma versão própria do sistema operacional Linux,
ajustada para ser um servidor de buscas sem o overhead de outras aplicações.

A administração do sistema é feita a partir de uma interface Web. O administrador é


notificado por e-mail caso algum problema ocorra no sistema. É possível monitorá-lo,
também, usando o padrão SNMP de gerenciamento. Podem ser criados vários perfis
administrativos do sistema que monitoram especificamente, por exemplo, a indexação e o
serviço de consulta, permitindo a administração do ambiente por várias pessoas. A Figura
3.4, obtida de http://www.anandtech.com/IT/showdoc.aspx?i=2523&p=1, apresenta um
exemplo da página de configuração administrativa do Google Search Appliance.

O índice de busca pode ser segmentado para mostrar resultados diferentes para
diversos usuários, utilizando-se contextos como o nome de domínio, a localização
geográfica ou a função gerencial do usuário.

A configuração do sistema pode ainda levar em conta o uso de filtros que


restringem as buscas a uma língua específica ou a certos tipos de arquivos. Os filtros
podem agir também sobre sítios Web e metatags. É possível definir sinônimos para siglas
específicas da organização ou terminologias que servirão como sugestões alternativas de
consultas.

18
Aspectos das Ferramentas de Busca Organizacional

Figura 3.4: Exemplo da configuração administrativa do Google Search Appliance.

Os administradores podem incrementar os resultados das buscas recomendando


documentos que eles definam como mais apropriados para determinadas consultas. O
Google chama isso de KeyMatch e provê uma interface para a entrada ou importação de
listas de consultas, URL e nomes recomendados.

O leiaute das páginas de resultado das consultas pode ser configurado utilizando
folhas de estilo XSLT. Assim, é possível prover diferentes formatos em diferentes áreas do
sítio da organização. A Figura 3.5, obtida de
http://www.anandtech.com/IT/showdoc.aspx?i=2523&p=1, apresenta um exemplo dessa
configuração.

19
Aspectos das Ferramentas de Busca Organizacional

Figura 3.5: Exemplo da configuração do leiaute da página de resultados.

O processo de rastreamento e indexação dos documentos chamado de crawling


pode ser analisado para identificar problemas nos servidores e erros nas fontes dos
conteúdos.

O sistema operacional dá suporte à tecnologia RAID de tolerância a falhas de disco.


É possível contratar o diagnóstico de manutenção feito pelo suporte remoto da Google.

O Google Search Appliance pode trabalhar com vários tipos de sistema de


segurança. Ele pode armazenar nomes de usuário e senhas fazendo uma autenticação
básica ou pode trabalhar com certificados digitais de usuários, permitindo a busca segura
de informações protegidas. Quando realizando buscas em material restrito, o produto

20
Aspectos das Ferramentas de Busca Organizacional

verifica se o usuário tem permissão para acessar os documentos. Isso significa que cada
documento é verificado antes de ser apresentado, assim não há problema de sincronização
do controle de acesso.

3.1.1 Como trabalha o Google Search Appliance

Para localizar os arquivos para indexação, o Google Search Appliance usa um


sistema robô da mesma forma como no sítio de buscas público. Ele inicia o rastreamento
em uma página e segue cada link colocado na página para localizar outras páginas ou
outros documentos. Com a interface de administração é possível informar quais URL e
quais servidores Web o robô tem permissão para acessar. A Figura 3.6, obtida de
http://www.anandtech.com/IT/showdoc.aspx?i=2523&p=1, apresenta um exemplo de parte
da configuração do crawler do produto.

Para que documentos em servidores de arquivos sejam indexados é preciso que


neles esteja instalado o servidor Web Microsoft IIS e que se habilite a função directory
browsing no servidor.

Com a experiência obtida com o sítio de buscas público, o robô da Google faz um
bom trabalho ao seguir links e recuperar documentos. É possível agendar os dias da
semana, horário e o máximo de tempo permitido para indexar cada repositório.

Para cada domínio ou servidor, pode-se configurar o número máximo de conexões


concorrentes (evitando a sobrecarga dos servidores), bem como, servidores proxy
utilizando cabeçalhos HTTP request e response configurados adequadamente. O sistema é
otimizado para atingir o menor tempo de rastreamento possível, e dar prioridade às
consultas dos usuários.

A indexação tem algumas priorizações inteligentes, assim o robô rastreia as páginas


com alta relevância, utilizando o cálculo de relevâncias denominado PageRank [2], e os
links que elas apontam mais freqüentemente que outras páginas.

21
Aspectos das Ferramentas de Busca Organizacional

Figura 3.6: Exemplo da configuração do crawler do Google Search Appliance.

O acesso do robô aos servidores HTTP pode ser identificado através das marca
“gsa-crawler” presente no cabeçalho HTTP.

O Google Search Appliance pode ler e indexar mais de 220 tipos de arquivos,
incluindo HTML, Microsoft Office, PDF, PostScript e outros tipos curiosos como
WordStar para DOS (http://www.google.com/enterprise/gsa/features.html).

No processo de indexação ele converte todos os outros formatos de arquivos para


HTML e o armazena para uso futuro. Ele irá indexar a partir das cópias em cache até que o
arquivo original seja alterado, o que é mais rápido do que converter o arquivo toda vez que
tiver que indexá-lo. Ele também indexa todos os campos de metadados dos arquivos

22
Aspectos das Ferramentas de Busca Organizacional

HTML, como author, description, keywords e generator.

É possível acessar dados armazenados em bancos de dados relacionais rastreando o


conteúdo diretamente da base de dados. Entre os SGBD que possibilitam esta integração
estão IBM DB2, Microsoft SQLServer, MySQL, Oracle e Sybase.

Através de uma API, pode-se trazer conteúdo não Web para o Google Search
Appliance fazendo a conversão para XML.

Durante e depois da indexação, ele provê um relatório interativo apresentando o


que foi indexado e o que deu erro. É possível ver para um ou mais servidores, as URL, os
erros e os sucessos, mostrando o que aconteceu quando da indexação do sítio.

O Google não faz atualizações incrementais em um índice, assim não há como


corrigir erros de indexação sem iniciar todo o processo novamente. Contudo, é possível
remover URL do índice sem construí-lo novamente. É possível fazer a busca em duas
coleções diferentes: uma coleção principal para documentos que não são alterados
constantemente, e uma coleção incremental para a qual as atualizações são freqüentes,
como as páginas de notícias. A coleção incremental pode ser indexada continuamente,
enquanto o índice da coleção principal é atualizado diária ou semanalmente.

3.1.2 Características da busca


O Google Search Appliance usa regras padrões do Google, tais como pesquisar por
todas as palavras e não diferenciar letras maiúsculas de minúsculas. Ele reconhece o sinal
de menos (-) para excluir palavras indesejadas, mas não permite o operador NOT. Os
usuários podem utilizar aspas para pesquisar frases e o operador booleano OR para
especificar um termo alternativo.

A interface Advanced permite buscas no título da página ou URL e limitar a


pesquisa a domínios específicos, ou a determinados tipos de arquivos. É possível ordenar
por data, bem como pesquisar links para uma página específica. Os usuários mais
experientes podem usar os recursos de pesquisa padrão do sítio de buscas Google como os
operadores inurl:, intitle:, site: e link:.

23
Aspectos das Ferramentas de Busca Organizacional

O Google Search Appliance reconhece mais de 25 línguas, entre elas o Português.


Inclusive, permite limitar a busca a uma determinada língua.

A página de resultados da busca do Google Search Appliance é parecida com a do


mecanismo de busca público, simples e limpa. No cabeçalho da página aparecem o campo
de busca, os termos da busca, o número de documentos encontrados e sugestões
alternativas para o termo procurado.

Cada item do resultado tem o título, a URL, o tamanho e a data do documento, se


disponível. Além disso, um pequeno trecho do documento mostra os termos encontrados
no contexto.

Documentos de um mesmo diretório ou pasta são agrupados para aumentar a


variedade de resultados dentro da página. Documentos que sejam duplicados são
indexados, mas somente um resultado é apresentado. Na Figura 3.7, obtida de
http://www.searchtools.com/tools/google-app.html, tem-se um exemplo de uma página de
resultados do Google Search Appliance.

Figura 3.7: Exemplo de uma página de resultados do Google Search Appliance.

24
Aspectos das Ferramentas de Busca Organizacional

Os resultados da busca são apresentados no formato XML. Assim, uma aplicação


intermediária poderia formatá-los da forma mais adequada aderindo aos padrões de
apresentação da empresa. O leiaute dos resultados é completamente configurável através
da edição do código XLST e o servidor aplicará este leiaute às páginas que forem geradas
pelas consultas.

Para o administrador do sistema, é possível obter informações a respeito das


consultas realizadas pelos usuários, como o número de consultas realizadas por dia, a
média de consultas por hora e a lista das 100 palavras mais pesquisadas (Figura 3.8, obtida
de http://www.stanford.edu/services/websearch/Google/TGIF/april.html).

25
Aspectos das Ferramentas de Busca Organizacional

Figura 3.8: Exemplo de relatórios administrativos: número de buscas por dia, média de
consultas por hora e as 100 palavras mais pesquisadas.

26
Aspectos das Ferramentas de Busca Organizacional

3.1.3 Busca em estações de trabalho


Apesar de não fazer parte da linha de produtos do Google Search Appliance, a
Google possui um poderoso software de busca pessoal para instalação em estações de
trabalho. É o chamado Google Desktop for Enterprise, disponível em
http://desktop.google.com, e é isento de taxa de licenciamento, podendo ser utilizado por
qualquer empresa interessada em prover busca pessoal para os funcionários.

Ele pesquisa o computador do usuário procurando por arquivos locais ou de


compartilhamentos remotos, mensagens de correio eletrônico, histórico do navegador Web,
mensagens instantâneas, imagens, músicas e vídeos.

O Google Desktop pode ser integrado ao sistema de buscas do Google Search


Appliance, dando aos usuários corporativos um ponto único de pesquisa para todos os
recursos. Ele é compatível com a política de grupos do Windows permitindo que os
administradores de rede gerenciem a configuração de indexação do software, de modo a
impedir que os usuários façam configurações que possam ocasionar sobrecargas na rede ou
em servidores de arquivos.

A interface do Google Desktop é semelhante ao do Google Search Appliance,


acrescida de facilidades de usabilidade como o acesso instantâneo ao campo de busca com
a simples digitação de CTRL CTRL (Figura 3.9).

Figura 3.9: Exemplo da interface de busca rápida do Google Desktop.

27
Aspectos das Ferramentas de Busca Organizacional

3.2 Autonomy
A Autonomy é uma das empresas líderes no mercado de programas para busca
organizacional [9], [10]. Os seus aplicativos tentam identificar os padrões que ocorrem
naturalmente em um texto, baseados no uso e na freqüência das palavras ou dos termos que
correspondem a idéias ou conceitos específicos. Baseando-se na preponderância de um
padrão sobre o outro em um apanhado de informações não-estruturadas, é possível utilizar
os recursos computacionais com o objetivo de identificar a probabilidade que um
documento tem de pertencer a um determinado assunto.

Um dos fundamentos teóricos para essa abordagem é a aplicação da teoria


estatística denominada inferência bayesiana [11]. Essa é um tipo de inferência estatística
na qual as evidências e as observações são utilizadas para atualizar ou inferir nova
probabilidade sobre a veracidade de uma hipótese. Como exemplo, na estatística
tradicional, mesmo se uma moeda for lançada cem vezes e o resultado der cara, a chance
de vir coroa no próximo lançamento permanece. Na abordagem bayesiana, os cem
resultados consecutivos com cara evidenciam que ou a moeda é viciada ou talvez tenha
cara dos dois lados.

Outro fundamento utilizado pela Autonomy na construção de seus produtos, vem da


Teoria da Informação de Claude Shannon que provê meios de extrair conceitos eliminando
as redundâncias. Pela teoria, tanto a linguagem falada como a escrita contêm um alto grau
de redundâncias e quanto menos freqüente uma unidade de comunicação (palavras ou
frases) ocorre, mais informação ela conduz [11].

A Autonomy chama de IDOL (Intelligent Data Operating Layer) o software de


infra-estrutura que implementa esses fundamentos teóricos. A Autonomy também licencia
o IDOL para ser utilizado por outras fabricantes em seus aplicativos, como a BEA, a
Sybase e a Computer Associates.

O núcleo da plataforma de busca da Autonomy é o Servidor IDOL. A Figura 3.10


apresenta a arquitetura conceitual dessa plataforma.

28
Aspectos das Ferramentas de Busca Organizacional

Cliente DiSH

Interface DAH Servidor DIH Conectores Repositório


web IDOL de dados

Figura 3.10: Arquitetura da plataforma de busca da Autonomy [12].

O Servidor IDOL provê as seguintes funcionalidades:

• Guia de busca automática – direciona os usuários para os resultados que eles


requerem baseando-se em um entendimento conceitual e de contexto da
consulta. Não utiliza cálculo de relevância para os documentos como o
Google Search Appliance, mas sim, determina o contexto do usuário que faz
a consulta e apresenta os resultados mais apropriados juntamente com outras
sugestões;

• Agrupamento (clustering) – o Servidor IDOL tem a capacidade de agrupar


automaticamente as informações. Esse processo consiste em pegar um
grande repositório de dados não-estruturados e dividi-los em grupos com
informações semelhantes. Cada grupo representa uma área conceito dentro
da base de conhecimento e contém um conjunto de itens com propriedades
comuns;

• Agrupamento dinâmico – os resultados de uma busca são agrupados em


tempo de execução para evitar o excesso de informação e apresentar uma
visão dos diferentes aspectos conceituais nos quais os resultados podem ser
agrupados;

29
Aspectos das Ferramentas de Busca Organizacional

• Hyperlinking – procedimento que permite que links sejam gerados para os


documentos em tempo real. Os links são inseridos automaticamente no
momento em que um documento é recuperado. Os links são criados para
pedaços do conteúdo que na prática podem ser uma sentença, um parágrafo,
uma página de texto, o conteúdo de uma mensagem de correio eletrônico ou
uma informação de contexto derivada de uma gravação de áudio;

• Criação de sumários de informação – o Servidor IDOL realiza três tipos de


sumários: sumários conceituais, sumários de contexto e sumários rápidos
que contém apenas algumas linhas dos documentos a serem apresentados
aos usuários;

• Geração de taxonomia – o IDOL permite criar automaticamente categorias


hierárquicas das informações;

• Classificação dos dados de acordo com as categorias – isso é usado para


identificar quais categorias são mais apropriadas para classificar um
determinado conteúdo;

• Extração de conceitos – descobre os conceitos de um documento com o


objetivo de adicionar tags (identificadores) que melhoram a qualidades dos
resultados da busca;

• Identificação de perfis de usuário – rastreia o conteúdo com que um usuário


interage e identifica um perfil de interesses desse usuário. Esse perfil é
utilizado para apontar informações relevantes, recomendar conteúdo e
alertar os usuários da existência de novos dados;

• Correção ortográfica das palavras e expressões utilizadas na busca;

• Dicionário de sinônimos e de palavras relacionadas;

• Detecção automática de língua;

• Métodos de busca tradicionais, como: por palavra-chave; por operadores


booleanos (AND, NOT, OR, XOR/EOR); por operadores de proximidade

30
Aspectos das Ferramentas de Busca Organizacional

(NEAR, DNEAR, WNEAR, BEFORE, AFTER); por frase exata, como em


“banco central do brasil”; pela raiz das palavras, como na busca por
“finanças” retornar documentos com as palavras “financiamento”,
“financeiro” ou “financista”; busca fonética mesmo quando há erros de
grafia nos termos, com na busca por “ceção” retornar documentos com as
palavras “cessão”, “seção” e “sessão”;

• Métodos de busca conceitual – a partir de uma sentença, um parágrafo ou


uma página de texto, ele é capaz de retornar documentos conceitualmente
relacionados;

• Possibilita a busca federada – permite que a consulta seja realizada em


sistemas de busca de terceiros;

• Reconhecimento automático de nomes próprios; e

• Utilização do padrão XML – indexa nativamente documentos no formato


XML; o formato padrão de apresentação dos resultados da busca ao usuário
é o XML; dá suporte a múltiplos esquemas XML; e pode, automaticamente,
criar tags XML nos conteúdos indexados.

Os Conectores apresentados na Figura 3.10 reúnem o conteúdo de vários


repositórios e o indexam diretamente no Servidor IDOL ou no DIH, quando trabalhando
em um ambiente distribuído. Os Conectores da Autonomy dão suporte a cerca de 200
formatos diferentes de arquivos de dados, entre eles do Microsoft Office, do Microsoft
Project, do tipo Adobe PDF, arquivos gráficos como JPEG e GIF, além de arquivos de
áudio e vídeo como MP3, Windows Media Audio, Apple QuickTime e Windows Media
Video [13].

A indexação de arquivos multimídia, mais especificamente arquivos de áudio e


vídeo, é possível com a utilização de um componente da solução da Autonomy
denominado Autonomy VoiceSuite que faz a transcrição do conteúdo do áudio para texto a
partir de uma tecnologia de reconhecimento da fala [14]. Até o momento não há suporte
desse módulo à língua portuguesa.

31
Aspectos das Ferramentas de Busca Organizacional

Existem ainda Conectores específicos para indexação de dados de sistemas de


gerenciamento de banco de dados, como IBM DB2 e Oracle, de servidores HTTP e FTP,
de servidores de correio eletrônico, como Microsoft Exchange e Lotus Notes, dentre outros
para produtos menos difundidos.

Os módulos DAH (Distibuted Load Handler) e DIH (Distributed Index Handler),


apresentados na Figura 3.10, permitem que o Autonomy funcione em um ambiente
distribuído. O módulo DAH provê a recuperação do sistema de busca em caso de falha e o
balanceamento de carga das requisições. Ele que distribui as buscas dos usuários para os
diversos Servidores IDOL. O módulo DIH permite a distribuição dos índices de
documentos utilizados por um ou mais Servidores IDOL também com o objetivo de
compartilhar e balancear as demandas de busca e manter o sistema em produção no caso de
falha em um dos elementos redundantes.

O módulo denominado DiSH (Distributed Service Handler) da Figura 3.10


possibilita que os administradores do sistema configurem, façam manutenção e controlem
diversos serviços da plataforma Autonomy a partir de uma mesma interface Web.

O subsistema de segurança da plataforma Autonomy denominado IAS (Intellectual


Asset Protection System) garante o acesso seguro e controlado dos usuários aos
documentos através de autenticação e perfil de permissões. Quando um usuário acessa a
interface de entrada do sistema de busca, por exemplo um portal corporativo, sua
identificação é enviada ao Servidor IDOL e o mesmo retorna ao portal os detalhes de
segurança do usuário, que guarda estas informações até o usuário encerrar a sessão.

Toda vez que o usuário insere uma consulta no sistema de buscas, suas permissões
de segurança são anexadas à consulta e enviadas ao Servidor IDOL. Este passa as
credenciais do usuário para as bibliotecas de segurança dos repositórios de dados que
contém documentos que atendem ao critério da busca. As bibliotecas verificam se o
usuário possui permissão de leitura dos documentos e retorna como resultado os
documentos autorizados [15].

32
Aspectos das Ferramentas de Busca Organizacional

As soluções de busca da Autonomy incluem ainda uma ferramenta de busca pessoal


para as estações de trabalho da organização denominada IDOL Enterprise Desktop Search.
Com ela é possível ao usuário realizar buscas em seus arquivos locais e em suas
mensagens de correio pessoais. Uma das características relevantes desse software é a
consulta implícita em que, baseada nas informações que o usuário manipula em sua estação
de trabalho, são gerados automaticamente e de forma dinâmica atalhos para outras
informações relevantes sem que o usuário as solicite. Outra funcionalidade chamada Active
Folders cria pastas, dinamicamente e sem intervenção manual, com documentos
classificados segundo seu contexto. Para isso, utiliza a mesma tecnologia de extração de
conceitos empregada no Servidor IDOL [16].

A função de consulta implícita apresenta ser um recurso de baixa utilidade, uma vez
que cada usuário sabe exatamente quando um trabalho que está sendo desenvolvido
necessita de informações adicionais que precisam ser buscadas. Já as pastas com a função
Active Folder permitem que os arquivos pessoais do usuário sejam melhor classificados em
pastas de acordo com o seu conteúdo. Mas tal facilidade não pode consumir recursos
computacionais da estação de forma a desestimular o seu uso.

O IDOL Enterprise Desktop Search é também uma interface alternativa para a


realização de buscas no Servidor IDOL corporativo, aumentando o escopo que uma
consulta pode abranger.

3.3 Apache Lucene / Solr


O Apache Lucene (http://lucene.apache.org) não representa efetivamente uma
ferramenta de busca organizacional, mas destaca-se entre os projetos open source
dedicados à busca textual. O Apache Lucene é um apanhado de projetos de código aberto
que atacam o desafio da busca.

O principal projeto deste grupo é o Apache Lucene Java. Seus mantenedores o


definem como uma biblioteca, escrita inteiramente em Java, de um mecanismo de busca
textual de alto desempenho [17].

33
Aspectos das Ferramentas de Busca Organizacional

Essa é uma biblioteca de código aberto distribuída sob a licença Apache


(http://www.apache.org/licenses/LICENSE-2.0.html) o que permite o seu uso tanto em
produtos comerciais como em projetos open source.

Dentre as suas características se sobressaem as seguintes:

• Busca os documentos mais relevantes;

• Possui os tipos de consulta tradicionais como: consulta por frase, por caráter
curinga, por proximidade das palavras e por grupo de valores;

• Busca por campo do documento, como autor ou título;

• Busca por período de datas;

• Ordenação dos resultados por qualquer um dos campos;

• Busca em múltiplos índices mesclando os resultados; e

• Permite que as consultas sejam realizadas simultaneamente à atualização do


índice.

O Apache Solr (pronuncia-se Solar), disponível no endereço


http://incubator.apache.org/solr/, é outro subprojeto do Apache Lucene que pretende ser
um servidor de busca organizacional de código aberto alternativo ao software comercial de
alto custo. Até o momento, ele é considerado para a Apache Software Foundation, grupo
mantenedor do projeto, um software “incubado”, isto é, foi introduzido recentemente na
“incubadora” de projetos da Apache a partir de uma doação de código de alguma
organização externa, mas ainda não faz parte da lista de projetos principais.

Isso não significa que ele seja um software que não possa ser aplicado. Há vários
exemplos de sítios na Internet que o utilizam em suas funções de busca, como:

• CNET News - http://news.com.com;

• Shopper.com;

• CNET Channel – http://www.cnetchannel.com;

34
Aspectos das Ferramentas de Busca Organizacional

• CNET Review - http://reviews.cnet.com;

• Search.com;

• Booklooker.de; e

• Nines.org.

Foi exatamente a CNET Networks Inc, empresa especializada em conteúdo para a


Internet, que doou o código de buscas que utilizava em seus sítios para a Apache.

O Solr é um servidor standalone de busca textual baseado nas bibliotecas do


Lucene Java, e cuja arquitetura é representada pela Figura 3.11.

Figura 3.11: Arquitetura do Apache Solr [18].

O Solr trabalha como uma aplicação Web na qual para indexar os documentos é
preciso entrar com os mesmos via HTTP, e as consultas são realizados com comandos
GET do protocolo HTTP. Isso significa que o Solr não faz rastreamento (crawling) de
repositórios de documentos. Os desenvolvedores que o adotarem em suas instalações
precisam criar aplicações Web que informam para o sistema de busca quais documentos
serão indexados e, também, devem criar a interface de consulta para os usuários. O
formato tanto de entrada de documentos para o índice como dos resultados de saída é o
XML. Dessa forma, documentos que não estão no formato XML precisam ser convertidos
antes de serem submetidos à indexação.

35
Aspectos das Ferramentas de Busca Organizacional

O Solr possui uma interface simples de administração do sistema (Figura 3.12) que
permite visualizar informações de configuração, realizar consultas no índice, obter
estatísticas de uso e depurar o sistema.

Figura 3.12: Interface de administração do Solr [18].

Na definição do esquema do Solr são determinados quais são os campos dos


documentos e de que tipo. Apesar disso, pode haver documentos que não tenham valores
para todos os campos.

Para configurar a relevância dos documentos, pode-se acrescentar lista de


sinônimos e lista de stopwords (palavras comuns que não aumentam a relevância, como
artigos, preposições e conjunções).

O Solr se apresenta como uma ferramenta para desenvolvedores interessados em


utilizar seus recursos para criar soluções de busca específicas, como as apresentadas nos
sítios que o utilizam. Para os que pretendem efetivamente usá-lo como ferramenta de busca
organizacional, é preciso aguardar novos avanços no seu desenvolvimento, que, no caso de
software de construção colaborativa como o Solr, dependem de atrair adeptos ao projeto e
de uma maior disseminação em empresas.

36
Aspectos das Ferramentas de Busca Organizacional

3.4 Considerações finais


No Quadro 3.1 a seguir, é apresentada uma comparação de características, que
podem fazer parte de um sistema de busca, entre o Google Search Appliance, a plataforma
da Autonomy e o projeto Apache Solr.

Quadro 3.1: Comparação entre as características das ferramentas de busca organizacional.

Google Search
Autonomy Apache Solr
Appliance
Operadores
Dá suporte. Dá suporte. Dá suporte.
booleanos
Cerca de 200 tipos
Mais de 200 tipos
incluindo PDF, MS
Tipos de dados incluindo HTML, MS
Word, XML, JPEG e
Somente XML.
Word, PDF e XML.
MP3.
Ordenação dos
resultados por Sim. Sim. Sim.
relevância
Sim, com programas
Busca em conteúdo
Não. específicos da Não.
não textual plataforma.
Robô de
Possui. Possui. Não.
rastreamento
Permite mas em
Busca por campo
campos Permite. Permite.
do documento predeterminados.
Linux, mas por ser um
appliance não é
Arquitetura do Windows, Linux e Servidor de aplicações
possível instalar o
sistema operacional Unix. Java.
software em outro tipo
de máquina.
Não possui. Necessita
que uma aplicação
Interface do usuário Navegador web. Navegador web.
passe as consultas e
apresenta os resultados.
Busca em estação
Sim. Sim. Não.
de trabalho.
Dispõe de API Não. Sim. Sim.
Mecanismos de
Sim. Sim. Não.
segurança
Criação de
Não. Sim. Não.
taxonomia
Características mais Simplicidade e carregar Abrangente e Gratuito e código
marcantes a marca Google. complexo. aberto.

37
Aspectos das Ferramentas de Busca Organizacional

O Servidor IDOL da Autonomy e seus módulos acessórios mostraram-se a solução


mais robusta e completa entre as três analisadas. Todavia, sua complexidade pode gerar
ansiedade demasiada nos patrocinadores do projeto dentro da empresa por resultados
imediatos durante a sua implantação. Se esses anseios não se satisfizerem quando da
colocação do sistema em produção, a solução pode cair em descrédito levando ao fracasso
do projeto.

Por outro lado, a simplicidade de instalação e de uso e a rapidez na implantação do


Google Search Appliance trazem resultados imediatos para os usuários, podendo
surpreendê-los pela agilidade, não muito comum na maioria das equipes de tecnologia da
informação das empresas, em implantar novos sistemas.

No que diz respeito à previsão de tempo para implantação de tais sistemas, o


instituto de análise de tecnologias e de mercado CMS Works, em seu The Enterprise
Search Report [4], calculou o tempo médio estimado necessário para realizar as cinco
principais tarefas de implantação de uma ferramenta de busca organizacional em três
diferentes tamanhos de instalação, conforme o Quadro 3.2.

Quadro 3.2: Tempo médio estimado das cinco principais tarefas de implantação de um
sistema de buscas [4].

Instalação
Tarefa
Pequena Média Grande
Instalação do
Menos de 1 dia De 2 a 7 dias De 2 a 6 semanas
software
Indexação de
2 milhões de Não se aplica Não se aplica De 7 a 28 dias
documentos
Ajustes no robô de
rastreamento para
Menos de 1 dia De 5 a 10 dias De 7 a 28 dias
minimizar impactos
na rede
Testes e ajuste do
Menos de 1 dia De 7 a 12 dias De 10 a 60 dias
índice
Ajuste na interface
Não se aplica De 1 a 2 dias 2 dias por interface
do usuário

38
Aspectos das Ferramentas de Busca Organizacional

Foi considerado como instalação pequena aquela que tenha, de início, 100 mil
documentos para indexar, no máximo 5 usuários simultâneos e uma única localidade. Para
instalação média considerou entre 100 mil e 300 mil documentos a serem indexados, até 25
usuários simultâneos e duas localidades de usuários e uma para o sistema de busca. Para
instalação grande foram considerados mais de 500 mil documentos, mais de 50 usuários
simultâneos em diversas localidades, podendo o sistema de busca ser centralizado ou
distribuído.

Conforme alerta o autor dessa estimativa, a quantidade de tempo em cada etapa


varia de acordo com o sistema de busca a ser utilizado e com as particularidades de cada
empresa.

O descontentamento que pode surgir no uso do Google Search Appliance pode ser
gerado pela comparação inevitável que os usuários irão fazer entre os resultados obtidos
internamente com esse produto e os resultados de buscas feitas no sítio Google.com. Como
o segredo do sucesso do mecanismo de buscas na Internet reside no cálculo de relevância
baseado no número de links que apontam uma determinada página, e a maioria das
empresas não possui documentos que apontam uns aos outros, muito provavelmente, as
relevâncias dos documentos pesquisados internamente podem não atender às necessidades
da organização.

Essa, inclusive, é uma das características mais criticadas do Google Search


Appliance, uma vez que não há possibilidade de fazer ajustes no cálculo de relevância dos
documentos, capacidade comum às ferramentas de busca organizacional tradicionais [19].

O Apache Solr coloca-se como uma alternativa aos produtos comerciais por ser um
produto livre do pagamento de licenças. Mas, devido a sua implantação não ser simples
como instalar um software para Windows e ele necessitar de configuração por equipe
especializada em Java, o custo homem/hora envolvido não deve ser descartado.

No levantamento sobre o custo das licenças das soluções de busca, o CMS Works
dividiu os produtos em 4 categorias [4]:

39
Aspectos das Ferramentas de Busca Organizacional

1. Sistemas de código aberto – devem ser instalados e configurados pelo


próprio usuário ou equipe interna de TI. Serviços de suporte são raros;

2. Sistemas de baixo custo – em geral, devem ser instalados por quem compra.
Os serviços de suporte podem não estar disponíveis para contratação;

3. Sistemas de médio custo – oferecem várias funções avançadas como o


agrupamento de resultados (clustering) e o processamento de linguagem
natural. Serviços de suporte podem ser oferecidos pelo fabricante ou por um
integrador; e

4. Sistemas de alto custo – provêem um grande número de funcionalidades e


geralmente possuem unidades profissionais de suporte do próprio
fabricante. Dentre as suas funcionalidades destacam-se: várias opções para
implantar as funções básicas, workflow e opções avançadas de lingüística.

O Quadro 3.3 apresenta a ordem de valores, em dólares americanos, das licenças de


acordo com essas categorias.

Quadro 3.3: Ordem de valores das licenças dos sistemas de busca por categoria [4].

Categoria Preços em dólares (US$)


Sistemas de código aberto Sem taxa de licença
Sistemas de baixo custo De 2 mil a 50 mil
Sistemas de médio custo De 51 mil a 250 mil
Sistemas de alto custo De 250 mil a valores com sete dígitos
Por fim, a escolha de uma entre as várias opções de software de busca
organizacional, como as abordadas neste capítulo, deve levar em consideração, além do
custo do licenciamento e do serviço de suporte, a necessidade que os usuários possuem ao
procurarem por informações em seus repositórios.

Sistemas de busca altamente sofisticados como o Autonomy podem se tornar


subutilizados se as necessidades dos usuários se resumem a encontrar documentos próprios
que estavam esquecidos em servidores de arquivos.

40
Aspectos das Ferramentas de Busca Organizacional

Por outro lado, tentar utilizar sistemas mais simples de busca como se fossem
ferramentas de gestão do conhecimento organizacional ou de mineração de dados textuais
pode não trazer resultados para a empresa.

Da mesma forma, investir em equipes internas para o desenvolvimento e


implantação de um sistema como o Apache Solr pode tornar difícil a mensuração dos
custos do projeto se não houver uma definição de escopo para a ferramenta.

41
Capítulo 4 - Busca Organizacional no Banco Central

Para uma avaliação de como o Banco Central pode aproveitar os benefícios das
ferramentas de busca organizacional, é preciso, primeiramente, apresentar a situação atual
dos principais sistemas de informação utilizados pelo Banco. A partir deste levantamento,
faz-se necessário definir quais as possíveis abordagens de implantação e utilização de um
sistema de buscas.

O objetivo deste capítulo é tratar estas questões, bem como, enumerar as possíveis
dificuldades que podem ser encontradas na implementação de um sistema de busca no
Banco Central.

4.1 Cenário atual dos sistemas de informação


A estrutura de tecnologia da informação no Banco Central do Brasil é bem
abrangente, heterogênea e atinge todos os departamentos pertencentes à instituição.

Os ativos tecnológicos mais importantes para o funcionamento do Banco são:

I. Sistemas transacionais na plataforma Natural e Adabas;

II. Sistemas transacionais desenvolvidos com a tecnologia Java e com suporte


por servidores de aplicações IBM WebSphere;

III. Sistema de datawarehouse em plataforma IBM DB2;

IV. Sistema de correio eletrônico Microsoft Exchange;

V. Sítio na Internet de divulgação institucional e relacionamento com a


sociedade (http://www.bcb.gov.br);

VI. Portal corporativo com os sítios departamentais de acesso interno; e

VII. Servidores de arquivos sem ferramenta de gerenciamento de documentos.


Aspectos das Ferramentas de Busca Organizacional

Além desses citados anteriormente, o Banco possui vários sítios Web isolados
construídos pelos departamentos ou por necessidade de alguma aplicação específica.
Somam-se a isso aplicações que utilizam servidores de banco de dados Microsoft
SQLServer e os vários trabalhos publicados de forma não ordenada em compartilhamentos
de pastas nas estações de trabalho dos funcionários.

Não há, até o momento, nenhuma ferramenta de busca organizacional que dê


suporte a todos os ativos de informação existentes. Há algumas ferramentas de busca em
sistemas isolados como no Portal Intranet, no sítio da Internet e em aplicações que
gerenciam normas e legislações. O processo de busca de documentos em servidores de
arquivos é realizado a partir do aplicativo de busca do próprio Windows das estações de
trabalho, o que, na maioria das vezes, fica impraticável quando se está procurando em
compartilhamentos com milhares de arquivos.

Esses fatos tornam o processo de busca nos repositórios de informações penoso e


praticamente impossível de ser realizado com satisfação e completude.

O Portal Intranet hoje existente possui embutida uma ferramenta de busca da


Verity, empresa adquirida pela Autonomy em 2005. Na Figura 4.1, tem-se uma imagem
com a interface de busca do portal Intranet.

Algumas limitações de projeto e de usabilidade são encontradas na página de


buscas do portal. Dentre elas, destacam-se:

• Os repositórios de dados, chamados na Figura 4.1 por “Locais


disponíveis”, nos quais se permite realizar buscas, são em número reduzido
e não descrevem claramente o conteúdo desses repositórios;

• Não é possível realizar buscas no Portal Internet do Banco agrupando o


resultado com a busca interna;

• Não há instruções de ajuda ao usuário de como realizar a busca e o que pode


ser feito para refinar os resultados; e

43
Aspectos das Ferramentas de Busca Organizacional

Figura 4.1: Interface de busca do portal Intranet do Banco Central.

• Ao apresentar os resultados, não são fornecidas ao usuário facilidades de


ordenação ou agrupamento de conteúdos semelhantes.

Apesar da ferramenta de busca da Verity ser considerada, à época da aquisição do


portal, uma das melhores e mais poderosas do mercado [9], a eficiência das buscas
realizadas no portal é baixa, mais provavelmente em função das limitações tecnológicas
que o portal possui. Essas restrições geraram um círculo vicioso de desinteresse pelo uso
da ferramenta, em que os editores de conteúdo se viam limitados a realizar novas
publicações, os usuários não encontravam motivos em acessar o portal e a equipe de
desenvolvimento e suporte havia esgotado as possibilidades de aperfeiçoamento da
solução.

Até o final de 2006, uma nova solução de portal para a Intranet será implantada
com o objetivo de eliminar os problemas da plataforma atual. O produto já adquirido e em
fase de implantação é o WebLogic Portal da BEA. Ele vem acompanhado com uma licença
da plataforma de buscas da Autonomy, mas está limitado a indexar apenas 500 mil
documentos [20]. Para incluir no índice de buscas do novo portal um número maior de

44
Aspectos das Ferramentas de Busca Organizacional

documentos, uma nova licença do Autonomy IDOL Server deverá ser adquirida.

4.2 Um sistema de busca organizacional para o Banco Central


Em geral, os atuais 27 Departamentos do Banco Central ligados às oito Diretorias e
à Presidência são grandes produtores de documentos, relatórios e normas. A grande
maioria deste conhecimento fica armazenada em servidores de arquivos da instituição,
enquanto apenas uma pequena parcela é colocada ou apontada por links no Portal Intranet
ou no sítio da Internet.

O volume de arquivos armazenados em servidores corporativos somente na sede do


Banco em Brasília ultrapassa os seis milhões de objetos e pouco mais de 1,0 TB de
armazenamento.2

Como na maioria das organizações modernas, a ferramenta de correio eletrônico no


Banco Central é considerada de extrema necessidade para o funcionamento da instituição e
na realização dos trabalhos mais críticos. Em um levantamento realizado em agosto de
2006, em média 332 mil mensagens de correio eletrônico circulam por dia pelos servidores
Exchange de Brasília.3

Analisando as atribuições dos diversos departamentos do Banco, determinadas no


seu Regimento Interno [21], e utilizando-se da classificação de usuários apresentada no
Capítulo 2, Figura 2.1, pode-se sugerir uma distribuição dos perfis dos seus funcionários
com relação à necessidade de um sistema de buscas conforme a apresentada na Figura 4.2.

Com esses dados, verifica-se que, para a situação atual do Banco, uma ferramenta
de busca organizacional deve, além de varrer toda a Intranet e o sítio Internet, rastrear
todos os discos departamentais localizados nos servidores de arquivos. Seria de grande

2
Estão incluídos nesses números os arquivos dos sistemas operacionais dos quatro servidores
analisados. Informações mais detalhadas ver Apêndice A.
3
Média obtida entre os dias 28 de agosto e 1° de setembro de 2006, dias úteis. Informações mais
detalhadas ver Apêndice A.

45
Aspectos das Ferramentas de Busca Organizacional

importância que tal ferramenta também fosse capaz de fazer buscas nas conversações de
correio eletrônico, uma vez que inúmeras informações vitais ficam armazenadas apenas
neste meio.

Alto

Especialistas por Consultores


área do analíticos
conhecimento

Grau de
conhecimento
de um assunto

Usuários comuns Especialistas em


pesquisa

Baixo

Baixo Habilidade Alto


com buscas

Figura 4.2: Classificação dos funcionários do Banco Central em relação aos usuários
propostos por Sonderegger [7].

A partir dos dados apresentados até aqui, pode-se vislumbrar quatro cenários para a
implantação de uma ferramenta de busca organizacional no Banco Central.

4.2.1 Cenário 1: Escopo departamental

Neste cenário, a implantação de um sistema de buscas terá início em um


departamento apenas. A escolha de qual será o departamento alvo deverá surgir de um
levantamento interno de necessidades de busca entre os usuários.

Dentre as vantagens dessa abordagem podem ser citadas:

46
Aspectos das Ferramentas de Busca Organizacional

• Possibilidade de fazer um menor investimento para adquirir uma tecnologia


ainda não utilizada. Limitando-se a um departamento, o número de
documentos a serem indexados será reduzido permitindo a aquisição de um
software ou de um appliance de menor capacidade. Os riscos financeiros,
caso o sistema adquirido tenha uma baixa utilização, serão minimizados.

• Necessidade de uma equipe reduzida de TI nas etapas de implantação;

• É possível utilizar essa instalação como um projeto piloto para avaliação


dos benefícios ou da viabilidade de um sistema de buscas para todo o
Banco;

• Menor tempo de implementação, obtendo resultados mais rapidamente e


ampliando a solução baseando-se no desempenho observado na primeira
etapa; e

• Menor impacto na infra-estrutura tecnológica do Banco, como os


dispositivos de rede e de armazenamento.

Como desvantagens para uma abordagem departamental, têm-se:

• Como se trata de um órgão da administração pública, o processo de


ampliação de uma solução já instalada não é tão simples, pois enfrenta
maiores barreiras legais para justificar a compra com dispensa de licitação.
Em um processo de compra desses, poderão surgir fornecedores que
atendam os antigos e os novos usuários com uma solução diferente, mas a
um menor custo. A aparente vantagem financeira para a instituição não
contabiliza a perda de cultura tecnológica e de adaptação de um produto
anterior;

• O feedback dos funcionários do departamento escolhido a respeito do


sistema de buscas pode ser insuficiente para avaliar a viabilidade de
ampliação para todo o Banco; e

47
Aspectos das Ferramentas de Busca Organizacional

• Visibilidade limitada do sistema de buscas, tanto do fato de não indexar


todos os documentos e repositórios da instituição, deixando de agregar valor
às buscas, como de atender apenas a um pequeno grupo e não prover os
benefícios de imediato a todos os funcionários.

4.2.2 Cenário 2: Escopo amplo


Neste cenário, a implantação de uma solução de busca será realizada em toda a
organização, envolvendo todos os departamentos e atendendo todos os funcionários. Uma
plataforma como o da Autonomy, abordada no Capítulo 3, com seus módulos
complementares seria a indicada para essa abordagem, devido à sua abrangência e
robustez.

Dentre as vantagens do escopo amplo, podem ser citadas:

• Completa visibilidade pelo sistema de buscas dos repositórios de dados,


proporcionando aos usuários resultados mais abrangentes para suas
consultas;

• Capacidade do sistema em fornecer a todos os funcionários do Banco acesso


desde o início à avançada tecnologia de buscas;

• Quanto maior o número de usuários, maiores são as possibilidades de se


obter informações para melhoria do processo; e

• Devido ao tamanho da solução, um processo de licitação atrairá os


fornecedores de grande porte com plataformas completas ao mesmo tempo
em que afugenta as empresas “aventureiras” com produtos medíocres.

Como desvantagens para essa abordagem, destacam-se:

• Custo inicial elevado devido ao número de documentos a serem indexados.


Como os fabricantes baseiam-se na quantidade de documentos para fixar os
valores de suas licenças, provavelmente, o Banco necessitará de uma licença
high-end que dê suporte a mais de um milhão de objetos. Acrescentam-se

48
Aspectos das Ferramentas de Busca Organizacional

também os valores dos módulos que indexam repositórios específicos, como


bases de correio eletrônico e bancos de dados;

• Maximização do risco financeiro do projeto devido ao alto volume de


investimentos;

• Necessidade de grandes equipes de TI envolvidas na implantação do


sistema;

• Maior cronograma para implantação, aumentando os riscos de não atender


no tempo previsto inicialmente, frustrando as expectativas dos
patrocinadores da solução e dos usuários;

• Impacto considerável na infra-estrutura de TI do Banco, principalmente nos


dispositivos de rede, nos servidores controladores dos repositórios e nos
equipamentos de armazenamento;

• A complexidade da solução pode afugentar usuários adeptos da


simplicidade, levando-os a procurar programas como os de busca pessoal
baseados em estação de trabalho; e

• A falta de um projeto piloto pode levar ao mau dimensionamento da


solução, acarretando desperdício de recursos ou limitação de desempenho.

Como o produto de portal que foi adquirido recentemente possui uma licença básica
do Autonomy incorporada, pode-se utilizá-lo para avaliação das potencialidades da
ferramenta e, a partir daí, fazer uma ampliação do escopo para atingir todos os repositórios
de dados e não só o conteúdo do portal Intranet.

4.2.3 Cenário 3: Software de código aberto


Neste cenário, deve-se procurar projetos de código aberto, estáveis e com grande
difusão, especializados em buscas. O software escolhido pode ser utilizado para atender a
uma aplicação específica ou para o desafio maior de ser uma solução de busca
organizacional. Neste último caso pode-se, inicialmente, partir do escopo de um grupo de

49
Aspectos das Ferramentas de Busca Organizacional

usuários e com a sua evolução progressiva atingir toda a empresa.

O Apache Solr, analisado no Capítulo 3, possui a característica interessante de ser


desenvolvido completamente em Java, sendo que a base tecnológica de desenvolvimento
de sistemas dentro do Banco é essa linguagem.

Dentre as vantagens percebidas dessa abordagem, verifica-se:

• Isenção do custo de licenciamento de software;

• Em função disso, o risco financeiro de investimento em produtos é


praticamente nulo; e

• As vantagens típicas de programas de código aberto, como desenvolvimento


colaborativo, possibilidade de acompanhar o funcionamento do produto,
ajustando-o quando necessário e evolução do produto independente de
fornecedor e sua saúde financeira.

As desvantagens para a adoção de um sistema de buscas de código aberto são:

• Não há grandes projetos nessa área à disposição dos interessados, como há


para as áreas de servidores Web, de banco de dados e de sistema operacional
com os projetos Apache, MySql e Linux, respectivamente. Em virtude
disso, os produtos disponíveis, como o Solr, não atingiram um nível de
profissionalismo desejado por uma organização do porte do Banco Central;

• Necessidade de uma equipe de desenvolvimento qualificada e


comprometida com a evolução do produto inclusive contribuindo com a
comunidade mantenedora do software; e

• Dificuldade em mensurar o custo associado ao desenvolvimento de um


produto isento de licença, bem como do retorno em benefícios desse
investimento.

50
Aspectos das Ferramentas de Busca Organizacional

4.2.4 Cenário 4: Software de busca pessoal


Neste cenário, deve-se procurar soluções de busca pessoal a serem instaladas nas
estações de trabalho dos funcionários com o intuito de prover funcionalidades de busca aos
conteúdos controlados pelo usuário, como arquivos em discos locais, mensagens pessoais
de correio eletrônico e arquivos em compartilhamentos de rede.

Soluções gratuitas, mas eficientes e bastante difundidas, como o Google Desktop, o


Windows Desktop Search da Microsoft (http://www.microsoft.com/windows
/desktopsearch/default.mspx) ou o Yahoo Desktop Search (http://desktop.yahoo.com),
devem ser consideradas antes de se decidir pela aquisição de um produto com custo de
licenciamento.

Dentre as vantagens para essa cenário, estão:

• Rapidez de implementação e obtenção de resultados imediatos;

• Baixo ou nenhum custo de licenciamento de software;

• No caso do Google Desktop, a interface familiar de buscas facilita a


usabilidade já que se assemelha com a do sítio Google.com; e

• Possibilidade, em alguns produtos, de criar políticas de grupo aplicáveis a


todas as estações de trabalho e que permitem ao administrador da rede
configurar opções de indexação e de segurança aplicáveis a todas as
estações de trabalho, evitando que configurações desastrosas impactem no
desempenho do ambiente computacional.

Entre as desvantagens dessa solução, destacam-se:

• Multiplicidade de índices para os mesmos documentos, já que cada usuário


terá o seu próprio índice em sua estação. Esse processo de indexação de
documentos compartilhados pode levar à degradação dos servidores de
arquivos;

51
Aspectos das Ferramentas de Busca Organizacional

• Falta de integração da busca com repositórios que não estão sob o domínio
direto do usuário, como o acesso aos bancos de dados;

• Baixa proteção a falhas, já que o sistema reside na estação de trabalho que


não possui recursos de alta disponibilidade;

• Possibilidade de degradação do ambiente da estação de trabalho, devido ao


processo de indexação;

• Inúmeras discussões sobre a segurança e privacidade dos dados contidos no


índice, principalmente para estações compartilhadas por mais de um
funcionário;

• O desempenho do sistema de buscas está associado ao desempenho


particular de cada estação; e

• Os usuários podem não ter noção de todos os repositórios disponíveis na


instituição.

4.3 Possíveis dificuldades


Pode-se admitir a existência de algumas dificuldades na implantação e no sucesso
de um sistema de busca organizacional no Banco Central.

Algumas práticas teriam de ser revistas pelos departamentos e pelos funcionários


para que os resultados da implantação do sistema tenham pleno êxito.

Alertado pelo apelo de Hawking et al. [22] em sua apresentação Enterprise Search
What Works & What Doesn’t: “Publique tudo! Se não é publicado, não pode ser achado”,
constata-se que não é cultura no Banco colocar as produções intelectuais dos funcionários
no Portal Intranet. Normalmente, a maioria dos trabalhos fica adormecida nos servidores
de arquivos, sem links apontando-a e desconhecida da maioria dos funcionários.

Os mesmos autores sugerem que não se deve ser excessivamente preocupados com
a segurança dos dados que são úteis para o trabalho de todos. Ele sugere a adoção de um
dos três modelos de segurança simples: aberto; interno versus externo; ou secreto versus

52
Aspectos das Ferramentas de Busca Organizacional

interno versus externo. Se algo é confidencial deve estar em um repositório específico para
tal. Como exemplo, o Portal Intranet do Banco é dividido por departamentos e, por
definição de regra de negócio, um funcionário não pode acessar as páginas de um
departamento a que não pertença.

Outras práticas que poderiam melhorar a qualidade das buscas organizacionais são
[22]:

• Usar caminhos de páginas que tenham significado. URL do tipo


www.xyz.com/x.y?page=000As0098-AAA-33121OA0A111-7 devem ser
evitadas, já que as ferramentas de busca não vão utilizá-la para cálculo de
relevância;

• Dar nomes legíveis aos títulos das páginas;

• Criar links para as páginas usando textos âncora que descrevem o link;

• Utilizar metadados sempre que possível;

• Analisar o que os usuários do sistema de busca estão procurando,


verificando as consultas mais comuns e o nível de acerto dos resultados;

• Facilitar a busca de documentos multimídia, como arquivos de áudio e


vídeo, utilizando para isso, registros de metadados, textos âncora e tags de
imagem; e

• Integrar o sistema de buscas com outras aplicações.

Situações de configuração do ambiente atual poderiam retardar ou frustar a


implantação de um sistema de buscas. Por exemplo, o Google Search Appliance indexa
documentos de sistemas de arquivos desde que se habilite a função directory browsing no
servidor Web da Microsoft (IIS). Mas no caso do Banco, os servidores de arquivos não são
servidores Web, e esta mudança de configuração implicaria em complicadas questões de
segurança.

53
Capítulo 5 - Conclusão

Segundo o Instituto Gartner [23], a mineração em dados não-estruturados


(unstructured data mining) é uma das tendências emergentes em mineração de dados até
2010, e as ferramentas de busca organizacional são poderosas ferramentas que auxiliam na
gestão do conhecimento corporativo.

O mesmo Gartner, afirma que este é um mercado de grandes mudanças nos dois
últimos anos, tanto de lançamento de novos produtos como de incorporação de empresas
rivais, proporcionando um desafio às empresas que pretendem adquirir a solução mais
adequada para o seu ambiente de tecnologia.

O desenvolvimento deste trabalho revelou que há uma grande diversidade de


funções entre ferramentas que se classificam como de busca organizacional. O Autonomy
e toda sua complexidade e robustez proporcionando desde a busca pessoal até a extração
de conceitos, a criação de taxonomias e a busca automática a partir da análise do contexto
do usuário. A simplicidade de instalação e de configuração do Google Search Appliance
aliada à sua interface já conhecida. E a alternativa de código aberto, o Apache Solr,
permitindo a criação de um sistema interno adaptado aos sistemas Java já existentes ou em
desenvolvimento.

Revelou, também, a possibilidade de quatro cenários nos quais o Banco Central


pode se guiar para implantar um sistema de buscas interno. Um cenário de escopo
departamental e em função disso limitado, mas com a vantagem de servir como um projeto
piloto balizador para uma aquisição futura de um sistema completo. Outro de escopo
amplo para atender todos os usuários do Banco com uma tecnologia avançada de buscas.
Um cenário guiado pelo desenvolvimento colaborativo de software de código aberto. E,
por fim, uma abordagem individual de busca, com a introdução de programas de busca em
estações de trabalho.
Aspectos das Ferramentas de Busca Organizacional

5.1 Contribuições deste trabalho


A principal contribuição deste trabalho está na apresentação das características de
uma nova tecnologia que pode ser adotada em futuro próximo no Banco Central, servindo
como um documento orientador para os futuros gerentes de um projeto de sistemas de
busca.

Permitirá, também, o início da discussão sobre a viabilidade de inclusão no


portfolio de sistemas oferecidos pelo Departamento de Tecnologia da Informação ao
Banco Central de uma solução de buscas integrada.

5.2 Sugestões para trabalhos futuros


Como desdobramento deste trabalho, vários outros poderão surgir, principalmente
os relacionados à recuperação da informação e à mineração de dados não-estruturados.

Como sugestões de temas para trabalhos futuros, tanto para consumo interno do
Banco Central, como para desenvolvimento de trabalhos científicos, propõe-se os
seguintes:

• Levantamento dos perfis de usuários e das necessidades específicas de


ferramentas de busca no Banco Central com o intuito de melhor escolher
qual cenário a ser seguido dentre os apresentados ou a criação de novos
cenários mais adequados;

• Quais as possibilidades de se utilizar a biblioteca de código aberto Apache


Lucene para prover buscas eficientes nos sistemas desenvolvidos em Java
pelo Departamento de Tecnologia da Informação;

• Análise de outras ferramentas que não foram objeto de avaliação neste


trabalho;

• Investigação de como a busca organizacional auxilia no alcance dos


objetivos pregados pela gestão do conhecimento e pela área de business
intelligence;

55
Aspectos das Ferramentas de Busca Organizacional

• Quais devem ser as orientações aos usuários para que criem documentos
com recursos que facilitem aos sistemas de busca, como a criação de
metadados; e

• O que precisa ser feito para que o cenário 4 de implantação de software de


busca pessoal possa ser realizado com o menor impacto na infra-estrutura
do Banco garantindo a segurança das informações.

56
Referências Bibliográficas

[1] MUKHERJEE, Rajat e MAO, Jianchang. Enterprise Search: Tough Stuff. Queue, v.2,
n.2, p.36-46. ACM Press, April 2004.

[2] BRIN, Sergey e PAGE, Lawrence. The Anatomy of a Large-Scale Hypertextual Web
Search Engine,1998.

[3] ABROL, Mani et al. Navigating large-scale semistructured data in business portals. In
Proceedings of the 27th VLDB Conference, Roma, Italy, 2001. Disponível em:
<http://www.vldb.org/conf/2001/P663.pdf>. Acesso em: set. 2006.

[4] ARNOLD, Steve. The Enterprise Search Report – Version 3 (sample version). CMS
Works, Inc. May 2006.

[5] ANDREWS, Whit e KNOX, Rita E. Ask for the Basic Functions When You Evaluate
Information Access Engines. Gartner Research, October 2005.

[6] DELGADO, Joaquin et al. The New Face of Enterprise Search: Bridging Structured
and Unstructured Information. Information Management Journal. Vol. 39, lss. 6, p.40.
December 2005.

[7] SONDEREGGER, Paul. Grading Search Platform Hopefuls. Forrester Research,


December 2002.

[8] ANDREWS, Whit. Questions to Ask When Beginning a Search Project. Gartner
Research, July 2003.

[9] ANDREWS, Whit e KNOX, Rita E. Magic Quadrant for Information Access
Technology, 2005 Gartner Research, October 2005.

[10] BROWN, Matthew. The Forrester Wave: Enterprise Search Platforms, Q2 2006.
Forrester Research, June 2006.
Aspectos das Ferramentas de Busca Organizacional

[11] AUTONOMY Systems Ltd. Autonomy Technology White Paper. 2004. Disponível
em: <http://www.autonomy.com/downloads/White%20Papers/Autonomy%20White
%20Papers/Autonomy%20Technology%20WP%2020040105.pdf>. Acesso em: set.
2006.

[12] AUTONOMY Systems Ltd. Autonomy IDOL server 5 Technical Brief. 2005.
Disponível em: <http://www.autonomy.com/downloads/Technical%20Briefs/
Servers/TB%20IDOL%20server%205%200305.pdf>. Acesso em: set. 2006.

[13] AUTONOMY Systems Ltd. Connector Data Sheet. March 2006. Disponível em:
<http://www.autonomy.com/downloads/Technical%20Briefs/Connectors/Connector%2
0Support%20Data%20Sheet%200306.pdf>. Acesso em: set. 2006.

[14] AUTONOMY Systems Ltd. Autonomy Audio and Broadcast White Paper. October
2003. Disponível em: <http://www.autonomy.com/downloads/White%20
Papers/Autonomy%20White%20Papers/Autonomy%20Audio%20Broadcast%20WP%
2020031003.pdf>. Acesso em: set. 2006.

[15] AUTONOMY Systems Ltd. IDOL server Administrator’s Guide Version 5.x. 2005.
Disponível em: <http://edocs.bea.com/wlp/docs92/autonomy/pdf/IDOL %20server
%205%20rev4.pdf>. Acesso em: set. 2006.

[16] AUTONOMY Systems Ltd. IDOL Enterprise Desktop Search White Paper. May
2006.

[17] APACHE Software Foundation, The. Apache Lucene – Overview. Disponível em:
<http://lucene.apache.org/java/docs/index.html>. Acesso em: set. 2006.

[18] SEELEY, Yonik. Apache Solr. Apresentação no ApacheCon 2006, Dublin, Ireland.
June 2006. Disponível em: <http://people.apache.org/~yonik/ApacheConEU2006>.
Acesso em: set. 2006.

[19] NEW IDEA Engineering. Ask Doctor Search. Enterprise Search Newsletter.
Volume 3, n.2. March 2006. Disponível em: <http://www.ideaeng.com/pub/entsrch/
v3n2/dr_search.html>. Acesso em: set. 2006.

58
Aspectos das Ferramentas de Busca Organizacional

[20] BEA Systems Inc. BEA WebLogic Portal Integrating Search. June 2006.
Disponível em: <http://edocs.bea.com/wlp/docs92/pdf/search.pdf>. Acesso em: set.
2006.

[21] BRASIL. Banco Central do Brasil. Regimento Interno do Banco Central do Brasil.
2006.

[22] HAWKING, David et al. Enterprise Search. What works & What doesn’t.
Proceedings of the Infonortics Search Engines Meeting, 2002. Disponível em:
<http://es.csiro.au/pubs/hawking_se02talk.pdf>. Acesso em: ago. 2006.

[23] LINDEN, A. Emerging Trends in Data Mining Through 2010. Gartner Research,
September 2002.

59
Apêndices

APÊNDICE A DADOS COLETADOS 61

APÊNDICE B LISTA DE PRODUTOS DE BUSCA 63


Apêndice A - Dados coletados

Número de mensagens de correio eletrônico que circularam pelos servidores


Exchange somente em Brasília, no período de 27 de agosto a 2 de setembro de 2006.
Dados coletados pela equipe do Deinf/Diseg.

DIA N° de mensagens

Dom 27.ago 12823

Seg 28.ago 275420

Ter 29.ago 322026

Qua 30.ago 300629

Qui 31 ago 466714

Sex 01.set 300058

Sab 02.set 73910

Números de arquivos e total de armazenamento nos servidores de arquivos de


Brasília. Dados coletados pela equipe do Deinf/Disop.

Servidor 1:

Número médio de arquivos: 974.168

Total de GB: 175,80 GB

Número de arquivos novos ou alterados por semana: 26.692

Servidor 2:

Número médio de arquivos: 2.466.783

Total de GB: 339,70 GB


Aspectos das Ferramentas de Busca Organizacional

Número de arquivos novos ou alterados por semana: 97.631

Servidor 3:

Número médio de arquivos: 1.162.131

Total de GB: 266,50 GB

Número de arquivos novos ou alterados por semana: 47.680

Servidor 4:

Número médio de arquivos: 1.480.228

Total de GB: 259,50 GB

Número de arquivos novos ou alterados por semana: 33.820

Total de arquivos 6.083.310

Total de GB: 1041,5 GB

62
Apêndice B - Lista de produtos de busca

Abaixo segue uma lista dos fabricantes e seus respectivos produtos, divididos em
categorias, que fazem parte do mercado de busca organizacional segundo Arnold [4] em
seu trabalho The Enterprise Search Report.

FABRICANTE PRODUTO

Superplataformas – são assim definidos os produtos que compõem algum


framework de alta complexidade, e não funcionam como um produto separado de sua
plataforma principal.

IBM WebSphere Information Integrator OmniFind Edition

Oracle Secure Enterprise Search 10g

Microsoft SharePoint Search 2007

SAP TREX

Principais fabricantes do mercardo de busca organizacional.

Autonomy IDOL Server

Autonomy K2 Enterprise and Ultraseek

Autonomy Ultraseek

Convera RetrievalWare

FAST Search & Transfer Enterprise Search Platform 5.0

Hummingbird Search Server

Open Text Livelink


Aspectos das Ferramentas de Busca Organizacional

Produtos com foco na plataforma Microsoft.

Coveo Solutions, Inc Enterprise Search 4.0

dtSearch dtSearch Version 7.2

Go Daddy ES.NET 2004

Mondosoft A/S MondoSearch Enterprise 5.2

Produtos do tipo appliance.

Google Google Search Appliance

Thunderstone Texis / Webinator / Search Appliance

Serviços de busca – empresas que vendem o serviço de busca, fazendo-o a partir


de fora da organização, sem implementar nenhum software internamente.

Blossom Software Enterprise Search

WebSideStory Search

Produtos de baixo custo orientados a Web

P@NOPTIC Enterprise Search

YourAmigo Enterprise Search

Produtos especializados em um nicho de mercado.

Endeca Information Access Platform

Entopia K-Bus

InQuira, Inc InQuira

64
Aspectos das Ferramentas de Busca Organizacional

ISYS Search Software, Inc ISYS 7 Suite

Recommind Categorization and Search

Siderean Software Inc Seamark Navigator

InQuirion and SAIC TeraText

Vivisimo Corp Velocity

65