Você está na página 1de 175

DEPARTAMENTO DE POLÍCIA FEDERAL

MARCELO DE MELO PASSOS

O GERENCIAMENTO DA INFORMAÇÃO NA DCOR/DPF:

Segurança, eficiência na coleta, compilação e difusão das

informações às unidades descentralizadas.

(PROJETO PROMETHEUS)

BRASÍLIA/DF – OUTUBRO 2006


MARCELO DE MELO PASSOS

O gerenciamento da informação na DCOR/DPF:

Segurança, eficiência na coleta, compilação e difusão das

informações às unidades descentralizadas.

(PROJETO PROMETHEUS)

Trabalho de Conclusão de Curso apresentado à


Banca Especializada do Departamento de Polícia
Federal, para a aprovação no XIV Curso Especial de
Polícia, sob a orientação do Professor
______________________________ (titulação e nome
completo do Professor-Orientador), como pré-
requisito à formação do Curso.
2

BRASÍLIA/DF – OUTUBRO 2006


DEPARTAMENTO DE POLÍCIA FEDERAL
XIV CURSO ESPECIAL DE POLÍCIA

FOLHA DE APROVAÇÃO

O gerenciamento da informação na DCOR/DPF:

Segurança, eficiência na coleta, compilação e difusão das

informações às unidades descentralizadas.

(PROJETO PROMETHEUS)

Trabalho de Conclusão de Curso apresentado


pelo aluno Marcelo de Melo Passos,
matriculado no XIV Curso Especial de Polícia,
em sessão solene, ao(s) _____ dia(s) do mês de
_____________ do ano de 2006, aos membros
da Banca Especializada do DEPARTAMENTO
DE POLÍCIA FEDERAL – Brasília/DF, abaixo
relacionados, como pré-requisito à formação
do Curso.

_______________________________________
Presidente da Banca

_______________________________________
1º Membro

_______________________________________
2º Membro
BRASÍLIA/DF – OUTUBRO 2006

Agradeço ao Diretor de Combate ao Crime


Organizado, Delegado de Polícia Federal
Doutor Getúlio Bezerra Santos por acreditar no
Projeto e na minha capacidade profissional,
possibilitando que seguisse adiante vencendo
as resistências do caminho.
“Você não pode ensinar nada a um homem;

você pode apenas ajudá-lo a encontrar a

resposta dentro dele mesmo.”

Galileu Galilei
RESUMO

O presente trabalho tem como objetivo analisar a necessidade do


gerenciamento das informações na DCOR/DPF de forma compartilhada, segura,
controlada e compartimentada e da unificação em bancos de dados das informações
dispersas entre as Unidades Descentralizadas, Superintendências e este Órgão
Central, dedicados ao combate ao Crime Organizado. O uso do software Google
Desktop Search adaptado a esta finalidade, batizada pelo Autor como Projeto
Prometheus. Serão enfocados os aspectos teóricos a respeito da extração de
conhecimento a partir de bases de dados, detalhes do funcionamento do Projeto e
os resultados práticos obtidos até a presente fase de testes em curso na DCOR/DPF
e a Superintendência da Polícia Federal de Brasília/DF, demonstrando a excelência
e necessidade do uso do Projeto Prometheus como instrumento de pesquisa ágil,
consistente, segura e de baixo custo. Método revolucionário de administração de
bases de dados. Economia de espaço em mídia digital e alimentação automatizada,
dispensando a necessidade de recursos humanos dedicados à inserção de dados.
Auxílio inestimável aos Analistas das investigações policiais e operações levadas a
efeito no âmbito do combate ao Crime Organizado.

Palavras-chave: Gerenciamento de informações. Obtenção de conhecimento a


partir de bases de dados. Mecanismos de busca. Google Desktop search e o
Projeto Prometheus. Unificação de banco de dados para combate ao crime
organizado.
ABSTRACT

This study presents the purpose to analyze the necessity of administrate the
information created inside DCOR/DPF environment, caring about sharing, security,
control and access delimitations, attempting to unify diffuse data spread between all
of Brazilian Federal Police Departments, Bureaus, and this Central Department
dedicated to fight against the organically structured crime. The use of Google
Desktop Search software, adapted to realize this job, called as “Prometheus Project”
by the Author. Here will be discussed the speculative aspects about knowledge
discovery in databases, details about working with this Project and the results
obtained until the present date, testing and working on it at DCOR/DPF, together with
Brasília/DF Bureau of Federal Police Department, proving the well done job and the
necessity of the use of this project as a investigation research tool with agility,
effectively, security and low cost. Revolutionary method administrating databases.
Economy of digital media space and self growth, avoiding human resources to work
inserting data. Essential to analysts that investigate and operate against the
organically structured crime.

Keywords: Information management. Knowledge discovery in databases. Search


mechanisms. “Google Desktop search” and “Prometheus Project”. Database
unification to fight against the organically structured crime.
LISTA DE ILUSTRAÇÕES

Ilustração 1..............................................................................................................................10
Ilustração 2..............................................................................................................................26
Ilustração 3..............................................................................................................................43
Ilustração 4..............................................................................................................................56
Ilustração 5..............................................................................................................................60
Ilustração 6..............................................................................................................................63
Ilustração 7..............................................................................................................................65
Ilustração 8 .............................................................................................................................65
Ilustração 9..............................................................................................................................67
Ilustração 10............................................................................................................................74
Ilustração 11............................................................................................................................75
Ilustração 12............................................................................................................................77
Ilustração 13............................................................................................................................78
Ilustração 14............................................................................................................................79
Ilustração 15............................................................................................................................92
Ilustração 16............................................................................................................................93
Ilustração 17............................................................................................................................94
Ilustração 18............................................................................................................................94
Ilustração 19............................................................................................................................95
Ilustração 20............................................................................................................................95
Ilustração 21............................................................................................................................98
Ilustração 22..........................................................................................................................101
Ilustração 23..........................................................................................................................102
Ilustração 24..........................................................................................................................102
Ilustração 25..........................................................................................................................103
Ilustração 26..........................................................................................................................107
Ilustração 27..........................................................................................................................108
Ilustração 28..........................................................................................................................110
Ilustração 29..........................................................................................................................112
Ilustração 30..........................................................................................................................124
Ilustração 31..........................................................................................................................124
Ilustração 32..........................................................................................................................125

LISTA DE ABREVIATURAS E SIGLAS

CGPRE – Coordenação Geral de Combate a Entorpecentes

CTI/DPF – Centro de Tecnologia da Informação do Departamento de Polícia Federal.

DARM/DCOR – Divisão de Combate ao Crime de Tráfico de armas e munições.

DCOR/DPF - Diretoria de Combate ao Crime Organizado do Departamento de Polícia

Federal.

DCOR7 – Nome do domínio de informática criado na Diretoria de Combate ao Crime

Organizado (Dcor7. Dpf.gov.br).

DFIN/DCOR – Divisão de Combate aos Crimes Financeiros.

DPAT/DCOR – Divisão de Combate aos Crimes contra o Patrimônio.

DPF – Departamento de Polícia Federal.

DRCOR – Diretoria Regional de Combate ao Crime Organizado

NUINF – Núcleo de Informática.


SR/DPF/DF – Superintendência de Polícia Federal do Distrito Federal

SR/DPF/PR – Superintendência de Polícia Federal do Estado do Paraná

SUMÁRIO

1 INTRODUÇÃO ...................................................................................................................10
2 GERENCIAMENTO DE INFORMAÇÕES ....................................................................14
2.1 Dados e Informações.....................................................................................................................................15
2.2 A sociedade e a informação..........................................................................................................................17
2.3 As fontes de informação................................................................................................................................18
2.4 Requisitos de informação por nível administrativo.......................................................................................19
2.5 Atributos da informação................................................................................................................................21
2.6 Significado estratégico da informação..........................................................................................................23
2.7 A política de informação...............................................................................................................................24
3 BANCO DE DADOS .............................................................................................................1
3.1 A descoberta do conhecimento em Banco de dados.......................................................................................1
3.1.1 Knowledge Discovery in Databases (KDD)................................................................................................4
3.2 Mineração de dados – (MD)............................................................................................................................7
3.3 Recuperação da informação – Ensaio na Internet – Metadados e Metabusca..............................................11
3.4 Representação e economia do conhecimento – Semiótica e Metatexto........................................................17
3.4 Ferramentas de busca na Internet – Diretórios e motores de busca..............................................................20
3.4.1 Diretórios....................................................................................................................................................21
3.4.2 Motores de busca........................................................................................................................................23
3.4.3 Critérios para indexação.............................................................................................................................26
3.4.3.1 Critérios para indexação de páginas e documentos.................................................................................28
3.4.4 Freqüência de atualização dos dados ........................................................................................................29
3.4.5 Interface e recursos para busca ..................................................................................................................30
3.4.6 Critérios de organização dos resultados ....................................................................................................32
3.4.6.1 Forma da organização dos resultados .....................................................................................................33
3.5 Diferença entre Motores de Busca e Diretórios - Hibridização ...................................................................34
3.6 “Desktop Search Tools” – Ferramentas de busca dentro da máquina ........................................................36
3.6.1 Tecnologia empregada ..............................................................................................................................39
4 GOOGLE..............................................................................................................................42
4.1 Atualidades sobre o Google – Softwares desenvolvidos..............................................................................46
4.2 Google Desktop Search - GDS......................................................................................................................48
4.2.1 Aspectos legais - EULA – Licença de uso...............................................................................49
4.2.1.1 Análise dos aspectos legais..................................................................................................54
4.2.2 Funcionalidade – forma de compilação das informações........................................................55
4.2.3 Como pesquisar na base de dados..........................................................................................68
4.2.4 Conteúdo do resultado e filtragem das buscas........................................................................73
4.2.5 Plug-ins....................................................................................................................................79
4.2.6 Modo de operação e limitações da utilização em rede............................................................80
5 O PROJETO PROMETHEUS..........................................................................................83
5.1 Conceito......................................................................................................................................85
5.2 DNKA..........................................................................................................................................87
5.2.1 Aspectos legais - EULA do DNKA – Licença de uso................................................................88
5.2.2 Funcionalidade do DNKA.........................................................................................................90
5.3 TWEAK GDS..............................................................................................................................95
5.3.1 Funcionalidade do TWEAK GDS.............................................................................................97
5.4 INTERNET NEIGHBORHOOD...................................................................................................98
5.4.1 Funcionalidade do INTERNET NEIGHBORHOOD................................................................100
5.5 OPERACIONALIZAÇÃO – adequação às necessidades da DCOR/DPF.................................103
5.5.1 Equipamentos utilizados – Hardware – Especificações técnicas...........................................105
5.5.3 Fluxograma de entrada de dados – alimentação – eficiência na coleta.................................109
5.5.3 Fluxograma de saida de dados – Consulta – Difusão às descentralizadas...........................110
5.5.4 Automatização da alimentação do Banco de dados - periodicidade......................................112
5.6 SEGURANÇA...........................................................................................................................113
5.6.1 Senhas e Responsabilidade do Usuário................................................................................114
5.6.2 O uso de cookies e a política de privacidade da GOOGLE...................................................116
5.6.3 Firewall - Controle de acesso e restrição de usuários – Logs e Incidentes de segurança.....119
5.6.4 Transferências FTP seguras .................................................................................................125
5.6.5 Protocolo SSH e Criptografia – Servidor FTP Linux x Windows............................................127
5.6.6 Tráfego na Rede do DPF – Portas e endereços IPs utilizados .............................................129
5.6.7 Compartimentação das Informações – Política de informação na DCOR/DPF.....................131
5.6.8 Parecer informal da Direção da DCOR/DPF, CTI/DPF e NUINF/SR/DPF/DF.......................132
5.7 INTEGRAÇÃO DO PROJETO..................................................................................................133
6 METODOLOGIA..............................................................................................................134
7 CONCLUSÃO....................................................................................................................136
REFERÊNCIAS....................................................................................................................137
1 INTRODUÇÃO

Ilustração 1
"Os benefícios que fiz aos mortais atraíram-me este rigor. Apoderei-me do fogo,
em sua fonte primitiva: ocultei-o num cabo de uma bengala, e ele tornou-se para o
homem a fonte de todas as artes e um recurso fecundo." (Ésquilo, 463 a.C,
Prometheus Desmontes)

Prometheus foi o Titã mitológico que roubou o fogo divino de Zeus para o dar

aos Homens, que assim puderam evoluir e distinguirem-se dos outros animais.

Como castigo Zeus1ordenou que Vulcano2 o acorrentasse a um rochedo no cimo do

monte Cáucaso, onde todos os dias uma águia (ou abutre) ia comer-lhe o fígado

que, sendo Prometheus imortal, voltava a se regenerar. Prometheus representa a

vontade humana por conhecimento, sua captura do fogo é a audácia humana pela

busca de conhecimento e de compartilhá-lo, fogo este guardado por seres maiores

que não permitem tal difusão.

Assim como Prometheus, o presente Projeto, assim batizado por guardar

estreita correlação de propósitos, visa revolucionar o conceito de gerenciamento de

informações, ampliando o conhecimento e seu compartilhamento entre os Policiais

Federais da área de inteligência, visando à formação de um banco de dados

unificado entre todos os Estados da Federação, contendo milhões de informações e

passível de ser implementado e entrar em funcionamento pleno em período inferior a

trinta dias.

Da mesma forma que Prometheus enfrentou a oposição dos deuses para

alcançar seu objetivo, reconhece-se que o “novo” e o “revolucionário” sempre

1
Na mitologia Greco-Romana Zeus era o Deus de todos os Deuses e comandava os destinos dos homens a partir
do Olimpo, morada celestial.
2
Vulcano na mitologia Greco-Romana era um semi-Deus e ferreiro dos Deuses. Forjou os grilhões que
acorrentaram Prometheus.
encontrará resistências. Isso é inerente ao ser humano e às instituições. Destarte, o

Autor, no presente trabalho, irá analisar minuciosamente o tema proposto acerca do

gerenciamento de informações, o uso da informática para tal finalidade, a extração

de conhecimento a partir de bases de dados e toda a problemática pertinente.

Defenderá também com afinco a validade da solução proposta, a fim de não

merecer destino semelhante ao sofrido por seu ilustre e mitológico patrono.

A idéia central reside na escolha do método ideal a ser utilizado em nível

departamental para gerenciar as informações armazenadas e circulantes no âmbito

da Diretoria de Combate ao Crime Organizado, levando-se em conta os aspectos de

segurança, eficiência na coleta, compilação e difusão destas informações às

unidades descentralizadas.

Até pouco tempo atrás não existia padronização alguma acerca do tratamento

das informações no âmbito da citada Diretoria e suas Divisões e o Autor,

Administrador da Rede de Informática local, tem se esforçado na implementação de

soluções nesse sentido. Com a implantação da Rede de informática com Domínio3

autônomo em relação ao modelo adotado pela Administração do Edifício sede do

Departamento de Polícia Federal, houve ganho em segurança, velocidade na

transmissão de dados e independência na gestão de softwares utilizados em rede. A

implantação de software OCR4 de última geração, gerenciado a partir do Servidor

Central, possibilitou a digitalização de todo o tipo de informação impressa a partir de

qualquer scanner conectado a qualquer computador integrante da rede DCOR7 com

99% (noventa e nove por cento) de precisão. Pode-se dizer, portanto, que o

3
Domínio representa a criação de uma rede própria e autônomas onde todas as máquinas encontram-se
subordinadas a um servidor que controla o Domínio (Domain Controller).
4
OCR é acrônimo para Optical Character Recognition, uma tecnologia para reconhecer caracteres a partir de um
ficheiro de imagem, ou mapa de bits. Através do OCR é possível digitalizar uma folha de texto impresso e obter
um ficheiro de texto editável.
tratamento da informação na DCOR/DPF encontra-se a caminho da informatização

plena, aumentando a importância de um bom gerenciamento da rede e do uso de

equipamentos de ponta.

A base de dados da Diretoria de Combate ao Crime Organizado é composta

de pastas de arquivos dentro do Servidor Central, representando as

correspondentes Divisões componentes da DCOR/DPF - excluindo-se a

Coordenação-Geral de Repressão a Entorpecentes, gerida por Núcleo de

Informática próprio - as quais estão subdivididas entre os núcleos administrativo e

operacional respectivamente, além de uma pasta pública e outra ligada à

administração da Diretoria. A permissão de acesso a estas pastas foi definida de

forma rígida, de modo que os funcionários lotados em determinada Divisão ou na

Diretoria tem acesso negado às demais, sendo que todos tem acesso à pasta

pública, que se destina à troca de arquivos e informações entre a Diretoria e as

Divisões, a saber: DFIN/DCOR, DPAT/DCOR E DARM/DCOR.

Tendo em vista a quantidade de informações armazenadas nas respectivas

pastas, que já ultrapassa 150 GB (cento e cinquenta gigabytes), surgem indagações

para as seguintes questões:

• Como gerenciar tão vasta quantidade de informações, cuja base de dados é

progressivamente crescente e desestruturada, de forma quantitativa e

qualitativa?

• Como catalogar e preparar essa base de dados desestruturada, a fim de

disponibilizar para consulta as informações armazenadas de forma rápida e

satisfatória?
• Como facultar o acesso a essas informações às unidades descentralizadas

de forma controlada, compartimentada e sem comprometer a segurança?

• Seria possível a criação de um “Banco de Dados Unificado de Combate ao

Crime Organizado” contendo todas as informações relevantes dispersas pelos

diversos computadores utilizados nas unidades descentralizadas acrescidas

daquelas contidas nos servidores das Superintendências e Órgãos Centrais?

• Em caso de resposta afirmativa às indagações acima elencadas, seria

possível fazê-lo com baixo custo material, econômico e humano sem perda

de eficácia e de fácil utilização por parte dos analistas de informação?

Este trabalho objetiva demonstrar que é possível solucionar todas as

hipóteses levantadas acima através de técnicas heterodoxas, com resultados

surpreendentes, sem paralelo com qualquer trabalho existente acerca do tratamento

da informação e gerenciamento de banco de dados dentro do Departamento de

Polícia Federal.

O Projeto Prometheus, baseado em adaptações do software gratuito Google

Desktop Search seria capaz de realizar satisfatoriamente bem o papel de

gerenciador do banco de dados da DCOR/DPF com custo ínfimo? Este trabalho se

destina a provar isto.

2 GERENCIAMENTO DE INFORMAÇÕES

A importância da informação dentro das organizações aumenta de acordo


com o crescimento da complexidade da sociedade e das organizações. Em todos os

níveis organizacionais (operacional, tático e estratégico) a informação é um recurso

fundamental. A forma com que a informação é trabalhada, de acordo com o nível

organizacional em que irá circular, deve ser observada, sob o risco de, no momento

em que o usuário estiver envolvido em determinado processo decisório, ser-lhe

fornecido apenas "ruído". A eficácia no tratamento da informação depende, em

grande parte, da forma com que ela é administrada e do bom entendimento de

certos conceitos e relações. Não é concebível que um importante e "caro" recurso,

não seja tratado com um grau de seriedade e competência, que assegure à

organização, na figura dos usuários, um bom suporte informacional.

2.1 Dados e Informações

Muitas vezes, os termos dados e informações são usados indistintamente,

quando na verdade designam dois diferentes conceitos. Quando a questão se refere

à tomada de decisão e a sistemas de informações, a definição destes termos é

importante porque traduzem diferentes idéias. Segundo Murdick e Munson (1988, p.

147), a distinção entre dados e informações é importante porque permite definir

separadamente a necessidade das bases de dados e as necessidades de

informação dos gerentes. Isto feito, é possível fornecer ao gerente, informações e

não dados. Alguns conceitos de dados existentes na literatura:

• “pode-se entender o dado como um elemento da informação (um conjunto de letras ou


dígitos) que, tomado isoladamente, não transmite nenhum conhecimento, ou seja, não contém um
significado intrínseco” (Bio, 1991, p.29);
• “Dados são materiais brutos que precisam ser manipulados e colocados em um contexto
compreensivo antes de se tornarem úteis” (Burch e Strater, 1974, p.23);

• “Dado pode ser considerado como uma informação em potencial” (Nichols, 1969, p.9).

Embora dados sejam ingredientes importantes, eles sozinhos não produzem

informações relevantes e oportunas. A organização pode possuir abundância de

dados, mas pode ser limitada em extrair, filtrar e apresentar fatos pertinentes que

supram as necessidades do tomador de decisão. Ou seja, a organização deve

construir sistemas de informações que permitam uma racional transformação dos

dados em informações, subsidiando o processo de tomada de decisão para, desta

forma, contribuir para um melhor desenvolvimento do processo decisório (Bio, 1991).

Alguns conceitos de informação existentes na literatura:

• “Informação é um dado processado de uma forma que é significativa para o usuário


e que tem valor real ou percebido para decisões correntes ou posteriores” (Davis, 1974, p. 32);

• “Informação é a agregação ou processamento dos dados que provêem conhecimento ou


inteligência” (Burch e Strater, 1974, p. 23);

• “A informação é a correspondência dos elementos de um problema com os signos


guardados na memória ou com os provenientes do ambiente” (Murdick e Munson, 1988, p. 148).

A relação entre dados e informações é bastante estreita, embora designem

diferentes estados. Esta relação de proximidade e distinção, é pertinentemente

apresentada por Davis e Olson (1987, p. 209):

• “Em síntese, os termos dados e informação, com freqüência, são utilizados em formas
intercambiais, porém a distinção consiste no fato que os dados elementares são a matéria-
prima para prover a informação”.

Portanto, é importante que os responsáveis pelo desenvolvimento de sistemas

de informações tenham a consciência de que dados não possuem significados para


o tomador de decisão. Somente após o tratamento destes dados pelos recursos

informacionais disponíveis, estes poderão ser transformados em informação e

disponibilizados no momento e forma adequada para serem utilizados com eficiência

pelo usuário. Adota-se, na prática, o seguinte esquema clássico (Davis e Olson,

1987, p.208):

DADOS  PROCESSAMENTO  INFORMAÇÃO  ARMAZENAMENTO

2.2 A sociedade e a informação

A influência da tecnologia na sociedade moderna é bastante intensa,

principalmente no que se refere à tecnologia de informação (TI). A velocidade com

que a TI evolui, tem reflexos diretos na sociedade que a utiliza. Murdick e Munson

(1988, p.3) registram que alguns fatores repercutem diretamente na sociedade e nas

empresas: maior cultura em computação entre os líderes e a população em geral; os

progressos nas telecomunicações como fibras óticas, satélites, redes e bases de

dados a nível internacional; o surgimento, transformação e proliferação dos

microcomputadores; os microcomputadores nas empresas, conectados a

computadores de grande porte, utilizando grandes bases de dados; os

computadores considerados como pensadores analíticos; utilização de "lasers" para

registrar informações em discos; o ser humano conversando com terminais de

computador, utilizando a voz; os "chips" utilizados na computação, etc. Nas

organizações, a informação já é considerada como um recurso básico e essencial,

como são a mão-de-obra e a matéria prima. A informação é vista como um elemento


decisivo que pode determinar o êxito ou fracasso de um empreendimento. Kendall e

Kendall (1991, p.1) comentam que "os responsáveis pela tomada de decisão

começam a considerar que a informação já não é um produto exclusivamente

colateral das operações da empresa e sim, um dos promotores da mesma". Tofler

(1985, p.128-129) acredita que a informação é até mais importante do que os fatores

terra, trabalho, capital e matéria-prima. Freitas (1993, p.33) comenta que o

tratamento da informação pela organização pode ser categorizado como a "função

informacional da empresa" e acredita que: "Este processo é cada vez mais vital para

a empresa e deve ser controlado como todos os outros setores...". A informação,

como um precioso recurso para a organização, deve ser tratada de modo a

contribuir efetivamente para a melhora dos resultados organizacionais. A

organização necessita identificar onde encontrar as informações relevantes para o

seu processo. Esta informação pode ser conseguida em fontes formais e em fontes

informais.

2.3 As fontes de informação

Quanto ao nível de formalização, pode-se classificar as informações como

formais ou informais. As informações formais são aquelas que tramitam pelos canais

convencionais da organização ou entre organizações. Elas podem ser informações

que são geradas dentro da organização ou podem ter sua origem no meio ambiente,

incluindo outras organizações (Murdick e Munson, 1988, p.547). Estas informações

normalmente possuem a característica de ser bem estruturadas. Entre as

informações formais que provêm do ambiente externo, estão incluídas as


correspondências entre organizações, comunicações de órgãos governamentais e

as que tramitam em sistemas computacionais interligados. As informações informais

são aquelas que não possuem nenhum caráter oficial. Este tipo de informação é de

um volume muito grande e tem como característica ser bastante desestruturada.

Este tipo de informação, como as informações formais, pode vir do ambiente ou de

dentro da organização. As informações que provêm do ambiente chegam até os

tomadores de decisão por meio de jornais, televisão, rádio, internet, conversas com

grupos informais, seminários, feiras, congressos, etc. As informações informais de

origem interna são recebidas de várias formas. Podem vir da conversa informal no

restaurante da organização ou no café, podem ser percebidas pelas atitudes dos

integrantes da organização ou mesmo por meio de "fofocas organizacionais"

(Mintzberg, 1975; Kotter, 1982a, 1982b; Revista Exame, jan./94). Braga (1987)

comenta que, devido às características culturais do povo brasileiro, as organizações

utilizam largamente a comunicação verbal e os contatos pessoais como fontes de

informação. As informações formais, tanto de origem interna como externas, podem,

mais facilmente, integrar o sistema de informações da organização. A escolha da

inclusão ou não destas informações, necessariamente passará pela análise de

custo/benefício. As informações informais, dificilmente podem ser incluídas no

sistema de informações, em virtude de normalmente serem bastante

desestruturadas e freqüentemente terem pouca garantia quanto à sua integridade.

2.4 Requisitos de informação por nível administrativo


Os requisitos de informações variam de acordo com o nível administrativo em

que a decisão ocorre. Os gerentes nos níveis operacionais, táticos e estratégicos

necessitam de sistemas de informações com diferentes características. Os gerentes

operacionais necessitam primordialmente de informações de origem interna,

detalhada, sendo bastante precisas e atuais, referindo-se, normalmente, a

acontecimentos passados. Estas informações normalmente são periódicas, muitas

vezes tendo datas estabelecidas para sua divulgação. A utilização da informação é

bem definida a uma determinada situação. Para os gerentes do nível operacional as

informações externas normalmente possuem menor valor.

Os gerentes no nível estratégico, por sua vez, geralmente precisam

informações resumidas, apresentadas na forma de quadros, tabelas ou gráficos.

Como estes gerentes tomam decisões mais abrangentes, precisam conhecer o

contexto em que a organização está inserida. Portanto, as informações provenientes

do meio ambiente lhes interessam bastante. Estas informações não precisam ser

muito exatas e atuais. A utilização desta informação é esporádica. Necessitam de

informações de natureza preditiva para que possam planejar e decidir sobre como a

organização deve se comportar para que tenha uma melhor performance.

Os gerentes no nível tático possuem necessidade de informações com

características que se situam entre as informações necessárias aos gerentes do

nível operacional e aos gerentes do nível estratégico. Os requisitos de informações

são bastante diferentes, principalmente entre os níveis operacionais e estratégicos.


2.5 Atributos da informação

As informações fornecidas por um sistema de informações devem atender a

alguns atributos da informação para que possam ser significativas no momento da

tomada de decisão. Quando estes atributos não são observados, a própria eficiência

do sistema começa a ser questionada. Murdick e Munson (1988, p. 149), Davis e

Olson (1987) e Davis (1974) elencam estes atributos:

finalidade - a informação necessita ter uma finalidade quando é transmitida para um

sistema de informações ou para uma pessoa. Caso contrário, ela deixa de ser

informação para ser apenas um ruído;

modo e formato - o ser humano se comunica por meio dos cinco sentidos e, em

suas atividades dentro da organização, principalmente pela audição e visão, em

conversas ou leitura de relatórios, gráficos ou telas. A forma com que os sistemas

recebem ou fornecem informações é muito importante para a realização de seus

objetivos;

redundância e eficiência - a redundância é uma forma de se garantir contra os

erros de comunicação. A eficiência na linguagem dos dados é o complemento da

redundância: Eficiência = 1 - Redundância;

velocidade - a velocidade de recepção ou transmissão da informação é o tempo

gasto para se entender um determinado problema. Os seres humanos possuem

baixa velocidade em receber, armazenar ou transmitir informações;

freqüência - a freqüência com que se recebe ou transmite a informação é um

indicador de seu valor. Entretanto, a alta freqüência da informação pode

sobrecarregar o receptor;
determinística ou probabilística - a informação probabilística admite um conjunto

de resultados possíveis com suas probabilidades correspondentes, enquanto que as

determinísticas normalmente admitem apenas um resultado;

custo - toda informação possui um custo. O responsável pelos sistemas de

informações e os gerentes devem avaliar o valor da informação e o seu custo;

valor - o valor de uma informação é muito difícil de se determinar e depende muito

de outras características como modo, velocidade, freqüência, características

determinísticas ou probabilísticas, confiabilidade e validade;

confiabilidade e precisão - em uma estimativa estatística, o valor real do parâmetro

ficará dentro de um determinado período. Caso este período seja diminuído,

aumenta-se a precisão diminuindo-se a confiabilidade. Caso contrário diminui-se a

precisão e aumenta-se a confiabilidade;

exatidão - mede a proximidade de um número com o que deveria ser;

validade - mede o grau em que representa o que deveria representar;

atualidade - designa a antigüidade da informação;

densidade - indica o volume de informação presente em um relatório ou tela;

corretiva - se vem para corrigir uma informação passada; e

confirmatória - quando confirma uma informação já existente.

Além destes atributos, é necessário que a informação seja relevante para a

situação. De nada adianta que a informação possua todos os atributos citados, se

não é pertinente à situação que o executor está enfrentando. Bio (1991, p.45)

comenta a importância destas características em relação à tomada de decisão: "a

essência do planejamento é a tomada de decisões. Essa, por sua vez, depende de

informações oportunas, de conteúdo adequado e confiável." A observação dos


atributos de informação, tanto para a construção, quanto para a avaliação de

sistemas de informações é fundamental. A não observação destes atributos muito

provavelmente resultará no fracasso do sistema.

2.6 Significado estratégico da informação

Apesar dos problemas relacionados com a tecnologia da informação e

utilização dos recursos da informática, a importância competitiva da informação é

consenso entre vários autores. Para Davenport et al (1992, p. 53), os executivos já

perceberam esta importância: "durante a década passada, várias organizações

entenderam que a informação é um de seus mais críticos recursos sendo que o

grande acesso, utilização e o aumento de sua qualidade é a chave para aumentar a

performance do negócio". Esta opinião também é compartilhada por Brancheau e

Wetherbe (1987), que acrescentam que os administradores de sistemas de

informações, estão se preocupando principalmente com a utilização da informação

em questões estratégicas. Kini (1993, p. 42) salienta que as informações utilizadas

em questões estratégicas é um fator que aumenta a vantagem competitiva das

organizações. Acredita-se que a importância da informação para a gestão

competitiva das empresas é indiscutível. O entendimento desta questão pela

organização, e principalmente pelos gerentes, varia de contexto para contexto.

Alguns fatores, como experiências anteriores negativas, falta de recursos

tecnológicos, desconhecimento e cultura organizacional, dificultam o entendimento

da informação como um fator competitivo. Organizações que conseguem trabalhar a

informação de uma forma satisfatória, certamente terão melhor desempenho.


2.7 A política de informação

A política de informação existente na organização vai influenciar as

características dos sistemas de informações utilizados pelos gerentes. A política de

informação deve estar em acordo com a estratégia geral da organização. Deve

haver sincronismo entre o planejamento estratégico da organização e sua política de

informação. Mendes (1987, p.175) registra:

a Informática tem participado intensamente na empresa moderna

para o cumprimento de suas estratégias. Isto é, ela pode se vincular

diretamente com os objetivos da organização. Os altos executivos,

responsáveis únicos pela formulação de tais estratégias, necessitam

pois, participar igualmente na definição das estratégias de informática.

A organização deve definir sua política geral de informática para que,

mediante a racionalização dos recursos, possa tirar melhor proveito da informação,

visando melhorar seu desempenho e alcançar seus objetivos de uma forma mais

eficaz. Davenport et al (1992) definem cinco tipos de política de informação:

utópico tecnocrático - a forte abordagem técnica como solução para todos os

problemas. Enfoca fortemente a modelagem e categorização da informação e está

sempre atenta a novas tecnologias de software e de hardware;


anárquico - inexistência de qualquer política de gerenciamento de informação. Os

indivíduos determinam seus próprios sistemas de informações e a forma de

gerenciá-los;

feudalista - o gerenciamento da informação por unidades ou funções individuais,

que definem suas próprias necessidades de informações, reportando somente parte

das informações para a organização;

monárquico - o gerenciamento da informação é ditado pelo líder da organização

que define o sistema de informações e o nível de acesso dos demais componentes

da organização; e

federalista - o gerenciamento da informação é feito com a participação de

determinados elementos da organização. O objetivo é que a política seja

determinada como resultado do consenso.

Estes tipos de política de informação podem ser usados na definição da

política e na identificação das políticas já adotadas pela organização. Todos estes

tipos de política possuem vantagens e desvantagens e a escolha da organização

deve ser baseada no contexto em que ela está inserida e nas perspectivas futuras. A

empresa pode optar pela implantação de uma política híbrida que agregue mais de

um diferente tipo. Entretanto, sua implantação é um processo complexo e difícil,

exigindo um grande esforço. Davenport et al (1992, p.64) registram:

Efetivamente, o gerenciamento da política da informação requer uma


mudança na cultura organizacional, novas tecnologias e, nem novos
executivos sozinhos são suficientes para fazer isto acontecer. O
gerenciamento da informação precisa que todos os gerentes apóiem e
muitos participem. Eles precisam ver a informação como elemento
importante para seus sucessos, estando dispostos a gastarem tempo e
energia negociando para encontrar suas necessidades de informação.
A organização, principalmente os responsáveis pelas suas decisões

estratégicas, precisa pensar na informação como um de seus mais importantes

componentes. Furlan (1991, p. 6) comenta que o planejamento estratégico dos

sistemas de informações deve estar contido no próprio planejamento estratégico da

organização. Martin (1991, p. 14-15) inclui o planejamento estratégico de

informações no topo de seu modelo de pirâmide das fases da metodologia de

engenharia da informação. Torres (1991), e também Kugler e Fernandes (1984)

concordam com a integração do planejamento da informação. Torres (1991, p. 53)

alerta que o planejamento da informática deve atentar para três preocupações

básicas:

• qual é a filosofia de informações que a empresa deseja perseguir, incluindo

o grau de disseminação de recursos pretendido, a autonomia desejada para

as áreas (em termos de sistemas de informações, entre outros aspectos);

• como as tecnologias de informações podem contribuir para um melhor

posicionamento estratégico, econômico e organizacional para a empresa; e

• como a empresa deve tratar a sua evolução, em termos de atualização e

capacitação permanente quanto às tecnologias de informações.

A organização não pode correr o risco de investir em recursos, sejam eles

humanos, de software ou de hardware, sem um planejamento adequado que

contemple a organização como um todo. O trabalho de informatização deve ser feito

de maneira integrada e, mesmo que conduzido de forma gradativa, os subprojetos

de informatização necessitam estar integrados e correlacionados, compondo um

projeto global.
1

3 BANCO DE DADOS

Basicamente, podemos caracterizar um Banco de Dados como um conjunto

de informações relacionadas entre si, referentes ao mesmo assunto, organizadas

prática e racionalmente, para que o usuário levante e recupere informações, tire

conclusões e tome decisões.

Boa parte das técnicas de descoberta de conhecimento tem sua aplicação no

apoio a gestores de diversos segmentos em que há disponibilidade de banco de

dados. A popularização e redução dos preços dos computadores e a automação de

muitas empresas e estatais têm resultado em grandes volumes de dados, tornando

insuficientes os métodos tradicionais de análise. Existe uma necessidade

significante por uma nova geração de técnicas e ferramentas com habilidades para

assessorarem humanos a analisar montanhas de dados de forma inteligente e

automática através do fornecimento de conhecimento resumido e estratégico

(Fayyad et al., 1996a). Muitas empresas e instituições governamentais estão

iniciando a exploração de seus dados, através da construção de Data Warehouse5 e

ferramentas de extração de conhecimento, como o KDD6 - Knowledge Discovery in

Databases e a Mineração de Dados (MD)7, com o objetivo de reduzir custos e

otimizar a qualidade de seus produtos e serviços.

3.1 A descoberta do conhecimento em Banco de dados


5
Data Warehouse: sistema de computação utilizado para armazenar informação relativa às atividades de uma
organização em bancos de dados, de forma consolidada.
6
KDD: Mineração de dados também conhecida como descoberta de conhecimento em Banco de dados. É a
pratica de procurar em grandes volumes de dados em busca de padrões.
7
MD: Mineração de dados. Pesquisa de informação em banco de dados.
2

“O objetivo é a extração de conhecimento de alto nível a partir de dados de

baixo nível disponíveis em grandes bancos de dados” (Fayyad et al., 1996b).

O termo “Descoberta de Conhecimento em Banco de Dados” (KDD –

Knowledge Discovery in Databases) surgiu no primeiro workshop de KDD em 1989,

para enfatizar que o produto final do processo de descoberta em banco de dados

era o “conhecimento” (Fayyad et al., 1996b). Nos anos subseqüentes foram

promovidos outros workshops, sendo que o último (quinto) foi realizado em 1994.

Em 1995 foi realizada a Primeira Conferência Internacional sobre este tema. No ano

seguinte, em 1996, realizou-se a Segunda conferência Internacional, intitulada KDD-

96, evento que tem se repetido anualmente reunindo os principais pesquisadores da

área e agrupadas inúmeras publicações importantes deste seguimento que têm

contribuído com os rumos da pesquisa em KDD. KDD é uma área interdisciplinar

específica que surgiu em resposta à necessidade de novas abordagens e soluções

para viabilizar a análise de grandes bancos de dados. Particularmente, KDD tem

obtido sucesso na área de marketing, onde a análise de banco de dados de clientes

revela padrões de comportamento e preferências que facilitam a definição de

estratégias de vendas. A viabilidade de aplicação de KDD depende de aspectos

práticos e técnicos. O aspecto prático inclui considerações sobre o impacto que a

aplicação irá provocar, medido por critérios tais como rendimento, redução de

custos, melhora na qualidade dos produtos ou economia de tempo na instituição. Em

aplicações científicas, o impacto pode ser medido por novidade e qualidade do

conhecimento descoberto bem como pelo aumento da automação de processos de

análises manuais. O aspecto técnico se refere à disponibilidade de dados


3

suficientes, ou seja, a complexidade do problema pode exigir grande quantidade de

atributos e casos (ou “registros” de banco de dados). Por outro lado, muitos atributos

podem ser irrelevantes para o problema tratado. Em ambos, o conhecimento do

domínio da aplicação, tais como: campos mais importantes, qual o relacionamento

entre eles, qual a utilidade para o usuário, que padrões já são conhecidos, etc.,

poderá contribuir para redução tanto da busca na tarefa de Mineração de Dados

(MD) quanto nas demais etapas do processo de KDD. Apesar das informações

resumidas e significativas para tomada de decisão ser de volume menor, geralmente

elas não estão disponíveis e exigem a sua extração a partir de grandes quantidades

de dados que crescem com o tamanho e a idade das instituições, dificultando o

processo de extração de conhecimento. Além disso, muitas vezes o usuário não

sabe sequer formular uma questão desejada. A aplicação de KDD muitas vezes se

depara também com os seguintes desafios: bancos de dados enormes ou poucos

dados; muitas dimensões; mudança nos dados; dados com ruído ou perda de

dados; interação complexa entre atributos, etc. Neste contexto, o desafio que se

apresenta para as organizações pode ser simplificado como a resolução de duas

questões básicas:

1. Como organizar os dados?

2. Como extrair conhecimento dos dados organizados?

A primeira questão pode ser equacionada através da construção de Data

Warehouse. Esta tecnologia permite armazenar informações, anteriormente

dispersas, através da identificação, compreensão, integração e agregação dos

dados, de forma a posicioná-los nos locais mais apropriados visando a atender à


4

estratégia organizacional das empresas (Brackett,1996). Obviamente, a técnica de

Data Warehousing apresenta dificuldades em ser implementada sobre uma base de

dados como a gerada pela atividade policial tendo em vista a sua expansão

desordenada, sendo criada e modificada permanentemente pelos usuários finais e

não pelos analistas de informação. É tarefa hercúlea para o especialista de domínio

a sua organização, pois demandaria tempo e custos elevados, restando para si, na

maioria dos casos, a tarefa de delimitar genericamente a localização dos dados em

árvores de diretórios, além de orientar o usuário final a respeito da correta inclusão

dos dados em locais pré-definidos. Em resposta à segunda questão, para extrair

conhecimento de um sistema de Data Warehouse, são necessárias ferramentas de

exploração, hoje conhecidas como Mineração de Dados (MD), que podem incorporar

técnicas estatísticas e/ou de Inteligência Artificial (IA)8, capazes de fornecer

respostas a várias questões ou mesmo de descobrir novos conhecimentos em

grandes bancos de dados. MD é especialmente útil em casos onde não se conhece

a pergunta, mas, mesmo assim, existe a necessidade de respostas. Na área de

atuação de uma organização policial, a grande quantidade de informações

acumuladas nos bancos de dados informatizados pode esconder conhecimentos

valiosos e úteis para a tomada de decisões. O aumento acentuado no volume dos

dados, associado à crescente demanda por conhecimento novo para decisões

estratégicas, tem provocado o interesse crescente em descobrir conhecimento em

banco de dados.

3.1.1 Knowledge Discovery in Databases (KDD)

8
Inteligência Artificial: Tecnologia que torna os computadores com desempenho similar ao de seres humanos.
5

“KDD é o processo não trivial de identificação, a partir de dados, de padrões

que sejam válidos, novos, potencialmente úteis e compreensíveis” (Fayyad,

1996b).

Na definição de Fayyad, KDD é descrito como um processo geral de

descoberta de conhecimento composto por várias etapas, incluindo: preparação dos

dados, busca de padrões, avaliação do conhecimento e refinamentos. O termo não

trivial significa que envolve algum mecanismo de busca ou inferência, e não

qualquer processamento de dados direto de uma quantidade pré-definida. Nessa

definição, um conjunto de dados representa fatos enquanto que os padrões podem

ser interpretados como uma expressão em alguma linguagem capaz de descrever

um subconjunto de dados ou um modelo aplicável a este subconjunto. Os padrões

descobertos devem ser válidos diante de novos dados com algum grau de certeza.

Estes padrões podem ser considerados conhecimento dependendo de sua natureza.

Os padrões devem ser novos, compreensíveis e úteis, ou seja, deverão trazer algum

benefício novo que possa ser compreendido rapidamente pelo usuário para tomada

de decisão. Um conceito importante, chamado de interestingness (“grau de

interesse”) (Piatetsky-Shapiro & Matheus, 1994), é usualmente utilizado como uma

medida geral do valor de um padrão, podendo combinar validade, novidade,

simplicidade (compreensibilidade) e utilidade. Para descobrir conhecimento que seja

relevante, é importante estabelecer metas bem definidas. Segundo Fayyad et al.

(1996b), no processo de descoberta de conhecimento as metas são definidas em

função dos objetivos na utilização do sistema, podendo ser de dois tipos básicos:

verificação ou descoberta. Quando a meta é do tipo verificação, o sistema está

limitado a verificar hipóteses definidas pelo usuário, enquanto que na descoberta o

sistema encontra novos padrões de forma autônoma. A meta do tipo descoberta


6

pode ser subdividida em: previsão e descrição. A descrição procura encontrar

padrões, interpretáveis pelos usuários, que descrevam os dados. A previsão parte

de diversas variáveis para prever outras variáveis ou valores desconhecidos (Fayyad

et al., 1996a). Na previsão, o sistema irá encontrar padrões com o propósito de

estimar o comportamento futuro de algumas entidades, enquanto que na descrição o

sistema deverá encontrar padrões com o propósito de apresentá-los ao usuário em

uma forma compreensível pelo homem. As fronteiras entre previsão e descrição não

são bem definidas, mas em KDD “a descrição tende a ser mais importante do que a

previsão” (Fayyad et al., 1996b). As metas de previsão e descrição são alcançadas

através de alguma das seguintes tarefas de MD: classificação, regressão,

agrupamento, sumarização, modelagem de dependência e identificação de

mudanças e desvios, sendo a tarefa de classificação a mais empregada. Na

modelagem preditiva para classificação ou regressão podem ser utilizadas, dentre

inúmeras outras formas de representação do conhecimento, árvores de decisão e

regras. Retomando a explanação sobre o processo de KDD, apesar da mineração

de dados ser a etapa principal, o processo de descoberta de conhecimento em

banco de dados não se resume a minerar os dados. Exige-se a construção de mais

dois estágios: pré-processamento e pós-processamento.

Fayyad classifica o processo geral de KDD nas seguintes etapas:

• desenvolver um entendimento do domínio da aplicação, identificar o tipo de

conhecimento que interessa, e identificar a meta do processo de KDD a partir do

ponto de vista do usuário;


7

• realizar pré-processamento incluindo operações básicas, tais como: seleção de

atributos relevantes, remoção de ruído, tratamento da ausência de valores de

atributos e conversão de dados categóricos ou contínuos;

• reduzir os dados em função do objetivo da tarefa;

• escolher a tarefa de MD baseado no objetivo do processo de KDD;

• escolher o algoritmo9 de MD apropriado;

• realizar a mineração dos dados propriamente dita;

• interpretar os padrões descobertos, podendo retornar para um dos passos

anteriores;

• consolidar o conhecimento descoberto, incluindo a conferência e a solução de

possíveis conflitos com conhecimentos anteriores.

Portanto, o processo de KDD utiliza banco de dados para realizar: seleção de

atributos e transformações necessárias sobre os dados (pré-processamento);

aplicação de métodos (algoritmos) de MD para extrair padrões dos dados; e

avaliação do produto da MD para identificar os padrões julgados como

“conhecimento” (pós-processamento).

3.2 Mineração de dados – (MD)

Este é um tema de pesquisa cujas aplicações são virtualmente ilimitadas.

Pode-se aplicar Mineração de Dados a qualquer tipo de área (financeira, comercial,

medicina, ciências, etc.), desde que se tenham dados disponíveis. De fato as

pessoas estão se afogando em dados, mas sedentos de conhecimento. O problema


9
Algoritmo: é uma seqüência finita e não ambígua de instruções computáveis para solucionar um problema.
8

é como extrair conhecimento novo a partir de uma enorme quantidade de dados.

Segundo uma publicação da revista Times (2000), Mineração de Dados é um dos 10

“hottest jobs” para o futuro juntamente com programadores de genes e outros

serviços de tecnologia altamente avançada. “Mineração de dados” é um termo mais

utilizado por profissionais da área de estatística, analistas de dados e pela

comunidade que desenvolve sistemas de informações gerenciais, enquanto KDD

tem sido mais utilizado por pesquisadores em IA e aprendizagem de máquina

(Fayyad et al., 1996a). Fayyad diferencia os termos MD e KDD destacando que o

componente de MD se refere apenas ao meio pelo qual padrões são extraídos e

enumerados a partir dos dados, enquanto que KDD envolve a avaliação e

interpretação dos padrões para decidir o que é conhecimento e o que não é,

incluindo a escolha do esquema de codificação, pré-processamento, amostragem e

projeções realizadas antes da etapa de MD, bem como o pós–processamento

naturalmente realizado depois da etapa de MD. Segundo Fayyad (1997), tarefas

realizadas através de técnicas oriundas das áreas de estatística, reconhecimento de

padrões, RNA (Rede Neural Artificial), aprendizagem de máquina e banco de dados

podem ser enquadradas na fase de MD. Outros campos relacionados são

otimização (de busca), computação paralela e de alto desempenho, modelagem de

conhecimento, gerência de incertezas e visualização de dados. Técnicas de MD

utilizam dados históricos para aprendizagem objetivando realizar alguma tarefa

específica. Esta tarefa tem como meta responder alguma pergunta particular de

interesse do usuário. Portanto, é necessário informar qual problema se deseja

resolver. Exemplos de aplicações podem ser obtidos em Fayyad & Uthurusamy

(1995). Para encontrar respostas, ou extrair conhecimento relevante, existem

diversas técnicas de MD disponíveis na literatura (Chen et al., 1996; Cheung et al.,


9

1996). As principais podem ser agrupadas em:

• Indução e/ou Extração de Regras;

• Redes Neurais;

• Algoritmos Evolucionários;

• Técnicas estatísticas (classificadores e redes Bayesianas10, etc.); e

• Conjuntos Difusos.

Essas técnicas podem ser aplicadas a diversas tarefas de mineração de

dados, tais como: extração de regras de associação, classificação, previsão em

geral, determinação e análise de agrupamento, etc. Seja qual for a tarefa a ser

realizada, a aplicação cega de métodos de MD (chamada na literatura de estatística

de “dragagem de dados”) pode se tornar uma atividade perigosa e conduzir

facilmente para a descoberta de padrões sem sentido (Fayyad et al., 1996b). Para a

escolha da técnica mais adequada é estratégico saber alguma coisa a respeito do

domínio da aplicação de MD: quais são os atributos importantes, quais os

relacionamentos possíveis, o que é uma função útil para o usuário, que padrões já

são conhecidos e assim por diante.

O processo de MD também é centrado na interação entre as diversas classes

de usuários, e o seu sucesso depende, em parte, dessa interação. Os usuários do

processo podem ser divididos em três classes: especialista do Domínio que deve

possuir amplo conhecimento do domínio da aplicação e deve fornecer apoio para a

execução do processo; analista que é o usuário especialista no processo de

extração de conhecimento e responsável por sua execução devendo conhecer

profundamente as etapas que compõem o processo e; usuário final que representa a

classe de usuários que utiliza o conhecimento extraído no processo para auxiliá-lo


10
Redes Bayesianas: aplicam o Teorema de Bayes sobre determinística e probabilidade de variáveis aleatórias.
10

em um processo de tomada de decisão. E importante ressaltar que pode haver

situações em que o especialista do domínio também é o usuário final, ou que este

auxilie ou execute funções pertinentes ao analista. Entretanto, é pouco provável que

o analista encontre conhecimento útil a partir dos dados sem a opinião do

especialista sobre o que é considerado interessante em um domínio específico.

“Não há um método de Mineração de Dados ‘universal’ e a escolha de um

algoritmo particular para uma aplicação particular é de certa forma uma arte”.

(Fayyad et al., p. 86, 1996b).

Segundo Fayyad et al. (1996b), os algoritmos de MD diferem primariamente

nos critérios utilizados para avaliar o modelo e/ou no método de busca utilizado. Ele

adverte que não há critérios estabelecidos para se decidir quais métodos devem ser

usados em dada circunstância e que muitas abordagens são aproximações

heurísticas para evitar o alto custo de processamento que seria necessário para se

encontrar soluções ótimas. Fayyad identifica três componentes primários em

algoritmos de MD:

a) Representação do modelo: é a linguagem utilizada para descrever os padrões a

serem descobertos;

b) critério de avaliação do modelo: afirmação quantitativa (ou função de aptidão)

da qualidade que um padrão específico possui (um modelo e seus parâmetros) em

alcançar as metas do processo de KDD. Modelos preditivos muitas vezes são

julgados pela exatidão de previsão medida utilizando algum conjunto de dados de

teste. Modelos descritivos podem ser avaliados pela novidade, utilidade e facilidade

de compreensão do modelo obtido, além da exatidão;


11

c) método de busca: é constituído por dois componentes (busca de parâmetros e

busca do modelo). Após a escolha da representação e do critério de avaliação do

modelo, o problema de MD fica reduzido à tarefa de otimização (encontrar os

parâmetros/modelos que satisfaçam o critério de avaliação). Na busca, o algoritmo

deve procurar os parâmetros que aperfeiçoem o critério de avaliação do modelo. A

busca do modelo ocorre em um processo interativo externo ao método de busca dos

parâmetros.

3.3 Recuperação da informação – Ensaio na Internet – Metadados e Metabusca

Em seus primeiros estágios de uso, a tecnologia da informação era utilizada

em um ciclo de identificação, localização e acesso a documentos em papel,

armazenados em bibliotecas. Com o surgimento da Internet, os estágios de

localização e acesso se tornaram triviais: um número crescente de registros da

cultura humana está migrando para formatos digitais e uma quantidade grande dos

mesmos é criada já diretamente em formato digital.

Em contrapartida, a enorme quantidade de informação armazenada e

disponibilizada via Internet torna crucial o problema da identificação de informação

relevante. Diversas estratégias para fazer frente à explosão informacional trazida

pela Internet podem hoje ser divisadas, como os mecanismos de busca gerais

(Google, AltaVista, Excite, Lycos, Infoseek, Yahoo e outros), os localizadores de

informações especializados, como o GILS ou o PROSSIGA (http://www.prossiga.br/)

ou LIS (http://www.bireme.br/) e as propostas de indexação do documento com tags


12

embutidas no código das páginas HTML11, como o Dublin Core e a linguagem XML12

(Medeiros, 2000). O desenvolvimento de esquemas de metadados13 como o Dublin

Core (Weibel, 1995) e sua utilização pelo próprio autor do documento eletrônico para

descrevê-lo e indexá-lo é uma possível solução; juntamente com tags 14 HTML

especiais, as tags META. Metadados e metabusca15 constituem, na opinião do Autor

deste Projeto, a solução para a explosão informacional trazida pela Internet, com

potencial pleno para uso em intranets corporativas, tornando possível que páginas

HTML e arquivos sejam vasculhados por programas especiais, chamadas "aranhas"

ou agentes inteligentes, indexando-os com muito mais qualidade.

A maior novidade em termos de metabusca que parece alentadora é o Projeto

GOOGLE, com sua proposta de ordenamento e priorização ranking dos resultados

de uma busca tendo por base sites mais referenciados por link a partir de outros.

Nesta proposta, representações consistentes das informações jogam um papel

fundamental em atividades como busca de informações, avaliação e uso.

Intimamente ligado às atividades de recuperação de informações,

principalmente utilizando tecnologia da informação, está o conceito de Relevância

(Greisdorf, 2000). Este é um conceito central para a ciência da informação

(Saracevic, 1970). Relevância pode ser definida como "medindo a correspondência

entre um documento e uma consulta" (Le Coadic, 1996). Conforme colocado por

Robins (2000), o conceito de relevância na recuperação de informações evoluiu

desde uma perspectiva centrada no sistema, onde um documento, em um sistema

11
HTML: A sigla HTML deriva da expressão Hyper Text Markup Language. Trata-se de uma linguagem de
marcação utilizada para produzir páginas na Internet.
12
XML: XML (Extensible Markup Language) é uma recomendação da W3C para gerar linguagens de marcação
para necessidades especiais.
13
Metadados equivale à representação sob a forma de resumo do documento original.
14
Tags: são comandos inseridos num documento que definem como o documento deve ser formatado.
15
Metabusca é a obtenção de conhecimento através da pesquisa dos resumos contidos nos metadados.
13

de recuperação de informações é ou não relevante, para modelos mais sofisticados,

baseados em aspectos cognitivos de um usuário em sua interação com um sistema

de informações – os chamados modelos cognitivos ou modelos baseados no usuário

(Belkin, 1982) e (Saracevic, 1988).

Na perspectiva cognitivista, a recuperação de informações está associada

com imprevisibilidade. Esta situação implica a perspectiva de um usuário, um

processo de busca de informações hierarquizado, desde necessidades mais gerais

por informações – information behavior –, passando pela interação do usuário com

fontes e sistemas de recuperação de informações – information seeking behavior,

information searching behavior –, até o uso final da informação pelo usuário –

information use behavior – (Wilson, 2000, p. 49). Este processo se mostra assim um

processo contínuo de tomada de decisões. Wang (1998) propõe um modelo para

estas decisões, baseado em critérios como topicalidade, orientação, qualidade,

novidade, disponibilidade, autoridade, relação e em valores como epistêmico,

funcional e emocional. Aspectos do modelo proposto por Wang relacionados com o

problema da representação é seu estudo do impacto do que ele chama DIEs

(Document Information Elements) – componentes de informação do documento, os

campos de uma referência bibliográfica, por exemplo – nas decisões relacionadas à

relevância dos documentos recuperados de um sistema de recuperação de

informações.

A referência bibliográfica pode ser vista como um texto sobre outro texto – o

documento que ele representa. Diversas disciplinas se voltam para o problema da

interpretação de textos. A interpretação como atividade cognitiva de um leitor (no

caso de sistemas de informação, um usuário), é preocupação da hermenêutica


14

(Demo, 1995),(Reale, 1991). A teoria literária de base semiótica16 (Eco, 1995), (Violi,

1998), a Análise do Discurso (Orlandi, 1993) e a ciência da informação (Dervin,

1999) destacam o papel ativo do leitor, do seu contexto, da sua história, em dar

sentido ao texto.

O referencial teórico da semiótica, conforme estabelecida por Charles

Sanders Pierce (Pierce, 1977), elucida o papel de representações de documentos no

contexto de processos de busca de informações: principalmente conceitos como

abdução – processo inferencial baseado em representações – e o de interpretação

(Hobbs, 1993). Pierce associa a abdução ao insight criativo na ciência, quando uma

nova descoberta científica é inferida, baseado em poucos e incompletos dados.

Assim também considera Ingersen (1996, p.20) quando diz que "Em vários aspectos

a recuperação de informações tem paralelo com o processo científico de formular

uma hipótese, testá-la e obter um novo conhecimento". A formulação de Pierce para

o raciocínio abdutivo esclarece o papel de representações de informações – uma

referência bibliográfica, por exemplo – na economia da informação: servir como um

dispositivo de inferência – um artefato cognitivo, na concepção de Hutchins (1999) –

sobre a relevância do recurso informacional para as necessidades de informação do

usuário que a interpreta. No espaço da Internet, por exemplo, representações de

documentos ou de outros recursos informacionais devem apoiar decisões de seus

usuários potenciais relativas à busca, identificação, avaliação de relevância, custo-

benefício de acessar a informação e lê-la.

Localizar e/ou identificar informações é uma etapa fundamental na economia

da informação e do conhecimento. Algumas estratégias podem ser divisadas para

lidar com o problema da localização e identificação de informações no contexto da


16
Semiótica: (do grego semeiotiké, (arte) dos sinais, sintomas) é a ciência dos signos e da semiose, ou seja, do
processo de significação na natureza e na cultura.
15

Internet. Em primeiro lugar, os mecanismos de busca, como Google, Lycos,

AltaVista, Infoseek, HotBot etc. Estes mecanismos de busca mantêm uma base de

dados contendo URLs17 de páginas Internet juntamente com palavras-chave

extraídas destas páginas automaticamente. A base de dados é mantida por

programas especiais chamados aranhas (spiders) ou robôs, que, ao gerarem

automaticamente valores numéricos de URLs, acessam diferentes páginas Web 18,

vasculham seu conteúdo, extraindo informações do texto de cada página HTML

visitada, armazenando-as na base de dados. Regularmente, programas-aranha

vasculham a Internet ou partes selecionadas dela, mantendo bases de dados do

mecanismo de busca atualizadas.

Sneiderman (1997), discutindo a eficácia dos mecanismos de busca de uso

geral disponíveis na Internet, diz que "Embora mecanismos de busca como as

Infoseek, AltaVista, Lycos, WebCrawler e Open Text sejam largamente usados,

existe um consenso público e geral e entre profissionais acerca das grandes

dificuldades de buscar informações".

Um relatório do instituto de Pesquisas NEC, publicado pelo boletim Edupage

em português, em 3 de abril de 1998, relata que os melhores mecanismos de busca

cobrem não mais de 30% de todas as páginas Web. Esta afirmação reforça a

dimensão do problema localização/identificação colocado pela Internet.

Outra estratégia é o desenvolvimento de serviços de localizadores de

informações especializados como os serviços de localizadores de informações

governamentais (GILS) de diferentes países, os portais especializados como o

17

URL: Universal Resource Locator (URL). É o endereço de um recurso ou ficheiro disponível na Internet.
18
WEB: Abreviação de WWW, World Wide Web ( teia do tamanho do mundo ). Parte visível desta rede.
16

SOSIG (http://www.sosig.ac.uk/), a experiência das bibliotecas virtuais

especializadas do programa Prossiga, o serviço LIS – Localizadores em Ciência da

Saúde. A catalogação e indexação de recursos da Internet nestes serviços são feitas

por profissionais de informação; eles indexam recursos informacionais e não a

página isolada, como é feito automaticamente pelos mecanismos de buscas

(Kirriemuir, 1998). Apesar do fato de que a qualidade da informação é boa e os

localizadores de informações especializados são realmente eficazes, eles se

destinam às comunidades específicas.

Uma terceira estratégia consiste no uso descentralizado de esquemas de

metadados por diferentes comunidades para descrever e indexar recursos de

informação da Internet à medida que eles são criados e publicados. Metadados

embutidos no texto HTML de páginas podem tornar mais fácil e correto o exame e

indexação das páginas Web pelas "aranhas" e robôs, favorecendo a localização e

identificação de informações relevantes.

Todas estas experiências destacam o papel dos metadados, isto é, de

representações de recursos informacionais disponíveis na Web, na localização e

identificação de informação e/ou conhecimento que emerge com o surgimento da

Internet e da sociedade da informação. No trabalho informacional de criação de

representações, atores e papéis são bastante distintos dos de processos cognitivos

individuais e devem ser identificados de maneira precisa. Primeiro, um ator, o

profissional de informação, representa um documento mediante estratégias

cognitivas de indexação e resumo (Endres-Niggemeyer, 1998). Ele interpreta o

documento para alguém mais, o usuário, com o objetivo de desenvolver uma

representação do documento. Esta representação é preparada para ser utilizada por

outro ator, o usuário. Este é um processo ativo, à medida que o profissional de


17

informação não somente extrai a informação contida no documento original, mas,

freqüentemente, adiciona informações novas baseado nas necessidades de

informação e no quadro conceitual que o profissional de informação supõe que

usuários possuam ou que ele próprio possua. Ao construir um registro bibliográfico

para inclusão em uma base de dados, por exemplo, o profissional de informação

assinala campos como tipo de documento, classificação, etc., informação que não

está explícita no documento original.

3.4 Representação e economia do conhecimento – Semiótica e Metatexto

Processos semióticos, como estabelecidos por Eco (1995), diferentemente de

processos determinísticos de estímulo-resposta, que são binários (A implica B), são

triádicos, envolvendo um objeto A ausente, um signo B e uma entre várias

possibilidades de interpretação C que o signo traz ou representa, na mente de

alguém. Colocada desta maneira, a semiótica é um processo humano e social

fundamental, que implica a comunicação entre seres humanos e, desta forma, em

decisões e escolha de interpretações de mensagens.

A busca de informações, principalmente no contexto de uma busca na

Internet ou em uma base de dados, pode ser vista como um processo semiótico,

uma vez que envolve o uso e interpretação de representações, as referências

bibliográficas. Esta situação é a que cria motivação para a busca de informações e

fornece os parâmetros para qualquer avaliação de relevância de representações

como as referências bibliográficas. Quando interpretada pelo usuário, a


18

representação deve suportar e apoiar vários tipos de operações cognitivas de

inferência acerca do conteúdo do documento original, de modo a permitir que o

usuário, no limite, possa decidir despender energia para obter e ler o documento

completo.

O valor da representação consiste no fato de que ela pode economizar

energia para o usuário, tornando o processo de busca de informações mais

econômico de um ponto de vista do seu dispêndio de energia; ler um resumo

despende muito menos energia que a leitura do documento completo. Permitir

inferências é a razão de ser do processo de representação no contexto da busca de

informações.

Pierce conceitua signo como "um signo ou representâmen, é aquilo que, sob

certo aspecto ou modo, representa algo para alguém" (Pierce, 1977, p. 46);

representar seria “estar no lugar de, isto é, estar numa tal relação com um outro que,

para certos propósitos, é considerado por alguma mente como se fosse este outro”

(Pierce, 1977, p. 61).

Na representação de um documento por meio de uma referência bibliográfica,

por exemplo, o objeto seria o documento original, o signo seria a referência

bibliográfica e o interpretante seria a idéia do documento criada pela referência na

mente de um usuário. Este signo seria, mais especificamente, um ícone. Um ícone é

um tipo de signo que pode representar um objeto, porque seus atributos têm

relações análogas com os atributos do objeto que está sendo representado. Uma

representação é construída colecionando-se atributos ou predicados acerca do

objeto, diz Dahlberg (1992, p. 66), na teoria do conceito.

Predicados acerca de um documento poderiam ser do tipo: um documento

tem um título <TÍTULO>, tem um autor <AUTOR>, diz respeito a um assunto


19

<ASSUNTO> etc. Assim, uma referência bibliográfica é um ícone com relação ao

documento que ela representa.

Um ícone é definido como um signo que tem alguma semelhança com o

objeto representado. Como o documento original, uma referência é um (meta) texto

que aparece ao usuário com o mesmo autor, com o mesmo título que o documento

original. Geralmente, a referência indica também a fonte do documento original,

palavras-chave associadas ao assunto do documento em questão e um resumo

descrevendo seu conteúdo.

Todos estes componentes são interpretados pelo usuário e, assim,

constituem um dispositivo de inferência ou uma tecnologia cognitiva conforme

estabelecido por Pierre Lévy, que permite inferir o “aboutness” e a relevância do

documento.

Sob outro aspecto, indexação e resumo são processos fortemente baseados

em inferências por parte do profissional de informação acerca das necessidades do

usuário, suas atividades e sobre a maneira pela qual ele usa informação.

Pesquisas recentes têm como foco a modelagem de usuários, suas

necessidades expressas durante o processo de busca de informações etc.

Indexação e resumo consistem em um processo de construção, pelo profissional de

informação, de um metatexto fortemente relacionado com o texto original.

Em que consistem estas relações? Na construção deste metatexto, o

profissional de informação faz escolhas acerca de que aspectos do texto original

devem ser mantidos no metatexto e quais não devem ser mantidas, quais, mesmo

que não estejam no texto original, devem ser adicionadas ao metatexto.

Quais os limites deste processo? A representação mais completa do ponto de

vista informacional de um texto é o próprio texto. Diferentemente, no entanto, do


20

processo semiótico, a construção deste metatexto, a referência bibliográfica, envolve

um aspecto que é a raiz de sua utilidade para a economia da informação e do

conhecimento.

A representação deve situar-se entre dois extremos para economizar energia

e assim realizar seu papel: ser suficientemente rica sob o aspecto cognitivo e ao

mesmo tempo sintética para economizar a energia do usuário de uma maneira

significativa. Este compromisso deve ser claramente compreendido pelo profissional

de informação. Na economia da informação e do conhecimento, a representação

deve ser tão rica cognitivamente de modo a permitir a um usuário inferir o conteúdo

do documento, de maneira a permitir-lhe decidir acerca da validade de obter e

realizar a leitura do documento completo. Simultaneamente, este processo deve

implicar uma significativa economia de energia em comparação com a obtenção e

leitura do documento original.

3.4 Ferramentas de busca na Internet – Diretórios e motores de busca

Desde os primórdios da Internet, houve a preocupação de se criarem

ferramentas para localização de seus recursos informacionais. Entre as ferramentas

mais antigas, podemos citar o Archie19, que busca arquivos em repositórios de sites

FTP, e Veronica e Jughead, que encontram conteúdos armazenados nos Gophers20.

Com o advento da internet e a conseqüente explosão das publicações

disponibilizadas por meio dela, começaram a surgir as ferramentas específicas para

19
Archie: Ferramenta que permite a procura de arquivos e informações em servidores FTP.
20
Gophers: é um protocolo de redes de computadores que foi desenhado para indexar repositórios de
documentos na Internet.
21

pesquisa de suas páginas. Existem hoje centenas destes instrumentos que

fornecem meios para localizar o que se busca entre as cerca de um bilhão de

páginas HTML, que se estimam.

Existem dois tipos básicos de ferramentas de busca na internet: os motores

de busca e os diretórios. Entretanto, a partir dessas duas categorias básicas, outros

tipos de ferramentas têm surgido, fazendo o mundo dos serviços de busca complexo

e volátil. Devido às características específicas de cada ferramenta, o tipo, número e

a qualidade dos recursos recuperados através de seu uso, podem variar

enormemente. Para obter melhores resultados na busca de informações, o primeiro

passo é entender as peculiaridades dos diferentes tipos de ferramentas de busca na

internet.

3.4.1 Diretórios

Os diretórios foram a primeira solução proposta para organizar e localizar

os recursos da internet, tendo precedido os motores de busca por palavras-chave.

Foram introduzidos quando o conteúdo da internet ainda era pequeno o suficiente

para permitir que fosse coletado de forma não automática.

Organizam-se os sites que compõem sua base de dados em categorias, as

quais podem conter subcategorias, ou seja, os sites recebem uma organização

hierárquica de assunto e permitem aos usuários localizar informações, navegando,

progressivamente, para as subcategorias.


22

Como são ferramentas genéricas, destinadas a um público variado, procuram

incluir, em suas árvores hierárquicas de assunto, tópicos que são de interesse

amplo. É comum que incluam, por exemplo, itens relacionados com educação,

esporte, entretenimento, viagens, compras ou informática. Cabeçalhos de assunto

são atribuídos de forma consistente, de modo que os usuários podem contar com a

ajuda de um vocabulário controlado.

Os sites coletados passam pela seleção, na maioria das vezes, por seres

humanos, os editores, que tomam conhecimento de novos recursos por meio de

sugestões de usuários, de pesquisas na Internet (em listas de anúncios de novas

páginas e atualizações, por exemplo), ou ainda, pelo uso de robôs para coletar

novos URLs.

Embora normalmente os critérios para seleção utilizados não sejam

divulgados, apenas os melhores recursos são escolhidos para inclusão. Apesar

desta triagem, devido à enorme quantidade de sugestões, centenas de sites podem

ser acrescentados semanalmente. Os grandes diretórios podem conter dezenas de

milhares de categorias e subcategorias e mais de um milhão de sites.

O primeiro diretório da internet foi o The World Wide Web Virtual Library

(http://www.vlib.org/), lançado em novembro de 1992 e sediado no CERN, que

também foi o local de nascimento da internet. Atualmente, o exemplo mais

conhecido é o Yahoo!, que iniciou em 1994, a partir de um hobby de estudantes de

doutorado na Stanford University, e hoje é uma bem-sucedida empresa comercial.

Outros exemplos de diretórios são Snap (http://www.snap.com/), LookSmart

(http://www.looksmart.com/), Open Directory (http://dmoz.org/), Yahoo Brazil


23

(http://www.br.yahoo.com/) e Cadê (http://www.cade.com.br/), sendo este último

brasileiro.

3.4.2 Motores de busca

Ao contrário dos diretórios, os motores de busca não organizam

hierarquicamente as páginas que colecionam. Preocupa-se menos com a

seletividade que com a abrangência de suas bases de dados, procurando colecionar

o maior número possível de recursos através do uso de softwares chamados robôs.

Como suas bases de dados são extremamente grandes, podendo alcançar centenas

de milhões de itens, permitem aos usuários localizar os itens desejados mediante

buscas por palavras-chave, ou, às vezes, em linguagem natural.

Os motores de busca começaram a surgir quando o número de recursos na

internet adquiriu proporções tais que impediam a sua coleta por meios manuais e a

busca apenas através da navegação. A maioria deles derivou do trabalho de

estudantes de pós-graduação, professores, funcionários do departamento de

sistemas de empresas ou outras pessoas interessadas na internet. Muitos não

obtiveram continuidade, à medida que a tarefa a ser executada passou a exigir

maiores recursos humanos e técnicos. Os que sobreviveram foram adquiridos por

empresas ou financiados por propagandas, investidores e recursos de pesquisa.

ALIWEB (Archie-Like Indexing on the Web) e Harvest são exemplos das

primeiras tentativas de criar motores de busca por palavras-chave, e utilizavam

tecnologias diferentes das atuais. O primeiro dos motores baseados em robôs foi o
24

WebCrawler, lançado em abril de 1994. Todos os motores atuais utilizam o método

de robôs sendo formados por quatro componentes: um robô, que localiza e busca

documentos na internet; um indexador, que extrai a informação dos documentos e

constrói a base de dados; o motor de busca propriamente dito e a interface, que é

utilizada pelos usuários.

Os robôs, também chamados de aranhas (spiders), agentes, viajantes

(wanderers), rastejadores (crawlers) ou vermes (worms), são programas que o

computador hospedeiro da ferramenta de busca lança regularmente na Internet, na

tentativa de obter dados sobre o maior número possível de documentos para

integrá-los, posteriormente, à sua base de dados.

Existem várias estratégias que os robôs podem utilizar para se locomoverem

de um documento a outro, utilizando-se dos links existentes nas páginas da internet.

Geralmente, eles iniciam a busca a partir de sites conhecidos, especialmente

daqueles que possuem muitos links, recuperam a sua home page e,

sistematicamente, seguem os links encontrados nesta página inicial. Usam

algoritmos próprios para determinar quais links devem seguir. Por exemplo, alguns

recuperam os documentos da hierarquia superior de um grande número de

servidores (abordagem breadth-first), enquanto outros capturam todos os

documentos em links de um mesmo servidor (abordagem depth-first).

Os motores de busca podem usar vários robôs que trabalham em paralelo

para construir sua base de dados. Na coleta de páginas para suas bases de dados,

a maioria dos motores de busca permite também que os usuários sugiram URLs, em

vez de esperar que os documentos sejam encontrados através da varredura

realizada regularmente pelos robôs.


25

Os documentos encontrados pelos robôs são encaminhados aos indexadores

que extraem a informação das páginas HTML e as armazenam em uma base de

dados. Esta base de dados do motor de busca consiste de informações julgadas

importantes como os URLs ou endereços das páginas, cache 21 das páginas, títulos,

resumos, tamanho e as palavras contidas nos documentos.

A interface, normalmente uma página em formato HTML, é utilizada pelos

usuários para efetuar a pesquisa na base de dados. Fornece o meio para que o

usuário formule a sua consulta, que é recebida e transmitida para o software de

busca ou motor de busca propriamente dito. Este é um programa que localiza, entre

os milhões de itens na base de dados, aqueles que devem constituir a resposta. O

programa também é responsável pela ordenação dos resultados, de maneira que os

mais relevantes apareçam em primeiro lugar na lista de resultados. Os resultados

mostrados contêm uma lista de descrições de sites e seus links.

Todos os motores de busca são compostos dos componentes listados

anteriormente. Entretanto, diferem entre si em relação a fatores como o tamanho de

suas bases de dados, critérios para indexação e inclusão de páginas, além de

ordenação dos resultados. Suas interfaces, recursos de busca que oferecem, a

freqüência com que atualizam suas bases de dados e o modo como apresentam os

resultados também variam.

O tamanho das bases de dados dos motores de busca é medido, geralmente,

em número de URLs. Este tamanho é de alta relevância para que a ferramenta seja

21

Cache: cache é um dispositivo interno a um sistema que serve de intermediário entre um operador de um
processo e o dispositivo de armazenamento ao qual esse operador acede.
26

considerada boa, já que os recursos informacionais na Internet só podem ser

encontrados em uma pesquisa, se alguma ferramenta os tiver incluído.

Se um motor cobre mais da internet, ele terá maior chance de conter a

informação procurada. Na tabela abaixo estão listados os maiores motores do

mundo, com o número de páginas em suas bases de dados e a percentagem do

número total de páginas da internet que cada um indexa. Atualmente o buscador

Google continua em primeiro lugar na classificação geral.

Fonte: Search Engine Watch. Search engine sizes.


Disponível na Internet via WWW. URL:
http://searchenginewatch.com/reports/sizes.html.
Ilustração 2

3.4.3 Critérios para indexação


27

Os motores de busca criam índices, chamados, na linguagem técnica, de

arquivos invertidos, que são utilizados para dinamizar a busca de informações na

sua base de dados. No índice, são inseridos todos os termos que podem ser

utilizados em busca de informações e o URL das páginas que os contêm. A fim de

fornecer melhores recursos para recuperação dos resultados e sua ordenação,

podem ser ainda armazenados dados sobre a posição das palavras na página e

sobre os tags HTML associados com o texto. Se um termo não estiver incluído no

índice, ele não será encontrado, portanto os critérios utilizados para indexação

influenciam os resultados das buscas.

A maioria dos motores de busca indexa, ou seja, inclui, em seu índice, cada

palavra do texto visível das páginas. Entretanto, alguns extraem, em vez do texto

completo, apenas o URL, as palavras que ocorrem com freqüência, ou palavras e

frases mais importantes contidas no título ou nos cabeçalhos e nas primeiras linhas,

por exemplo. Alguns motores indexam também outros termos, que não fazem parte

do texto visível, mas que contêm informações importantes e úteis.

Exemplos deste tipo de texto são os textos incluídos nos metatags22 para

classificação, descrição e palavras-chave e texto ALT do tag Image, ou seja, texto

associado com imagens. Os metatags de classificação fornecem uma palavra-chave

que define o conteúdo da página. Os de descrição retornam à descrição da página

feita pelo seu autor no lugar do resumo que o robô criaria automaticamente. Os de

palavras-chave fornecem as palavras-chave designadas pelo autor para descrever

seu conteúdo ou assunto. Por exemplo, no metatag <META name="keyword"

content="Brasil, informação para negócios" >, as palavras Brasil e informação para


22

Metatags: Sinônimo de metadata. Informação simplificada de um documento, usada pelos mecanismos de


busca para encontrar e classificar informações.
28

negócios podem não fazer parte do texto visível da página, entretanto foram

indicadas pelo seu autor como indicadores do assunto sobre os quais a página

versa.

Alguns motores não incluem no seu índice algumas palavras do texto,

chamadas palavras proibidas (stop words). Palavras proibidas são selecionadas

entre as muito comuns, como, por exemplo, a preposição "de", ou o artigo "the" na

língua inglesa. Como ocorrem nos textos em alta freqüência, muitos motores as

excluem em seus índices para economizar espaço de armazenamento. Outros as

incluem nos índices, mas os ignoram ao fazer uma busca, para torná-la mais rápida.

Para o usuário, isto é problemático, uma vez que os motores, em geral, não

fornecem documentação sobre quais são as palavras proibidas utilizadas.

3.4.3.1 Critérios para indexação de páginas e documentos

O número de itens nas bases de dados dos motores é determinado pelos

critérios que utilizam para inclusão de páginas. Alguns motores procuram incluir

todas ou a maioria das páginas de cada site visitado. Outros indexam os sites

superficialmente, ou seja, incluem apenas a home page e algumas páginas

principais.

Além de documentos HTML, são cada vez mais comuns motores que coletam

e indexam outros formatos, como imagens, vídeos, gráficos, arquivos PDF ou ASCII.
29

Outros compilam ainda mensagens em grupos de discussão, sites de FTP, menus

de gophers e outros recursos.

Entretanto, existem páginas que não são parte de nenhum motor de busca.

Estas incluem sites que requerem senhas para entrada, páginas atrás de um

firewall23 e páginas que contenham o metatag Meta Robot "noindex". O metatag

Robot (<META name="robots" content="noindex") pode ser acrescentado aos

marcadores de cabeçalho pelo criador da página para indicar aos robôs que eles

não devem capturá-la. Páginas isoladas, que não sejam referenciadas através de

links em outras páginas na Internet, também podem escapar à varredura dos robôs.

3.4.4 Freqüência de atualização dos dados

Devido ao dinamismo da Internet, as bases de dados dos motores de busca

precisam ser atualizadas, não só para adicionar novas páginas, mas também para

deletá-las ou incluir as modificações das já existentes no índice. Caso os robôs não

revisitem periodicamente toda a Internet, os URLs que eles trazem como resultados

de uma busca podem não mais existir, ou podem existir, mas não mais conter as

mesmas informações, e, portanto, não mais serem relevantes para a busca.

Os motores de busca se propõem a atualizar completamente seus índices

pelo menos uma vez por mês. As partes mais importantes desses, como, por

exemplo, páginas mais populares entre os usuários (Excite, Lycos), ou páginas que

mudam com mais freqüência (Inktomi, Infoseek, Altavista, Go), podem ser

23
Firewall: nome dado ao dispositivo de rede que tem por função regular o tráfego de rede entre redes distintas.
impedir a transmissão de dados nocivos ou não autorizado de uma rede a outra.
30

atualizadas assiduamente, em torno de uma vez por semana, enquanto o restante

do índice é atualizado a cada duas a quatro semanas. Novos URLs e links mortos

descobertos pelos robôs são atualizados diariamente. Cada motor tem sua própria

estratégia e tecnologia para se manter atualizado, embora possa acontecer que

algum deles passe alguns meses sem acrescentar novos URLs ou modificar seus

índices.

Os motores diferem também quanto ao tempo necessário para que uma

página coletada pelos robôs ou submetida pelos usuários seja adicionada ao índice.

Até que isso aconteça, a informação não será encontrada através de pesquisa no

motor. Com o crescente número de sites disponíveis na Internet e a concorrência

para chamar a atenção das ferramentas de busca, podem se passar meses antes

que um site novo seja adicionado à base de dados.

3.4.5 Interface e recursos para busca

Os motores diferem também em relação às interfaces e recursos de busca

que oferecem. Geralmente fornecem dois modos de busca, a busca simples para

usuários leigos e a busca avançada para usuários mais experientes ou profissionais.

Na busca simples, existem janelas e menus que permitem que os usuários entrem

nos termos de busca sem a necessidade de conhecimento de lógica booleana¹. A

busca avançada fornece recursos mais poderosos, como expressões booleanas

complexas.
31

Muitas vezes, na busca simples, os conectivos booleanos são

automaticamente colocados entre os termos de busca, e nem sempre os usuários

sabem qual operador está sendo utilizado. Em alguns motores, por exemplo, um

espaço entre os termos da consulta é interpretado como um conectivo booleano OR

(Altavista e Excite, por exemplo), enquanto para outros tem o significado de AND

(Google e Northernlight, por exemplo).

Podem oferecer recursos como truncamento, busca por frase, busca por

proximidade de palavras, busca por campos e sensibilidade à caixa de caracteres

(isto é, caixa-alta e caixa-baixa). É comum também haver opções para permitir a

limitação por data, domínio, idioma ou tipo de arquivos (com base na extensão dos

nomes dos arquivos).

Alguns motores fornecem opções mais sofisticadas, como a busca automática

pela raiz das palavras, ou seja, se o usuário entrar com a palavra "psicologia", ele

encontrará também documentos contendo a palavra "psicólogo". Em alguns casos, a

pesquisa se estende também a outros termos sinônimos ou a termos com conteúdo

semântico equivalente ao termo da consulta, como é o caso do Excite. Esta busca

estendida, quando existente, é geralmente automática, não sendo dada ao usuário a

possibilidade de desabilitá-la. São mais raros motores que permitem buscas em

linguagem natural, na qual a consulta pode ser entrada na forma de uma sentença,

em vez de termos isolados.

Não existe ainda uma completa padronização nas interfaces e recursos de

busca que cada mecanismo oferece, os quais variam de motor para motor. Para se

usar corretamente cada motor, é necessária a leitura das páginas de ajuda ou a

consulta a tabelas comparativas em revistas especializadas ou na própria Internet


32

(ver, por exemplo, o site da biblioteca da University of California at Berkeley –

http://www.lib.berkeley.edu/TeachingLib/Guides/Internet/ToolsTables.html e o site da

University at Albany Library - http://www.albany.edu/library/internet/choose.html).

3.4.6 Critérios de organização dos resultados

Devido à quantidade de páginas na Internet, na maioria das vezes obtém-se

um grande número de resultados para qualquer busca. Portanto, a seqüência em

que os resultados são mostrados torna-se importante. Se duas ferramentas trazem o

mesmo número de resultados, porém uma delas traz itens mais relevantes entre os

primeiros resultados, ela será considerada melhor. Com a finalidade de permitir que

os melhores sites apareçam em primeiro lugar, a maioria dos motores de busca

utiliza algoritmos de ordenação de resultados.

Entre os critérios mais utilizados por estes algoritmos estão a localização e

freqüência de ocorrência das palavras em uma página. Por exemplo, se o termo de

busca aparece no título, em cabeçalhos de destaque ou nos primeiros parágrafos

em uma página, esta seria considerada mais relevante que outras páginas em que

as palavras de pesquisa não aparecem nestas posições. E, se uma palavra aparece

com mais freqüência em uma página que em outra, a primeira seria considerada

mais relevante.

Outros critérios comuns para a determinação de relevância incluem o número

de termos da consulta que estão presentes na página e a proximidade em que os

termos se encontram. Os motores podem também levar em consideração o tamanho


33

do documento. Se dois documentos possuem o mesmo número de ocorrência dos

termos de busca, os documentos mais curtos seriam considerados mais importantes

que documentos longos. Este critério é chamado de densidade, pois mede a

densidade com que um dado termo é usado em cada documento. Às vezes aplica-

se uma curva declinante, em que a primeira ocorrência de um termo conta mais que

a segunda, que conta mais que a terceira, e assim por diante.

Os motores podem levar também em consideração o número total de vezes

que uma palavra ocorre na base de dados, pois existe uma relação inversa entre o

conteúdo informacional de um termo e o número de vezes que este ocorre em um

texto. Assim, as palavras recebem pesos inversos à freqüência de sua ocorrência na

totalidade dos documentos indexados pelo motor. Ou seja, palavras de ocorrência

muito comum podem receber um peso menor que palavras relativamente raras na

base de dados.

O mecanismo exato para determinação da importância das páginas varia de

motor para motor e geralmente não é revelado, porque os algoritmos de ordenação

por relevância são um dos maiores fatores diferenciais de competição entre os

motores.

3.4.6.1 Forma da organização dos resultados


34

Os motores podem fornecer várias opções de formato de exibição à escolha

dos usuários. A maioria apresenta o número total de documentos encontrados, os

quais são exibidos em páginas sucessivas contendo em torno de 10 resultados por

página em um formato default, o qual mostra o título e um pequeno resumo.

Normalmente o número de resultados por página pode ser alterado pelo usuário.

Outras vezes, pode-se também determinar quantos documentos, do total

encontrado, deseja-se receber. Por exemplo, podem ter sido encontrados 200

documentos, mas o usuário pode solicitar a apresentação apenas dos 10 ou 20

primeiros. O formato de exibição pode incluir o título, resumo, tamanho do arquivo

em bytes, data do arquivo, URL e idioma. Alguns motores agrupam os resultados

por URL e outros oferecem opção de apresentação de resultados de forma resumida

ou detalhada. Apenas o Google até o momento oferece o recurso de destaque

(highlighting) dos termos da consulta nos resultados apresentados.

3.5 Diferença entre Motores de Busca e Diretórios - Hibridização

Existem diferenças essenciais entre motores de busca e diretórios, o que faz

com que existam vantagens e desvantagens associadas ao uso de cada um dos

tipos de ferramentas. Os diretórios têm bases de dados menores, mas que contêm

informações mais relevantes. Por exemplo, ao se procurar, utilizando-se a árvore

hierárquica de assuntos, o tópico "motores de busca" (search engines) no diretório

Yahoo!, serão encontrados apenas itens relevantes. O mesmo não acontecerá, caso

efetuemos uma pesquisa com a palavra-chave “search engines” em um motor de


35

busca como o Altavista. Neste caso, obter-se-ia mais de um milhão e meio de

resultados, e não há garantia de que os itens recuperados sejam relevantes.

Diretórios são também mais apropriados para buscas por tópicos que sejam

de interesse para um grande número de pessoas, pois é alta a probabilidade de que

sejam parte da árvore hierárquica; ou tópicos muito amplos os quais retornariam um

número muito elevado de respostas em um motor de busca. Já os motores de busca

permitem a localização de qualquer tipo de informação, por mais obscura ou

específica, desde que exista na Internet e esteja indexada. Mas como a sua base de

dados é muito grande, constituída de milhões de páginas, a chance de se recuperar

um grande número de resultados não relacionados com os tópicos pesquisados é

também maior. Ou seja, obtém-se menor precisão nos resultados da busca. Por

outro lado, paradoxalmente, apesar de terem maiores bases de dados, as aranhas

dos motores de busca podem não indexar alguns tipos páginas que poderiam ser

incluídas nos diretórios.

Os motores de busca procuram compensar o excesso de itens recuperados

com seus mecanismos internos de ordenação por relevância, mostrando em

primeiro lugar os que, de acordo com seus critérios, deveriam ser os mais

importantes. Uma vez obtida a lista dos resultados, o usuário pode ler as descrições

para decidir quais os sites serão mais interessantes. No caso dos diretórios,

especialmente dos diretórios avaliados, esta descrição pode ser de melhor

qualidade. As descrições dos motores de busca, por serem elaboradas

automaticamente, podem não conter informações adequadas para facilitar a decisão

do usuário. Os robôs não podem, por exemplo, identificar o tema central ou gênero

literário de um documento e podem não detectar elementos importantes das páginas

como gráficos ou imagens, assim como não podem extrair de um documento dados
36

como o seu autor e sua afiliação institucional ou mesmo a data de publicação.

Acessar o site pode ser a única maneira de verificar se os recursos são relevantes

ou não.

Deve-se ter em mente, também, que, ao se pesquisar em um diretório, a

consulta é feita apenas no título, categoria e uma breve descrição dos documentos.

Já os motores de busca, em sua maioria, proporcionam uma pesquisa no texto

integral dos documentos. Ou seja, o termo de busca poderá ser encontrado onde

quer que ele apareça no documento.

Outra diferença importante entre os motores de busca e diretórios é a rapidez

com que a informação é incluída. Como nos diretórios, a inclusão de uma

informação exige o trabalho humano de avaliação e seleção de recursos, uma

página submetida a eles pode demorar pelo menos um mês para ser incluída. No

caso dos motores de busca, que usam indexação automática, este tempo costuma

ser mais rápido, e suas bases de dados contêm informações mais recentes.

Deve-se observar que, hoje em dia, a distinção entre motores de busca e

diretórios já não é tão nítida e que a maioria deles pode ser considerada ferramenta

híbrida. Os diretórios permitem buscas por palavras-chave em suas categorias, e os

motores de busca, por sua vez, têm incluído diretórios em suas páginas principais.

3.6 “Desktop Search Tools” – Ferramentas de busca dentro da máquina


37

“Desktop search” é a denominação genericamente atribuída às ferramentas

de busca que pesquisam o conteúdo dos arquivos localizados em computadores de

forma local, assim como os motores de busca pesquisam a internet.

A ênfase é em mineração de dados (MD) e é indexada toda informação

disponível dentro de um sistema operacional, assim como histórico de navegação na

internet, arquivos de e-mail, arquivos de texto, documentos, imagens, áudio,

apresentações, etc.

Uma das vantagens do uso de aplicativos baseados no sistema Desktop

Search é que os resultados das pesquisas são apresentados em frações de

segundos. Para os usuários finais isto significa rápido acesso ao conteúdo dos

documentos arquivados dentro de um computador pessoal e para os usuários

comerciais ou corporativos, isto significa aumento de produtividade, simplificação e

acesso rápido a uma vasta gama de dados normalmente desestruturados que

seriam impossíveis de serem localizados de outra forma.

Enquanto as empresas desenvolvedoras de Tecnologia da Informação (TI)

estão continuamente buscando novas ferramentas para facilitar as rotinas dos

especialistas de domínio e analistas de informações, os usuários finais estão

lentamente percebendo a utilidade destas ferramentas na mitigação dos efeitos da

desestruturação dos dados para a obtenção de informações e tomada de decisão.

O conceito de “Desktop search” implica em dois aspectos fundamentais: o

aumento da produtividade e a segurança da informação. Estatísticas comprovam

que pelo menos 80% (oitenta por cento) dos dados informatizados das empresas em

geral encontram-se inacessíveis por se tratarem de dados desestruturados.


38

Estruturá-los através de técnicas de Data Warehousing para posteriormente

catalogá-los em grandes bancos de dados através de sistemas como Oracle24 ou

SQL Server 25nem sempre se mostra viável por diversos motivos:

• o alto custo financeiro empregado na aquisição de softwares específicos,

recursos materiais e logísticos e contratação de mão de obra qualificada;

• a grande quantidade de tempo a ser despendido na tarefa que é dinâmica:

mais e mais dados desestruturados são gerados diariamente;

• carência de recursos humanos para esta finalidade exclusiva e;

• a falta de colaboração do usuário final que cria e armazena constantemente

dados de forma aleatória em uma estação de trabalho e não em um servidor

de arquivos. Em geral isto se dá em desobediência a critérios técnicos e de

organização e deriva na multiplicidade de localizações dentro da rede

corporativa onde os dados são armazenados.

A segurança também é motivo de preocupação, pois é de suma importância

manter a informação totalmente sob controle quando se trata de material sensível, o

que é muito comum na atividade policial.

É necessário, portanto, exercer o controle sobre o usuário final que sem a

noção adequada do mecanismo pode abrir brechas de segurança na rede

permitindo que usuários internos possam compartilhar seus índices com usuários

situados do outro lado do firewall corporativo ou que usuários externos à corporação

tenham acesso aos índices ou gerem índices próprios.

24
Oracle: Oracle é um sistema de banco de dados que surgiu no final dos anos 70, criado por Larry Ellison
quando encontrou uma descrição de um protótipo funcional de um banco de dados relacional.
25
SQL: Structured Query Language, ou Linguagem de Questões Estruturadas. É uma linguagem de pesquisa
declarativa para banco de dados relacional (bases de dados relacionais).
39

Destarte, é de vital importância a correta configuração do firewall corporativo

e a centralização do sistema de “desktop search” em um servidor de rede

monitorado pelo especialista do domínio, profissional experiente em segurança de

redes corporativas. Aos usuários finais deve caber apenas a tarefa de consulta à

base de dados em estações de trabalho devidamente autorizados pelo firewall do

servidor de forma controlada e monitorada.

3.6.1 Tecnologia empregada

A única maneira de se conseguir desempenho razoável quando se busca

informação em dezenas ou centenas de gigabytes é construindo e mantendo um

índice da base de dados. Enquanto indexa os dados, as ferramentas “desktop

search” coletam três tipos de informações acerca dos arquivos encontrados:

• arquivos e seu caminho na árvore de diretórios;

• meta data, como títulos, autores, comentários em arquivos dos tipos .mp3,

.pdf e .jpeg (audio, texto e vídeo)

• Conteúdo dos documentos nos demais formatos suportados.

Para pesquisar dentro dos documentos a ferramenta tem que ser capaz de

criar uma versão em cache de diversos tipos de documentos. Isto é conseguido

através do uso de filtros que interpretam os formatos dos arquivos selecionados. Por

exemplo: um filtro específico para o Microsoft Office deve ser utilizado para criar um
40

cache do conteúdo de documentos produzidos pelo Office (Word, Excel, Powerpoint,

Acess, etc.).

Algumas destas ferramentas estão em fase de testes de desenvolvimento

para incluir também a habilidade de pesquisar o conteúdo de arquivos de imagens e

de som pelo seu contexto.

Este setor tem atraído atenção considerável dos profissionais da área de TI,

principalmente pela divulgação na mídia da batalha travada entre as gigantes

Google e Microsoft pela supremacia dos mecanismos de busca.

A seguir é disponibilizada a relação das ferramentas existentes no mercado

atualmente nesta área:

• Ask.com

• AutoFocus (Aduna) — Exploração do Desktop usando linguagem Java

script e mapeamento de clusters.

• Autonomy — IDOL Enterprise Desktop Search.

• Beagle — Aplicativo GPL desenvolvido inicialmente para Linux pela Novell

(GNOME, Mono).

• Beetext: Beetext Find Desktop: Mecanismo de busca em rede corporativa e

internet.

• BlackBall's SearchIn: Mecanismo de busca multi-plataforma. Promete busca

acurada e flexível com a obtenção de resultados rápidos. Ferramenta

otimizada para ambientes corporativos.

• Blinkx

• Copernic Desktop Search


41

• Docco: Baseado no sistema de indexação do Apache para linux e no

mecanismo de busca Lucene. Requer um ambiente java script para funcionar.

• dtSearch Desktop

• Exalead One Desktop

• Google Desktop Search: Integrado com o mecanismo de busca Google.

• Grokker Desktop: Clusterização visual de arquivos baseado no sistema de

indexação da Microsoft nativo do windows.

• HotBot : Distribuído pela Lycos. Possui uma barra de ferramentas que se

acopla ao Internet Explorer do Windows.

• ISYS Search Software

• KAT Desktop Search Environment: Framework de código aberto para Linux

que permite indexação de arquivos pelo KDE.

• Qube Desktop Client : Habilita pesquisas através do navegador em modo off-

line.

• Windows Desktop Search: a caixa de ferramentas do MSN Search inclui o

mecanismo Windows Desktop Search que incorpora várias das tecnologias

prometidas para o Windows Vista, a próxima versão do sistema operacional

da Microsoft. A busca é integrada à barra de tarefas e ao navegador Internet

Explorer.

• Snowbird Search

• Spotlight: Mecanismo de busca para Apple Mac OS X "Tiger".

• Svizzer Desktop & Enterprise Search

• The File Seeker: Mecanismo de busca de código aberto para Windows.

• X1 Desktop Search: Renomeado como X1 Enterprise Client. Mecanismo de

busca de código aberto com API de livre distribuição. Permite não só


42

pesquisar assim como prever e atuar no processo da busca de resultados.

Especialmente útil para se lidar com e-mails e arquivos do Office.

• Watson 2.0 By Intellext

• Yahoo! Desktop Search: Mecanismo de busca do Yahoo! baseado na

plataforma do X1 Desktop Search.

Dentre todas as “Desktop Search Tools” existentes no mercado, o Google

Desktop Search (GDS) demonstrou nos testes empregados, da mesma forma que o

mecanismo de busca na internet da mesma empresa, sua superioridade sobre os

demais na soma dos critérios de oferecimento de recursos diferenciados como a

integração em rede, custo (freeware26), eficiência e liberação de sua API para

desenvolvedores, permitindo sua integração com outros softwares além de rápida e

constante evolução de novos recursos acrescidos por colaboradores.

4 GOOGLE

I realized I wanted to invent things, but I also wanted to change the world. I

wanted to get them out there, get them into people’s hands so they can use them,

because that’s what really matters. (Larry Page, um dos dois fundadores do

Google)27

26
Freeware: é um programa de computador (software) gratuito ao público, ou seja, no qual não é
preciso pagar para utilizá-lo.
27
“Eu percebi que eu queria inventar coisas, mas eu também queria mudar o mundo. Eu queria trazê-
las para fora, trazê-las para as mãos das pessoas para que elas pudessem usá-las, porque isto é o
que realmente importa.” Tradução livre do autor.
43

Ilustração 3

Conhecer a história do Google28 deveria ser uma obrigação de qualquer

profissional da área de informações. O Google não é mais a central, apenas, no

desenvolvimento da internet pós-bolha, mas referência mundial quando se trata de

informação e conhecimento.

John Battelle em seu livro, “The Search” ou, em português, “A Busca”

(Battelle, John, 2005), descreve que o Google começou em Stanford – onde

começaram também o Excite e o Yahoo! de Jerry Yang e David Filo – por meio do

encontro, algo miraculoso, entre Larry Page e Sergey Brin.

O Google nasceu de um projeto assinado pelos acadêmicos Page e Brin,

depois de desenvolverem o revolucionário conceito de “Page Rank”29.

Como bons acadêmicos que eram, os pais-fundadores do Google perceberam

que as teses mais valorizadas, dentro da academia, eram aquelas que mereciam

mais citações das demais. O salto foi: por que não aplicar esse mesmo princípio, de

valoração, ao mar de documentos da internet? Ou seja: as páginas que recebessem

o maior número de links do resto da Web seriam, automaticamente, as mais

representativas no universo de buscas do Google.

28
Google: pronuncia-se gúgôl em português e não gugól como erroneamente afirmado por alguns.
29
O Projeto original do Google pode ser acessado a partir de: http://www-
db.stanford.edu/~backrub/google.html .
44

O passo seguinte foi varrer toda a internet. Quanto mais páginas varridas, ou

“indexadas”, mais o argumento de “valoração” funcionaria. Afinal: o Page Rank se

baseava na classificação que a própria internet conferia às suas páginas. Quanto

mais amplo o espectro do mecanismo de busca de Page e Brin, maior a legitimidade

de seus resultados. O gigantismo da empreitada levou, então, ao nome Google que

é um trocadilho com a palavra “googol”, que foi inventada por Milton Sirotta, sobrinho

do matemático americano Edward Kasner, para designar o número representado por

1 seguido de 100 zeros. O uso do termo Google reflete a missão da empresa de

organizar o enorme montante de informações disponíveis na web e no mundo.

John Battelle narra em sua obra que o projeto, inicialmente hospedado nos

servidores de Stanford, derrubou a rede de uma das maiores universidades do

mundo, monopolizou consideravelmente sua “largura de banda”30 e se tornou tão

voraz, à medida que crescia, quanto ambicioso.

Até a virada do século e a consagração do Google, as buscas na internet

haviam se pautado pelo número de palavras-chave contidas numa página. Trocando

em miúdos: “se alguém digitasse ‘Brasil’ no AltaVista – o Google que não deu certo

–toparia com os endereços em que ‘Brasil’ estivesse presente um maior número de

vezes; mas é fácil perceber que esses resultados nem sempre seriam

representativos e poderiam ser, mais do que isso, manipulados”. (Battelle, J., 2005)

A luta de Larry Page e Sergey Brin sempre foi por uma boa busca. Seu

idealismo, por uma busca sempre “orgânica”, quase levou o Google à falência. Seus

fundadores, à medida que o serviço se consagrava, não queriam sacrificar sua

intenção inicial – a do Page Rank – e, por conta disso, embora tenham lançado a
30
(Hoje, para que se tenha uma idéia – indica Battelle, como base de comparação –, o Google
consome os recursos de mais de 175.000 servidores, o que é mais do que tudo o que havia sobre a
Terra, em matéria de computadores, nos anos 70...).
45

idéia em 1997, aberto a empresa em 1998, apenas conseguiram gerar negócios

consistentes em 2001. E, desta vez, não foi por conta de uma idéia totalmente

original.

Page e Brin resistiram bravamente à tentação de encher o Google de banners

e, mais do que isso, à tentação de vender seus resultados. Ironicamente, seu

modelo de negócio surgiu através de um concorrente que, justamente, vendia as

primeiras posições de seus resultados: o site Goto.com. Fundado por Bill Gross, do

IdeaLab – uma incubadora de projetos pré-Bolha –, o Goto.com chegou à

famigerada venda de palavras-chave, que o Google adotou na forma do conhecido

programa “AdWords”31.

Gross, um visionário da internet que fez fortuna pelo menos três vezes na

vida – segundo descreve John Battelle –, perdeu terreno com o estouro da Bolha,

em 2000, mas sua lógica de associar palavras-chave de uma busca a determinados

anunciantes prosperou, posteriormente, com o Google. E a grande contribuição do

Google, além de aperfeiçoar esse “pré-AdWords”, seria estender sua base para

exibição de anúncios pela internet afora – gerando receita para sites pequenos,

médios e até grandes (vulgo programa “AdSense”32).

Desta forma, o Google foi a empresa que mais (e mais rápido) cresceu na

História, de 2001 a 2005. O Google também tirou a internet inteira do coma pós-

Bolha, impulsionou o que já se chama de “segunda onda de conteúdo” e realizou

uma pra lá de bem-sucedida IPO33. Como se não bastasse: o Google é o único

31
AdWords: sistema de publicidade da Google, baseada no pagamento por cliques nos links de
anúncios disponibilizados nas buscas.
32
AdSense: sistema de pulicidade da Google que implica na disponibilização de links patrocinados
pela Google colocados dentro de páginas da web.
33
As ações da Google Inc., lançadas na bolsa em agosto de 2004, já haviam quase quintuplicado de
valor em novembro de 2005.
46

concorrente a seriamente ameaçar a outrora incontrastável hegemonia da Microsoft,

do ex-todo poderoso Bill Gates; e o Google, com ferramentas como Gmail e o

polêmico Orkut está liderando o que, tecnicamente, se chama de “Web 2.0” (um

combinado de programação e meta conteúdo que promete revolucionar a internet).

O que importa é que, em maior ou menor grau, todas as pessoas com acesso à

informação são ou serão irremediavelmente influenciadas pelo Google.

“Look, if this Google thing pans out, then great. If not, you can return to graduate school and

finish your thesis.” Do orientador de Sergey Brin, em Stanford.34

4.1 Atualidades sobre o Google – Softwares desenvolvidos

A cada dia que passa mais e mais pessoas se convencem que, depois da

roda e da internet, a maior invenção da humanidade teria sido o Google. A grande

vantagem da internet foi tornar a informação uma commodity35. Mas faltava aquilo

que nas outras commodities levou centenas e até milhares de anos para que

ficassem tão conhecidos, utilizados e produzidos por tantos atores que justificasse o

nome.

O Google tem a capacidade de fazer isso instantaneamente. As pessoas

costumam dizer que o Google tem esse potencial porque assim como a Microsoft -

que tornou o software uma commodity - tornou a informação espalhada ao redor do

mundo, das milhões de homepages, numa commodity. E foi além: através de seus

34
“Olha, se essa coisa de Google der certo, então ótimo. Se não, você pode tratar de retornar para a
Universidade e terminar sua tese”. Tradução livre do autor.
35
Commodity: insumo que outra pessoa com seu talento pode transformar.
47

projetos está mudando a forma como a humanidade interage com essas

informações.

Podemos citar, entre as dezenas de aplicações disponíveis, a criação do

Orkut, polêmica comunidade virtual fundada nos EUA e que curiosamente despertou

o interesse de grande número de brasileiros os quais, segundo recentes pesquisas,

já correspondem a 80% (oitenta por cento) dos usuários ativos. Essa rede virtual

atualmente é pivô de conflito existente entre o Ministério Público Federal brasileiro e

a empresa Google Brasil, versando sobre crimes cometidos por alguns usuários

deste ciberespaço. Este é um excelente exemplo da revolução social dos costumes

pela qual transita o mundo moderno onde é difícil separar o mundo virtual do mundo

real, já que ambos fazem parte da mesma realidade sócio-cultural, interagindo um

sobre o outro de forma recíproca.

O Google Earth, sofisticado sistema de visualização geográfica que se utiliza

de recursos de satélites vem provocando polêmica e protestos de países como a

China, que se ressentem em estar sendo submetidos a uma forma pública de

espionagem virtual em suas instalações militares. Planejamentos de grandes

operações policiais, como a Operação “Facção Toupeira” que frustrou assalto às

agências da CEF e do Banrisul em Porto Alegre na madrugada de 01 de setembro

de 2006, prendendo diversos criminosos ligados ao “PCC”, se serviram do uso deste

aplicativo para a distribuição das equipes e análise geográfica da área. Por outro

lado, tal aplicativo possui potencial para planejamento de ações terroristas, como

alegado por alguns.

Existem dezenas de aplicações derivadas do Google, porém o presente

trabalho não irá abordá-las por fugir ao escopo inicial do tema. Apenas o aplicativo
48

“Google Desktop Search” será objeto de análise mais minuciosa por representar o

coração do “Projeto Prometheus” e sua mola propulsora. De todo o exposto neste

tópico importa somente afirmar que novas tecnologias são e serão sempre bem-

vindas, porém o uso que delas é feito, para o bem ou para o mal é que vai definir

seu conceito de utilidade efetiva.

4.2 Google Desktop Search - GDS

O Google Desktop Search (GDS) possibilita acesso fácil e rápido às

informações contidas em qualquer computador e na internet. Pode ser baixado para

instalação a partir de http://desktop.google.com/ em sua versão já traduzida para o

português. É compatível com os sistemas operacionais Windows 2000 - SP4

(atualizado), Windows XP e Windows 2003 Server. É um aplicativo de pesquisa da

área de trabalho de um computador, que permite procurar texto específico dentro

dos e-mails, arquivos de áudio, de vídeo, de texto, de fotos, de apresentações,

zipados, entre outros, espalhados de forma desestruturada pelas pastas e diretórios

criados dentro do disco rígido de uma máquina.

Ao possibilitar a pesquisa dentro de um computador ou uma pasta específica,

o GDS faculta ao usuário que as informações estejam sempre disponíveis, tornando

desnecessária a organização manual dos arquivos dentro das pastas e diretórios, da

mesma forma como são procedidas as pesquisas na internet.

Atualmente o software que tem licença gratuita para uso residencial ou

corporativo está em sua versão de testes número 4. Ao longo de sua criação e


49

evolução através das versões “beta test” muitas ferramentas e novidades vêm sendo

acopladas ao software a fim de disponibilizar ao usuário final uma experiência

interativa e excitante com o mundo virtual.

Através da disponibilização ao público da versão SDK para desenvolvimento

do programa e da abertura de sua API, muitos colaboradores têm desenvolvido

inovações que trabalham em conjunto com o software original (plug-ins), algumas de

utilidade relativa, porém benéficas em sua maioria, possibilitando ao usuário extrair o

melhor proveito acerca de todas as possibilidades que este software pode oferecer.

Evidentemente, o uso corporativo do programa dispensa a aplicação de todas

estas novidades, que se prestam em sua maioria ao usuário final. Mas nada impede

que, restringindo-se algumas funcionalidades acessórias, este software possa

prestar relevante contribuição ao trabalho policial desenvolvido pelos setores de

inteligência da corporação.

Embora o mecanismo de interligação entre as informações contidas em

diversos computadores seja disponibilizada, em sua versão gratuita, pela Google de

uma forma que não interessa ao Departamento de Polícia Federal, no que tange aos

quesitos de segurança da informação, existem formas de adaptá-lo para funcionar

em rede de uma forma segura e eficaz. Isto será discutido no próximo capítulo,

destinado à exposição do Projeto proposto. As funcionalidades adicionais do citado

software podem ser conhecidas, na íntegra, a partir de sua homepage no endereço:

Google Desktop - Sobre .

4.2.1 Aspectos legais - EULA – Licença de uso


50

Inicialmente, passaremos a analisar a licença de uso do software proposto a

fim de aferir os critérios de legalidade de uso e a possibilidade de eventuais

modificações em sua estrutura para adaptá-lo ao uso pelo Departamento de Polícia

Federal. EULA é a abreviação de End User Licence Agreement36 e define os termos

e condições gerais do contrato virtual firmado entre ambas as partes: empresa e

usuário referente ao uso do produto. A partir do endereço:

http://desktop.google.com/pt/BR/eula.html temos acesso à EULA do software,

traduzida oficialmente para o português. A EULA equivalente a um contrato de

licença com o usuário final a qual transcrevo abaixo:

Obrigado por utilizar o Google Desktop! Esta página contém os


termos e condições (“Termos e Condições”) para o Google Desktop e o
Google Desktop (conjuntamente, "Google Desktop") - incluindo nossa
versão corporativa, Google Desktop for Enterprise. Ao fazer o download do
Google Desktop, você concorda com este contrato, seja para você mesmo
ou em nome de seu empregador ou outra entidade e aceita se vincular por
estes termos e condições. Caso você esteja aceitando em nome de seu
empregador ou outra entidade, você afirma e garante que está legalmente
autorizado a vincular seu empregador ou essa entidade a estes termos e
condições. Caso você não tenha autorização legal para vincular, por favor
pressione o botão "Eu não aceito" abaixo.

Uso Único Pessoal ou Corporativo Interno

O Google Desktop é trazido a você para seu uso pessoal ou corporativo


interno em conformidade com todas as leis, normas e regulamentos
aplicáveis. Caso você queira realizar uso comercial do Google Desktop,
incluindo, mas não se limitando a vendas ou distribuição do Google
Desktop em troca de pagamento, você deve firmar um contrato com a
Google ou obter a permissão prévia e expressa da Google. Caso você seja
inquirido a se registrar você deve fornecer identificação, contato, e outras
informações completas e precisas como parte do processo de registro. A
Google reserva o direito, a seu inteiro critério, de recusar ou descontinuar a
participação de qualquer requerente a qualquer momento.

Ações Proibidas

Salvo para distribuições corporativas internas e/ou uso pessoal dos


empregados ou contratados em conformidade com estes Termos e

36
concordância do usuário com os termos de utilização do software. Tradução livre do autor.
51

Condições, você não poderá distribuir o Google Desktop ou quaisquer


serviços ou software associados à ou derivados dele, modificar, copiar,
licenciar, ou criar obras derivadas do Google Desktop, a não ser que você
obtenha a permissão prévia e expressa da Google. Caso você deseja
realizar algo do acima descrito, por favor nos contate visitando a página
desktop.google.com/feedback.html.

Distribuição

Assim que você obtiver a permissão da Google, você poderá fazer cópias
do Google Desktop e distribuir tais cópias a outros, tendo em vista que
qualquer receptor tenha tido a oportunidade de examinar e concordar em
se vincular por estes Termos e Condições. Caso outros a quem você
gostaria de distribuir o Google Desktop não tenham a oportunidade de
examinar e concordar com estes Termos e Condições, mas ainda assim
você queira distribuir cópias a eles, você poderá fazê-lo desde que você
tenha o direito legal de vincular cada um destes terceiros a estes Termos e
Condições. Caso você não tenha este direito e os receptores não tenham a
oportunidade de examinar e concordar com estes Termos e Condições,
você não poderá distribuir o Google Desktop a eles. Caso você tenha
alguma pergunta relacionada aos termos de distribuição, por favor nos
contate visitando a página desktop.google.com/feedback.html.

Atualizações Automáticas

O Google Desktop poderá se comunicar com os servidores da Google (a


não ser que você esteja utilizando o Google Desktop para uso corporativo
interno e sua configuração impeça esta comunicação) para checar por
atualizações disponíveis do software, tais como correções de erros,
contornos ("patches"), funções aprimoradas, plug-ins ausentes e novas
versões (coletivamente, "Atualizações"). Durante este processo, o Google
Desktop envia à Google uma solicitação pela informação sobre a versão
mais recente. Ao instalar o Google Desktop (a não ser que você esteja
utilizando o Google Desktop para uso corporativo interno e sua
configuração impeça esta comunicação), você neste ato concorda em
solicitar e receber automaticamente as Atualizações dos servidores da
Google.

Prática de Informação

Proteger a privacidade do usuário é muito importante para a Google. Como


condição para fazer o download e utilizar o Google Desktop, você aceita os
termos da Política de Privacidade do Google Desktop, a qual poderá ser
atualizada de tempos em tempos, conforme expresso na versão existente
mais recente no momento de seu uso. Informações coletadas pela Google
poderão ser arquivadas e processadas nos Estados Unidos ou qualquer
outro país em que a Google Inc. ou seus agente mantenham instalações.
Ao utilizar o Google Desktop você aceita tal transferência de informação
fora de seu país.

Propriedade Intelectual
52

Você reconhece que a Google ou terceiros detêm todos os direitos, títulos


ou interesses referentes ao Google Desktop, partes do mesmo ou software
ou conteúdo fornecido em conjunto com ou através do Google Desktop,
incluindo sem quaisquer limites os Direitos de Propriedade Intelectual.
"Direitos de Propriedade Intelectual" consistem em todo e qualquer direito
existente sobre a lei de patente, lei de direito autoral, lei do segredo de
negócio, legislação marcária, lei da concorrência desleal, e todos e
quaisquer direitos de propriedade de toda e qualquer aplicação, renovação,
extensão e restauração dos mesmos, a partir da presente data, em vigor
em qualquer parte do mundo. Você concorda em não (e não permitir
terceiros) modificar, adaptar, traduzir, criar obras derivadas, descompilar,
fazer engenharia reversa, desmontar ou tentar de qualquer outro modo
derivar o código-fonte do Google Desktop, ou extrair porções significativas
dos arquivos do Google Desktop para utilizar em outros aplicativos. Do
mesmo modo, concorda em não remover, obscurecer ou alterar o aviso de
direito autoral, de marcas e outros avisos de direitos de propriedade da
Google ou terceiros, afixados, incluídos ou acessados em conjunto com ou
através do Google Desktop.

Opiniões ("Feedback")

Caso você tenha comentários sobre o Google Desktop ou idéias sobre


como aperfeiçoá-lo, por favor visite a página
desktop.google.com/feedback.html. Por favor note que ao fazê-lo, você
também concede à Google ou terceiros uma perimissão de utilizar e
incorporar suas idéias ou comentários ao Google Desktop (ou software de
terceiros ou conteúdo) sem qualquer remuneração ou aprovação.

Você estará então cedendo e transferindo todos e quaisquer direitos sobre


tais idéias e sugestões na máxima extensão permitida pela lei aplicável.

Modificações aos Termos e Condições

A Google reserva o direito, a seu inteiro critério, de modificar estes Termos


e Condições de tempos em tempos, sem notificação ou responsabilidade à
você. Você aceita se vincular a estes Termos e Condições, conforme
modificados. Por favor examine a versão mais atual dos Termos e
Condições de tempos em tempos, localizados na página
desktop.google.com/eula.html (ou o endereço sucessor, conforme
fornecido pela Google), para que você tenha conhecimento de quaisquer
alterações.

Isenção de Garantias

A GOOGLE E QUAISQUER TERCEIROS QUE COLOQUEM À


DISPOSIÇÃO SEU SOFTWARE OU CONTEÚDO EM CONJUNTO COM
OU ATRAVÉS DO GOOGLE DESKTOP EXIMEM-SE DA
RESPONSABILIDADE SOBRE QUAISQUER PREJUÍZOS RESULTANTES
DA SUA UTILIZAÇÃO (OU UTILIZAÇÃO POR SEUS EMPREGADOS,
AGENTES OU CONTRATADOS) DO GOOGLE DESKTOP E/OU
QUALQUER SOFTWARE DE TERCEIROS OU CONTEÚDO ACESSADOS
EM CONJUNTO COM OU ATRAVÉS DO GOOGLE DESKTOP.
53

O GOOGLE DESKTOP E QUALQUER OUTRO SOFTWARE E


CONTEÚDO DE TERCEIROS COLOCADO À DISPOSIÇÃO EM
CONJUNTO COM OU ATRAVÉS DO GOOGLE DESKTOP SÃO
FORNECIDOS "NO ESTADO EM QUE SE ENCONTRAM", SEM
QUAISQUER GARANTIAS. A GOOGLE E OS REFERIDOS TERCEIROS
EXIMEM-SE EXPRESSAMENTE, NA MÁXIMA EXTENSÃO PERMITIDA
POR LEI, DA RESPONSABILIDADE SOBRE TODAS AS GARANTIAS E
CONDIÇÕES, EXPRESSAS, IMPLÍCITAS OU PREVISTAS POR LEI,
INCLUINDO MAS NÃO SE LIMITANDO A QUAISQUER GARANTIAS OU
CONDIÇÕES IMPLÍCITAS DE COMERCIALIZAÇÃO, ADEQUAÇÃO A UM
FIM ESPECÍFICO E NÃO-VIOLAÇÃO DOS DIREITOS DE
PROPRIEDADE. A GOOGLE E QUALQUER TERCEIRO QUE COLOQUE
SEU SOFTWARE OU CONTÚDO À DISPOSIÇÃO EM CONJUNTO COM
OU ATRAVÉS DO GOOGLE DESKTOP NEGAM TODAS AS GARANTIAS
E CONDIÇÕES REFERENTES À SEGURANÇA, CONFIABILIDADE,
CONVENIÊNCIA E DESEMPENHO DO GOOGLE DESKTOP E DO
SOFTWARE OU CONTEÚDO DE REFERIDOS TERCEIROS. VOCÊ
ENTENDE E CONCORDA QUE FAZ O DOWNLOAD DO E/OU UTILIZA O
GOOGLE DESKTOP E TODO SOFTWARE OU CONTEÚDO DE
TERCEIROS DISPONÍVEL EM CONJUNTO COM OU ATRAVÉS DO
GOOGLE DESKTOP POR SUA PRÓPRIA CONTA E RISCO, E QUE
SERÁ O ÚNICO RESPONSÁVEL POR QUAISQUER DANOS AO SEU
SISTEMA INFORMÁTICO OU PERDA DE DADOS QUE POSSAM
RESULTAR DO DOWNLOAD OU UTILIZAÇÃO DO GOOGLE DESKTOP E
DO REFERIDO SOFTWARE E CONTEÚDO DE TERCEIROS. ALGUNS
ESTADOS OU OUTRAS JURISDIÇÕES NÃO PERMITEM A ISENÇÃO DE
GARANTIAS IMPLÍCITAS, DE MODO QUE AS ISENÇÕES ACIMA
PODEM NÃO SE APLICAR A VOCÊ. VOCÊ PODE TAMBÉM TER
OUTROS DIREITOS QUE VARIAM DE ESTADO PARA ESTADO E DE
JURISDIÇÃO PARA JURISDIÇÃO.

Limitação de Responsabilidade

NA MÁXIMA EXTENSÃO PERMITIDA PELA LEI APLICÁVEL, EM


HIPÕTESE ALGUMA A GOOGLE, OU TERCEIROS QUE COLOQUEM À
DISPOSIÇÃO O SEU SOFTWARE OU CONTEÚDO EM CONJUNTO COM
OU ATRAVÉS DO GOOGLE DESKTOP, SERÃO RESPONSÁVEIS
PERANTE QUALQUER USUÁRIO PELO USO OU MAU USO DO
GOOGLE DESKTOP, OU DE QUALQUER SOFTWARE OU CONTEÚDO
DE REFERIDOS TERCEIROS, POR PARTE DESSE MESMO USUÁRIO.
ESSA LIMITAÇÃO DE RESPONSABILIDADE DEVERÁ APLICAR-SE
PARA EVITAR O RESTABELECIMENTO DE DANOS INDIRETOS,
INCIDENTAIS, CONSEQÜENCIAIS, ESPECIAIS, EXEMPLARES E
PUNITIVOS QUER SE ESSAS RECLAMAÇÕES SE BASEAREM EM
GARANTIA, CONTRATO, ATO ILÍCITO (INCLUINDO NEGLIGÊNCIA) OU
QUALQUER OUTRO (MESMO QUE A GOOGLE E/OU UM
FORNECEDOR DE SOFTWARE OU CONTEÚDO DE TERCEIRO TENHA
SIDO ALERTADO DA POSSIBILIDADE DE TAIS DANOS). ESTA
LIMITAÇÃO DE RESPONSABILIDADE DEVERÁ SE APLICAR SE OS
DANOS FOREM ORIUNDOS DO USO OU MAU USO DO E CONFIANÇA
NO GOOGLE DESKTOP E TODO SOFTWARE OU CONTEÚDO DE
TERCEIROS COLOCADO À DISPOSIÇÃO EM CONJUNTO COM OU
ATRAVÉS DO GOOGLE DESKTOP, EM CONSEQÜÊNCIA DA
INCAPACIDADE DE USAR O GOOGLE DESKTOP E TODO SOFTWARE
OU CONTEÚDO DE TERCEIROS COLOCADO À DISPOSIÇÃO EM
CONJUNTO COM OU ATRAVÉS DO GOOGLE DESKTOP, OU DA
INTERRUPÇÃO, SUSPENSÃO OU TÉRMINO DO GOOGLE DESKTOP E
TODO SOFTWARE E CONTEÚDO DE TERCEIROS COLOCADO À
54

DISPOSIÇÃO EM CONJUNTO COM OU ATRAVÉS DO GOOGLE


DESKTOP (INCLUINDO TAIS DANOS INCORRIDOS POR TERCEIROS).
ESTA LIMITAÇÃO DEVERÁ SE APLICAR, NÃO OBSTANTE A FALHA DO
FIM ESSENCIAL DE QUALQUER RECURSO LIMITADO E NA MÁXIMA
EXTENSÃO PERMITIDA POR LEI. NÃO OBSTANTE QUALQUER
DISPOSIÇÃO EM CONTRÁRIO, AS PARTES ENTENDEM E
CONCORDAM QUE NA MÁXIMA EXTENSÃO PERMITIDA POR LEI, O
TOTAL AGREGADO DE RESPONSABILIDADE DA GOOGLE SOB ESTE
ACORDO NÃO DEVERÁ EXCEDER R$ 1300 (REAIS). VOCÊ
RECONHECE AINDA QUE ESTA LIMITAÇÃO É ELEMENTO ESSENCIAL
DESTE ACORDO E QUE A GOOGLE NÃO EXECUTARIA ESTE ACORDO
SEM ESTAS LIMITAÇÕES DE SUAS RESPONSABILIDADES. ALGUNS
ESTADOS OU OUTRAS JURISDIÇÕES NÃO PERMITEM A EXCLUSÃO
OU A LIMITAÇÃO DE RESPONSABILIDADE POR DANOS INCIDENTAIS
OU CONSEQÜENCIAIS, DESSE MODO, AS LIMITAÇÕES E AS
EXCLUSÕES ACIMA PODEM NÃO SE APLICAR A VOCÊ.

Provisões Variadas

Estes Termos e Condições serão regidos por e interpretados conforme as


leis do Estado da Califórnia, sem dar efeito ao conflito de provisões de leis
da Califórnia ou do seu Estado atual ou país de residência. Para fins de
determinação da lei regente, as partes reconhecem e concordam que a
Google é proponente destes Termos e Condições e das transações nele
incorporadas neste instrumento. Se por qualquer razão uma corte de
jurisdição competente julgar inaplicável qualquer provisão ou parcela
destes Termos e Condições, o restante destes Termos e Condições
continuará em plena força e efeito. Estes Termos e Condições constituem o
acordo integral entre as partes com respeito ao presente tópico e
substituem todos os entendimentos ou acordos prévios ou
contemporâneos, escritos ou orais, com respeito a tal tópico. A renúncia de
qualquer provisão destes Termos e Condições será efetiva somente se
escrita e assinada pela Google e/ou por um terceiro que coloque seu
software e/ou conteúdo à disposição em conjunto com ou através do
Google Desktop.

4.2.1.1 Análise dos aspectos legais

Como podemos observar, não é apenas no Brasil que são redigidos contratos

com cláusulas “leoninas”, ao arrepio dos mais comezinhos princípios do Direito

Internacional. Entretanto, analisando-se com mais atenção o texto do contrato, na

parte que interessa ao Departamento de Polícia Federal, podemos observar que no


55

parágrafo referente às ações proibidas encontra-se expressamente autorizada

modificações no conteúdo do software, dispensada qualquer autorização da Google,

para uso corporativo sem a obtenção de lucro, senão vejamos:

Salvo para distribuições corporativas internas e/ou uso pessoal dos


empregados ou contratados em conformidade com estes Termos e
Condições, você não poderá distribuir o Google Desktop ou quaisquer
serviços ou software associados à ou derivados dele, modificar, copiar,
licenciar, ou criar obras derivadas do Google Desktop, a não ser que
você obtenha a permissão prévia e expressa da Google (grifo meu)

No que tange ao direito à propriedade intelectual, observamos subjetivamente

que basta a adição de referência aos direitos autorais da Google sobre o software

em questão e ao registro da marca para que qualquer modificação no layout da

interface de acesso ao aplicativo subsista em conformidade com os termos do

contrato:

“...Você concorda em não (e não permitir terceiros) modificar, adaptar,


traduzir, criar obras derivadas, descompilar, fazer engenharia reversa,
desmontar ou tentar de qualquer outro modo derivar o código-fonte do
Google Desktop, ou extrair porções significativas dos arquivos do Google
Desktop para utilizar em outros aplicativos. Do mesmo modo, concorda
em não remover, obscurecer ou alterar o aviso de direito autoral, de
marcas e outros avisos de direitos de propriedade da Google ou
terceiros, afixados, incluídos ou acessados em conjunto com ou através do
Google Desktop.” (grifo meu).

4.2.2 Funcionalidade – forma de compilação das informações

Assim que devidamente instalado, o aplicativo solicita a interferência do

usuário para que o mesmo configure suas opções de funcionamento. Tais opções

podem ser posteriormente modificadas e acessadas através do ícone criado na


56

barra de ferramentas do computador onde foi instalado o GDS, acessando-se a

opção “preferências”. A tela de configuração do aplicativo está dividida em 04

(quatro) abas, que serão analisadas a seguir, tomando-se como base a versão beta

do Google Desktop 4.2006.0627.0501-pt-BR-pb, instalada na máquina que servirá

de protótipo para a demonstração do Projeto proposto. A primeira aba diz respeito

às configurações gerais:

Ilustração 4

No primeiro campo da primeira aba temos disponibilizados os tipos de

arquivos que serão indexados. A tela mostrada acima já apresenta adaptações para

o uso pelo Departamento de Polícia Federal, sendo que podemos observar o

logotipo da Polícia Federal no canto superior esquerdo e a opção “degravações”

constante na lista de itens apresentados. A seguir passo a analisar cada uma das

opções apresentadas e seu interesse para o trabalho de investigação policial:


57

• E-mail: é toda e qualquer correspondência recebida por meio de meio

eletrônico. Existem duas maneiras de acessarmos um e-mail: através da

webpage do provedor, ex: https://canario.dpf.gov.br ou 10.61.5.2, URL e

endereço IP respectivamente, da página de web-mail do Departamento de

Polícia Federal. Ou através de programas que permitem baixar diretamente o

conteúdo das mensagens e anexos em locais pré-definidos na própria

máquina, ex: Microsoft Outlook, Outlook express, incredimail, etc. A partir do

momento em que é utilizado qualquer programa que permita fazer o download

das mensagens do servidor de e-mail para o computador em questão é

possível indexar as mensagens baixadas, na íntegra, através do GDS. A

utilidade na escolha desta opção reside na possibilidade de indexação de

Relatórios de Inteligência Policial (RIPs), enviados quase que diuturnamente

às chefias das Divisões componentes da DCOR/DPF, relatando acerca das

operações em andamento nos diversos Estados da Federação.

• Degravação: é a síntese em texto produzida pelo analista de informações

acerca do conteúdo dos áudios capturados no decorrer de uma investigação,

devidamente acobertados pelo segredo de justiça, mediante ordem judicial

explícita autorizando a quebra de sigilo telefônico dos alvos investigados. Os

arquivos gerados pelos softwares “Guardião” e “Bedin” – os mais utilizados no

DPF– encontram-se em formato .RTF (rich text format). Destarte, foram feitas

adaptações para que tal formato fosse incluído nas opções de indexação

geral de arquivos.
58

• Histórico da WEB: indexa as páginas da internet visitadas pelo usuário da

máquina hospedeira, gerando uma versão em cache (somente texto) da

mesma. O objetivo do presente Projeto é não indexar as páginas navegadas

na internet pelos usuários, mas tão somente os arquivos de interesse para as

investigações. Tendo em vista que a máquina host37 será um servidor de

arquivos que não acessará a internet e que o cache do browser38 das

máquinas clientes não será indexado por default, tal opção poderia ser

desativada. Entretanto, tendo em vista que as pesquisas são

obrigatoriamente realizadas através de interfaces HTML (característica

própria da WEB), seria interessante ativar esta opção para enriquecer a

pesquisa dos analistas, visto que cada pesquisa realizada gerará um novo

cache automático, elevando o critério de “Page Ranking” acerca de

investigações realmente relevantes, realçando os critérios mais utilizados nas

buscas pelos próprios analistas, o que refletiria em resultados mais precisos

acerca das operações de intercambio interestadual em andamento.

• Arquivos de mídia: são todos os arquivos de vídeo e fotografias contidos

dentro de determinada máquina. As extensões possíveis são variadas, porém

importa frisar que arquivos de áudio gerados pelos softwares “guardião” e

“Bedin” estão entre os formatos suportados, podendo ser indexados pelo

título do arquivo e, em curto prazo, pelo conteúdo do áudio incluído no vídeo

objeto de pesquisa através do uso de “codecs”39 a serem incorporados no

presente aplicativo, porém atualmente em fase de testes. Além disto, todas as

3
37

Host: Computador central. Também chamado de servidor ou nó, por vezes.


38
Browser: sinônimo de navegador da internet. Ex: Internet Explorer, Firefox, Opera, etc.
39
Codecs são tradutores digitais. Codificador-Decodificador, algoritmo de compressão/descompressão da dados.
59

fotografias de indiciados conhecidos e disponíveis em mídia digital em todo o

País serão rapidamente indexadas através da ativação desta opção.

• Texto e outros arquivos: através da ativação desta opção podem ser

indexados todos os arquivos contendo apenas texto puro, notas, linguagem

de programação e tudo aquilo que se expressa no mundo real através de

caracteres passíveis de impressão (letras, números, códigos e símbolos).

• Word, Excel e Powerpoint: Representam a grande maioria de arquivos

gerados pelo Microsoft Office da Microsoft. 99% (noventa e nove por cento)

dos documentos existentes atualmente na Polícia Federal foram criados

através do software Microsoft Office. Planilhas de cálculos e de cruzamentos

de dados telefônicos são quase sempre criadas através do software Microsoft

Excel e apresentações de slides através do Microsoft Powerpoint. Todos

esses arquivos são suscetíveis de indexação a fim de possibilitarem uma

rápida busca de seu conteúdo através de palavras-chaves.

• PDF: São arquivos gerados através do software Acrobat Reader, o qual

consegue compactar e diminuir consideravelmente o tamanho de arquivos

que mesclam texto, imagens e gráficos no mesmo trabalho. Muitos analistas

de informações e empresas de telefonia se utilizam deste formato para a

elaboração de Relatórios de Inteligência e de Cruzamento Telefônico

respectivamente.

• Opções restantes: Embora úteis ao usuário residencial não serão aqui


60

abordadas por não interessar ao trabalho corporativo estrito de Inteligência

Policial, podendo remanescer desmarcadas.

O campo em seguida refere-se à ativação ou não de plug-ins utilizados pelo

aplicativo. Plug-ins, como anteriormente citado são inovações em termos de

programação de dados que se incorporam ao software original potencializando suas

funcionalidades. Serão discutidos em separado mais adiante.

Na seqüência, o próximo campo trata da possibilidade de se indexar pastas

compartilhadas ou unidades de redes locais, mapeadas pela própria máquina, como

podemos ver na ilustração abaixo:

Ilustração 5

Esta opção é o diferencial do “Google Desktop Search” em relação aos

demais mecanismos de busca locais citados em tópicos anteriores. Através da

ativação desta opção é possível indexar o conteúdo de pastas de computadores


61

remotos, localizadas dentro de uma rede local, desde que a pasta de origem na

estação cliente esteja compartilhada e acessível ou pastas remotas publicadas na

WEB – O que é impensável em se tratando de informações policiais sensíveis e

confidenciais, tendo em vista o princípio da segurança da informação – através de

comandos básicos aplicados na máquina host que pode ser também uma estação

cliente do servidor.

Esta opção foi devidamente adaptada para funcionar com grau eficaz de

segurança e se constitui no salto dado pelo Projeto Prometheus em relação às

demais formas de compartilhamento de informações através de mecanismo de

buscas. O detalhamento geral do funcionamento do sistema baseado na

modificação destas opções será visto mais adiante, no capítulo 5.

O próximo campo diz respeito às limitações da busca. Ora, nem toda

informação contida em uma máquina cliente ou servidor pode ser considerada fonte

de informação. Muitos documentos ou informações pessoais podem estar contidos

dentro de uma máquina cliente.

É papel do especialista do domínio distinguir entre o que é ou não é fonte de

conhecimento, mormente em se tratando de informações que versam sobre

inteligência policial. Esta opção permite ao Administrador do sistema excluir da

busca aquilo que não está afeito ao propósito de se criar um banco de dados

restrito.

Por exemplo: ao se incluir a pasta C:\Documents and settings\usuário X neste

campo, todos os documentos, e-mails, etc. referentes ao usuário desta máquina

serão excluídos da busca. Apenas as pastas localizadas na raiz do diretório C:\ da

máquina serão indexadas. Isto permite flexibilidade na configuração do sistema por

parte do Administrador e a preservação da privacidade do usuário final.


62

O próximo campo diz respeito à opção de se criptografar ou não o índice

gerado pelo aplicativo. A tentação em fazê-lo pode ser grande, porém testes práticos

levados a efeito demonstraram que técnicas de engenharia reversa, as quais não

explicitarei aqui, podem facilmente descriptografá-lo. Isto aliado ao fato de que a

ativação desta opção realmente acarreta um declínio significativo na velocidade da

pesquisa torna esta opção inviável.

Outras opções de segurança criptográfica serão propostas nos próximos

capítulos a fim de não diminuir o desempenho geral do sistema proposto.

A desativação de novos itens é apenas uma questão de segurança. Caso a

base de dados permaneça estável, sendo apenas acrescidos itens julgados

irrelevantes esta opção pode ser ativada. Em caso contrário, deve permanecer

desativada para fazer frente à quantidade diária crescente de dados incluídos no

domínio DCOR7.

A opção a seguir merece especial abordagem. Trata da possibilidade de excluir

ou não dos índices os arquivos excluídos fisicamente da máquina host. Testes em

campo demonstraram que a ativação desta opção reduz significativamente o

desempenho do servidor e a velocidade das buscas, pois toda vez que o índice é

consultado para ser disposto na interface gráfica o sistema compara o índice com o

registro de clusters do HD40 a fim de saber se pode ou não disponibilizar aquele

tópico específico.

Não obstante, é interessante para uma base de dados que ela fique

independente da ação deletéria comumente associada ao usuário final. Na hipótese

de que um usuário final venha excluir algum arquivo acidentalmente, por exemplo,

restará a versão em cache do arquivo para ser consultada, possibilitando inclusive a

restauração parcial das informações relevantes constantes no arquivo deletado.


40
HD: abreviação de Hard Disk ou disco rígido. Local onde são armazenadas as informações eletronicamente.
63

A exclusão direta no índice de tópicos que não interessam à base de dados, a

fim de se eliminar o ruído existente, pode ser feita de outra forma que será tratada

mais adiante.

Ilustração 6

A aba seguinte, conforme ilustrado acima, trata de opções avançadas e mais

afeitas a usuários do G-mail do Google e do ORKUT. Faculta ainda a indexação do

conteúdo de gadgets41 do Google - nocivos em nossa opinião, pela possibilidade de

abrir brechas de segurança na máquina onde o aplicativo está instalado.

A partir da ativação da opção “pesquisar em todos os computadores”, é

gerado um índice múltiplo de cada máquina conectada e logada com a mesma conta

privativa do GOOGLE, que pode ser obtida através do G-mail, do ORKUT ou de uma

conta independente criada nos servidores da Google.

Tais índices são armazenados nos servidores centrais da Empresa nos EUA

41
Gadgets: Tradução: dispositivo eletrônico ou mecânico. Denominação atribuída aos acessórios do software.
64

e embora a política de privacidade da empresa acerca da ativação deste recurso

avançado garanta a preservação da privacidade e sigilo dos dados trafegados, isto

tem gerado muitas críticas nos meios de TI, pois de qualquer forma eles serão

temporariamente hospedados nos servidores da empresa nos EUA, vulnerabilizando

qualquer política de segurança da informação corporativa. A política de segurança

da empresa acerca deste recurso específico pode ser acessada a partir dos

endereços abaixo:

http://desktop.google.com/features.html

http://desktop.google.com/privacypolicy.html

Recomenda-se que todas as opções presentes nesta página permaneçam

desativadas:
65

Ilustração 7

A aba a seguir representada pela ilustração de nº. 07, traz opções de

pesquisa que interessam mais ao usuário final que tem o aplicativo instalado em sua

própria máquina do que ao Administrador que tem um servidor configurado para

centralizar a consulta do aplicativo. Nela podemos ver as opções disponíveis de

localização da barra de pesquisa e/ou opções do “Google Desktop Search”, quer

seja à direita do desktop, flutuante, fixa na barra de tarefas ou nenhuma.

Ilustração 8
Em seguida temos a opção de ativação da barra de pesquisas rápida, que

não interessa ao serviço prestado em rede e logo abaixo a preferência de pesquisa.

Neste campo é revelada a possibilidade de integração do aplicativo com seu primo-

irmão, incansável pesquisador da WEB. Esta opção deve estar sempre ativada

como “pesquisar no Desktop” por padrão. Caso contrário os resultados obtidos não
66

refletirão a realidade da base de dados que realmente interessa que é a

armazenada localmente.

A opção a seguir se constitui em uma miscelânea que, na opinião do Autor,

deveria estar configurada sempre desta forma:

• Mostrar resultados enquanto digito: essa opção somente tem aplicação

prática quando o software está sendo executado localmente na máquina host.

Para funcionamento em rede torna-se desnecessária. É sugerida a

desativação por “default”;

• Exibir “X” resultados por pesquisa: Esse campo define o parâmetro de

retorno das pesquisas rápidas em termos de metadados obtidos. O ideal é

que sempre se situe no máximo possível a fim de facilitar sua visualização por

parte do analista de informações. Somente tem aplicação para uso local, não

tendo utilidade alguma para o uso integrado em rede. O limite atual é de 10

(dez) resultados por página;

• Pesquisar por padrão ou iniciar programas arquivos automaticamente:

Esta opção deve ser sempre configurada como “pesquisar por padrão” pois

não é interessante a abertura dos arquivos encontrados mas sim da sua cópia

em cache, onde os termos da busca são realçados na cor amarela dentro do

texto, a fim de facilitar o trabalho do analista de informações;

• Exibir “X” resultados por pesquisa: Esse campo define o parâmetro de

retorno das pesquisas em termos de metadados obtidos a partir do servidor.


67

O ideal é que sempre se situe no máximo possível a fim de facilitar sua

visualização por parte do usuário. O limite atual é de 100 (cem) resultados por

página.

• A opção integração com o GOOGLE é proibitiva para uso corporativo. Se o

interesse é na pesquisa de dados contidos na intranet local ao invés da

internet esta opção deve permanecer desativada.

Ilustração 9

A última aba, representada pela ilustração de nº. 9, diz respeito à ativação ou

não dos recursos avançados. Os recursos avançados são necessários para a busca

em computadores integrados, nos moldes do que é proposto pela Google, pois

possibilitam a remessa dos índices para os servidores centrais da companhia

situados no Estado da Califórnia, nos EUA, para posterior consulta por parte das
68

máquinas integrantes de forma individualizada.

Da forma como está proposto o Projeto Prometheus e de acordo com a

política de segurança da informação prevista nos regulamentos do Departamento de

Polícia Federal a ativação desta opção é um tanto quanto desnecessária como

proibitiva e perigosa. Deve ser desativada por “default”.

4.2.3 Como pesquisar na base de dados

Não basta a criação de um mecanismo de busca eficiente em um banco de

dados. É necessária a cooperação do analista de informações. Como vimos

anteriormente, a busca pela descoberta de conhecimento em bases de dados

envolve conceitos de mineração de dados e mecanismos de busca.

Mesmo suprimindo-se a fase de pré-processamento dos dados, como se

propõe, torna-se inevitável o enfrentamento das fases subseqüentes quais sejam a

aplicação dos métodos (uso dos algoritmos) e do pós-processamento dos dados

(extração de informação relevante).

A última etapa ainda depende quase que exclusivamente do discernimento

humano, porém é na aplicação dos métodos que ainda ocorrem as maiores falhas

as quais impedem que a informação seja acessada em sua plenitude.

Como pesquisar? Como utilizar as ferramentas disponíveis para encontrar a

informação almejada? Cada ferramenta de busca apresenta o seu manual de

instruções individualizado. Cada qual querendo esconder de seus rivais comerciais

os segredos de seus produtos para que não sejam copiados pelos concorrentes
69

comerciais.

Aparentemente, nem a ferramenta proposta, o GDS, escapou ileso à guerra

comercial travada nos bastidores do mundo digital. Em sua homepage42, são

descritos procedimentos de busca genéricos, de como utilizar melhor a ferramenta

colocada à disposição dos usuários. Tais informações podem ser acessadas a partir

do endereço: http://desktop.google.com/features.html#advancedsearch.

Contudo, no citado endereço não são disponibilizados os parâmetros ideais

de busca de dados. É omitido inclusive o uso de operadores booleanos43,

característicos das análises estatísticas e que poderiam facilitar a pesquisa. É

preciso saber que não basta digitar uma seqüência de palavras chave e aguardar

que o software resolva sozinho a questão para o usuário.

Esta é a fase mais delicada do processo, pois exige a interação usuário-

máquina. Suprindo a carência deixada pelos autores do software, enumera-se

abaixo os procedimentos de busca ideais tanto no uso do GDS como no uso da

Ferramenta Google na internet, a fim de transformar a pesquisa de dados em uma

fonte rica e segura de informações relevantes:

• Coloque o objeto de sua pesquisa entre aspas. O número de documentos

encontrados será menor, mas com maior qualidade.

• Quando procurar um nome com sobrenome, use vírgulas. Exemplo: Danes,

Claire. A resposta será mais precisa do que se digitasse Claire Danes.

• Na pesquisa de nomes, use minúsculas, mas com a primeira letra em

maiúscula, pois se você fizer uma busca, por exemplo, por carlos silva, pode

chegar a páginas que mostram itens que foram batizados com nomes

42
HomePage: página de origem, página pessoal, primeira página.
43
Booleano: Sinônimo de operador lógico. Operador de álgebra de Boole, matemático criador deste sistema.
70

próprios, como os logradouros públicos.

• Se não souber qual a grafia correta de uma palavra, você pode usar o

(asterisco - *). Exemplo: você procura o nome Christopher, mas não sabe

como se escreve. Digite C*risto* e terá páginas que contém Christopher (em

meio a outros termos semelhantes, como Jesus Cristo, Cristianismo, etc).

• Para fazer uma busca exata, coloque um ponto final na palavra a ser

pesquisada.

• Quando se trata de endereços (URL), é melhor utilizar dois pontos antes do

assunto que você deseja pesquisar. Digitando, por exemplo: url:shareware, o

buscador irá encontrar sites que tenham a palavra shareware em sua url. Se

você digitar: tex:saúde, obterá páginas que contêm a palavra saúde.

• Ao se pesquisar associação de idéias através de palavras-chave, podemos

usar o operador til (~) seguido da palavra a ser pesquisada, sem espaços.

Por exemplo: ao se digitar ~dark retornam resultados ligados à palavra

escuridão assim como neologismos como “gótico”.

• - Operadores booleanos: servem para refinar ainda mais as pesquisas:

o AND tem o mesmo significado que o sinal "+". Ex.: hotéis AND "Rio de

Janeiro", retornará sites com hotéis do Rio de Janeiro.

o OR tem o mesmo significado que escrever um nome composto sem as

aspas. Ex.: Rio OR Janeiro irá buscar sites que contenham somente

Rio ou somente Janeiro.

o NOT é uma seleção com seleção. Ex.: hotéis AND "Rio de Janeiro"

NOT Copacabana, irá buscar os sites que contenham hotéis do Rio

que NÃO se localizam em Copacabana.


71

o NEAR garante que duas palavras ou frases de sua busca não deverão

estar mais de dez palavras afastadas de uma obra.

• - Sintaxes especiais do Google: permitem buscas mais específicas, como

por exemplo, apenas no título do texto ou na URL da página referente. Cito

aqui algumas das principais sintaxes utilizadas e que podem ser muito úteis

na busca:

o Define: retorna o conceito a respeito do tema proposto. Por exemplo:

define: google

o intitle: restringe a busca nos títulos das páginas. Por exemplo, você

pode utilizar o seguinte critério: intitle: "virus sasser"

o inurl: faz a busca somente nas URLs desejadas. Vamos supor que se

procuram as seções de cadastro de currículo em diversas web pages.

Sua sintaxe deve ser descrita assim: inurl: "trabalhe conosco". Ou

ainda: inurl: currículo

o intext: este comando verifica unicamente o corpo do texto (ou seja,

ignora o título e os links). Vejamos um exemplo: intext: gaúcho

o inanchor: esta sintaxe serve para buscar descrições de links nas

páginas (as chamadas âncoras). Por exemplo, se você deseja refinar

sua busca no site www.ufpel.edu.br, poderá usar esta sintaxe:

inanchor: "Universidade Federal de Pelotas"

o site: permite que você faça sua busca em um determinado site ou

domínio. Por exemplo: site: ufpel.edu.br (somente nas páginas da

UFPel) ou ainda: site: edu (somente em sites educacionais);

o link: retorna uma lista de páginas relativas a uma URL específica. Não

é necessário digitar http://. Assim, temos: link: www.ufpel.edu.br.


72

Será feita a procura apenas nas páginas que possuem link para o site

da UFPel;

o cache: esta sintaxe busca uma cópia da página indexada pelo Google,

mesmo que ela não esteja mais disponível on line ou que tenha sofrido

alterações. Exemplo: cache: www.pelotas.com.br. Ao abrir a página,

podemos notar que alguns links não estão mais disponíveis e vários

elementos já foram retirados. Isso significa que aquela página foi

atualizada após a indexação do mecanismo;

o daterange: especifica a busca em um determinado período de tempo

no qual aquela página ou documento foi indexado. Nesta sintaxe, é

importante observar dois aspectos: o primeiro ponto é que a data na

qual a página ou documento foi indexado não é a mesma em que ele

foi criado. O segundo ponto é que uma página ou documento pode já

ter sido indexado pelo Google. Além disso, é importante lembrar que

as datas não devem seguir a numeração gregoriana, mas sim a juliana.

Ao digitarmos Julian Date no próprio Google na internet iremos

encontrar vários conversores de formatos de datas. Um exemplo dessa

mesma sintaxe: technology daterange: 2452389-2452389

o related: encontra páginas relacionadas a uma certa web page. É válida

apenas para buscas na internet. Por exemplo: related:www.uol.com ;

o info: sugere uma galeria de páginas que forneçam informações sobre

uma URL específica. Informações, nesse caso, referem-se a links para

cache de URL, uma lista de páginas que servem como link e

webpages vinculadas. Assim, se quisermos informações sobre o site

de notícias da CNN, basta digitar: info: www.cnn.com ;


73

o phonebook: o Google também permite buscas relacionadas a certos

números de telefones, como por exemplo: phonebook: (53) 3275-

7334

Existem muitas outras funcionalidades do aplicativo, porém em sua grande

maioria adaptadas para o idioma inglês e para usuários residentes nos EUA, e que

não interessam ao presente trabalho.

4.2.4 Conteúdo do resultado e filtragem das buscas

A seguir será abordado como o mecanismo de busca disponibiliza seus

resultados através de uma interface gráfica de fácil compreensão para o analista e

para o usuário final. Ao se pesquisar a palavra chave “crime”, dentro do computador

protótipo, é apresentada a tela a seguir:


74

Ilustração 10

Analisando-se minuciosamente esta interface, podemos aferir vários

elementos informativos. Ao lado do logotipo do Departamento de Polícia Federal

aparece nova caixa de texto contendo o termo empregado na pesquisa. Isto além de

confirmar ao usuário se a inserção dos dados foi digitada de forma correta possibilita

o refinamento da pesquisa através da inserção de mais palavras-chaves ligadas à

primeira.

Acima da caixa de texto são dispostos atalhos para links externos de serviços

disponibilizados pela Google. Tais atalhos não foram retirados da interface por

representarem, na opinião do Autor, a possibilidade de enriquecimento da pesquisa.

A veracidade desta afirmação fundamenta-se no princípio de que muitas

informações de interesse policial são veiculadas pelos meios de comunicação na

internet e que tais informações ficam armazenadas nos servidores da Google,

possibilitando consultas posteriores.

É custoso admitir, porém não se pode negar que a Imprensa às vezes obtém

acesso à informação e a divulga antes mesmo das autoridades policiais tomarem

conhecimento do fato.

Os links “preferências do Desktop” e “server options” localizados na parte


75

superior e ao lado do campo “pesquisar” foram adaptados para uso administrativo do

servidor e servem para configurá-lo e fazer os ajustes necessários. Estas

adaptações serão discutidas com mais profundidade no capítulo 5.

O link “pesquisa avançada” possibilita ao usuário o refinamento de sua

pesquisa através da especificação de datas, tipos de arquivo ou parâmetros

específicos, retornando a tela abaixo:

Ilustração 11

Retomando a analise da ilustração de nº. 10, observamos que a primeira

informação fornecida diz respeito à quantidade de arquivos encontrados, sua

natureza e o tempo gasto para a execução da tarefa – menos de um segundo neste

caso. Este campo guarda estreita correlação com as opções de busca delimitadas

durante a configuração do software como visto no item 4.2.2. Os resultados podem

ser filtrados através do tipo de arquivo que se deseja visualizar através do uso desta

opção. Logo abaixo se encontram os links que possibilitam a filtragem dos

resultados por data ou pela relevância.


76

A opção de se pesquisar por ordem cronológica é ativada por “default”, mas

nada impede que se utilize a opção “por relevância”, sendo que neste caso a

pesquisa obedecerá ao critério de “Page Ranking” analisado anteriormente, trazendo

os resultados que o algoritmo julgar estatisticamente mais apropriados.

A opção remover do índice foi adaptada para exigir senha do administrador do

sistema, a fim de impedir remoções acidentais por parte do usuário. Esta opção

faculta ao Administrador a remoção do índice de elementos que se configuram

inapropriados para figurar no resultado da pesquisa. Destina-se à remoção do

“ruído”, sendo que a remoção de um item do índice não implica na remoção física do

arquivo, apenas determina ao algoritmo que marque aquele item específico como

não pesquisável.

O resultado da pesquisa propriamente dito é disponibilizado através de

hiperlinks que levam até o documento original. Abaixo do hiperlink encontra-se um

resumo do contexto onde se encontra a palavra-chave utilizada, a qual aparece em

negrito, para dar uma noção mais apropriada ao usuário acerca da utilidade da

informação que poderia ser obtida através da consulta àquele arquivo.

Abaixo do resumo encontra-se o caminho detalhado da árvore de diretórios

onde se encontra o arquivo matriz, bastando passar o mouse por cima do texto para

se obter o caminho completo.

A opção de acesso direto ao arquivo através do hiperlink e da opção de abrir

pasta foi desabilitada na versão de testes por dois motivos principais: por questões

de segurança e compartimentação, evitando-se a exploração não autorizada de

arquivos sigilosos e do restante do conteúdo das pastas e árvores de diretórios

dispostos hierarquicamente dentro do servidor e cujo compartilhamento não foi

autorizado.
77

Em obediência ao princípio da representação da informação, por não ser

interessante para o usuário a análise de um documento inteiro sendo que a

informação que ele busca pode ser mais facilmente encontrada consultando-se a

versão em cache de texto do arquivo através do link situado após aquele

correspondente à opção “abrir pasta”, como no exemplo abaixo, referente à abertura

do segundo resultado da lista:

Ilustração 12

Ao selecionarmos qualquer das opções em cache listadas, obteremos uma

tela semelhante a esta disposta abaixo, onde o termo é realçado em amarelo para

facilitar sua localização no contexto do documento:


78

Ilustração 13

Analisando-se a tela inicial de resultados em sua parte inferior, como

figura na ilustração subseqüente, podemos observar a existência de um marcador

de páginas que possibilita a navegação pelas páginas de resultados de uma forma

bem prática. Também lá se encontra situada nova caixa de texto de pesquisa com

as mesmas funcionalidades daquela situada na parte superior da interface e, logo

abaixo, um link que direciona o usuário à página de status do índice do aplicativo,

onde são mostradas as estatísticas a respeito do total de arquivos indexados e sua

disposição de forma qualitativa e quantitativa:


79

Ilustração 14

Um detalhe importante e digno de menção é a capacidade própria ao

aplicativo de inserir snapshots44 de visualização de arquivo ao lado dos hiperlinks de

resultados. Isto significa dizer que sempre que o formato do arquivo for suportado

para visualização, um thumbnail45 da foto, do vídeo ou da página correspondente

será mostrado, acelerando o processo cognitivo do usuário em relação à obtenção

da informação almejada. Também é inserido um ícone ao lado do hiperlink a fim de

representar qual o tipo de arquivo está inter-relacionado. O formato destes ícones é

bem intuitivo e de fácil assimilação pelo usuário que desta forma pode filtrar tais

resultados, se dirigindo diretamente àquilo que julgar importante para a pesquisa.

4.2.5 Plug-ins

Em razão da política da empresa Google em liberar sua API para


44
Snapshot: Tradução: Instantâneo
45
Thumbnail: Tradução: Miniatura
80

desenvolvedores, abrindo por assim dizer seu código-fonte ao público de TI, a cada

dia mais e mais inovações são acrescentadas ao software original. Tais inovações

são conhecidas como plug-ins e são testadas pelo corpo de programadores da

Google em relação aos seus critérios de estabilidade e funcionalidade.

Aquelas que apresentam resultados satisfatórios são incorporadas ao

software original e disponibilizadas de forma já integrada nas novas versões de

testes lançadas pela empresa de tempos em tempos.

Existe uma quantidade extremamente grande de plug-ins disponíveis, os

quais podem ser encontrados, baixados e melhor compreendidos acessando-se a

homepage da Empresa Google46.

Como já mencionado, existe uma infinidade de plug-ins disponíveis para as

mais diversas finalidades, todos desenvolvidos por terceiros e em função do GDS.

Não cabe nesta obra uma análise detalhada a respeito de todos eles. Serão

discorridas considerações a respeito apenas daqueles que interessam ao presente

projeto, a saber: DNKA e TWEAK GDS.

Encontra-se em fase de testes com perspectivas promissoras os plug-ins:

“Acess Crawler” e “Omni-Page Search Index”.

4.2.6 Modo de operação e limitações da utilização em rede

O GDS é composto de quatro módulos executáveis, cada um exercendo uma

função diferenciada:
46
Texto disponível a respeito deste assunto a partir de: http://desktop.google.com/plugins/
81

• GoogleDesktop.exe: o módulo principal do programa, gerencia a interação

entre os demais e seus relacionamentos com as bibliotecas de vínculo

dinâmico (DLLs);

• GoogleDesktopIndex.exe: módulo que gerencia a indexação dos arquivos e

a transformação dos resultados obtidos em linguagem de máquina para a

linguagem de texto compreensível ao usuário;

• GoogleDesktopDisplay.exe: módulo que gerencia as interfaces

apresentadas ao usuário e as opções de pesquisa e filtragem de resultados;

• GoogleDesktopCrawl.exe: módulo que gerencia a aplicação do algoritmo de

busca apropriado. Este executável é o responsável pela leitura das

informações contidas no interior dos arquivos e consome porção considerável

de recursos de processamento quando em operação de indexação.

Além dos executáveis também são instaladas na máquina host uma série de

bibliotecas de vínculo dinâmico (DLLs) as quais carregam as instruções de

funcionamento do dispositivo como um todo integrado. O tamanho físico do índice

gerado ocupa espaço em mídia digital correspondente a 0,001% do tamanho original

dos arquivos possibilitando economia estupenda de espaço em disco rígido. Um

servidor apenas, contendo somente um HD com capacidade para armazenar 80

Gigabytes de dados é capaz de hospedar um índice correspondente a 80

Terabytes47 de dados de arquivos. Para fins de compreensão da escala envolvida

poderíamos dizer que em um único servidor de capacidade mediana poder-se-ia

armazenar dados equivalentes a 1000 (mil computadores), repletos de dados, em


47

1 Terabyte = 1000 Gigabytes  1 Gigabyte = 1000 Megabytes  1 Megabyte = 1000 kilobytes.


82

sua capacidade máxima de armazenamento.

O funcionamento do GDS em uma máquina host de forma isolada é

excepcional. A versão de testes nº 4 corrigiu vários bugs48 apresentados nas versões

anteriores e prima por ser extremamente funcional.

Uma das novidades foi a implementação da busca em unidades de rede

mapeadas e pastas compartilhadas na rede local. Embora não seja ainda o ideal

para pesquisas em rede, torna-se muito funcional para integrar dados contidos em

diversos computadores que coexistem no mesmo grupo de trabalho ou apresentam

relação de subordinação ao mesmo controlador de Domínio, muito embora não

consiga fazer a pesquisa em toda a Intranet corporativa. Para isto é necessária a

utilização de subterfúgios, como realizado através do Projeto Prometheus a custo

ínfimo.

Na verdade, não interessa à Empresa Google a disponibilização de forma

gratuita de uma funcionalidade como esta, pois é patente o valor agregado que ela

proporcionaria e, ademais, toda empresa comercial visa o lucro.

No site da empresa são anunciadas para comercialização duas versões do

GDS para edições corporativas adaptadas para pesquisar dentro de uma Intranet.

São apresentadas as versões do “Google Mini” e “Google Search Appliance”, as

quais podem ser acessadas a partir de: http://www.google.com/enterprise/mini/ e

http://www.google.com/enterprise/gsa/ respectivamente. São versões comerciais

apresentadas com hardware próprio, cujo custo se situa a partir de US$ 1,995.00

para a busca de 50.000 documentos até US$ 30,000.00 para a busca de 500.000

documentos ou mais. Ao que parece não faltaram clientes para efetivar a compra49.
48

Bugs: Um Bug é qualquer defeito encontrado em um programa de computador. A palavra é um anglicismo, e


traduz literalmente como inseto.
49
A empresa disponibiliza um link, que pode ser acessado a partir de:
http://www.google.com/enterprise/gsa/success_stories.html onde são registradas as histórias de sucesso e uma
galeria de clientes ilustres, dentre os quais se destacam a NEXTEL, XEROX, DISCOVERY
83

5 O PROJETO PROMETHEUS

O Projeto Prometheus nasceu da curiosidade e do interesse científico do

Autor deste Projeto, que pesquisou com afinco a respeito de como racionalizar e

organizar a informação dentro dos bancos de dados policiais, facilitando a sua

consulta por parte dos analistas de informação.

O impulso inicial foi dado pelo ilustre Delegado de Policia Federal Antônio

Celso dos Santos quando solicitou ao Autor, nos idos de 2004, que organizasse a

enorme quantidade de informações armazenadas dentro dos computadores que

compunham a Divisão de Combate aos Crimes contra o Patrimônio, então lotação

do Autor deste trabalho, à época.

O Autor, analista de informações, observou que seria inviável a aplicação de

técnicas de Data Warehousing para tratar uma base de dados daquelas dimensões

sendo que diariamente chegavam novas informações que eram arquivadas pelos

analistas de forma completamente desestruturada.

A princípio foi tentado que se disciplinasse o arquivamento dos dados, porém

todas as tentativas restaram infrutíferas, pelos mais diversos motivos dentre os quais

a natureza eminentemente dinâmica do trabalho realizado naquela Divisão, com

sucessivas idas e vindas de recursos humanos para outros Estados da Federação a

fim de auxiliar nas Operações em andamento.

Tendo em vista as dificuldades apresentadas para a consecução desta tarefa

hercúlea, voltamo-nos para as promissoras técnicas de mineração de dados

COMUNICATTIONS e a FDA (Food and Drugs Administration - EUA).


84

representadas pelos mecanismos de busca, que tiveram seu boom no mercado

digital no decorrer do ano de 2005.

O raciocínio foi simples: ao tornar-se inviável a fase de pré-processamento

dos dados por fatores tais como custo, falta de tempo e de mão de obra, porque não

passar diretamente para a fase de mineração de dados (MD).

Sabe-se que este é um conceito polêmico, que causa arrepios àqueles que no

meio de TI são classificados como mais ortodoxos, que vêem na ordem e na

organização um pouco de sua razão de viver. Porém, a realidade dos fatos e o

cotidiano do mundo em que vivemos nos apresentam uma outra face: a necessidade

de se pensar em termos de praticidade e baixo custo. Está fadado ao fracasso

aquele que se propuser a tentar algo novo que não preencha obrigatoriamente

esses dois requisitos básicos.

O novo por ser novo já provoca resistências. O que podemos esperar se

estas novas idéias implicarem ainda em aumento de custos ou mudança de hábitos

policiais arraigados há décadas? Desta forma o Autor, se enveredando pelo mundo

dos mecanismos de busca vislumbrou no GDS uma ferramenta inestimável para

integrar dados difusos em pouco tempo e com baixo custo.

Ainda no âmbito da DPAT/DCOR foram realizados testes de campo em

conjunto com as Delepats de diversos Estados brasileiros, experiência de onde

restou comprovada inestimável valia do citado aplicativo para a investigação policial,

tendo inclusive ajudado na análise de casos e apuração de diversas notitia criminis.

Tais resultados foram apresentados no I ETO – Encontro Técnico Operacional

das Delepats, realizado na ANP no mês de abril de 2005, gerando grandes

expectativas e até a presente data existe a cobrança por parte de vários Delegados
85

de Polícia Federal para que se proceda à expansão do sistema para outras unidades

da Federação.

Tal expansão, contudo, esbarrou na relutância dos núcleos de informática

locais em implementar o projeto sob a alegação de depender de prévia autorização

da CTI/DPF para sua efetivação.

Desta forma, atualmente exercendo a função de Administrador da Rede de

Informática da DCOR/DPF e contando com o apoio do Senhor Diretor de Combate

ao Crime Organizado, Doutor Getulio Bezerra Santos, que vislumbrou o potencial

criativo do sistema proposto e sua efetiva utilidade na área de inteligência, apresento

à comunidade policial o Projeto final, batizado como “Prometheus”.

Este trabalho de Conclusão de Curso representa, portanto, mais que um pré-

requisito para a formação do Autor no XIV Curso Especial de Polícia. Representa a

conclusão de seus esforços no sentido de contribuir para o aperfeiçoamento no uso

dos recursos de inteligência dentro do Departamento de Polícia Federal e o

alinhamento do Órgão com novas tecnologias de ponta.

O Projeto Prometheus encontra-se agora maduro, reforçado sob os aspectos

de segurança, compartimentação, centralização do banco de dados e consulta

exclusivamente via intranet/DPF, para utilização plena por parte dos analistas de

informação das Superintendências e Unidades Descentralizadas do Departamento

de Polícia Federal.

5.1 Conceito

O Projeto Prometheus subsume-se no uso do software GDS, dois plug-ins o

DNKA e o TWEAK GDS e o software INTERNET NEIGHBORHOOD Versão 5.45

instalados em uma máquina servidor auxiliar rodando o Windows Server 2003,


86

batizada como GServer.

Esta máquina encontra-se permanentemente ligada rodando o GDS e o

DNKA previamente configurados e adaptados para o uso pelo Departamento de

Polícia Federal através da criativa edição de suas interfaces gráficas.

O salto apresentado por este Projeto é a adoção da inovadora solução de se

transformar um site FTP50 em uma unidade de rede local. Isto supre a deficiência

propositalmente introduzida pela Empresa Google no GDS, em sua versão gratuita,

para pesquisar em Intranets. O software responsável por isto é o Internet

Neighborhood versão 5.45, que roda na máquina servidor em background,

monitorando o mapeamento e a transferência de dados via FTP em modo passivo.

O DNKA exerce função igualmente vital, pois é o responsável pela criação de

um web-server exercendo papel de mediador na intranet, possibilitando que as

pesquisas sejam efetuadas remotamente pelos usuários das máquinas clientes

como se localmente no servidor estivessem operando. Logicamente isto se dá de

uma forma limitada, controlada e 100% monitorada pelo Administrador da rede

informatizada onde se encontra operando o GServer.

O TWEAK GDS contribui para a tarefa de realimentação do sistema através

do agendamento automático de reindexações periodicamente controladas. A

conexão e alimentação do servidor com os dados remotos, presentes nas pastas e

diretórios dos computadores situados nas Superintendências e Unidades

descentralizadas é feita mediante a criação de um site FTP em um servidor FTP sob

controle do Núcleo de Informática local.

A criação de um site FTP é extremamente simples e nativa do sistema

operacional Windows e Linux. Ao limitarmos a conectividade deste servidor FTP ao

endereço IP da placa de rede externa (conectada ao domínio Sede.dpf.gov.br e não


50
FTP: File Transfer Protocol. Um protocolo utilizado para transferir arquivos entre dois computadores.
87

ao domínio DCOR7.dpf.gov.br) do GServer, estaremos roteando a entrada de

dados neste último de forma segura e controlada.

A sincronização das pastas FTP existentes no servidor FTP com os arquivos

existentes nos computadores pessoais ou nas pastas privativas de cada Delegacia

especializada, localizadas nos servidores das Superintendências ou Unidades

Descentralizadas, é feita através de agendamentos de back up incrementais

utilizando técnicas de shadow copy51 nativas do Windows Server.

Tal solução automatiza, portanto, o serviço necessário de sincronização de

várias pastas com aquelas que representam as Delegacias dentro do servidor FTP e

este processo além de automatizado pode ser agendado como uma tarefa do

Windows, rodando em total background e em horários noturnos, quando

praticamente inexiste atividade na rede.

5.2 DNKA

O DNKA foi desenvolvido como um plug-in do GDS. Pode ser baixado

através do endereço: http://desktop.google.com/plugins/i/dnka.html?hl=pt-BR. Seu

uso possibilita a criação de um servidor web de pesquisas, interagindo como

mediador entre o servidor do GDS local e os clientes remotos. Oferece variadas

opções de configuração e excelentes opções de segurança ao Administrador do

sistema.

É um freeware para uso pessoal ou privado, de instituições de ensino

governamentais, bibliotecas públicas e entidades sem fins lucrativos. Para as

51
Shadow copy: Técnica de cópia de alta fidelidade dos arquivos originais que permite a cópia de arquivos em
uso pelo sistema operacional.
88

demais categorias deve ser considerado como shareware,52 necessitando que se

compre a respectiva licença que custa US$39,00 (trinta e nove dólares), o

equivalente a aproximadamente R$80,00 (oitenta reais) para que seja procedido seu

registro com o fabricante, o que pode ser feito on-line acessando-se sua home page

a partir de http://www.dnka.com/register.html .

5.2.1 Aspectos legais - EULA do DNKA – Licença de uso

A licença de uso pode ser acessada a partir de:

http://dnka.com/license.html e encontra-se transcrita abaixo:

“End User License Agreement (EULA) for DNKA

NOTICE TO USERS: CAREFULLY READ THE FOLLOWING LEGAL


AGREEMENT. USE OF THE SOFTWARE PROVIDED WITH THIS
AGREEMENT (THE "SOFTWARE") CONSTITUTES YOUR ACCEPTANCE
OF THESE TERMS. IF YOU DO NOT AGREE TO THE TERMS OF THIS
AGREEMENT, DO NOT INSTALL AND/OR USE THIS SOFTWARE.
USER'S USE OF THIS SOFTWARE IS CONDITIONED UPON
COMPLIANCE BY USER WITH THE TERMS OF THIS AGREEMENT.

Licensing

The software is either licensed as "Freeware" or "Shareware", depending on


the environment it is used.
The software is "Freeware" for: personal/private use; government controlled
education institutions; public libraries; charity organizations. The term
"Freeware" means, you are allowed to use the software at no cost. It is not
necessary to purchase a license for it.
If your environment does not fit in the noted environments, you are
considered a commercial institution and the software is licensed to you as
"Shareware". The term "Shareware" means, you can test software for up to
15 days after which you must purchase a license for it or stop using the
software and remove it from your storage device(s).

Warranty

This software is provided "as is" and any express or implied warranties,
including but not limited to, the implied warranties of merchantability and
fitness for a particular purpose are disclaimed.
52
Shareware: Software distribuído como "experimente antes de comprar". Este programa disponível precisa ser
registrado para receber sua versão completa.
89

In no event shall the author(s) or DNKA Software or its contributors be liable


for any direct, indirect, incidental, special, exemplary, or consequential
damages (including, but not limited to, procurement of substitute good or
services; loss of use, data, or profits; or business interruption) however
caused and on theory of liability. Whether in contract, strict liability, or tort
(including negligence or otherwise) arising in any way out of the use of this
software, even if advised of the possibility of such damage.

Use

If the software licensed as "Shareware", then one registered copy of the


software may be installed on a single computer/workstation and used
simultaneously by multiple people.

Restrictions

You may not emulate, clone, rent, lease and sell the software. Also, you
may not modify, decompile, disassemble, otherwise reverse engineer, or
transfer the program, or any subset of the program, except to the extent and
for the express purposes authorized by applicable law. Any such
unauthorised use shall result in immediate and automatic termination of this
licence and may result in criminal or civil prosecution.
Changing the software, the documentation, the distribution form (archive) or
any other part of the software in any way is strictly prohibited.

Distribution

It is allowed to include this software on a CD/DVD-ROM for a magazine


without asking for the permission of the author(s) and/or DNKA Software,
but only if the author(s) and DNKA Software are informed about this.
Private or non-commercial distribution is allowed, providing that no fee is
charged, except for any fees necessary to cover the cost of distribution
media. No information to the author(s) or DNKA Software is needed.

Trademarks

All brand names and product names used are trademarks or trade names of
their respective holders.
All references, logos, images, names, products, software and hardware are
or may be copyrights or trademarks of their respective companies.
No infringement is intended.

Termination

The DNKA Software may terminate this EULA if you fail to comply with the
terms and conditions of this EULA. In such event, you must destroy all
copies of the software including license keys.

Contact Information
WWW: http://www.dnka.com/
E-mail: info@dnka.com”53
53
Tradução: “Termo de Contrato do Usuário Final para o uso do DNKA

AVISO AO USUÁRIO: LEIA ATENTAMENTE ESTE TERMO DE


CONTRATO. O USO DESTE PROGRAMA DEVE SER FEITO DE ACORDO
COM ESTE TERMO DE CONTRATO O QUAL É PRESUMIDO COMO
ACEITO. SE VOCÊ NÃO CONCORDA COM ESTE TERMO DE CONTRATO
NÃO INTALE OU USE ESTE PROGRAMA. A UTILIZAÇÃO PELO USUÁRIO
DESTE PROGRAMA ESTÁ CONDICIONADA À ACEITAÇÃO DOS TERMOS
DESTE CONTRATO.
90

5.2.2 Funcionalidade do DNKA

O DNKA é um plug-in que permite a criação de um servidor de consultas

centralizado, a partir do qual os usuários podem realizar consultas através de

máquinas clientes utilizando-se do navegador de internet.

Licença

O programa é licenciado tanto para uso gratuito ou comercial, dependendo das


circunstâncias em que será utilizado. Este programa é gratuito para uso pessoal, de
instituições educativas governamentais, bibliotecas públicas e entidades sem fins
lucrativos. O termo "gratuito" significa que a você está permitido o uso deste
programa sem custos. Não é necessária aquisição de licença para usá-lo. Se você
não se enquadra nas categorias listadas acima você será considerado como uma
instituição comercial e o programa será licenciado a você como pago. O termo
“pago” significa que você terá 15 (quinze) dias para testar o programa e após este
prazo é necessária a compra de uma licença ou, caso contrário, deverá ser
interrompido o uso do mesmo e convenientemente desinstalado de seu computador.

Garantia

Este programa é fornecido do modo como se apresenta e qualquer garantia expressa


ou implícita, incluindo mas não se limitando apenas aos aspectos de
comercialização ou utilidade efetiva para propósitos específicos são expressamente
renunciadas. Em hipótese nenhuma o Autor deste programa ou seus auxiliares serão
responsáveis por qualquer dano direto, indireto, acidental, especial, específico ou
conseqüente (incluindo, mas não se limitando apenas a terceiros ou procuradores e
que implique em impossibilidade do seu uso, perda de dados, cessação de lucros ou
interrupção do trabalho), mesmo que derivada teoricamente do uso do produto.
Mesmo que contratual, está excluída a responsabilidade estrita ou indireta (incluída
negligência ou culpa) derivada do uso deste programa, mesmo que não prevista a
possibilidade deste dano.

Uso

Se este programa for licenciado como “pago”, então somente uma cópia deste
programa poderá ser instalada em um único computador ou servidor, podendo ser
utilizada por diversos clientes.

Restrições

Você não pode emular, clonar, alugar ou vender este programa. Também não pode
modificar, descompilar, desassociar ou usar engenharia reversa para extrair este
programa ou qualquer de seus componentes, exceto dentro de certos limites e
para propósitos legítimos e amparados legalmente (grifo meu). Qualquer uso
em desacordo com esta autorização poderá implicar na rescisão desta licença e em
processo civil ou criminal. Modificar o funcionamento do programa, a
documentação, a forma de distribuição (arquivo eletrônico) ou qualquer parte do
programa é terminantemente proibido.
91

O acesso se dá através de um endereço de rede interno correspondente ao

IP da placa de rede previamente configurada para o uso deste servidor. A porta de

comunicação local pode ser pré-definida e no caso de não haver outro aplicativo no

servidor rodando serviços baseados na plataforma WEB, pode ser configurado para

acesso pela porta 80, utilizada para navegação normal pela internet.

Isto significa dizer que nenhuma configuração adicional é requerida nas

máquinas clientes. A consulta ao banco de dados pode ser realizada simplesmente

através do endereço IP do servidor, nos mesmos moldes do acesso à página da

intranet do CTI/DPF, que pode ser acessada digitando-se seu endereço IP:

10.61.5.12 na barra de endereços do navegador.

Neste protótipo o servidor foi definido para acesso através de seu IP:

10.1.199.2. Ao se digitar este endereço no navegador Internet Explorer da máquina

cliente chega-se à tela de login no servidor, convenientemente editada para o uso

proposto:

Distribuição

É permitido que se inclua este programa em CD/DVD-ROMs distribuídos em


revistas ou periódicos sem que se necessite a permissão do Autor para isto,
bastando que o mesmo seja informado. Distribuição particular ou não comercial
também é permitida e livre de pagamento, exceto para o custo da gravação em
qualquer tipo de mídia digital. Nenhuma informação ao Autor do programa é
necessária neste caso.

Marca Registrada

Todas as marcas e nomes de produtos usados são marcas comerciais ou nomes


registrados pelos seus respectivos proprietários. Toda referência, logotipos,
imagens, nomes, produtos, programas e equipamentos são ou podem ser marcas ou
nomes protegidos por direitos autorais. Nenhuma infração será considerada como
intencional.

Rescisão

O fabricante do DNKA pode rescindir este contrato em caso de descumprimento de


seus termos e condições. Neste caso você deve destruir qualquer cópia do programa
em seu poder, inclusive chaves de licença.
92

Ilustração 15

Após a digitação do login e senha corretas o usuário é conduzido à tela de

pesquisa propriamente dita, dentro do GDS e da mesma forma editada, contendo

referência ao uso do software GDS como plataforma de busca, em atenção ao

direito de propriedade intelectual e à EULA de uso do GDS, conforme discutido no

item 4.2.1.1.

O procedimento a partir de então é idêntico ao uso do GDS em uma máquina

local, com algumas restrições aplicadas pelo administrador e comentadas no item

4.2.4 a respeito do acesso aos hiperlinks de consulta e à opção de remoção de

resultados do índice de indexação:


93

Ilustração 16

A configuração do servidor propriamente dita é feita efetuando-se login

diretamente no servidor (IP: 127.0.0.1 – local host) ou através de clientes remotos ao

se digitar na tela de login o usuário Admin e senha pré-definida. Desta forma

aparecerá a tela de configuração do servidor, cuja interface foi parcialmente

traduzida e otimizada para a língua portuguesa pelo Autor do Projeto:


94

Ilustração 17

Navegando-se pelas abas de configuração temos como próxima opção o

“controle de IPs”. Nesta interface são acrescentados e/ou removidos os IPs das

máquinas clientes autorizadas a utilizar o sistema, através de um simples mas

eficiente firewall baseado em IPtables54 incorporado ao aplicativo:

Ilustração 18
A próxima aba permite a criação, exclusão e gerenciamento dos usuários

autorizados a pesquisar no sistema:

54
IPtable: Filtro de pacotes que tem funcionamento similar, porém menos funcional que o firewall de dados.
95

Ilustração 19

A última aba permite ao administrador realizar configurações especiais de

pesquisas, analisar relatórios de acesso, definir permissões específicas, definir

portas e proceder à reindexação parcial ou total do índice, muito embora esta última

opção deixe um pouco a desejar em termos de resultado, quando executada a partir

desta configuração:

Ilustração 20
5.3 TWEAK GDS

O TWEAK GDS foi igualmente desenvolvido como um plug-in do GDS. Pode

ser baixado a partir de: http://desktop.google.com/plugins/i/tweakgds.html?hl=pt-BR.

Foi o pioneiro em apresentar soluções de reindexação parcial ou total controlada dos

índices do GDS, tecnologia esta posteriormente incorporada de forma parcial pela

Empresa Google e lançada na última versão beta de nº. 4 do GDS.

Seu uso é necessário porque o agendamento da indexação nativa do GDS

ainda deixa muito a desejar, falhando em algumas ocasiões enquanto que este
96

aplicativo cumpre perfeitamente seu papel possibilitando inclusive o agendamento

dos sites FTP mapeados como unidade de rede, ao contrário da mensagem de erro

que ocorre quando se tenta fazer o mesmo através da configuração nativa do GDS

de forma isolada. Sem o uso deste plug-in não é possível indexar unidades de rede

mapeadas que se encontram em ambiente externo ao domínio a que pertence o

servidor.

Como já mencionado, o Autor acredita ser tal bug incluso de forma velada

pela empresa Google a fim de impedir o uso gratuito de seu software em intranets

corporativas, forçando o usuário a aderir a alguma forma de suas soluções pagas.

O plug-in é um freeware (software gratuito) para qualquer espécie de

utilização, mesmo que comercial e o Autor trocou várias mensagens de e-mail com o

Autor deste plug-in, o Doutor Nathan Evans da Podsync.com sediada nos EUA, a fim

de esclarecer dúvidas residuais a respeito das sintaxes de linha de comando mais

apropriadas para agendamento da execução do programa em modo remoto.

O software possui pequena EULA que não limita em absoluto qualquer

alteração ou forma de uso final, dispões apenas acerca da falta de garantias por

parte do Autor e pode ser acessada a partir do arquivo de texto baixado junto com a

instalação:

“License Agreement
=================

Installing and using any software written or distributed by


PodSync.com signifies acceptance of the terms and conditions of
this license.

THIS SOFTWARE IS PROVIDED "AS-IS". NO WARRANTY OF ANY


KIND IS EXPRESSED OR IMPLIED. THE AUTHOR WILL NOT BE
LIABLE FOR DATA LOSS, DAMAGES, LOSS OF PROFITS OR ANY
OTHER KIND OF LOSS WHILE USING OR MISUSING THIS
SOFTWARE.

============================================
===
97

Any suggestions, bug reports, or comments are welcome.”55

E-Mail: support@podsync.com
Website: http://www.podsync.com

O Autor do software também disponibiliza link de ajuda e suporte a título gratuito a

partir de http://podsync.com/TweakGDS_help.htm .

5.3.1 Funcionalidade do TWEAK GDS

O modo de funcionamento e sua interface são extremamente simples e

intuitivos. É preferível usar a versão mais antiga deste software, a 1.1, de apenas 46

kbytes por se afigurar mais estável em relação à automatização das funções de

agendamento de indexações. Ao executar o aplicativo é aberta a seguinte interface:

55
“Concordância com a Licença
=================

Instalar e usar este programa desenvolvido e distribuido pela


Empresa PodSync.com significa a aceitação dos termos e
condições desta licença.

ESTE PROGRAMA É DISTRIBUÍDO COMO ESTÁ. NENHUMA GARANTIA,


DE NENHUMA ESPÉCIE ESTÁ ASSEGURADA OU IMPLÍCITA. O AUTOR
NÃO PODERÁ SER RESPONSABILIZADO POR PERDA DE DADOS,
DANOS,LUCROS CESSANTES OU WQUALQUER OUTRO TIPO DE PERDA
ADVINDA DO USO OU MANUSEIO DESTE APLICATIVO.
============================================
===
Qualquer sugestão, informação sobre falhas ou comentários são
bem-vindos.”

E-Mail: support@podsync.com
Website: http://www.podsync.com
98

Ilustração 21

A partir desta tela é possível proceder-se à reindexação total ou parcial das

unidades ou pastas de rede mapeadas ou à mudança da localização do índice de

indexação por questões de segurança.

É necessário ter em mente, porém, que o aplicativo GDS tem que ser

interrompido e reiniciado para que as novas configurações entrem em vigor, o que é

facilmente disponibilizado através do link localizado na parte superior da interface.

No presente projeto estas operações foram automatizadas para fins de

otimização e serão abordadas no tópico 5.5.4 a seguir.

5.4 INTERNET NEIGHBORHOOD

Este software é uma extensão shell do windows que permite a navegação por

sites remotos de FTP, o upload e download de árvores de diretórios na íntegra, além


99

de facultar o gerenciamento de pastas e arquivos como se fosse um administrador

local.

Pode ser utilizado a partir do Windows Explorer e permite o uso de todas as

funcionalidades deste último. Possui suporte para SSL – Security Socket Layer, SSH

e senhas criptografadas, para incremento do nível de segurança nas transferências

FTP.

As transferências podem ser agendadas em horários pré-determinados, além

de permitir múltiplas transferências simultâneas com controle de banda utilizada.

A criação de um cache dos diretórios permite a navegação mesmo no caso do

site FTP encontrar-se off-line. Apresenta também a habilidade de retomada das

transferências em caso de queda da conexão e funcionalidades diversas.

Pode ser baixado a partir do site de terceiros como por exemplo:

http://72.14.209.104/search?

q=cache:OiGy2RA7rFAJ:www.tucows.com/preview/195128+internet+neighborhood&

hl=pt-BR&gl=br&ct=clnk&cd=3.

A Knowware, empresa que comercializava este trialware (software pago após

expiração do prazo concedido para teste) simplesmente fechou suas portas. Parou

de vender a licença para uso do aplicativo e de prestar suporte para o mesmo,

sugerindo aos usuários que experimentem outro software semelhante, o “WEB

Drive” e ponto final.

Isto pode ser verificado através do acesso à sua home page a partir de:

http://www.knoware.com, em total desrespeito ao direito dos usuários que adquiriram

sua licença anteriormente a 31 de março de 2006.


100

Não obstante tal fato atípico, ocorre que o software de teste continua

funcionando normalmente mesmo após a expiração do prazo de 20 (vinte) dias

estipulado para experimentação por parte dos usuários.

Por outro lado, o software sugerido “WEB Drive” deixa muito a desejar no

quesito estabilidade. Não existe comparação plausível entre os dois softwares, pois

o Internet Neighborhood v. 5.45 supera seu rival em todos os quesitos testados.

Abre-se então uma lacuna jurídica a respeito do uso do citado aplicativo para

uso corporativo, pois embora o preço da citada licença seja extremamente baixo:

US$ 39.95 (trinta e nove dólares e noventa e cinco cents), o equivalente a

aproximadamente R$ 80,00 (oitenta reais), não há como nem a quem pagar por ela.

Não obstante, a empresa ao encerrar seu serviço de suporte, no entender do

Autor e baseado em princípios básicos do direito pátrio, não poderia mais cobrar

pelo produto. A partir destes fatos prevalece a presunção juris tantum de que o uso

do citado software corre por conta e risco do usuário, equiparando-se tecnicamente,

portanto, a um freeware.

Não existem no mercado outros softwares que apresentem as mesmas

características de estabilidade, confiabilidade e segurança que este aplicativo

proporciona e em sendo assim, tecidas as devidas considerações a respeito,

entende o Autor no sentido da possibilidade plena da continuação do uso da versão

de testes no presente Projeto, devido à inexistência de qualquer preceito legal que

aponte em sentido contrário.

5.4.1 Funcionalidade do INTERNET NEIGHBORHOOD


101

Este software é composto de vários módulos. Dentre eles os mais

importantes e de utilidade efetiva são o kwSiteMgr.exe e o ndMonNT.exe,

acessados a partir das opções de acesso ao programa através dos atalhos “Internet

Neighborhood” e “Drive Monitor”. Acessando-se a primeira opção abre-se uma tela

do Microsoft Explorer com as seguintes opções:

Ilustração 22

O programa é efetivamente rico em opções de configuração. A descrição de

cada uma delas ocuparia uma porção considerável no presente trabalho. Importa

somente comentar que a configuração “default” já atende suficientemente bem às

necessidades do Projeto. O mapeamento dos sites FTP como unidade de rede

propriamente dita é feito acessando-se a opção “Drive Monitor”. Será apresentada a

seguinte tela:
102

Ilustração 23

Procede-se então à configuração dos parâmetros de entrada a ser

adicionados a partir da opção “New Site...”. No protótipo de testes foi adicionado o

site FTP da Universidade Pontifícia Católica do Estado do Rio de janeiro – ftp://

139.82.34.11, mapeado como unidade de rede “H:”

Ilustração 24

Basta que se acesse o Windows Explorer para assegurar-se que a operação

foi bem sucedida:


103

Ilustração 25

A partir de então todo o conteúdo do diretório do site, neste caso ocupando

um espaço de 100GB, estará totalmente navegável dentro do próprio servidor,

tornando possível a sua indexação por completo, nos termos propostos.

5.5 OPERACIONALIZAÇÃO – adequação às necessidades da DCOR/DPF

O sistema tal como proposto e delineado nas linhas acima se mostra capaz

de atender satisfatoriamente à necessidade de gerenciamento de informações no

âmbito da Diretoria de Combate ao Crime Organizado e quiçá do Departamento de

Polícia Federal como um todo.

A instalação de três placas de rede PCI no servidor FTP instalado no NUINF

das Superintendências garante a criação de três serviços idênticos de FTP rodando

simultaneamente em uma máquina apenas, apontando para as respectivas pastas

representativas das Delegacias especializadas.

Tais sites estão conectados, por sua vez, a três diferentes IPs criados a partir

da instalação de três placas de rede PCI no GServer, reproduzindo desta forma as

Divisões existentes na DCOR/DPF.

Isto possibilita a criação e funcionamento simultâneo de três servidores GDS


104

em uma mesma máquina sem que as informações de um possam ser acessadas

pelos outros, conforme o desejo exposto pelos Diretores das respectivas Divisões, a

saber: DFIN/DCOR, DPAT/DCOR e DARM/DCOR.

Desta forma cada Delegacia especializada existente no âmbito das diversas

DRCORs regionais participarão ativamente na formação de um banco integrado de

dados único, subordinado à respectiva Divisão em funcionamento no Edifício sede

do DPF.

Existe a possibilidade de mapeamento de todos os Estados da Federação,

tendo em vista que as letras atribuídas às unidades de rede mapeadas encontram-

se no alfabeto inglês, possuindo exatamente 26 letras. Excluindo-se a unidade C:\

por ser a unidade local, restam portanto 25 unidades a serem distribuídas por 27

Estados da Federação. Levando-se em consideração que determinados Estados

sequer possuem Delegacias Especializadas em suas Superintendências, da forma

como estão estruturadas, é possibilitada a indexação plena de toda a informação

relevante em um único servidor central.

Delegacias importantes, que apresentam conteúdo relevante podem participar

da base de dados através de técnicas de espelhamento a partir de seus servidores

de informática, em sincronia com o servidor FTP em operação nas

Superintendências a que se subordinam.

Com a estrutura montada pode-se então definir as máquinas e os analistas

autorizados a consultar o sistema. Restou definido em reunião realizada na

DCOR/DPF que somente aqueles analistas autorizados pelos respectivos chefes de

Divisão poderão acessar seu banco de dados exclusivo, versando sobre crimes

financeiros, crimes contra o patrimônio ou tráfico de armas respectivamente.

O processo encontra-se totalmente automatizado, sendo desnecessária a


105

interferência humana seja do Administrador do sistema para as atualizações

periódicas dos índices, seja do usuário que gera a informação, pois as informações

são mineradas diretamente através do seu trabalho normal e cotidiano, a partir da

criação e/ou modificação dos arquivos contidos nas pastas relacionadas às

Delegacias Especializadas componentes daquele Banco de dados específico.

Os e-mails de inteligência enviados às Divisões sediadas no Edifício sede

serão automaticamente alocados nas pastas respectivas e indexados diariamente,

deixando-se uma cópia da mensagem no servidor departamental a fim de serem

baixadas pelos demais analistas, pelos Delegados Adjuntos e pelo chefe da Divisão

correspondente.

Os demais aspectos relativos à expansão da base de dados e da

universalização do acesso serão discutidos pormenorizadamente no capítulo

dedicado à segurança do sistema, visto implicar na definição por parte das chefias a

respeito da política de informações informatizadas que vigorará a partir de agora no

âmbito da Diretoria de Combate ao Crime Organizado do Departamento de Polícia

Federal.

5.5.1 Equipamentos utilizados – Hardware – Especificações técnicas

Para a implantação do sistema proposto é necessário um único

microcomputador situado e gerenciado a partir do Edifício Sede do DPF para servir

como Web Server, além de tantos microcomputadores quantas forem as Unidades

Federativas componentes da base de dados correspondente atuando como


106

servidores FTP.

Tais servidores FTP poderiam ser instalados nos servidores já em atividade

nos NUINFs locais. Contudo ainda na fase de testes com a Superintendência

Regional de Brasília foi constatada a necessidade da instalação de um

microcomputador à parte da estrutura em funcionamento tendo em vista a carência

de recursos e de espaço em mídia digital disponível nos Servidores já em operação.

O sistema operacional apropriado ao uso proposto é o Windows Server 2000

ou 2003 Standard Edition. A opção pelo uso destes sistemas se deve à estabilidade

necessária para o gerenciamento eficaz de dezenas de conexões TCP/IP

simultâneas como resultado da consulta à base de dados, realizada por múltiplos

usuários. Apresenta também suporte ao formato NTFS, mais seguro que o FAT e à

técnica de shadow copy para back up e sincronização de dados.

Obviamente deverão ser respeitados os requisitos mínimos definidos pelo

fabricante, a Microsoft, exigidos por estes sistemas operacionais56, os quais são

reproduzidos a seguir:

56
Acesso a partir de: http://www.dewassoc.com/support/win2000/require.htm e de
http://www.microsoft.com/windowsserver2003/evaluation/sysreqs/default.mspx, respectivamente.
107

Minimum Hardware Requirements


Windows 2000 Professional
Windows 2000 Server
Windows 2000 Advanced Server

Windows 2000 Professional


133 MHz or higher Pentium-compatible CPU.
64 megabytes (MB) of RAM recommended minimum; more memory
generally improves responsiveness [4 gigabytes (GB) RAM maximum.]
2 GB hard disk with a minimum of 650 MB of free space. (Additional free
hard disk space is required if you are installing over a network.)
Windows 2000 Professional supports single and dual CPU systems.
Windows 2000 Server
133 MHz or higher Pentium-compatible CPU.
256 MB of RAM recommended minimum. (128 MB minimum supported;
4 GB maximum.)
2 GB hard disk with a minimum of 1 GB of free space. (Additional free
hard disk space is required if you are installing over a network.)
Windows 2000 Server supports up to four CPUs on one machine.
Windows 2000 Advanced Server
133 MHz or higher Pentium-compatible CPU.
256 MB of RAM recommended minimum (128 MB minimum supported;
8 GB maximum.)
2 GB hard disk with a minimum of 1 GB of free space. (Additional free
hard disk space is required if you are installing over a network.)
Windows 2000 Advanced Server supports up to eight CPUs on one
machine.
Note: The above minimums are those that have been published by Microsoft, and indeed the
three operating systems do function with these minimum hardware components. However,
speed and performance are key issues when determining whether your computer is up to the
task of performing with one of these operating systems.

Ilustração 26
108

Microsoft Windows Server 2003 R2 Standard Edition

Component Requirement

Computer and PC with a 133-MHz processor required; 550-MHz or faster


processor processor recommended; support for up to four processors on
one server

Memory 128 MB of RAM required; 256 MB or more recommended; 4


GB maximum

Hard disk 1.25 to 2 GB of available hard-disk space

Drive CD-ROM or DVD-ROM drive

Display VGA or hardware that supports console redirection required;


Super VGA supporting 800 x 600 or higher-resolution monitor
recommended
Ilustração 27

Como observado, não é necessária uma configuração de última geração para

o uso destes sistemas operacionais, muito embora seja recomendada uma

configuração ligeiramente superior à mínima exigida pela Microsoft para um

desempenho satisfatório.

Computadores mais antigos, equipados com processador Pentium III com

velocidade de clock a partir de 600 MHZ , 256 MB de memória RAM, placa mãe off-

board com no mínimo três slots PCI livres e um hard disk de 80 GB ou dois de 40

GB podem ser utilizados perfeitamente como servidores FTP ou Web Servers para a

finalidade proposta, permitindo uma considerável diminuição de custos.


109

A quantidade de placas de rede PCI necessárias varia de acordo com as

necessidades de compartimentação das informações gerenciadas. Contudo, este

não deve ser um fator de preocupação em relação a custos, afinal uma boa placa de

rede pode ser adquirida atualmente no mercado por valores que não ultrapassam

R$30,00 (trinta reais).

Como comentado anteriormente, para este projeto foram necessárias 06

(seis) unidades tendo em vista o gerenciamento de três sites FTP e três servidores

WEB de bancos de dados rodando na mesma máquina, separadamente um dos

outros.

5.5.3 Fluxograma de entrada de dados – alimentação – eficiência na coleta

Como visto o quesito “eficiência na coleta” é preenchido através da

automatização total do sistema. O sistema suporta a interligação de quantas

máquinas forem necessárias a fim de traduzir com fidelidade as informações

trabalhadas no âmbito do Combate ao Crime Organizado, limitada ao espaço físico

disponível nos hard disks dos servidores FTP.

Contudo isto representa um investimento de baixo custo e insignificante em

relação aos benefícios advindos em se integralizar uma base de dados contendo

milhares de informações desestruturadas e de difícil acesso. O fluxo de dados está

representado a seguir:
110

/
GSERVER DCOR7

DCOR/DPF DPAT/DPF

DARM/DPF DFIN/DPF

SUPERINTENDÊNCIAS

DRCOR/SR DELEPAT/SR

DELEARM/SR DELEFIN/SR

DELEGACIAS

COMPUTADORES SERVIDOR DE DADOS

Ilustração 28

5.5.3 Fluxograma de saida de dados – Consulta – Difusão às descentralizadas

Da mesma forma encontra-se suprido o quesito “difusão às descentralizadas”,

pois da forma em que se encontra proposto,


DCOR/DPF
o sistema faculta o acesso à pesquisa

por parte de qualquer máquina interligada ao Departamento de Polícia Federal, a


SUPERINTENDÊNC DELEGACIAS
partir de qualquer Estado
IAS da Federação, utilizando-se da intranet já existente.
ESPECIALIZADAS

GSERVER
Os usuários em missão nosDCOR/DPF
escritórios externos que se conectam aos

ESCRITÓRIOS
OUTROS
111

sistemas de consulta corporativos a partir dos aplicativos ACEX57 para banda larga e

Office dial58 para conexões discadas encontram-se da mesma forma habilitados a

proceder consultas nas bases de dados, desde que previamente autorizados pelas

chefias de Divisão para liberação de seu endereço IP no firewall do Servidor de

buscas.

Outros acessos como através de conexões VPN facultados a usuários

especiais, desde que previamente liberados pela CTI/DPF também poderão se

beneficiar deste sistema.

A integração futura com outros órgãos de Segurança pública e a cooperação

internacional ficam assim asseguradas como potencialmente possíveis, desde que

incluídas previamente na política de informações da DCOR/DPF.

DPAT/DCOR DARM/DCOR

GSERVER GSERVER
BANCO DE BANCO DE
DADOS DADOS
DPAT/DCOR DARM/DCOR

POSTO POSTO
AVANÇADO AVANÇADO
DELEPATS DE DELEARMS DE
OPERAÇÃO OPERAÇÃO

DFIN/DCOR

GSERVER
BANCO DE
DADOS
DFIN/DCOR
57

POSTO
AVANÇADO
DELEFINS DE
OPERAÇÃO
Acex: programa de computador que permite a certificação e autenticação de conexões VPN remotas através de
LANs.
58
Office dial: conexão discada disponibilizada pela Embratel que permite a certificação e autenticação de
conexões dial-up através de uma conexão externa para acesso a uma rede corporativa.
112

Ilustração 29
5.5.4 Automatização da alimentação do Banco de dados - periodicidade

No início deste capítulo foi discutida a função específica do plug-in TWEAK

GDS no Projeto, qual seja a de ser o responsável pelas tarefas de agendamento das

atualizações dos índices de arquivos disponibilizados para consulta por parte dos

usuários do sistema.

Através do uso da função agendamento de tarefas do Windows, é possível o

estabelecimento de sintaxes de linha de comando que automatizam todas as etapas

citadas no item 5.3.2.

Vamos supor que no Banco de dados geral da Divisão de Combate aos

Crimes contra o Patrimônio, a unidade de rede mapeada “Z” represente a conexão

ao site FTP relacionado à pasta da Delepat/SR/DF e a unidade de rede mapeada “Y”

corresponda à conexão ao site FTP relacionado à pasta da Delepat/SR/SP.

É estabelecido como critério que os índices de indexação devem ser

completamente atualizados diariamente, de preferência no horário noturno a fim de

aproveitar ao máximo a largura de banda da Intranet corporativa.

A sintaxe necessária seria então: “C:\tweakgds\TweakGDS.exe /all”,

agendada para ser executada diariamente a partir das 22:00h por exemplo. Diversas

formas de agendamento podem ser programadas alternando-se os dias para

atualização ou as atualizações podem ser feitas mais de uma vez ao dia,


113

dependendo da necessidade do serviço.

Da mesma forma é possível a indexação de somente um ou vários sites FTP

de uma só vez substituindo-se a sintaxe “/all” Pelas letras correspondentes às

unidades de rede que necessitam ser re-indexadas.

5.6 SEGURANÇA

A manipulação de informação sensível é sempre uma fonte de preocupação

para setores de TI corporativa, principalmente diante da evolução das técnicas de

ataques e invasões disponibilizadas atualmente.

O II Congresso Brasileiro de Tecnologia, promovido pelo CERT(Centro de

Estudos, Respostas e Tratamento de incidentes de segurança no Brasil) em

Novembro/2005, teve como um dos temas a Evolução dos Problemas de Segurança

e Formas de Proteção.

Como resultado deste encontro foi atualizada a sua cartilha, atualmente na

versão 3.0, a qual pode ser acessada a partir de http://cartilha.cert.br/conceitos/. A

partir de sua leitura podemos definir alguns critérios acerca do que seja um sistema

informatizado seguro. Segundo o Órgão, “Um computador (ou sistema

computacional) é dito seguro se este atende a três requisitos básicos relacionados

aos recursos que o compõem: confidencialidade, integridade e disponibilidade”.

“A confidencialidade diz que a informação só está disponível para aqueles

devidamente autorizados; a integridade diz que a informação não é destruída ou

corrompida e o sistema tem um desempenho correto, e a disponibilidade diz que os

serviços/recursos do sistema estão disponíveis sempre que forem necessários”.


114

Para tanto é necessário observar-se as recomendações constantes na

cartilha, as quais fazem parte da rotina de qualquer administrador de sistemas.

Interessa ao projeto a análise de alguns capítulos da referida cartilha os quais

contém aspectos relevantes para o sistema proposto: as senhas e a

responsabilidade do usuário final, abordados na parte I, as questões de privacidade

e a utilização de cookies abordados na parte III e os incidentes de segurança,

dispostos na parte VII.

Também serão abordados a política de privacidade da Empresa Google em

relação ao uso do GDS, os critérios de configuração de firewall, o controle de acesso

e restrição de usuários, relatórios de log de acessos permitidos e bloqueados,

técnicas de tunelamento SSH, transferência segura via FTP, tráfego na rede, IPs e

portas de comunicação utilizadas, a compartimentação da informação e o parecer de

técnicos do CTI/DPF e da direção da DCOR/DPF acerca do sistema proposto.

5.6.1 Senhas e Responsabilidade do Usuário

Uma boa senha deve ter pelo menos oito caracteres (letras, números e

símbolos), deve ser simples de digitar e, o mais importante, deve ser fácil de

lembrar.

O sistema proposto diferencia letras maiúsculas das minúsculas, o que já

ajuda na composição da senha. Por exemplo, "pAraleLepiPedo" e "paRalElePipEdo"

são senhas diferentes. Entretanto, são senhas fáceis de descobrir utilizando

softwares para quebra de senhas, pois não possuem números e símbolos, além de

conter muitas repetições de letras.


115

Quanto mais "bagunçada" for a senha melhor, pois mais difícil será descobri-

la. Assim, é recomendável misturar-se letras maiúsculas, minúsculas, números e

sinais de pontuação. Uma regra realmente prática e que gera boas senhas difíceis

de serem descobertas é utilizar uma frase qualquer e pegar a primeira, segunda ou

a última letra de cada palavra. Em caso de dificuldades para memorizar a senha

forte escolhida, é preferível anotá-la e guardá-la em local seguro, do que optar pelo

uso de senhas fracas.

Por questões de segurança, não é dada ao usuário a opção de alterar sua

senha de acesso de forma on-line. As senhas serão escolhidas e previamente

enviadas ao administrador do sistema via e-mail funcional o qual, por sua vez,

comunicará ao usuário, também através de seu e-mail funcional acerca da ativação

da mesma.

O login de cada usuário será seu pré-nome seguido de um ponto e das

iniciais de seus sobrenomes, obedecendo aos critérios de normatização

estabelecidos pela CTI/DPF. Portanto, o login do usuário será quase sempre

coincidente com seu endereço de e-mail funcional excluindo-se o símbolo “@” e o

sufixo departamental.

O sistema cria um log de acessos que identifica o endereço IP da máquina

cliente, o nome do usuário, a data de acesso e o conteúdo da busca. Isto permite

saber com precisão quem acessou o quê, quando e a partir de onde. Os relatórios

gerados serão enviados periodicamente aos chefes das Divisões da DCOR/DPF.

A responsabilidade do usuário na guarda de sua senha será enorme. A

prática comum de empréstimo de senhas a colegas de serviço deve ser abolida, sob

risco do usuário que assim proceder responder por violação da conduta profissional,

além das penalidades previstas no Regimento Interno do Departamento de Polícia


116

Federal.

5.6.2 O uso de cookies e a política de privacidade da GOOGLE

Cookies são pequenas informações que os sites visitados podem armazenar

no browser. Estes são utilizados pelos sites de diversas formas, tais como:

• guardar a sua identificação e senha quando você vai de uma página para

outra;

• manter listas de compras ou listas de produtos preferidos em sites de

comércio eletrônico;

• personalizar sites pessoais ou de notícias, quando você escolhe o que quer

que seja mostrado nas páginas;

• manter a lista das páginas vistas em um site, para estatística ou para retirar

as páginas que você não tem interesse dos links.

Cookies são muito utilizados para rastrear e manter as preferências de um

usuário ao navegar pela Internet. Como o método de pesquisa utilizado pelo sistema

proposto é baseado em código HTML, é necessária atenção especial a respeito das

opções de habilitações de cookies no servidor e nos clientes.

Ao acessar uma página na Internet (HTML), o navegador disponibiliza uma

série de informações, de modo que os cookies podem ser utilizados para manter

referências contendo informações sobre a máquina, hardware e sistema

operacional, softwares instalados e, em alguns casos, até o endereço de e-mail.


117

Estas informações podem ser utilizadas por alguém mal intencionado, por

exemplo, para tentar explorar uma possível vulnerabilidade no computador. Portanto

tanto no servidor de busca como nas máquinas clientes é imprescindível que seja

desabilitada totalmente a opção de recebimento e envio de cookies, exceto para

sites confiáveis, onde sejam realmente necessários.

Por exemplo: desabilitando totalmente o envio e recebimento de cookies a

máquina cliente não conseguirá acessar sites de bancos comerciais que se utilizam

de cookies para verificar a segurança da máquina que acessa suas informações. É

necessária, portanto, a habilitação dos cookies somente para estes sites como

www.bb.com.br, www.cef.gov.br, etc.

Isto pode ser feito acessando-se o menu de ferramentas do Internet explorer

– 95% dos usuários servidores do DPF o utilizam – selecionando-se a opção

ferramentas opções da internet privacidade e selecionar bloquear todos os

cookies na guia configuração. Na opção sites, é possível especificar as exceções,

independentemente da proibição total do uso de cookies.

Também existem softwares que permitem controlar o recebimento e envio de

informações entre um navegador e os sites visitados. Dentre outras funções, estes

podem permitir que cookies sejam recebidos apenas de sites específicos.

Uma outra forma de manter a privacidade ao acessar páginas HTML é utilizar

sites que permitem que anonimidade. Estes são conhecidos como anonymizers e

intermedeiam o envio e recebimento de informações entre o seu browser e o site

que se deseja visitar. Desta forma, o navegador não receberá cookies e as

informações por ele fornecidas não serão repassadas para o site visitado. Neste

caso, é importante ressaltar que é necessário certificar-se que o anonymizer

escolhido é realmente confiável.


118

Obviamente, o site www.google.com não deve constar na lista de sites

habilitados ao envio e recebimento de cookies pelo Servidor. Muito embora isso

impeça a atualização automática do mecanismo GDS, nos mesmos moldes como é

feita a atualização automática do sistema através do Windows Update da Microsoft,

tal atualização é desnecessária porque o servidor GDS estará sob os cuidados do

Administrador do domínio DCOR7, sendo o único a requerer cuidados especiais.

As máquinas clientes estão dispensadas da instalação de qualquer tipo de

software adicional para acessar o sistema de buscas e a recomendação acima é

desnecessária em relação aos usuários destes terminais.

A empresa Google dispõe de política de segurança e privacidade que podem

ser acessadas para total compreensão do mecanismo a partir dos endereços abaixo

relacionados:

• http://www.google.com/privacy.html

• http://www.google.com/privacypolicy.html#information

• http://desktop.google.com.br/pt/BR/privacypolicy.html

O servidor de busca WEB (GServer) não deve, portanto, estar conectado à

internet, salvo para o recebimento de e-mails, deve ter desabilitada a opções de

cookies, trabalhar atrás de firewall, contar com um bom sistema de antivírus

instalado e atualizado e ainda deve estar especificamente configurado para o uso

como servidor. Isto torna desnecessário tecer maiores comentários a respeito do

tema neste tópico. A problemática será abordada no próximo tópico a respeito do

uso de firewall corporativo.


119

5.6.3 Firewall - Controle de acesso e restrição de usuários – Logs e Incidentes

de segurança

Consultando a política de privacidade da Empresa Google a partir do

endereço http://www.google.com/privacy.html, citado no item anterior podemos

verificar em que circunstâncias o aplicativo GDS acessa a internet:

“Por que o Google Desktop acessa a Internet?

Você pode usar o Google Desktop estando ou não conectado à Internet.


No entanto, o Google Desktop acessa a Internet de vez em quando por
vários motivos, os quais incluem:

1. Quando você instala o Google Desktop, ele envia uma


mensagem para o Google, indicando se a instalação foi bem-sucedida
ou não. Usamos essas informações para melhorar o funcionamento do
software;

2. O Google Desktop pode entrar em contato, automaticamente,


com o Google, para ver se uma nova versão do programa está
disponível;

3. O Google Desktop acessa a Internet para obter "ícones do


Google" (ícones associados a sites individuais da web) para sites
incluídos no seu histórico da web. O Google Desktop exibe esses
ícones do Google ao lado dos resultados de pesquisa, tornando mais
fácil encontrar a página procurada;

4. Se você tiver escolhido integrar os resultados do Google


Desktop e do Google Web Search, o Google Desktop entra em contato
com o Google para determinar quais sites do Google exibirão o link
"Desktop";

5. Se você tiver a Barra lateral ou gadgets flutuantes ativados, o


Google Desktop poderá acessar a Internet para obter informações
específicas dos gadgets, como previsões do tempo, cotações de ações
e notícias;

6. Se você optar por ativar o recurso Pesquisar em todos os


computadores ou Compartilhar configurações dos gadgets, o Google
Desktop acessará a Internet para transmitir essas informações aos
outros computadores. Como parte do processo de Pesquisar em todos
120

os computadores, seus arquivos serão temporariamente armazenados


em buffer nos servidores do Google Desktop, caso os outros
computadores estejam desligados ou off-line. Para os gadgets
compartilhados, essas informações são armazenadas nos servidores
do Google Desktop;

7. Para que possamos aprimorar o Google Desktop, o programa


envia informações não pessoais, como dados sobre o desempenho e a
confiabilidade do programa para o Google. Você pode desativar esse
recurso a qualquer momento visitando a página de preferências”.

Como visto, existem brechas que devem ser sanadas. Um órgão Policial do

porte do Departamento de Polícia Federal, que lida com informações sensíveis, não

pode ficar à mercê de uma companhia estrangeira, por melhor conceituada que seja

como é o caso da Google, de forma que exista risco, por menor que seja, de que

suas informações possam ser acessadas por pessoas não autorizadas.

Para dar um ponto final a esta questão foi estipulado o uso de um firewall.

Firewall pode ser conceituado como um dispositivo constituído pela combinação de

software e hardware, utilizado para dividir e controlar o acesso entre redes de

computadores. Se alguém ou algum programa suspeito tentar se conectar a uma

máquina, um firewall bem configurado entra em ação para bloquear tentativas de

invasão, podendo barrar também o acesso a backdoors, mesmo se já estiverem

instalados no computador.

Alguns programas de firewall como é o caso do MCaffe Firewall, utilizado no

GServer, permitem analisar continuamente o conteúdo das conexões, filtrando vírus

de e-mail, cavalos de tróia e outros tipos de malware, antes mesmo que os antivírus

entrem em ação.

Os endereços IP utilizados pela Empresa Google Inc. podem ser obtidos a

partir da simples consulta à ARIN Database (Órgão regulador da Internet) acessada

a partir de http://ws.arin.net/whois. Os dados estão disponibilizados abaixo:

OrgName: Google Inc.


OrgID: GOGL
121

Address: 1600 Amphitheatre Parkway


City: Mountain View
StateProv: CA
PostalCode: 94043
Country: US

NetRange: 64.233.160.0 - 64.233.191.255


CIDR: 64.233.160.0/19
NetName: GOOGLE
NetHandle: NET-64-233-160-0-1
Parent: NET-64-0-0-0-0
NetType: Direct Allocation
NameServer: NS1.GOOGLE.COM
NameServer: NS2.GOOGLE.COM
RegDate: 2003-08-18
Updated: 2004-03-05

RTechHandle: ZG39-ARIN
RTechName: Google Inc.
RTechPhone: +1-650-318-0200
RTechEmail: arin-contact@google.com

OrgTechHandle: ZG39-ARIN
OrgTechName: Google Inc.
OrgTechPhone: +1-650-318-0200
OrgTechEmail: arin-contact@google.com

# ARIN WHOIS database, last updated 2006-09-08 19:55


# Enter ? for additional hints on searching ARIN's WHOIS database.

Portanto, a faixa de endereços que vai de 64.233.160.0 a 64.233.191.255

deve ser bloqueada no firewall do servidor em todas as portas de comunicação,

tendo em vista a tecnologia de Port Fowarding59 incorporada ao GDS.

As únicas portas locais que devem ser liberadas devem ser as de número 21,

25 e 80 e 110, bloqueando-se as demais. A 21 se presta à transmissão de dados

FTP entre o GServer e o servidor FTP localizado nas Superintendências e deve ser

configurada para permitir a comunicação somente entre os IPs envolvidos na

transação; a 25 se presta ao recebimento de e-mails institucionais; a 80 ao

funcionamento do WEB Server de pesquisa e a 110 ao envio de e-mails

institucionais.

Tais providências permitem inclusive o bloqueio em caráter definitivo do

59
Port fowarding: regra de firewall que roteia o tráfego de entrada através de uma porta para outra porta de
entrada.
122

download de arquivos ou índices por parte das máquinas clientes, em caso de falha

do IPtables do DNKA, ataque ou tentativa de invasão. Isto ocorre porque não haverá

porta alguma disponível para o atendimento da requisição remota que se preste a

este serviço.

A configuração otimizada de um firewall corporativo é um assunto complexo e

longo demais para ser tratado neste trabalho, além de ser o segredo de todo bom

administrador de rede, não devendo ser divulgado ao público. O Autor do projeto se

reserva o direito de não divulgar as configurações adotadas por questões de

segurança corporativa.

Normalmente os firewalls criam arquivos no computador, denominados

arquivos de registro de eventos (logs). Nestes arquivos são armazenadas as

tentativas de acesso não autorizado ao seu computador, para serviços que podem

ou não estar habilitados. O capítulo VII da cartilha do CERT é bem explicativo a

respeito do conceito de logs, incidentes de segurança e política de segurança

corporativas, o qual se reproduz abaixo:

“1. Incidentes de Segurança e Abusos

1.1. O que é incidente de segurança?

Um incidente de segurança pode ser definido como qualquer


evento adverso, confirmado ou sob suspeita, relacionado à segurança de
sistemas de computação ou de redes de computadores.
São exemplos de incidentes de segurança:
• tentativas de ganhar acesso não autorizado a sistemas ou dados;
• ataques de negação de serviço;
• uso ou acesso não autorizado a um sistema;
• modificações em um sistema, sem o conhecimento, instruções ou
consentimento prévio do dono do sistema;
• desrespeito à política de segurança ou à política de uso aceitável de
uma empresa ou provedor de acesso.

1.2. O que é política de segurança?

A política de segurança atribui direitos e responsabilidades às


pessoas que lidam com os recursos computacionais de uma instituição e
com as informações neles armazenados. Ela também define as atribuições
123

de cada um em relação à segurança dos recursos com os quais trabalham.


Uma política de segurança também deve prever o que pode ser feito na
rede da instituição e o que será considerado inaceitável. Tudo o que
descumprir a política de segurança pode ser considerado um incidente de
segurança.
Na política de segurança também são definidas as penalidades às quais
estão sujeitos aqueles que não cumprirem a política.

1.3. O que é política de uso aceitável (AUP)?

A política de uso aceitável (AUP, de Acceptable Use Policy) é


um documento que define como os recursos computacionais de uma
organização podem ser utilizados. Também é ela quem define os direitos e
responsabilidades dos usuários.
Os provedores de acesso a Internet normalmente deixam suas políticas de
uso aceitável disponíveis em suas páginas. Empresas costumam dar
conhecimento da política de uso aceitável no momento da contratação ou
quando o funcionário começa a utilizar os recursos computacionais da
empresa”.

Em linhas gerais, isto quer dizer que tanto o firewall corporativo como o

IPtables do DNKA criam ininterruptamente logs, tanto dos acessos autorizados como

daqueles não autorizados e que a partir de qualquer tentativa de invasão são

disponibilizados meios que possibilitam a identificação do potencial invasor ou do

usuário abusivo, para que seja aplicada a punição por parte da Administração.

Esses arquivos de log servem como matriz para a geração de relatórios de

acesso que serão enviados periodicamente às Chefias responsáveis pelos seus

respectivos banco de dados. O arquivo de log do DNKA pode ser acessado pelo

administrador do sistema a partir da aba “histórico de acesso” através da opção

“controle de acessos permitidos e bloqueados” como se vê a seguir:


124

Ilustração 30

Através da opção “blocked access” são registradas as supostas tentativas de

invasão ou a tentativa de acesso de máquinas cujo endereço IP não estão

autorizadas expressamente no IPtables do aplicativo:

Ilustração 31

Através da opção “Full Acess log” são registrados o endereço IP da máquina

cliente, o nome do usuário, a data de acesso e o conteúdo da busca. Isto permite

saber com precisão quem acessou o quê e a partir de onde como anteriormente

comentado nos tópicos anteriores:


125

Ilustração 32
No exemplo acima, é possível observar que o computador com endereço IP

127.0.0.1 – ou seja, a própria máquina GSERVER, através do usuário Admin, no dia

10 de setembro de 2006, às 10:51:05 pesquisou a respeito da palavra-chave “crime”.

Se o arquivo tivesse sido acessado seriam mostrados igualmente os

parâmetros acima além do nome do arquivo acessado e sua localização na árvore

de diretórios.

Através da opção “Trim Logs”, visualizada na ilustração nº. 30, é possível

gravar os logs em arquivos no formato txt e arquivá-los com a periodicidade exigida

pelo serviço.

Como se pode observar o sistema da forma como foi proposto prima pelo

quesito “segurança”, exigido na propositura do Tema da Monografia.

5.6.4 Transferências FTP seguras

O protocolo FTP (File Transfer Protocol) é um dos meios de se copiar

arquivos de um lugar para outro na Internet. Inclusive existe suporte até para os

sistemas Mainframe.

Para utilizar o FTP, a máquina realiza uma conexão com o servidor FTP na

porta 21 – chamada de conexão de controle. Após a conexão estabelecida, para

cada arquivo transferido é estabelecida uma nova conexão, chamada de conexão de


126

dados. Existem duas formas de se estabelecer à conexão de dados:

• O servidor inicia uma conexão utilizando a porta 20, tendo como destino uma

porta variável do seu computador (FTP Ativo).

• O seu computador pode abrir uma conexão a partir de uma porta variável com

destino outra porta variável do servidor. (FTP Passivo).

O firewall com filtro de pacotes com base no estado da conexão consegue

analisar todo o tráfego da conexão FTP, identificando qual o tipo de transferência

que será utilizada (ativa ou passiva) e quais as portas que serão utilizadas para

estabelecer a conexão.

Sendo assim, todas as vezes que o firewall identifica que uma transferência

de arquivos estará sendo realizada, é acrescentada uma entrada na tabela de

estados, permitindo que a conexão seja estabelecida. As informações ficam

armazenadas na tabela somente enquanto a transferência do arquivo é realizada.

A configuração de um site FTP é operação muito simples de ser realizada e

escolha do padrão de transferência passiva diz respeito também a questões de

segurança. Basta instalar na máquina servidor o IIS60 (Internet Information Services)

e configurar um novo site FTP a partir das opções de gerenciamento do computador.

Na sua criação serão definidos os parâmetros senha de acesso, uso de firewall,

transferências ativas ou passivas, conteúdo do site e IPtables de acesso de

endereços IP confiáveis ou proibidos.

60
IIS: (Internet Information Services) é um servidor de páginas web criado pela Microsoft para seus sistemas
operacionais para servidores.
127

5.6.5 Protocolo SSH e Criptografia – Servidor FTP Linux x Windows

SSH é a abreviatura para Shell Secure Host, representa simultaneamente um

programa de computador e um protocolo de rede que permite a conexão com outro

computador na rede, de forma a executar comandos de uma unidade remota. Possui

as mesmas funcionalidades do TELNET, com a vantagem da conexão entre o

cliente e o servidor ser criptografada.

Criptografia consiste na ciência e arte de escrever mensagens em forma

cifrada ou em código. É parte de um campo de estudos que trata das comunicações

secretas, usadas, dentre outras finalidades, para:

• autenticar a identidade de usuários;

• autenticar e proteger o sigilo de comunicações pessoais e de transações

comerciais e bancárias;

• proteger a integridade de transferências eletrônicas de fundos.

Uma mensagem codificada por um método de criptografia deve ser privada,

ou seja, somente aquele que enviou e aquele que recebeu devem ter acesso ao

conteúdo da mensagem. Além disso, uma mensagem deve poder ser assinada, ou

seja, a pessoa que a recebeu deve poder verificar se o remetente é mesmo a

pessoa que diz ser e ter a capacidade de identificar se uma mensagem pode ter sido

modificada.

Os métodos de criptografia atuais são seguros e eficientes e baseiam-se no

uso de uma ou mais chaves. A chave é uma seqüência de caracteres, que pode

conter letras, dígitos e símbolos (como uma senha), e que é convertida em um


128

número, utilizada pelos métodos de criptografia para codificar e decodificar

mensagens.

Atualmente, os métodos criptográficos podem ser subdivididos em duas

grandes categorias, de acordo com o tipo de chave utilizada: a criptografia de chave

única e a criptografia de chave pública e privada. Não cabe neste trabalho uma

discussão mais detalhada acerca do tema. É importante frisar apenas que o uso do

protocolo SSH possibilita com que se trabalhe com praticamente todos os tipos de

chaves criptográficas convencionais.

Existe, portanto, a possibilidade de utilização do protocolo SSH com os fins de

possibilitar uma conexão segura para transferências FTP utilizando-se de chaves

encriptadas. A partir de http://www.dicas-l.com.br/dicas-l/19990528.php é

apresentado um esquema para implementação de FTP seguro utilizando técnicas de

tunelamento nativas do próprio serviço SSH, o qual se reproduz abaixo:

Colaboração: Emilio Nakamura [<Emilio Nakamura@br.bosch.com>]

Existe um modo de realizar um FTP seguro utilizando o proprio SSH.

O SSH possui uma caracteristica de redirecionamento de portas, que


podemos utilizar para estabelecermos qualquer conexao segura.

Na verdade utilizaremos os dois clientes (SSH e FTP): O SSH para


estabelecermos a conexão segura com o redirecionamento de portas, e o
FTP para conectarmos a essa porta redirecionada pelo SSH.
O que temos que fazer é o seguinte:

- Estabelecer uma conexão com o servidor SSH, utilizando a característica


"Port Forwarding". Podemos escolher uma porta qualquer como, por
exemplo a 1500. Qualquer conexão a essa porta será feita de maneira
segura.

Estabelecer uma conexão com o servidor FTP na porta especificada na


conexão SSH (no caso 1500). A conexão foi feita na porta 1500, que na
verdade é um redirecionamento do SSH. O seu FTP seguro vai, portanto,
funcionar assim: a gente se conecta ao servidor SSH especificando uma
porta de redirecionamento (1500). Com o cliente FTP a gente se conecta a
essa porta (1500), de modo que a conexão é feita sob um canal seguro,
com todas as características do SSH, especialmente a criptografia. O
servidor SSH por sua vez se comunica com o servidor FTP. Como os dois
servidores estão na mesma maquina, nenhum dado passa em claro pela
rede.
129

OBS 1: Os servidores SSH e FTP devem estar na mesma maquina;

OBS 2: O servidor FTP deve permitir a transferência passiva (Passive


Transfer);

OBS 3: Eventualmente esse redirecionamento pode ser utilizado para


qualquer outro protocolo, como por exemplo o POP, para leitura segura dos
e-mails.

A partir da leitura do texto acima é possível inferir que seria talvez mais

funcional para a segurança das transferências durante a indexação que os

servidores SSH e FTP se utilizassem do sistema operacional Linux para tanto, ao

invés do Windows. Contudo já existem servidores SSH desenvolvidos para trabalhar

com sistemas operacionais Windows que pelas características adicionais

proporcionadas apresentam as mesmas facilidades de configuração e estabilidade

de funcionamento como servidor SSH que aqueles nativos do sistema Linux,

possibilitando que ambos os servidores rodem simultaneamente na mesma

máquina.

Tal problemática foi levantada pelo APF Jonathas, administrador do firewall

departamental e lotado na CTI/DPF em consulta informal e é apresentado neste

trabalho uma solução efetiva para a hipótese formulada a respeito da possibilidade

de que um usuário mal intencionado pudesse interceptar os pacotes de dados

durante a operação de indexação dos sites FTP remotos.

5.6.6 Tráfego na Rede do DPF – Portas e endereços IPs utilizados

Como visto nos tópicos anteriores, uma transferência passiva FTP implica no

uso de portas aleatórias tanto nos computadores de origem como de destino.

Contudo, ao utilizar um servidor SSH para criar uma conexão segura para tais
130

transferências a porta a ser utilizada será aquela definida pelo administrador e não

mais a 20 no remoto e 21 no cliente FTP.

Os endereços IPs utilizados pelas placas de rede de todos os servidores

envolvidos deve estar reservada dentro do servidor DHCP61 da CTI/DPF e dos

NUINFs locais a fim de evitar conflitos na rede e a prevalência das configurações

realizadas em todos os componentes do sistema. Isto basta para que o fluxo de

alimentação do sistema transcorra sem maiores problemas.

Quanto à consulta, pelo fato do servidor GDS encontrar-se operando na

mesma porta de serviços WEB, nenhuma configuração é necessária. A porta 4664

necessária para indexação dos arquivos é acessada localmente a partir do endereço

de local host: 127.0.0.1, dispensando maiores configurações. A porta 80 é liberada

por default pela CTI/DPF em toda a rede para acesso às páginas HTML da internet e

intranet. Esta porta será a mesma utilizada para acessar o banco de dados, portanto

o fluxo de dados se dará entre os endereços IPs das máquinas clientes e aqueles

definidos para o servidor WEB, os quais serão previamente reservados.

Tendo em vista que o GSERVER trabalhará tanto na Intranet do domínio

DCOR7 a fim de coletar os dados das Divisões correspondentes ao banco de dados

criado, como na intranet do domínio SEDE.DPF, estarão em jogo endereços IPs de

classes e sub-máscaras diferentes, porém nada que impeça uma perfeita

configuração do sistema.

Em relação ao uso da intranet local como elo servidor-cliente, cumpre

acrescentar que tal fato possibilita velocidades de conexão da ordem de até 500

kbps, o que somado ao fato de que as versões em cache dos arquivos ocupam

espaço 1000 vezes menor que o original, ocorrerá um acréscimo desprezível e

61
DHCP: (Dynamic Host Configuration Protocol) Protocolo de serviço TCP/IP, que oferece configuração
dinâmica com concessão de endereços IP e distribui outros parâmetros de configuração para clientes de rede.
131

imperceptível no aumento no tráfego de dados na Intranet do DPF como um todo e

apenas no período noturno, devido à atualização dos índices de arquivos.

Corroborando esta assertiva junta-se o fato de que nem todos os analistas

estarão consultando o banco de dados simultaneamente. A não utilização da internet

para as consultas implica em considerável economia de banda externa. Caso

contrário isto representaria um problema em quase a totalidade das unidades do

DPF, já que a maioria encontra-se com sua capacidade estrangulada pelo crescente

aumento na base de usuários somada à falta de investimento na infra-estrutura da

rede, acarretado pelo contingenciamento de recursos federais.

5.6.7 Compartimentação das Informações – Política de informação na

DCOR/DPF

A política de informações que impera na maioria dos setores da Polícia

Federal é a feudalista (vide item 2.7). Todos querem ter acesso à informação, porém

muitos receiam compartilhar suas informações com os demais. Na DCOR/DPF não

poderia deixar de ser diferente.

Um consenso só foi obtido a partir da divisão em três bancos de dados

distintos representando as Divisões existentes dentro da DCOR/DPF. No nosso

entender isto é contraproducente para o analista, pois o criminoso que trafica drogas

(CGPRE) também está envolvido com assalto a bancos (DPAT), negocia armas

ilegalmente (DARM) e lava dinheiro sujo (DFIN). É hipoteticamente provável que

investigações levadas a efeito por uma divisão pudessem se beneficiar do banco de

dados de outra.
132

Contudo, foi colocado por alguns membros que não seria interessante que

uma Divisão ao acessar dados contidos em outra possa vir a atrapalhar as

investigações prendendo, por exemplo, um elemento que estaria sendo monitorado

visando uma operação de maior envergadura. Realmente seria necessário um grau

de cooperação interna que em nossa observação será difícil de ser alcançada em

curto prazo.

Os gerentes de informação, ou seja, os chefes das Divisões têm seus

conceitos particulares de como conduzir suas próprias operações e não admitiriam

interferências externas cuja fonte fosse obtida em suas próprias trincheiras. Esta

discussão ideológica ainda não foi totalmente definida e estão agendadas reuniões

futuras a fim de tratar de possíveis integrações entre os bancos de dados. Em todo

caso, a palavra final será dada pelo Senhor Diretor da DCOR/DPF, Doutor Getúlio

Bezerra Santos.

5.6.8 Parecer informal da Direção da DCOR/DPF, CTI/DPF e NUINF/SR/DPF/DF

O Senhor Diretor da DCOR/DPF, Doutor Getúlio Bezerra Santos, ao ser

apresentado ao novo sistema declarou-se particularmente impressionado com a

velocidade de busca e o potencial de integração das atividades de inteligência

proporcionado pelo Projeto, dando sinal verde à sua implementação, em fase de

testes, integrado à Superintendência Regional da Polícia Federal de Brasília. O

Doutor Mauro Sposito, Coordenador de Operações de Fronteiras do DPF, presente

à demonstração, também se declarou impressionado e otimista em relação a um

possível uso do sistema para controle de Polícia Marítima, Aérea e de Fronteiras. Os


133

técnicos da CTI/DPF Senhores, Caixeta, Wesley e Jonathas, consultados

informalmente afirmaram desconhecer o princípio envolvido no sistema. Após a

explicitação do projeto concordaram com a implantação em fase de testes de

integração com o NUINF/SR/DPF por considerarem que o presente Projeto não fere

as políticas de segurança de informação adotadas pelo DPF. Consultado o Chefe

em exercício do NUINF/SR/DPF, ADM Alex, após a explicitação na íntegra do

projeto o considerou extremamente interessante e com potencial futuro,

concordando em cooperar com a implantação do presente projeto.

Como visto, o projeto está saindo, em meados de setembro de 2006, do papel

para a prática, possivelmente coincidindo o fim da fase de testes com a

apresentação do presente Trabalho de Conclusão de Curso. A apresentação e

análise dos dados serão oferecidas, portanto, perante a ilustre banca examinadora.

5.7 INTEGRAÇÃO DO PROJETO

O projeto é passível de integração com outros setores do DPF, demais

Órgãos de Segurança Pública e até em nível de cooperação internacional. Tudo

depende da política de informações que será adotada pela direção da DCOR/DPF a

respeito. O papel do projetista como técnico é somente apresentar e demonstrar a

possibilidade do uso de novas tecnologias, o seu alcance e o seu impacto sobre o

gerenciamento dos bancos de dados criados na DCOR/DPF a partir do presente

trabalho. O uso de certificados de segurança através de tokens62 ou smart cards63

62
Tokens: Tokens em computação é um segmento de texto ou símbolos que podem ser manipulados por um
“parser” (programa de computador ou parte dele que analisa a estrutura gramatical de uma entrada de dados).
63
Smart Cards: Cartão de plástico semelhante ao de crédito, com um chip que armazena informações
criptografadas.
134

poderiam ser a chave para isto no futuro. Quem sabe?

6 METODOLOGIA

A metodologia empregada consistiu na criação de um servidor protótipo de

testes no âmbito do Domínio DCOR7, denominado GServer, para a realização das

provas de conceito.

Posteriormente, foram realizados testes de indexação em sites FTP de

universidades disponíveis na Internet com o ftp://ftp.Puc-rio.br/ e ftp://ftp.coe.ufrj.br/,

da Pontifícia Universidade Católica/RJ e da Universidade Federal do Estado do Rio

de Janeiro respectivamente. Ambos os sites apresentam conteúdo de arquivos da

ordem de 100 GB de dados e sua indexação completa se deu no período de 48

horas cada.

Reindexações sucessivas e diárias foram aplicadas, verificando-se que em

menos de 2 horas estavam terminadas e que registraram com êxito eventuais

mudanças nos arquivos e árvores de diretórios.

A partir do sucesso da empreitada foram mapeadas como unidade de rede

local no GServer os sites FTP da CTI/DPF e da SR/DPF/PR, os quais permitem

logon anônimo e transferência passiva de dados.

A indexação total do site FTP da CTI/DPF, contendo 18,6 GB de dados,

acessado a partir do endereço FTP://10.61.5.12, transcorreu em um período de

tempo total de 6 horas e a indexação total do site FTP do NUINF/SR/PR, contendo

idêntico volume de dados transcorreu em 8 horas. O Autor atribui esta diferença de

tempo à maior quantidade de nós de conexão enfrentados no segundo caso.


135

As perspectivas promissoras levaram o Autor a apresentar o protótipo do

Projeto ao Ilustríssimo Senhor Diretor da DCOR/DPF, Doutor Getulio Bezerra

Santos, através de demonstração pública que reuniu os funcionários e chefes das

Divisões componentes da citada diretoria, com exceção da CGPRE.

Foi então autorizada a implementação de um servidor FTP dentro do

NUINF/SR/DPF, a fim de realizar provas práticas de indexação de arquivos

contendo informações ligadas às atividades policiais de combate ao Crime

Organizado.

Tal fase ainda não foi implantada tendo em vista a necessidade de reunião,

ainda não realizada até a presente data, entre todas as chefias envolvidas para

definição da criação de novas pastas remotas ligadas às Delegacias Especializadas

situadas na Superintendência Regional de Brasília/DF.

Isto se deve ao fato da necessidade de filtragem do conteúdo, já que muitos

servidores não estão ainda suficientemente disciplinados no hábito de remover das

pastas públicas conteúdo de interesse particular.

O Objetivo do projeto nesta fase de testes é a interligação do maior número

possível de unidades da Federação e a verificação contínua das características de

funcionalidade, utilidade e segurança do uso junto ao CTI/DPF, Chefes de Divisão

da DCOR/DPF e Chefes das Delegacias descentralizadas para o estabelecimento

dos parâmetros ideais de segurança, compartimentação e acesso.

O limite da capacidade de conexões de consulta simultâneas e o

comportamento do servidor a partir de eventual sobrecarga de requisições de

pesquisa também serão analisados com o fito de solucionar qualquer problema

técnico que surja eventualmente, em função de eventuais flutuações da intranet

departamental.
136

7 CONCLUSÃO

O Autor conclui o presente trabalho na certeza de haver convencido os

leitores, membros da banca examinadora e demais autoridades da necessidade de

unificação do grande volume de informações desestruturadas existentes no

ambiente informatizado do Departamento de Policia Federal como um todo. Acredita

também na eficácia do presente trabalho para alinhar o Departamento de Policia

Federal no uso de tecnologias de ponta e de baixo custo, a fim de promover a

inteligência do conhecimento como arma mais importante no combate ao Crime

Organizado neste País.

O Projeto Prometheus, nos moldes do proposto e através da implementação

das ferramentas de busca na técnica de mineração de dados e sua integração com

ferramentas de análise como o Analyst´s Notebook da I2”64, será certamente de

grande valia para revolucionar os métodos utilizados na análise de informações de

inteligência no futuro.

64
I2: Software comercializado pela Empresa Tempo real que abrange uma suíte de produtos destinado à análise e
manipulação de dados possibilitando o cruzamento e a disposição de forma gráfica das informações obtidas.
137

REFERÊNCIAS

BATTELE, JOHN. The Search. Portfolio, 2005, 311 p. ou, em português, A Busca.
Campus, 2005, 288 p.

BELKIN, N. J.; ODDY, R. N.; BROOKS, H. M. Ask for information retrieval. Journal
Documentation, 38, n. 2, p. 61-71, Part I, n. 3, p. 145-65, 1982. Part II.

BIO, B. F. Sistemas de informação: um enfoque gerencial. São Paulo: Atlas,


1991.183 p.

BORGES, Jorge Luis. Obras Completas. Buenos Ayres: Emecé, 1969.

BRAGA, N. O processo decisório em organizações brasileiras: comportamentos


comunicativos. Revista de Administração Pública, Rio de Janeiro, v. 22 n. 4, p.34-51,
out./dez 1988.

BRACKETT, M. H. The data warehouse challenge: taming data chaos. New York:
John Wiley & Sons, 1996.

BRANCHEAU, J. C.; WETHERBE, J. C. Key Issues in Information Systems


Management. v. 11, n. 1, p. 59-72. MIS Quarterly: Minneapolis, mar 1987.

BURCH, J. G. Jr.; STRATER, F. R. Jr. Information systems: theory and practice.


California: Hamilton publishing company, 1974, 494 p.

CAMPELLO, Bernardete Santos; CENDON, Beatriz Valadares; KREMER, Jeannette


Marguerite, org. Fontes de informação para pesquisadores e profissionais. (Coleção
Aprender). Belo Horizonte: Ed. UFMG, 2000, 319 p.
138

CHEN, Heisung et al. Internet browsing and searching: user evaluations of category
maps and concept space techniques. Journal of American Society for Information
Science, v. 49, n. 7, p. 582-603, 1998.

CHEN, M. S.; Han, J.; Yu, P. S. Data mining: an overview from a database
perspective. IEEE Transactions on Knowledge and Data Engineering, v. 8, n. 6,
1996.

COELHO Netto; J. Teixeira. Semiótica, informação e comunicação. (Coleção


Debates). São Paulo: Ed. Perspectiva, 1980. 222 p.

COMPANY'S INFORMATION SYSTEMS. Harvard Business Review, Boston, v. 67,


n. 2 mar./apr., p. 130-134, 1989.

DAHLBERG, Ingeltraut. Knowledge, organization and terminology: philosophical and


linguistic bases. International Classification, v. 19, n. 2, 1992.

DAVENPORT T. H.; HAMMER, M.; METSISTO, T. How executives can shape their.
[S.I]: [s.n.].

DAVENPORT, T. H.; ECCLES, R. G.; PRUSAK, L. Information Politics: Sloan


Management Review, v. 34, n. 1. Knoxville: Fall, 1992.

DAVIS, G. B.; OLSON, M. H. Sistemas de Información Gerencial. Bogotá: McGraw-


Hill, 1987, 718 p.

DAVIS, G. B. Management information systems: conceptual foundations, structure


and development. New York: McGraw-Hill, 1974, 404 p.

DEMO, Pedro. Metodologia científica em ciências sociais. São Paulo: Atlas, 1995.
293 p.
139

DERVIN, Brenda. Chaos, order and sense-making. Disponível em:


<http://www.mcc.ufc.br/etagi/projetobb/zendervinmit99.html>. Acessado em: 18 maio
2000.

DUPUY, Jean-Pierre. Nas origens das ciências cognitivas. Trad. de Aux origines des
sciences cognitives. São Paulo: Ed. UNESP, 1996. 228 p.

ECO, Umberto. Os limites da interpretação. (Coleção Estudos). São Paulo:


Perspectiva, 1995. 315 p.

ENDRES-NIGGEMEYER, Brigitte; NEUGEBAUER, Elisabeth. Professional


Summarizing: no cognitive simulation without observation. Journal of American
Society for Information Science, v. 49, n. 6, 1998.

EPSTEIN, Isaac. Cibernética. São Paulo: Ed. Ática, 1986, 88 p.

FAYYAD, U.M.; Piatetsky-Shapiro, G.; Smyth, P. Advances in knowledge discovery


& datamining. Chapter 1: from data mining to knowledge discovery: an overview.
AAAI/MIT, 1996a.

FOSKETT, D. J. Informática. In Ciência da informação ou informática? Rio de


Janeiro: Calunga, 1980.

FREITAS H. & KLADIS C. M. Da informação à política informacional das


organizações: um quadro conceitual, v. 29, n. 3, jun./set. São Paulo: RAP, 1995.

FREITAS, H. M. R.; KLADIS, C. M. Dos Sistemas de Informações (SI) aos Sistemas


de Apoio à Decisão. SAD: [s.n.], in prelo, [s.d.]

FREITAS, H. M. R.; KLADIS, C. M. O gerente nas organizações: funções, limitações


e estilos decisórios. [S.I.], in prelo, [s.d.]

FREITAS, H. M. R.; KLADIS, C. M. O processo decisório: modelos e dificuldades.


[S.I.], in prelo, [s.d.]
140

FREITAS, H. M. R. A Informação como Ferramenta Gerencial. Porto Alegre: Ortiz,


1993, 355 p.

FURLAN, J. D. Como elaborar e implementar o planejamento estratégico de


sistemas de informação. São Paulo: Makron, McGraw-Hill, 1991, 206 p.

GARMAN, Nancy. Meta search engines. Online, v. 23, n. 3, maio/jun. 1999.

GOOGLE: como usar o Google. Disponível em :


<http://www.google.com/mu/pt/why_use.htm>. Acessado em: 2 set. 2006.

GORRY, G. A.; MORTON, S. Framework for Management Information Systems,


Sloan management Review, Knoxville: Fall, v. 13, n. 1, 1971.

GREISDORF, Howard. Relevance: an interdisciplinary and information science


perspective (Special issue on Information Science Research). Informing Science, v.
3, n. 2, 2000.

HAHN, Trudi Bellardo. Text retrieval online: historical perspective on Web Search
Engines. Bulletin of the American Society for Information Science, v. 24, n. 4 ,7-10,
abr./maio, 1998.

HOBBS, Jerry R.; STICKEL, Mark E. Interpretation as abduction. Artificial


Intelligence, v. 63, 1993.

HOCK, Randolph. Web search engines: features and commands. Online, v. 23, n.3,
maio/jun., 1999.

HUTCHINS, Edward. Cognitive artifacts. Disponível em:


<http://www.mitpress.mit.edu/MITECS/work/htchins_r.html>. Acessado em: 2 set.
2006.

INGERSEN, Peter. Cognitive perspectives of information science retrieval


interaction: elements of a cognitive IR theory. Journal of Documentation, v. 52, n. 1,
p. 3-50, mar. 1996.
141

KENDALL, K. E; KENDALL, J. E. Análisis y Diseño de Sistemas. Ciudad del México:


Prentice-Hall, 1991, 881 p.

KIMMEL, Stacey. WWW search tools in reference services. The reference librarian,
v. 57, p. 5-20, 1997.
KINI, R. B. Strategic information systems: a misunderstood concept? Information
Systems Management, Boston: Fall, v. 10, n. 4, p. 42-45, 1993.

KIRRIEMUIR, John et al. Cross-searching subject gateways: the query routine and
forward knowledge approach. D-Lib Magazine, jan. 1988. Disponível em:
<http://www.dlib.org/january98/01kirreiemuir1/html>. Acessado em 3 set. 2006.

KOTTER, J. P. The General Managers. New York: Free Press, 1982a, 221 p.

KOTTER, J. P. What effective general managers really do. Harvard Business


Review, v. 60, n. 6, p.156-167, nov./dez. Boston: [s.n.], 1982b.

KUGLER, J. L. C.; FERNANDES, A. A. Planejamento e Controle de Sistemas de


Informação. Rio de Janeiro: LTC, 1984. 81p.

LANCASTER, F. W. Indexação e resumos: teoria e prática. Trad. de Indexing and


abstraction in theory and practice. Brasília: Briquet de Lemos, 1993, 347 p.

LANGRIDGE, Derek. Classificação: uma abordagem para estudantes de


biblioteconomia. Rio de Janeiro: Interciência, 1977.

LE COADIC, Yves-François. A Ciência da Informação. Brasília: Briquet de


Lemos/Livros, 1996. 119 p.

LÉVY, Pierre. As tecnologias da inteligência: o futuro do pensamento na era da


informática. (Coleção Trans). Rio de Janeiro: Ed. 34, 1993, 205 p.
142

LIMA, Cynthia Moreira. O que é a Internet e como utilizá-la para pesquisa?


Disponível em: <http://www.elo.com.br/~cynthia/interpesq.htm. Acessado em 31 ago.
2006.

MARTIN, J. Engenharia da Informação. Rio de Janeiro: Campus, 1991, 196 p.

MAUDUIT, J. A. Quarenta mil anos de arte moderna. Belo Horizonte: Itatiaia, 1964.
271 p.

MEDEIROS, Norm. XML and the resource description framework: the great web
hope. ONLINE, set. 2000. Disponível em:
<http://www.onlinemc.com/onlinemag/OL2000/mederios89.html>. Acessado em: 31
ago. 2006.

MENDES, C. D. Informática e Competitividade da Empresa. Anais do XX Congresso.


[S.I.]: [s.n.], [s.d.].

MILSTED, Jessica; FELDMAN, Susan. Metadata: cataloging by any other name.


ONLINE, jan. 1999. Disponível em:
<http://www.online.com/onlinemag/Ol1999/milstead1.html>. Acessado em: 30 ago.
2006.

MINTZBERG, H. The manager's job: folclore and fact. Harvard Business Review,
Boston, v. 54, n. 4, p. 49-61, jul./ago. 1975.

MURDICK, R. G.; MUNSON, J. C. Sistemas de Información Administrativa. Ciudad


del México: [s.n.], [s.d.].

REVISTA NACIONAL DE INFORMÁTICA. SUCESU: São Paulo, set. 1987.

NICHOLS, G. E. On the Nature of Management Information. Management


Accounting, v. 15, p. 9-13, abr. 1969.

OLIVEIRA, A. C. M. da C.; GRAJEW, J. O enfoque do valor adicionado: informática


e aumento de competitividade. SUCESU. In XX CONGRESSO NACIONAL DE
INFORMÁTICA, 1987.
143

Orlandi, Eni P. Discurso e leitura. Campinas: Ed. UNICAMP, 1993.

OUTLET, Paul. Traité de documentation; le livre sur le livre, theorie ét pratique.


Bruselles. Belgiun: Ed. Mundaneun, 1934.
PEREGRINO, Hélio. Édipo e a paixão. In: Os sentidos da paixão. (Ciclo de debates).
Rio de Janeiro, São Paulo: FUNARTE, Ministério da Cultura, 1986.

PIATETSKY-SHAPIRO; G. & SMYTH, P. Advances in knowledge discovery & data


mining. Chapter 1: From data mining to knowledge discovery: an overview.
Knowledge Discovery and Data Mining: Towards a Unifying Framework. AAI/MIT,
1996a.

PIERCE, Charles S. Semiótica. São Paulo: Perspectiva, 1977, 337 p.

PORTER, M. E.; MILLAR, V. E. How information gives you competitive advantage,


Harvard Business Review, Boston, v. 63, n. 4, p. 149-160, jul./ago. 1985.

POULTER, Alan. The design of World Wide Web search engines: a critical review.
Program, v. 31, n. 2, p. 131-145, abr. 1997.

Prentice-Hall Hispano Americana. [S.I.]: [s.n.], 1988. 723 p.

REALE, Giovanni; ALTISSERI, Dario. História da filosofia: do Romantismo aos


nossos dias. (Coleção Filosofia). São Paulo: Paulos, 1991.

REDIF. Disponível em: <http://www.openarchives.org/>. Acessado em: 2 set. 2006.

REVISTA EXAME, Feiras que valem ouro, ed. 548, a. 26, n. 1, jan. 1994.

ROBINS, David. Interactive information retrieval: context and basic notions. (Special
issue on Information Science Research). Informing Science, v. 3, n. 2, 2000.
144

SANTAELLA, Lucia; NOTH, Winfried. Imagem, cognição, semiótica, mídia. São


Paulo: Iluminuras, 1998. 224 p.

SARACEVIC, T.; Kantor, P. A study of information seeking and retrieving. Journal of


American Society for Information Science, v.39, n.3, part I, p.161-176; part II, p.177-
196; part III, p.197-216, maio 1988.
SARACEVIC. T. Introduction to Information Science. New York: Bowker, 1970.

SCHWARTZ, Candy. Web search engines. Journal of the American Society for
Information Science, v. 49, n. 11, p. 973-982, 1998.

SHERMAN, Chris. The future of Web search. Online, v. 23, n. 3, p. 54-61, maio/jun.
1999.

SNEIDERMAN, Ben. Clarifying search: a user-interface framework for text searches.


Dlib Magazine, jan. 1997. Disponbível em:
<http://www.dlib.org/dlib/january97/retrieval/01sneiderman.html>. Acessado em 30
ago. 2006.

SPERBER, Dan; Hirschifield, Lawrence. Introduction: culture, cognition and


evolution. Disponível em: <http://mitpress.mit.edu/MITECS/cultureintro_r.html>.
Acessado em: 27 ago. 2006.

SULLIVAN, Danny (Ed.). Search engine watch: tips about Internet search engine.
Disponível em: <http://www.searchenginewatch.com/>. Acessado em 27 ago. 2006.

SULLIVAN, Danny. Crawling under the hood: an update on search engine


technology, Online, v. 23, n. 3, p. 30-38. Maio/jun. 1999.

TOFLER, A. A Empresa Flexível. Record: Rio de Janeiro, 1985, 244 p.

TORRES, N. A. Planejamento de Informática na Empresa. São Paulo: Atlas, 1991,


218 p.
145

TURBOPROLOG: The natural language of artificial intelligence. California: Borland


International, 1990.

VIOLI, Patrizia. Semiotics and cognition. Disponível em:


<http://mitpress.mit.edu/MITECS/work/violi_r.html>. Acessado em: 2 set. 2006.

WANG, Peiling; SORGEL, Dagobert. A cognitive model of document use during a


research projet. Study I. Document selection. Journal of American Society for
Information Science, v. 49, n. 2, p. 115-135, 1998.

WEIBEL, Stuart. Metadata: the foundations of resource description. D-Lib Magazine,


jul. 1995. Disponível em: <http://www.dlib.org/dlib/July95/07weibel.html>.

WILSON, T. D. Human information behavior. Informing Science, v. 3, n. 2, p. 49-55,


2000.