Escolar Documentos
Profissional Documentos
Cultura Documentos
(PROJETO PROMETHEUS)
(PROJETO PROMETHEUS)
FOLHA DE APROVAÇÃO
(PROJETO PROMETHEUS)
_______________________________________
Presidente da Banca
_______________________________________
1º Membro
_______________________________________
2º Membro
BRASÍLIA/DF – OUTUBRO 2006
Galileu Galilei
RESUMO
This study presents the purpose to analyze the necessity of administrate the
information created inside DCOR/DPF environment, caring about sharing, security,
control and access delimitations, attempting to unify diffuse data spread between all
of Brazilian Federal Police Departments, Bureaus, and this Central Department
dedicated to fight against the organically structured crime. The use of Google
Desktop Search software, adapted to realize this job, called as “Prometheus Project”
by the Author. Here will be discussed the speculative aspects about knowledge
discovery in databases, details about working with this Project and the results
obtained until the present date, testing and working on it at DCOR/DPF, together with
Brasília/DF Bureau of Federal Police Department, proving the well done job and the
necessity of the use of this project as a investigation research tool with agility,
effectively, security and low cost. Revolutionary method administrating databases.
Economy of digital media space and self growth, avoiding human resources to work
inserting data. Essential to analysts that investigate and operate against the
organically structured crime.
Ilustração 1..............................................................................................................................10
Ilustração 2..............................................................................................................................26
Ilustração 3..............................................................................................................................43
Ilustração 4..............................................................................................................................56
Ilustração 5..............................................................................................................................60
Ilustração 6..............................................................................................................................63
Ilustração 7..............................................................................................................................65
Ilustração 8 .............................................................................................................................65
Ilustração 9..............................................................................................................................67
Ilustração 10............................................................................................................................74
Ilustração 11............................................................................................................................75
Ilustração 12............................................................................................................................77
Ilustração 13............................................................................................................................78
Ilustração 14............................................................................................................................79
Ilustração 15............................................................................................................................92
Ilustração 16............................................................................................................................93
Ilustração 17............................................................................................................................94
Ilustração 18............................................................................................................................94
Ilustração 19............................................................................................................................95
Ilustração 20............................................................................................................................95
Ilustração 21............................................................................................................................98
Ilustração 22..........................................................................................................................101
Ilustração 23..........................................................................................................................102
Ilustração 24..........................................................................................................................102
Ilustração 25..........................................................................................................................103
Ilustração 26..........................................................................................................................107
Ilustração 27..........................................................................................................................108
Ilustração 28..........................................................................................................................110
Ilustração 29..........................................................................................................................112
Ilustração 30..........................................................................................................................124
Ilustração 31..........................................................................................................................124
Ilustração 32..........................................................................................................................125
Federal.
SUMÁRIO
1 INTRODUÇÃO ...................................................................................................................10
2 GERENCIAMENTO DE INFORMAÇÕES ....................................................................14
2.1 Dados e Informações.....................................................................................................................................15
2.2 A sociedade e a informação..........................................................................................................................17
2.3 As fontes de informação................................................................................................................................18
2.4 Requisitos de informação por nível administrativo.......................................................................................19
2.5 Atributos da informação................................................................................................................................21
2.6 Significado estratégico da informação..........................................................................................................23
2.7 A política de informação...............................................................................................................................24
3 BANCO DE DADOS .............................................................................................................1
3.1 A descoberta do conhecimento em Banco de dados.......................................................................................1
3.1.1 Knowledge Discovery in Databases (KDD)................................................................................................4
3.2 Mineração de dados – (MD)............................................................................................................................7
3.3 Recuperação da informação – Ensaio na Internet – Metadados e Metabusca..............................................11
3.4 Representação e economia do conhecimento – Semiótica e Metatexto........................................................17
3.4 Ferramentas de busca na Internet – Diretórios e motores de busca..............................................................20
3.4.1 Diretórios....................................................................................................................................................21
3.4.2 Motores de busca........................................................................................................................................23
3.4.3 Critérios para indexação.............................................................................................................................26
3.4.3.1 Critérios para indexação de páginas e documentos.................................................................................28
3.4.4 Freqüência de atualização dos dados ........................................................................................................29
3.4.5 Interface e recursos para busca ..................................................................................................................30
3.4.6 Critérios de organização dos resultados ....................................................................................................32
3.4.6.1 Forma da organização dos resultados .....................................................................................................33
3.5 Diferença entre Motores de Busca e Diretórios - Hibridização ...................................................................34
3.6 “Desktop Search Tools” – Ferramentas de busca dentro da máquina ........................................................36
3.6.1 Tecnologia empregada ..............................................................................................................................39
4 GOOGLE..............................................................................................................................42
4.1 Atualidades sobre o Google – Softwares desenvolvidos..............................................................................46
4.2 Google Desktop Search - GDS......................................................................................................................48
4.2.1 Aspectos legais - EULA – Licença de uso...............................................................................49
4.2.1.1 Análise dos aspectos legais..................................................................................................54
4.2.2 Funcionalidade – forma de compilação das informações........................................................55
4.2.3 Como pesquisar na base de dados..........................................................................................68
4.2.4 Conteúdo do resultado e filtragem das buscas........................................................................73
4.2.5 Plug-ins....................................................................................................................................79
4.2.6 Modo de operação e limitações da utilização em rede............................................................80
5 O PROJETO PROMETHEUS..........................................................................................83
5.1 Conceito......................................................................................................................................85
5.2 DNKA..........................................................................................................................................87
5.2.1 Aspectos legais - EULA do DNKA – Licença de uso................................................................88
5.2.2 Funcionalidade do DNKA.........................................................................................................90
5.3 TWEAK GDS..............................................................................................................................95
5.3.1 Funcionalidade do TWEAK GDS.............................................................................................97
5.4 INTERNET NEIGHBORHOOD...................................................................................................98
5.4.1 Funcionalidade do INTERNET NEIGHBORHOOD................................................................100
5.5 OPERACIONALIZAÇÃO – adequação às necessidades da DCOR/DPF.................................103
5.5.1 Equipamentos utilizados – Hardware – Especificações técnicas...........................................105
5.5.3 Fluxograma de entrada de dados – alimentação – eficiência na coleta.................................109
5.5.3 Fluxograma de saida de dados – Consulta – Difusão às descentralizadas...........................110
5.5.4 Automatização da alimentação do Banco de dados - periodicidade......................................112
5.6 SEGURANÇA...........................................................................................................................113
5.6.1 Senhas e Responsabilidade do Usuário................................................................................114
5.6.2 O uso de cookies e a política de privacidade da GOOGLE...................................................116
5.6.3 Firewall - Controle de acesso e restrição de usuários – Logs e Incidentes de segurança.....119
5.6.4 Transferências FTP seguras .................................................................................................125
5.6.5 Protocolo SSH e Criptografia – Servidor FTP Linux x Windows............................................127
5.6.6 Tráfego na Rede do DPF – Portas e endereços IPs utilizados .............................................129
5.6.7 Compartimentação das Informações – Política de informação na DCOR/DPF.....................131
5.6.8 Parecer informal da Direção da DCOR/DPF, CTI/DPF e NUINF/SR/DPF/DF.......................132
5.7 INTEGRAÇÃO DO PROJETO..................................................................................................133
6 METODOLOGIA..............................................................................................................134
7 CONCLUSÃO....................................................................................................................136
REFERÊNCIAS....................................................................................................................137
1 INTRODUÇÃO
Ilustração 1
"Os benefícios que fiz aos mortais atraíram-me este rigor. Apoderei-me do fogo,
em sua fonte primitiva: ocultei-o num cabo de uma bengala, e ele tornou-se para o
homem a fonte de todas as artes e um recurso fecundo." (Ésquilo, 463 a.C,
Prometheus Desmontes)
Prometheus foi o Titã mitológico que roubou o fogo divino de Zeus para o dar
aos Homens, que assim puderam evoluir e distinguirem-se dos outros animais.
monte Cáucaso, onde todos os dias uma águia (ou abutre) ia comer-lhe o fígado
vontade humana por conhecimento, sua captura do fogo é a audácia humana pela
trinta dias.
1
Na mitologia Greco-Romana Zeus era o Deus de todos os Deuses e comandava os destinos dos homens a partir
do Olimpo, morada celestial.
2
Vulcano na mitologia Greco-Romana era um semi-Deus e ferreiro dos Deuses. Forjou os grilhões que
acorrentaram Prometheus.
encontrará resistências. Isso é inerente ao ser humano e às instituições. Destarte, o
unidades descentralizadas.
Até pouco tempo atrás não existia padronização alguma acerca do tratamento
99% (noventa e nove por cento) de precisão. Pode-se dizer, portanto, que o
3
Domínio representa a criação de uma rede própria e autônomas onde todas as máquinas encontram-se
subordinadas a um servidor que controla o Domínio (Domain Controller).
4
OCR é acrônimo para Optical Character Recognition, uma tecnologia para reconhecer caracteres a partir de um
ficheiro de imagem, ou mapa de bits. Através do OCR é possível digitalizar uma folha de texto impresso e obter
um ficheiro de texto editável.
tratamento da informação na DCOR/DPF encontra-se a caminho da informatização
equipamentos de ponta.
Diretoria tem acesso negado às demais, sendo que todos tem acesso à pasta
qualitativa?
satisfatória?
• Como facultar o acesso a essas informações às unidades descentralizadas
possível fazê-lo com baixo custo material, econômico e humano sem perda
Polícia Federal.
2 GERENCIAMENTO DE INFORMAÇÕES
organizacional em que irá circular, deve ser observada, sob o risco de, no momento
• “Dado pode ser considerado como uma informação em potencial” (Nichols, 1969, p.9).
dados, mas pode ser limitada em extrair, filtrar e apresentar fatos pertinentes que
• “Em síntese, os termos dados e informação, com freqüência, são utilizados em formas
intercambiais, porém a distinção consiste no fato que os dados elementares são a matéria-
prima para prover a informação”.
1987, p.208):
que a TI evolui, tem reflexos diretos na sociedade que a utiliza. Murdick e Munson
(1988, p.3) registram que alguns fatores repercutem diretamente na sociedade e nas
Kendall (1991, p.1) comentam que "os responsáveis pela tomada de decisão
(1985, p.128-129) acredita que a informação é até mais importante do que os fatores
informacional da empresa" e acredita que: "Este processo é cada vez mais vital para
seu processo. Esta informação pode ser conseguida em fontes formais e em fontes
informais.
formais ou informais. As informações formais são aquelas que tramitam pelos canais
que são geradas dentro da organização ou podem ter sua origem no meio ambiente,
são aquelas que não possuem nenhum caráter oficial. Este tipo de informação é de
tomadores de decisão por meio de jornais, televisão, rádio, internet, conversas com
origem interna são recebidas de várias formas. Podem vir da conversa informal no
(Mintzberg, 1975; Kotter, 1982a, 1982b; Revista Exame, jan./94). Braga (1987)
do meio ambiente lhes interessam bastante. Estas informações não precisam ser
informações de natureza preditiva para que possam planejar e decidir sobre como a
tomada de decisão. Quando estes atributos não são observados, a própria eficiência
sistema de informações ou para uma pessoa. Caso contrário, ela deixa de ser
modo e formato - o ser humano se comunica por meio dos cinco sentidos e, em
objetivos;
sobrecarregar o receptor;
determinística ou probabilística - a informação probabilística admite um conjunto
não é pertinente à situação que o executor está enfrentando. Bio (1991, p.45)
visando melhorar seu desempenho e alcançar seus objetivos de uma forma mais
gerenciá-los;
da organização; e
deve ser baseada no contexto em que ela está inserida e nas perspectivas futuras. A
empresa pode optar pela implantação de uma política híbrida que agregue mais de
básicas:
projeto global.
1
3 BANCO DE DADOS
significante por uma nova geração de técnicas e ferramentas com habilidades para
promovidos outros workshops, sendo que o último (quinto) foi realizado em 1994.
Em 1995 foi realizada a Primeira Conferência Internacional sobre este tema. No ano
aplicação irá provocar, medido por critérios tais como rendimento, redução de
atributos e casos (ou “registros” de banco de dados). Por outro lado, muitos atributos
entre eles, qual a utilidade para o usuário, que padrões já são conhecidos, etc.,
(MD) quanto nas demais etapas do processo de KDD. Apesar das informações
elas não estão disponíveis e exigem a sua extração a partir de grandes quantidades
sabe sequer formular uma questão desejada. A aplicação de KDD muitas vezes se
dados; muitas dimensões; mudança nos dados; dados com ruído ou perda de
dados; interação complexa entre atributos, etc. Neste contexto, o desafio que se
questões básicas:
dados como a gerada pela atividade policial tendo em vista a sua expansão
a sua organização, pois demandaria tempo e custos elevados, restando para si, na
exploração, hoje conhecidas como Mineração de Dados (MD), que podem incorporar
banco de dados.
8
Inteligência Artificial: Tecnologia que torna os computadores com desempenho similar ao de seres humanos.
5
1996b).
descobertos devem ser válidos diante de novos dados com algum grau de certeza.
Os padrões devem ser novos, compreensíveis e úteis, ou seja, deverão trazer algum
benefício novo que possa ser compreendido rapidamente pelo usuário para tomada
função dos objetivos na utilização do sistema, podendo ser de dois tipos básicos:
uma forma compreensível pelo homem. As fronteiras entre previsão e descrição não
são bem definidas, mas em KDD “a descrição tende a ser mais importante do que a
anteriores;
“conhecimento” (pós-processamento).
específica. Esta tarefa tem como meta responder alguma pergunta particular de
• Redes Neurais;
• Algoritmos Evolucionários;
• Conjuntos Difusos.
geral, determinação e análise de agrupamento, etc. Seja qual for a tarefa a ser
facilmente para a descoberta de padrões sem sentido (Fayyad et al., 1996b). Para a
relacionamentos possíveis, o que é uma função útil para o usuário, que padrões já
processo podem ser divididos em três classes: especialista do Domínio que deve
algoritmo particular para uma aplicação particular é de certa forma uma arte”.
nos critérios utilizados para avaliar o modelo e/ou no método de busca utilizado. Ele
adverte que não há critérios estabelecidos para se decidir quais métodos devem ser
heurísticas para evitar o alto custo de processamento que seria necessário para se
algoritmos de MD:
serem descobertos;
teste. Modelos descritivos podem ser avaliados pela novidade, utilidade e facilidade
parâmetros.
cultura humana está migrando para formatos digitais e uma quantidade grande dos
pela Internet podem hoje ser divisadas, como os mecanismos de busca gerais
embutidas no código das páginas HTML11, como o Dublin Core e a linguagem XML12
Core (Weibel, 1995) e sua utilização pelo próprio autor do documento eletrônico para
deste Projeto, a solução para a explosão informacional trazida pela Internet, com
potencial pleno para uso em intranets corporativas, tornando possível que páginas
de uma busca tendo por base sites mais referenciados por link a partir de outros.
entre um documento e uma consulta" (Le Coadic, 1996). Conforme colocado por
11
HTML: A sigla HTML deriva da expressão Hyper Text Markup Language. Trata-se de uma linguagem de
marcação utilizada para produzir páginas na Internet.
12
XML: XML (Extensible Markup Language) é uma recomendação da W3C para gerar linguagens de marcação
para necessidades especiais.
13
Metadados equivale à representação sob a forma de resumo do documento original.
14
Tags: são comandos inseridos num documento que definem como o documento deve ser formatado.
15
Metabusca é a obtenção de conhecimento através da pesquisa dos resumos contidos nos metadados.
13
information use behavior – (Wilson, 2000, p. 49). Este processo se mostra assim um
informações.
A referência bibliográfica pode ser vista como um texto sobre outro texto – o
(Demo, 1995),(Reale, 1991). A teoria literária de base semiótica16 (Eco, 1995), (Violi,
1999) destacam o papel ativo do leitor, do seu contexto, da sua história, em dar
sentido ao texto.
(Hobbs, 1993). Pierce associa a abdução ao insight criativo na ciência, quando uma
Assim também considera Ingersen (1996, p.20) quando diz que "Em vários aspectos
AltaVista, Infoseek, HotBot etc. Estes mecanismos de busca mantêm uma base de
cobrem não mais de 30% de todas as páginas Web. Esta afirmação reforça a
17
URL: Universal Resource Locator (URL). É o endereço de um recurso ou ficheiro disponível na Internet.
18
WEB: Abreviação de WWW, World Wide Web ( teia do tamanho do mundo ). Parte visível desta rede.
16
embutidos no texto HTML de páginas podem tornar mais fácil e correto o exame e
assinala campos como tipo de documento, classificação, etc., informação que não
Internet ou em uma base de dados, pode ser vista como um processo semiótico,
usuário, no limite, possa decidir despender energia para obter e ler o documento
completo.
informações.
Pierce conceitua signo como "um signo ou representâmen, é aquilo que, sob
certo aspecto ou modo, representa algo para alguém" (Pierce, 1977, p. 46);
representar seria “estar no lugar de, isto é, estar numa tal relação com um outro que,
para certos propósitos, é considerado por alguma mente como se fosse este outro”
um tipo de signo que pode representar um objeto, porque seus atributos têm
relações análogas com os atributos do objeto que está sendo representado. Uma
que aparece ao usuário com o mesmo autor, com o mesmo título que o documento
documento.
usuário, suas atividades e sobre a maneira pela qual ele usa informação.
devem ser mantidos no metatexto e quais não devem ser mantidas, quais, mesmo
conhecimento.
e assim realizar seu papel: ser suficientemente rica sob o aspecto cognitivo e ao
deve ser tão rica cognitivamente de modo a permitir a um usuário inferir o conteúdo
mais antigas, podemos citar o Archie19, que busca arquivos em repositórios de sites
19
Archie: Ferramenta que permite a procura de arquivos e informações em servidores FTP.
20
Gophers: é um protocolo de redes de computadores que foi desenhado para indexar repositórios de
documentos na Internet.
21
tipos de ferramentas têm surgido, fazendo o mundo dos serviços de busca complexo
internet.
3.4.1 Diretórios
amplo. É comum que incluam, por exemplo, itens relacionados com educação,
são atribuídos de forma consistente, de modo que os usuários podem contar com a
Os sites coletados passam pela seleção, na maioria das vezes, por seres
páginas e atualizações, por exemplo), ou ainda, pelo uso de robôs para coletar
novos URLs.
O primeiro diretório da internet foi o The World Wide Web Virtual Library
brasileiro.
Como suas bases de dados são extremamente grandes, podendo alcançar centenas
internet adquiriu proporções tais que impediam a sua coleta por meios manuais e a
tecnologias diferentes das atuais. O primeiro dos motores baseados em robôs foi o
24
de robôs sendo formados por quatro componentes: um robô, que localiza e busca
algoritmos próprios para determinar quais links devem seguir. Por exemplo, alguns
para construir sua base de dados. Na coleta de páginas para suas bases de dados,
a maioria dos motores de busca permite também que os usuários sugiram URLs, em
importantes como os URLs ou endereços das páginas, cache 21 das páginas, títulos,
usuários para efetuar a pesquisa na base de dados. Fornece o meio para que o
busca ou motor de busca propriamente dito. Este é um programa que localiza, entre
freqüência com que atualizam suas bases de dados e o modo como apresentam os
em número de URLs. Este tamanho é de alta relevância para que a ferramenta seja
21
Cache: cache é um dispositivo interno a um sistema que serve de intermediário entre um operador de um
processo e o dispositivo de armazenamento ao qual esse operador acede.
26
sua base de dados. No índice, são inseridos todos os termos que podem ser
podem ser ainda armazenados dados sobre a posição das palavras na página e
sobre os tags HTML associados com o texto. Se um termo não estiver incluído no
índice, ele não será encontrado, portanto os critérios utilizados para indexação
A maioria dos motores de busca indexa, ou seja, inclui, em seu índice, cada
palavra do texto visível das páginas. Entretanto, alguns extraem, em vez do texto
frases mais importantes contidas no título ou nos cabeçalhos e nas primeiras linhas,
por exemplo. Alguns motores indexam também outros termos, que não fazem parte
Exemplos deste tipo de texto são os textos incluídos nos metatags22 para
feita pelo seu autor no lugar do resumo que o robô criaria automaticamente. Os de
negócios podem não fazer parte do texto visível da página, entretanto foram
indicadas pelo seu autor como indicadores do assunto sobre os quais a página
versa.
entre as muito comuns, como, por exemplo, a preposição "de", ou o artigo "the" na
língua inglesa. Como ocorrem nos textos em alta freqüência, muitos motores as
incluem nos índices, mas os ignoram ao fazer uma busca, para torná-la mais rápida.
Para o usuário, isto é problemático, uma vez que os motores, em geral, não
critérios que utilizam para inclusão de páginas. Alguns motores procuram incluir
todas ou a maioria das páginas de cada site visitado. Outros indexam os sites
principais.
Além de documentos HTML, são cada vez mais comuns motores que coletam
e indexam outros formatos, como imagens, vídeos, gráficos, arquivos PDF ou ASCII.
29
Entretanto, existem páginas que não são parte de nenhum motor de busca.
Estas incluem sites que requerem senhas para entrada, páginas atrás de um
marcadores de cabeçalho pelo criador da página para indicar aos robôs que eles
não devem capturá-la. Páginas isoladas, que não sejam referenciadas através de
links em outras páginas na Internet, também podem escapar à varredura dos robôs.
precisam ser atualizadas, não só para adicionar novas páginas, mas também para
revisitem periodicamente toda a Internet, os URLs que eles trazem como resultados
de uma busca podem não mais existir, ou podem existir, mas não mais conter as
pelo menos uma vez por mês. As partes mais importantes desses, como, por
exemplo, páginas mais populares entre os usuários (Excite, Lycos), ou páginas que
mudam com mais freqüência (Inktomi, Infoseek, Altavista, Go), podem ser
23
Firewall: nome dado ao dispositivo de rede que tem por função regular o tráfego de rede entre redes distintas.
impedir a transmissão de dados nocivos ou não autorizado de uma rede a outra.
30
do índice é atualizado a cada duas a quatro semanas. Novos URLs e links mortos
descobertos pelos robôs são atualizados diariamente. Cada motor tem sua própria
algum deles passe alguns meses sem acrescentar novos URLs ou modificar seus
índices.
página coletada pelos robôs ou submetida pelos usuários seja adicionada ao índice.
Até que isso aconteça, a informação não será encontrada através de pesquisa no
para chamar a atenção das ferramentas de busca, podem se passar meses antes
que oferecem. Geralmente fornecem dois modos de busca, a busca simples para
Na busca simples, existem janelas e menus que permitem que os usuários entrem
complexas.
31
sabem qual operador está sendo utilizado. Em alguns motores, por exemplo, um
(Altavista e Excite, por exemplo), enquanto para outros tem o significado de AND
Podem oferecer recursos como truncamento, busca por frase, busca por
limitação por data, domínio, idioma ou tipo de arquivos (com base na extensão dos
pela raiz das palavras, ou seja, se o usuário entrar com a palavra "psicologia", ele
linguagem natural, na qual a consulta pode ser entrada na forma de uma sentença,
busca que cada mecanismo oferece, os quais variam de motor para motor. Para se
http://www.lib.berkeley.edu/TeachingLib/Guides/Internet/ToolsTables.html e o site da
mesmo número de resultados, porém uma delas traz itens mais relevantes entre os
primeiros resultados, ela será considerada melhor. Com a finalidade de permitir que
em uma página, esta seria considerada mais relevante que outras páginas em que
com mais freqüência em uma página que em outra, a primeira seria considerada
mais relevante.
densidade com que um dado termo é usado em cada documento. Às vezes aplica-
se uma curva declinante, em que a primeira ocorrência de um termo conta mais que
que uma palavra ocorre na base de dados, pois existe uma relação inversa entre o
muito comum podem receber um peso menor que palavras relativamente raras na
base de dados.
motores.
Normalmente o número de resultados por página pode ser alterado pelo usuário.
encontrado, deseja-se receber. Por exemplo, podem ter sido encontrados 200
tipos de ferramentas. Os diretórios têm bases de dados menores, mas que contêm
Yahoo!, serão encontrados apenas itens relevantes. O mesmo não acontecerá, caso
Diretórios são também mais apropriados para buscas por tópicos que sejam
específica, desde que exista na Internet e esteja indexada. Mas como a sua base de
também maior. Ou seja, obtém-se menor precisão nos resultados da busca. Por
dos motores de busca podem não indexar alguns tipos páginas que poderiam ser
primeiro lugar os que, de acordo com seus critérios, deveriam ser os mais
importantes. Uma vez obtida a lista dos resultados, o usuário pode ler as descrições
para decidir quais os sites serão mais interessantes. No caso dos diretórios,
do usuário. Os robôs não podem, por exemplo, identificar o tema central ou gênero
como gráficos ou imagens, assim como não podem extrair de um documento dados
36
Acessar o site pode ser a única maneira de verificar se os recursos são relevantes
ou não.
consulta é feita apenas no título, categoria e uma breve descrição dos documentos.
integral dos documentos. Ou seja, o termo de busca poderá ser encontrado onde
página submetida a eles pode demorar pelo menos um mês para ser incluída. No
caso dos motores de busca, que usam indexação automática, este tempo costuma
ser mais rápido, e suas bases de dados contêm informações mais recentes.
diretórios já não é tão nítida e que a maioria deles pode ser considerada ferramenta
motores de busca, por sua vez, têm incluído diretórios em suas páginas principais.
apresentações, etc.
segundos. Para os usuários finais isto significa rápido acesso ao conteúdo dos
que pelo menos 80% (oitenta por cento) dos dados informatizados das empresas em
permitindo que usuários internos possam compartilhar seus índices com usuários
24
Oracle: Oracle é um sistema de banco de dados que surgiu no final dos anos 70, criado por Larry Ellison
quando encontrou uma descrição de um protótipo funcional de um banco de dados relacional.
25
SQL: Structured Query Language, ou Linguagem de Questões Estruturadas. É uma linguagem de pesquisa
declarativa para banco de dados relacional (bases de dados relacionais).
39
redes corporativas. Aos usuários finais deve caber apenas a tarefa de consulta à
• meta data, como títulos, autores, comentários em arquivos dos tipos .mp3,
Para pesquisar dentro dos documentos a ferramenta tem que ser capaz de
através do uso de filtros que interpretam os formatos dos arquivos selecionados. Por
exemplo: um filtro específico para o Microsoft Office deve ser utilizado para criar um
40
Acess, etc.).
Este setor tem atraído atenção considerável dos profissionais da área de TI,
• Ask.com
(GNOME, Mono).
internet.
• Blinkx
• dtSearch Desktop
line.
Explorer.
• Snowbird Search
Desktop Search (GDS) demonstrou nos testes empregados, da mesma forma que o
4 GOOGLE
I realized I wanted to invent things, but I also wanted to change the world. I
wanted to get them out there, get them into people’s hands so they can use them,
because that’s what really matters. (Larry Page, um dos dois fundadores do
Google)27
26
Freeware: é um programa de computador (software) gratuito ao público, ou seja, no qual não é
preciso pagar para utilizá-lo.
27
“Eu percebi que eu queria inventar coisas, mas eu também queria mudar o mundo. Eu queria trazê-
las para fora, trazê-las para as mãos das pessoas para que elas pudessem usá-las, porque isto é o
que realmente importa.” Tradução livre do autor.
43
Ilustração 3
informação e conhecimento.
começaram também o Excite e o Yahoo! de Jerry Yang e David Filo – por meio do
que as teses mais valorizadas, dentro da academia, eram aquelas que mereciam
mais citações das demais. O salto foi: por que não aplicar esse mesmo princípio, de
28
Google: pronuncia-se gúgôl em português e não gugól como erroneamente afirmado por alguns.
29
O Projeto original do Google pode ser acessado a partir de: http://www-
db.stanford.edu/~backrub/google.html .
44
O passo seguinte foi varrer toda a internet. Quanto mais páginas varridas, ou
é um trocadilho com a palavra “googol”, que foi inventada por Milton Sirotta, sobrinho
John Battelle narra em sua obra que o projeto, inicialmente hospedado nos
em miúdos: “se alguém digitasse ‘Brasil’ no AltaVista – o Google que não deu certo
vezes; mas é fácil perceber que esses resultados nem sempre seriam
representativos e poderiam ser, mais do que isso, manipulados”. (Battelle, J., 2005)
A luta de Larry Page e Sergey Brin sempre foi por uma boa busca. Seu
idealismo, por uma busca sempre “orgânica”, quase levou o Google à falência. Seus
intenção inicial – a do Page Rank – e, por conta disso, embora tenham lançado a
30
(Hoje, para que se tenha uma idéia – indica Battelle, como base de comparação –, o Google
consome os recursos de mais de 175.000 servidores, o que é mais do que tudo o que havia sobre a
Terra, em matéria de computadores, nos anos 70...).
45
consistentes em 2001. E, desta vez, não foi por conta de uma idéia totalmente
original.
primeiras posições de seus resultados: o site Goto.com. Fundado por Bill Gross, do
programa “AdWords”31.
Gross, um visionário da internet que fez fortuna pelo menos três vezes na
vida – segundo descreve John Battelle –, perdeu terreno com o estouro da Bolha,
Google, além de aperfeiçoar esse “pré-AdWords”, seria estender sua base para
exibição de anúncios pela internet afora – gerando receita para sites pequenos,
Desta forma, o Google foi a empresa que mais (e mais rápido) cresceu na
História, de 2001 a 2005. O Google também tirou a internet inteira do coma pós-
31
AdWords: sistema de publicidade da Google, baseada no pagamento por cliques nos links de
anúncios disponibilizados nas buscas.
32
AdSense: sistema de pulicidade da Google que implica na disponibilização de links patrocinados
pela Google colocados dentro de páginas da web.
33
As ações da Google Inc., lançadas na bolsa em agosto de 2004, já haviam quase quintuplicado de
valor em novembro de 2005.
46
polêmico Orkut está liderando o que, tecnicamente, se chama de “Web 2.0” (um
O que importa é que, em maior ou menor grau, todas as pessoas com acesso à
“Look, if this Google thing pans out, then great. If not, you can return to graduate school and
A cada dia que passa mais e mais pessoas se convencem que, depois da
vantagem da internet foi tornar a informação uma commodity35. Mas faltava aquilo
que nas outras commodities levou centenas e até milhares de anos para que
ficassem tão conhecidos, utilizados e produzidos por tantos atores que justificasse o
nome.
costumam dizer que o Google tem esse potencial porque assim como a Microsoft -
mundo, das milhões de homepages, numa commodity. E foi além: através de seus
34
“Olha, se essa coisa de Google der certo, então ótimo. Se não, você pode tratar de retornar para a
Universidade e terminar sua tese”. Tradução livre do autor.
35
Commodity: insumo que outra pessoa com seu talento pode transformar.
47
informações.
Orkut, polêmica comunidade virtual fundada nos EUA e que curiosamente despertou
já correspondem a 80% (oitenta por cento) dos usuários ativos. Essa rede virtual
a empresa Google Brasil, versando sobre crimes cometidos por alguns usuários
pela qual transita o mundo moderno onde é difícil separar o mundo virtual do mundo
aplicativo para a distribuição das equipes e análise geográfica da área. Por outro
lado, tal aplicativo possui potencial para planejamento de ações terroristas, como
trabalho não irá abordá-las por fugir ao escopo inicial do tema. Apenas o aplicativo
48
“Google Desktop Search” será objeto de análise mais minuciosa por representar o
tópico importa somente afirmar que novas tecnologias são e serão sempre bem-
vindas, porém o uso que delas é feito, para o bem ou para o mal é que vai definir
evolução através das versões “beta test” muitas ferramentas e novidades vêm sendo
melhor proveito acerca de todas as possibilidades que este software pode oferecer.
estas novidades, que se prestam em sua maioria ao usuário final. Mas nada impede
inteligência da corporação.
uma forma que não interessa ao Departamento de Polícia Federal, no que tange aos
em rede de uma forma segura e eficaz. Isto será discutido no próximo capítulo,
Ações Proibidas
36
concordância do usuário com os termos de utilização do software. Tradução livre do autor.
51
Distribuição
Assim que você obtiver a permissão da Google, você poderá fazer cópias
do Google Desktop e distribuir tais cópias a outros, tendo em vista que
qualquer receptor tenha tido a oportunidade de examinar e concordar em
se vincular por estes Termos e Condições. Caso outros a quem você
gostaria de distribuir o Google Desktop não tenham a oportunidade de
examinar e concordar com estes Termos e Condições, mas ainda assim
você queira distribuir cópias a eles, você poderá fazê-lo desde que você
tenha o direito legal de vincular cada um destes terceiros a estes Termos e
Condições. Caso você não tenha este direito e os receptores não tenham a
oportunidade de examinar e concordar com estes Termos e Condições,
você não poderá distribuir o Google Desktop a eles. Caso você tenha
alguma pergunta relacionada aos termos de distribuição, por favor nos
contate visitando a página desktop.google.com/feedback.html.
Atualizações Automáticas
Prática de Informação
Propriedade Intelectual
52
Opiniões ("Feedback")
Isenção de Garantias
Limitação de Responsabilidade
Provisões Variadas
Como podemos observar, não é apenas no Brasil que são redigidos contratos
que basta a adição de referência aos direitos autorais da Google sobre o software
contrato:
usuário para que o mesmo configure suas opções de funcionamento. Tais opções
(quatro) abas, que serão analisadas a seguir, tomando-se como base a versão beta
às configurações gerais:
Ilustração 4
arquivos que serão indexados. A tela mostrada acima já apresenta adaptações para
constante na lista de itens apresentados. A seguir passo a analisar cada uma das
DPF– encontram-se em formato .RTF (rich text format). Destarte, foram feitas
adaptações para que tal formato fosse incluído nas opções de indexação
geral de arquivos.
58
máquinas clientes não será indexado por default, tal opção poderia ser
pesquisa dos analistas, visto que cada pesquisa realizada gerará um novo
3
37
gerados pelo Microsoft Office da Microsoft. 99% (noventa e nove por cento)
respectivamente.
Ilustração 5
remotos, localizadas dentro de uma rede local, desde que a pasta de origem na
comandos básicos aplicados na máquina host que pode ser também uma estação
cliente do servidor.
Esta opção foi devidamente adaptada para funcionar com grau eficaz de
informação contida em uma máquina cliente ou servidor pode ser considerada fonte
busca aquilo que não está afeito ao propósito de se criar um banco de dados
restrito.
gerado pelo aplicativo. A tentação em fazê-lo pode ser grande, porém testes práticos
irrelevantes esta opção pode ser ativada. Em caso contrário, deve permanecer
domínio DCOR7.
desempenho do servidor e a velocidade das buscas, pois toda vez que o índice é
consultado para ser disposto na interface gráfica o sistema compara o índice com o
tópico específico.
Não obstante, é interessante para uma base de dados que ela fique
de que um usuário final venha excluir algum arquivo acidentalmente, por exemplo,
fim de se eliminar o ruído existente, pode ser feita de outra forma que será tratada
mais adiante.
Ilustração 6
gerado um índice múltiplo de cada máquina conectada e logada com a mesma conta
privativa do GOOGLE, que pode ser obtida através do G-mail, do ORKUT ou de uma
Tais índices são armazenados nos servidores centrais da Empresa nos EUA
41
Gadgets: Tradução: dispositivo eletrônico ou mecânico. Denominação atribuída aos acessórios do software.
64
tem gerado muitas críticas nos meios de TI, pois de qualquer forma eles serão
da empresa acerca deste recurso específico pode ser acessada a partir dos
endereços abaixo:
http://desktop.google.com/features.html
http://desktop.google.com/privacypolicy.html
desativadas:
65
Ilustração 7
pesquisa que interessam mais ao usuário final que tem o aplicativo instalado em sua
Ilustração 8
Em seguida temos a opção de ativação da barra de pesquisas rápida, que
irmão, incansável pesquisador da WEB. Esta opção deve estar sempre ativada
como “pesquisar no Desktop” por padrão. Caso contrário os resultados obtidos não
66
armazenada localmente.
que sempre se situe no máximo possível a fim de facilitar sua visualização por
parte do analista de informações. Somente tem aplicação para uso local, não
Esta opção deve ser sempre configurada como “pesquisar por padrão” pois
não é interessante a abertura dos arquivos encontrados mas sim da sua cópia
visualização por parte do usuário. O limite atual é de 100 (cem) resultados por
página.
Ilustração 9
não dos recursos avançados. Os recursos avançados são necessários para a busca
situados no Estado da Califórnia, nos EUA, para posterior consulta por parte das
68
humano, porém é na aplicação dos métodos que ainda ocorrem as maiores falhas
os segredos de seus produtos para que não sejam copiados pelos concorrentes
69
comerciais.
colocada à disposição dos usuários. Tais informações podem ser acessadas a partir
do endereço: http://desktop.google.com/features.html#advancedsearch.
preciso saber que não basta digitar uma seqüência de palavras chave e aguardar
maiúscula, pois se você fizer uma busca, por exemplo, por carlos silva, pode
chegar a páginas que mostram itens que foram batizados com nomes
42
HomePage: página de origem, página pessoal, primeira página.
43
Booleano: Sinônimo de operador lógico. Operador de álgebra de Boole, matemático criador deste sistema.
70
• Se não souber qual a grafia correta de uma palavra, você pode usar o
(asterisco - *). Exemplo: você procura o nome Christopher, mas não sabe
como se escreve. Digite C*risto* e terá páginas que contém Christopher (em
• Para fazer uma busca exata, coloque um ponto final na palavra a ser
pesquisada.
buscador irá encontrar sites que tenham a palavra shareware em sua url. Se
usar o operador til (~) seguido da palavra a ser pesquisada, sem espaços.
o AND tem o mesmo significado que o sinal "+". Ex.: hotéis AND "Rio de
aspas. Ex.: Rio OR Janeiro irá buscar sites que contenham somente
o NOT é uma seleção com seleção. Ex.: hotéis AND "Rio de Janeiro"
o NEAR garante que duas palavras ou frases de sua busca não deverão
aqui algumas das principais sintaxes utilizadas e que podem ser muito úteis
na busca:
define: google
o intitle: restringe a busca nos títulos das páginas. Por exemplo, você
o inurl: faz a busca somente nas URLs desejadas. Vamos supor que se
o link: retorna uma lista de páginas relativas a uma URL específica. Não
Será feita a procura apenas nas páginas que possuem link para o site
da UFPel;
o cache: esta sintaxe busca uma cópia da página indexada pelo Google,
mesmo que ela não esteja mais disponível on line ou que tenha sofrido
podemos notar que alguns links não estão mais disponíveis e vários
ter sido indexado pelo Google. Além disso, é importante lembrar que
7334
maioria adaptadas para o idioma inglês e para usuários residentes nos EUA, e que
Ilustração 10
aparece nova caixa de texto contendo o termo empregado na pesquisa. Isto além de
confirmar ao usuário se a inserção dos dados foi digitada de forma correta possibilita
primeira.
Acima da caixa de texto são dispostos atalhos para links externos de serviços
disponibilizados pela Google. Tais atalhos não foram retirados da interface por
É custoso admitir, porém não se pode negar que a Imprensa às vezes obtém
conhecimento do fato.
Ilustração 11
caso. Este campo guarda estreita correlação com as opções de busca delimitadas
ser filtrados através do tipo de arquivo que se deseja visualizar através do uso desta
nada impede que se utilize a opção “por relevância”, sendo que neste caso a
sistema, a fim de impedir remoções acidentais por parte do usuário. Esta opção
“ruído”, sendo que a remoção de um item do índice não implica na remoção física do
arquivo, apenas determina ao algoritmo que marque aquele item específico como
não pesquisável.
negrito, para dar uma noção mais apropriada ao usuário acerca da utilidade da
onde se encontra o arquivo matriz, bastando passar o mouse por cima do texto para
pasta foi desabilitada na versão de testes por dois motivos principais: por questões
autorizado.
77
informação que ele busca pode ser mais facilmente encontrada consultando-se a
Ilustração 12
tela semelhante a esta disposta abaixo, onde o termo é realçado em amarelo para
Ilustração 13
bem prática. Também lá se encontra situada nova caixa de texto de pesquisa com
Ilustração 14
resultados. Isto significa dizer que sempre que o formato do arquivo for suportado
bem intuitivo e de fácil assimilação pelo usuário que desta forma pode filtrar tais
4.2.5 Plug-ins
desenvolvedores, abrindo por assim dizer seu código-fonte ao público de TI, a cada
dia mais e mais inovações são acrescentadas ao software original. Tais inovações
Não cabe nesta obra uma análise detalhada a respeito de todos eles. Serão
função diferenciada:
46
Texto disponível a respeito deste assunto a partir de: http://desktop.google.com/plugins/
81
dinâmico (DLLs);
Além dos executáveis também são instaladas na máquina host uma série de
mapeadas e pastas compartilhadas na rede local. Embora não seja ainda o ideal
para pesquisas em rede, torna-se muito funcional para integrar dados contidos em
ínfimo.
gratuita de uma funcionalidade como esta, pois é patente o valor agregado que ela
GDS para edições corporativas adaptadas para pesquisar dentro de uma Intranet.
apresentadas com hardware próprio, cujo custo se situa a partir de US$ 1,995.00
para a busca de 50.000 documentos até US$ 30,000.00 para a busca de 500.000
documentos ou mais. Ao que parece não faltaram clientes para efetivar a compra49.
48
5 O PROJETO PROMETHEUS
Autor deste Projeto, que pesquisou com afinco a respeito de como racionalizar e
O impulso inicial foi dado pelo ilustre Delegado de Policia Federal Antônio
Celso dos Santos quando solicitou ao Autor, nos idos de 2004, que organizasse a
técnicas de Data Warehousing para tratar uma base de dados daquelas dimensões
sendo que diariamente chegavam novas informações que eram arquivadas pelos
todas as tentativas restaram infrutíferas, pelos mais diversos motivos dentre os quais
dos dados por fatores tais como custo, falta de tempo e de mão de obra, porque não
Sabe-se que este é um conceito polêmico, que causa arrepios àqueles que no
cotidiano do mundo em que vivemos nos apresentam uma outra face: a necessidade
aquele que se propuser a tentar algo novo que não preencha obrigatoriamente
expectativas e até a presente data existe a cobrança por parte de vários Delegados
85
de Polícia Federal para que se proceda à expansão do sistema para outras unidades
da Federação.
exclusivamente via intranet/DPF, para utilização plena por parte dos analistas de
de Polícia Federal.
5.1 Conceito
transformar um site FTP50 em uma unidade de rede local. Isto supre a deficiência
várias pastas com aquelas que representam as Delegacias dentro do servidor FTP e
este processo além de automatizado pode ser agendado como uma tarefa do
5.2 DNKA
sistema.
51
Shadow copy: Técnica de cópia de alta fidelidade dos arquivos originais que permite a cópia de arquivos em
uso pelo sistema operacional.
88
equivalente a aproximadamente R$80,00 (oitenta reais) para que seja procedido seu
registro com o fabricante, o que pode ser feito on-line acessando-se sua home page
a partir de http://www.dnka.com/register.html .
Licensing
Warranty
This software is provided "as is" and any express or implied warranties,
including but not limited to, the implied warranties of merchantability and
fitness for a particular purpose are disclaimed.
52
Shareware: Software distribuído como "experimente antes de comprar". Este programa disponível precisa ser
registrado para receber sua versão completa.
89
Use
Restrictions
You may not emulate, clone, rent, lease and sell the software. Also, you
may not modify, decompile, disassemble, otherwise reverse engineer, or
transfer the program, or any subset of the program, except to the extent and
for the express purposes authorized by applicable law. Any such
unauthorised use shall result in immediate and automatic termination of this
licence and may result in criminal or civil prosecution.
Changing the software, the documentation, the distribution form (archive) or
any other part of the software in any way is strictly prohibited.
Distribution
Trademarks
All brand names and product names used are trademarks or trade names of
their respective holders.
All references, logos, images, names, products, software and hardware are
or may be copyrights or trademarks of their respective companies.
No infringement is intended.
Termination
The DNKA Software may terminate this EULA if you fail to comply with the
terms and conditions of this EULA. In such event, you must destroy all
copies of the software including license keys.
Contact Information
WWW: http://www.dnka.com/
E-mail: info@dnka.com”53
53
Tradução: “Termo de Contrato do Usuário Final para o uso do DNKA
Licença
Garantia
Uso
Se este programa for licenciado como “pago”, então somente uma cópia deste
programa poderá ser instalada em um único computador ou servidor, podendo ser
utilizada por diversos clientes.
Restrições
Você não pode emular, clonar, alugar ou vender este programa. Também não pode
modificar, descompilar, desassociar ou usar engenharia reversa para extrair este
programa ou qualquer de seus componentes, exceto dentro de certos limites e
para propósitos legítimos e amparados legalmente (grifo meu). Qualquer uso
em desacordo com esta autorização poderá implicar na rescisão desta licença e em
processo civil ou criminal. Modificar o funcionamento do programa, a
documentação, a forma de distribuição (arquivo eletrônico) ou qualquer parte do
programa é terminantemente proibido.
91
comunicação local pode ser pré-definida e no caso de não haver outro aplicativo no
servidor rodando serviços baseados na plataforma WEB, pode ser configurado para
acesso pela porta 80, utilizada para navegação normal pela internet.
intranet do CTI/DPF, que pode ser acessada digitando-se seu endereço IP:
Neste protótipo o servidor foi definido para acesso através de seu IP:
proposto:
Distribuição
Marca Registrada
Rescisão
Ilustração 15
item 4.2.1.1.
Ilustração 16
Ilustração 17
“controle de IPs”. Nesta interface são acrescentados e/ou removidos os IPs das
Ilustração 18
A próxima aba permite a criação, exclusão e gerenciamento dos usuários
54
IPtable: Filtro de pacotes que tem funcionamento similar, porém menos funcional que o firewall de dados.
95
Ilustração 19
portas e proceder à reindexação parcial ou total do índice, muito embora esta última
desta configuração:
Ilustração 20
5.3 TWEAK GDS
ainda deixa muito a desejar, falhando em algumas ocasiões enquanto que este
96
dos sites FTP mapeados como unidade de rede, ao contrário da mensagem de erro
que ocorre quando se tenta fazer o mesmo através da configuração nativa do GDS
de forma isolada. Sem o uso deste plug-in não é possível indexar unidades de rede
servidor.
Como já mencionado, o Autor acredita ser tal bug incluso de forma velada
pela empresa Google a fim de impedir o uso gratuito de seu software em intranets
utilização, mesmo que comercial e o Autor trocou várias mensagens de e-mail com o
Autor deste plug-in, o Doutor Nathan Evans da Podsync.com sediada nos EUA, a fim
alteração ou forma de uso final, dispões apenas acerca da falta de garantias por
parte do Autor e pode ser acessada a partir do arquivo de texto baixado junto com a
instalação:
“License Agreement
=================
============================================
===
97
E-Mail: support@podsync.com
Website: http://www.podsync.com
partir de http://podsync.com/TweakGDS_help.htm .
intuitivos. É preferível usar a versão mais antiga deste software, a 1.1, de apenas 46
55
“Concordância com a Licença
=================
E-Mail: support@podsync.com
Website: http://www.podsync.com
98
Ilustração 21
É necessário ter em mente, porém, que o aplicativo GDS tem que ser
Este software é uma extensão shell do windows que permite a navegação por
local.
funcionalidades deste último. Possui suporte para SSL – Security Socket Layer, SSH
FTP.
http://72.14.209.104/search?
q=cache:OiGy2RA7rFAJ:www.tucows.com/preview/195128+internet+neighborhood&
hl=pt-BR&gl=br&ct=clnk&cd=3.
expiração do prazo concedido para teste) simplesmente fechou suas portas. Parou
Isto pode ser verificado através do acesso à sua home page a partir de:
Não obstante tal fato atípico, ocorre que o software de teste continua
Por outro lado, o software sugerido “WEB Drive” deixa muito a desejar no
quesito estabilidade. Não existe comparação plausível entre os dois softwares, pois
Abre-se então uma lacuna jurídica a respeito do uso do citado aplicativo para
uso corporativo, pois embora o preço da citada licença seja extremamente baixo:
aproximadamente R$ 80,00 (oitenta reais), não há como nem a quem pagar por ela.
Autor e baseado em princípios básicos do direito pátrio, não poderia mais cobrar
pelo produto. A partir destes fatos prevalece a presunção juris tantum de que o uso
portanto, a um freeware.
acessados a partir das opções de acesso ao programa através dos atalhos “Internet
Ilustração 22
cada uma delas ocuparia uma porção considerável no presente trabalho. Importa
seguinte tela:
102
Ilustração 23
Ilustração 24
Ilustração 25
O sistema tal como proposto e delineado nas linhas acima se mostra capaz
Tais sites estão conectados, por sua vez, a três diferentes IPs criados a partir
pelos outros, conforme o desejo exposto pelos Diretores das respectivas Divisões, a
do DPF.
por ser a unidade local, restam portanto 25 unidades a serem distribuídas por 27
Divisão poderão acessar seu banco de dados exclusivo, versando sobre crimes
periódicas dos índices, seja do usuário que gera a informação, pois as informações
baixadas pelos demais analistas, pelos Delegados Adjuntos e pelo chefe da Divisão
correspondente.
dedicado à segurança do sistema, visto implicar na definição por parte das chefias a
Federal.
servidores FTP.
ou 2003 Standard Edition. A opção pelo uso destes sistemas se deve à estabilidade
usuários. Apresenta também suporte ao formato NTFS, mais seguro que o FAT e à
reproduzidos a seguir:
56
Acesso a partir de: http://www.dewassoc.com/support/win2000/require.htm e de
http://www.microsoft.com/windowsserver2003/evaluation/sysreqs/default.mspx, respectivamente.
107
Ilustração 26
108
Component Requirement
desempenho satisfatório.
velocidade de clock a partir de 600 MHZ , 256 MB de memória RAM, placa mãe off-
board com no mínimo três slots PCI livres e um hard disk de 80 GB ou dois de 40
GB podem ser utilizados perfeitamente como servidores FTP ou Web Servers para a
não deve ser um fator de preocupação em relação a custos, afinal uma boa placa de
rede pode ser adquirida atualmente no mercado por valores que não ultrapassam
(seis) unidades tendo em vista o gerenciamento de três sites FTP e três servidores
outros.
representado a seguir:
110
/
GSERVER DCOR7
DCOR/DPF DPAT/DPF
DARM/DPF DFIN/DPF
SUPERINTENDÊNCIAS
DRCOR/SR DELEPAT/SR
DELEARM/SR DELEFIN/SR
DELEGACIAS
Ilustração 28
GSERVER
Os usuários em missão nosDCOR/DPF
escritórios externos que se conectam aos
ESCRITÓRIOS
OUTROS
111
sistemas de consulta corporativos a partir dos aplicativos ACEX57 para banda larga e
proceder consultas nas bases de dados, desde que previamente autorizados pelas
buscas.
DPAT/DCOR DARM/DCOR
GSERVER GSERVER
BANCO DE BANCO DE
DADOS DADOS
DPAT/DCOR DARM/DCOR
POSTO POSTO
AVANÇADO AVANÇADO
DELEPATS DE DELEARMS DE
OPERAÇÃO OPERAÇÃO
DFIN/DCOR
GSERVER
BANCO DE
DADOS
DFIN/DCOR
57
POSTO
AVANÇADO
DELEFINS DE
OPERAÇÃO
Acex: programa de computador que permite a certificação e autenticação de conexões VPN remotas através de
LANs.
58
Office dial: conexão discada disponibilizada pela Embratel que permite a certificação e autenticação de
conexões dial-up através de uma conexão externa para acesso a uma rede corporativa.
112
Ilustração 29
5.5.4 Automatização da alimentação do Banco de dados - periodicidade
GDS no Projeto, qual seja a de ser o responsável pelas tarefas de agendamento das
atualizações dos índices de arquivos disponibilizados para consulta por parte dos
usuários do sistema.
agendada para ser executada diariamente a partir das 22:00h por exemplo. Diversas
5.6 SEGURANÇA
e Formas de Proteção.
partir de sua leitura podemos definir alguns critérios acerca do que seja um sistema
técnicas de tunelamento SSH, transferência segura via FTP, tráfego na rede, IPs e
Uma boa senha deve ter pelo menos oito caracteres (letras, números e
símbolos), deve ser simples de digitar e, o mais importante, deve ser fácil de
lembrar.
softwares para quebra de senhas, pois não possuem números e símbolos, além de
Quanto mais "bagunçada" for a senha melhor, pois mais difícil será descobri-
sinais de pontuação. Uma regra realmente prática e que gera boas senhas difíceis
forte escolhida, é preferível anotá-la e guardá-la em local seguro, do que optar pelo
enviadas ao administrador do sistema via e-mail funcional o qual, por sua vez,
da mesma.
sufixo departamental.
saber com precisão quem acessou o quê, quando e a partir de onde. Os relatórios
prática comum de empréstimo de senhas a colegas de serviço deve ser abolida, sob
risco do usuário que assim proceder responder por violação da conduta profissional,
Federal.
no browser. Estes são utilizados pelos sites de diversas formas, tais como:
• guardar a sua identificação e senha quando você vai de uma página para
outra;
comércio eletrônico;
• manter a lista das páginas vistas em um site, para estatística ou para retirar
usuário ao navegar pela Internet. Como o método de pesquisa utilizado pelo sistema
série de informações, de modo que os cookies podem ser utilizados para manter
Estas informações podem ser utilizadas por alguém mal intencionado, por
tanto no servidor de busca como nas máquinas clientes é imprescindível que seja
máquina cliente não conseguirá acessar sites de bancos comerciais que se utilizam
necessária, portanto, a habilitação dos cookies somente para estes sites como
sites que permitem que anonimidade. Estes são conhecidos como anonymizers e
informações por ele fornecidas não serão repassadas para o site visitado. Neste
ser acessadas para total compreensão do mecanismo a partir dos endereços abaixo
relacionados:
• http://www.google.com/privacy.html
• http://www.google.com/privacypolicy.html#information
• http://desktop.google.com.br/pt/BR/privacypolicy.html
de segurança
Como visto, existem brechas que devem ser sanadas. Um órgão Policial do
porte do Departamento de Polícia Federal, que lida com informações sensíveis, não
pode ficar à mercê de uma companhia estrangeira, por melhor conceituada que seja
como é o caso da Google, de forma que exista risco, por menor que seja, de que
Para dar um ponto final a esta questão foi estipulado o uso de um firewall.
instalados no computador.
de e-mail, cavalos de tróia e outros tipos de malware, antes mesmo que os antivírus
entrem em ação.
RTechHandle: ZG39-ARIN
RTechName: Google Inc.
RTechPhone: +1-650-318-0200
RTechEmail: arin-contact@google.com
OrgTechHandle: ZG39-ARIN
OrgTechName: Google Inc.
OrgTechPhone: +1-650-318-0200
OrgTechEmail: arin-contact@google.com
As únicas portas locais que devem ser liberadas devem ser as de número 21,
FTP entre o GServer e o servidor FTP localizado nas Superintendências e deve ser
institucionais.
59
Port fowarding: regra de firewall que roteia o tráfego de entrada através de uma porta para outra porta de
entrada.
122
download de arquivos ou índices por parte das máquinas clientes, em caso de falha
do IPtables do DNKA, ataque ou tentativa de invasão. Isto ocorre porque não haverá
este serviço.
longo demais para ser tratado neste trabalho, além de ser o segredo de todo bom
segurança corporativa.
tentativas de acesso não autorizado ao seu computador, para serviços que podem
Em linhas gerais, isto quer dizer que tanto o firewall corporativo como o
IPtables do DNKA criam ininterruptamente logs, tanto dos acessos autorizados como
usuário abusivo, para que seja aplicada a punição por parte da Administração.
respectivos banco de dados. O arquivo de log do DNKA pode ser acessado pelo
Ilustração 30
Ilustração 31
saber com precisão quem acessou o quê e a partir de onde como anteriormente
Ilustração 32
No exemplo acima, é possível observar que o computador com endereço IP
de diretórios.
pelo serviço.
Como se pode observar o sistema da forma como foi proposto prima pelo
arquivos de um lugar para outro na Internet. Inclusive existe suporte até para os
sistemas Mainframe.
Para utilizar o FTP, a máquina realiza uma conexão com o servidor FTP na
• O servidor inicia uma conexão utilizando a porta 20, tendo como destino uma
• O seu computador pode abrir uma conexão a partir de uma porta variável com
que será utilizada (ativa ou passiva) e quais as portas que serão utilizadas para
estabelecer a conexão.
Sendo assim, todas as vezes que o firewall identifica que uma transferência
60
IIS: (Internet Information Services) é um servidor de páginas web criado pela Microsoft para seus sistemas
operacionais para servidores.
127
comerciais e bancárias;
ou seja, somente aquele que enviou e aquele que recebeu devem ter acesso ao
conteúdo da mensagem. Além disso, uma mensagem deve poder ser assinada, ou
pessoa que diz ser e ter a capacidade de identificar se uma mensagem pode ter sido
modificada.
uso de uma ou mais chaves. A chave é uma seqüência de caracteres, que pode
mensagens.
única e a criptografia de chave pública e privada. Não cabe neste trabalho uma
discussão mais detalhada acerca do tema. É importante frisar apenas que o uso do
protocolo SSH possibilita com que se trabalhe com praticamente todos os tipos de
A partir da leitura do texto acima é possível inferir que seria talvez mais
máquina.
Como visto nos tópicos anteriores, uma transferência passiva FTP implica no
Contudo, ao utilizar um servidor SSH para criar uma conexão segura para tais
130
transferências a porta a ser utilizada será aquela definida pelo administrador e não
por default pela CTI/DPF em toda a rede para acesso às páginas HTML da internet e
intranet. Esta porta será a mesma utilizada para acessar o banco de dados, portanto
o fluxo de dados se dará entre os endereços IPs das máquinas clientes e aqueles
configuração do sistema.
acrescentar que tal fato possibilita velocidades de conexão da ordem de até 500
kbps, o que somado ao fato de que as versões em cache dos arquivos ocupam
61
DHCP: (Dynamic Host Configuration Protocol) Protocolo de serviço TCP/IP, que oferece configuração
dinâmica com concessão de endereços IP e distribui outros parâmetros de configuração para clientes de rede.
131
DPF, já que a maioria encontra-se com sua capacidade estrangulada pelo crescente
DCOR/DPF
Federal é a feudalista (vide item 2.7). Todos querem ter acesso à informação, porém
entender isto é contraproducente para o analista, pois o criminoso que trafica drogas
(CGPRE) também está envolvido com assalto a bancos (DPAT), negocia armas
dados de outra.
132
Contudo, foi colocado por alguns membros que não seria interessante que
curto prazo.
interferências externas cuja fonte fosse obtida em suas próprias trincheiras. Esta
discussão ideológica ainda não foi totalmente definida e estão agendadas reuniões
caso, a palavra final será dada pelo Senhor Diretor da DCOR/DPF, Doutor Getúlio
Bezerra Santos.
integração com o NUINF/SR/DPF por considerarem que o presente Projeto não fere
análise dos dados serão oferecidas, portanto, perante a ilustre banca examinadora.
62
Tokens: Tokens em computação é um segmento de texto ou símbolos que podem ser manipulados por um
“parser” (programa de computador ou parte dele que analisa a estrutura gramatical de uma entrada de dados).
63
Smart Cards: Cartão de plástico semelhante ao de crédito, com um chip que armazena informações
criptografadas.
134
6 METODOLOGIA
provas de conceito.
horas cada.
Organizado.
Tal fase ainda não foi implantada tendo em vista a necessidade de reunião,
ainda não realizada até a presente data, entre todas as chefias envolvidas para
departamental.
136
7 CONCLUSÃO
inteligência no futuro.
64
I2: Software comercializado pela Empresa Tempo real que abrange uma suíte de produtos destinado à análise e
manipulação de dados possibilitando o cruzamento e a disposição de forma gráfica das informações obtidas.
137
REFERÊNCIAS
BATTELE, JOHN. The Search. Portfolio, 2005, 311 p. ou, em português, A Busca.
Campus, 2005, 288 p.
BELKIN, N. J.; ODDY, R. N.; BROOKS, H. M. Ask for information retrieval. Journal
Documentation, 38, n. 2, p. 61-71, Part I, n. 3, p. 145-65, 1982. Part II.
BRACKETT, M. H. The data warehouse challenge: taming data chaos. New York:
John Wiley & Sons, 1996.
CHEN, Heisung et al. Internet browsing and searching: user evaluations of category
maps and concept space techniques. Journal of American Society for Information
Science, v. 49, n. 7, p. 582-603, 1998.
CHEN, M. S.; Han, J.; Yu, P. S. Data mining: an overview from a database
perspective. IEEE Transactions on Knowledge and Data Engineering, v. 8, n. 6,
1996.
DAVENPORT T. H.; HAMMER, M.; METSISTO, T. How executives can shape their.
[S.I]: [s.n.].
DEMO, Pedro. Metodologia científica em ciências sociais. São Paulo: Atlas, 1995.
293 p.
139
DUPUY, Jean-Pierre. Nas origens das ciências cognitivas. Trad. de Aux origines des
sciences cognitives. São Paulo: Ed. UNESP, 1996. 228 p.
HAHN, Trudi Bellardo. Text retrieval online: historical perspective on Web Search
Engines. Bulletin of the American Society for Information Science, v. 24, n. 4 ,7-10,
abr./maio, 1998.
HOCK, Randolph. Web search engines: features and commands. Online, v. 23, n.3,
maio/jun., 1999.
KIMMEL, Stacey. WWW search tools in reference services. The reference librarian,
v. 57, p. 5-20, 1997.
KINI, R. B. Strategic information systems: a misunderstood concept? Information
Systems Management, Boston: Fall, v. 10, n. 4, p. 42-45, 1993.
KIRRIEMUIR, John et al. Cross-searching subject gateways: the query routine and
forward knowledge approach. D-Lib Magazine, jan. 1988. Disponível em:
<http://www.dlib.org/january98/01kirreiemuir1/html>. Acessado em 3 set. 2006.
KOTTER, J. P. The General Managers. New York: Free Press, 1982a, 221 p.
MAUDUIT, J. A. Quarenta mil anos de arte moderna. Belo Horizonte: Itatiaia, 1964.
271 p.
MEDEIROS, Norm. XML and the resource description framework: the great web
hope. ONLINE, set. 2000. Disponível em:
<http://www.onlinemc.com/onlinemag/OL2000/mederios89.html>. Acessado em: 31
ago. 2006.
MINTZBERG, H. The manager's job: folclore and fact. Harvard Business Review,
Boston, v. 54, n. 4, p. 49-61, jul./ago. 1975.
POULTER, Alan. The design of World Wide Web search engines: a critical review.
Program, v. 31, n. 2, p. 131-145, abr. 1997.
REVISTA EXAME, Feiras que valem ouro, ed. 548, a. 26, n. 1, jan. 1994.
ROBINS, David. Interactive information retrieval: context and basic notions. (Special
issue on Information Science Research). Informing Science, v. 3, n. 2, 2000.
144
SCHWARTZ, Candy. Web search engines. Journal of the American Society for
Information Science, v. 49, n. 11, p. 973-982, 1998.
SHERMAN, Chris. The future of Web search. Online, v. 23, n. 3, p. 54-61, maio/jun.
1999.
SULLIVAN, Danny (Ed.). Search engine watch: tips about Internet search engine.
Disponível em: <http://www.searchenginewatch.com/>. Acessado em 27 ago. 2006.