Escolar Documentos
Profissional Documentos
Cultura Documentos
e o Google, mais de 409.000? No pelo sistema de busca de imagens, que muito parecido: na verdade, o que so procuradas so referncias textuais a figuras ou elementos grficos contidos em pginas HTML. Ao procurar por imagens JPEG, por exemplo, o Google ou o Altavista procuram pela ocorrncia da expresso .JPG no cdigo da pgina. Ao procurar, ento, por Linux, o Google identificar, em uma pgina qualquer, uma imagem que corresponda busca requerida assim:
Como isso no ajuda muito o usurio, o Google trata de enviar as informaes necessrias para que o browser da pessoa que faz a consulta consiga visualizar a pgina de resultados e as imagens encontradas, como a pgina do exemplo abaixo:
14 Segredos do
Para resolver esse problema, o Google disponibiliza a funo pginas do Brasil, que faz com que a pesquisa seja filtrada somente em pginas localizadas em servidores brasileiros ou terminadas com o sufixo .br.
erati by Diger 2004 by Digerati Books Todos os direitos reservados e protegidos pela Lei 5.988 de 14/12/1973. Nenhuma parte deste livro, sem autorizao prvia por escrito da editora, poder ser reproduzida ou transmitida sejam quais forem os meios empregados: eletrnicos, mecnicos, fotogrficos, gravao ou quaisquer outros. Diretor Editorial Diretor Editorial Luis Matos Editoral Assistente Editoral Monalisa Neves Redator Tadeu Carmona Reviso Reviso Rosangela Cesar Capa Daniele Oliveira Arte Projeto Grfico Arte e Projeto Grfico Patricia Fernandez Ferrari
SEGREDOS DO GOOGLE
Diger Comunicao erati ecnologia Digerati Comunicao e Tecnologia Ltda. Rua Haddock Lobo, 347 12 andar CEP 01414-001 So Paulo/SP (11)3217-2600 Fax (11) 3217-2617 www.digerati.com Diretor etores Diretores Alessandro Gerardi (gerardi@digerati.com.br) Luis Afonso G. Neira (afonso@digerati.com.br) Alessio Fon Melozo (alessio@digerati.com.br) ISBN: 85-89535-43-6 Impresso Acabamento Impresso e Acabamento Oceano Indstria Grfica Ltda. Bem-vindo ao Universo Google 13
PREFCIO
Utilizando-se, porm, o conjunto de termos entre aspas placa de captura ATI formaremos uma expresso exata, que ser utilizada para delimitar o resultado da busca, como pode ser visto abaixo:
Parece at lista telefnica da China. So nada menos do que 1,3 bilho de pginas reunidas em um nico local. O nmero de consultas que recebe quase igual ao nmero de habitantes do Brasil. Difcil matar a charada? Ento a vai mais uma dica: seu nome formado por um trocadilho com a palavra googol, que foi inventada por Milton Sirotta, sobrinho do matemtico americano Edward Kasner, para designar o nmero representado por 1 seguido de 100 zeros. Agora ficou fcil. Seu uso to difundido que ele originou um verbo amplamente difundido nos Estados Unidos:googlar. Sinnimo de pesquisa, o Google um poderoso sistema de busca na Internet que propicia acesso fcil e rpido a qualquer tipo de informao disponibilizada na Grande Rede em qualquer canto do mundo. certo que ele teve antecessores que sobrevivem at hoje, como Altavista,Yahoo, Cad e cia.. No entanto, inegvel sua superioridade perante a concorrncia. Tal o fenmeno Google, que motivou a criao desse livro focado em ensinar como explorar todo o potencial e as peculiaridades desse poderoso sistema de busca. Sistema esse que, muitas vezes, nos deixa preocupados, uma vez que quase impossvel ter privacidade na Internet. Basta acessar algum servio como o Auxlio Lista (http://www.auxilio-a-lista.com.br/), e escolher o Estado. Voc ser direcionado para o portal da companhia telefnica, no qual pode digitar o nome de uma pessoa para ter acesso a seu endereo e telefone. a tecnologia contribuindo para a falta de privacidade... Mas essa mesma tecnologia permite coisas boas como, por exemplo, navegar por um verdadeiro museu reunindo a maioria das pginas j postadas na Internet desde a sua criao. Quer fazer o teste? Acesse o portal www.archive.org, digite o endereo do site que pretende pesquisar e veja toda a coleo de pginas e layouts que j foram usados em seus anos de existncia. Sem dvida, algo impressionante... Este livro foi escrito para quem deseja conhecer os recursos do Google, e tambm para aqueles que pretendem fazer o papel de investigador pela infovia e desvendar a vida de uma pessoa ou empresa na Web. Em sntese, o pblico-alvo aquele que, como voc, tem sede de conhecimento, buscando acesso rpido ao grande bem da humanidade nos prximos anos, a caracterstica que vai distinguir aqueles que alcanam o sucesso ou no, e que pode ser resumida em uma palavra: informao. Como se v, o lema conhecimento poder nunca foi to verdadeiro... Luis Matos luismatos@digerati.com.br Diretor Editorial
Essa enxurrada de resultados, sobretudo em lnguas hermticas, pode ser contida. Na pgina inicial do prprio Google, basta clicar na opo pginas em portugus para receber resultados somente em nossa lngua-ptria. Mesmo assim, esses resultados incluiro diversas pginas de Portugal (e algumas de Angola), o que uma perda de tempo ao se pesquisar, por exemplo, sobre servios pblicos, ou procurar o menor preo para determinado produto. 12 Segredos do
OR Delimitador de varivel. O OR (sempre em maiscula) utilizado para encontrar pginas em que se encontre um ou outro termo de uma busca. Ao procurar, por exemplo, pelos termos livros e Digerati separando-os com OR, teremos acesso a todas as pginas nas quais todos os termos ocorram, mesmo que no de forma conjunta. Esse delimitador ideal para termos no-corriqueiros, como expresses cientficas ou literrias. NOT (-) Esse operador utilizado para suprimir um determinado termo de uma busca, servindo, portanto, como uma espcie de filtro de contedo. No Google, utilizada a forma de sinal (-) aplicada antes de um termo. Ao procurar, por exemplo, pelo termo Linux, mas querendo excluir os termos Conectiva e Unix, utiliza-se o seguinte comando:
ndice
SEGUNDA PARTE
Voc est no Google O Google e o acesso a informaes pessoais e profissionais ............................................................ 50 O uso de caracteres coringa ..................................................... 53 Descobrindo donos de sites ..................................................... 56 Analisando logs via Google ..................................................... 62 Rastreando cartas e entregas .................................................... 65 Google ajudando os crackers ................................................... 68 Password generator com Google ............................................. 73 Fuando bancos de dados no Google ................................... 76
TERCEIRA PARTE
ASPAS ( ) As aspas so utilizadas na lgica booleana para garantir que uma expresso completa (ou conjunto de termos) seja includa na busca. muito til para o caso de expresses em portugus. Ao procurar, por exemplo, pelos termos placa de captura ATI, teremos como resultado pginas em que pode aparecer tanto a expresso completa quanto apenas os termos placa ou captura, sem nenhuma meno a ATI.
Tudo o que eu preciso saber .................................................... 80 Pesquisa de domnio: como saber tudo sobre um site sem precisar invadi-lo .................................................................... 83 As vrias faces do Google ........................................................ 87 Cuidado com os links falsos .................................................... 91 Dados pessoais via ICQ e MSN .............................................. 93
A lgica booleana
Outro diferencial fica por conta da engrenagem lgica do Google, que utiliza a lgica booleana. Batizada assim em homenagem ao matemtico britnico George Boole, esse sistema estabelece a possibilidade de busca de palavras em um texto, condicionando a exibio de resultados a valores lgicos: um valor deve ser sempre verdadeiro ou falso; um valor no pode ser verdadeiro e falso ao mesmo tempo; matematicamente verdadeiro pode ser definido como 1, e falso, como 0. Visando no delimitar a busca em demasia, so utilizados elementos para incrementar as funes booleanas ou algoritmos de busca utilizados pelo Google. Desses elementos, os mais conhecidos so: AND Esse delimitador utilizado para incluir, em uma expresso, todos os elementos que sero propostos em uma consulta (as operaes booleanas so chamadas dessa maneira, apesar de no serem usadas somente em motores de busca). Esse delimitador utilizado em sua forma booleana na maioria dos buscadores, como, por exemplo, no Altavista.
O Google no utiliza o delimitador AND de forma explcita: basta digitar os termos separados por um espao para sua incluso na busca.
10 Segredos do
extrao de dados, que tornam qualquer busca significativamente mais rpida do que qualquer procura realizada com outros sistemas de busca, a interface ajuda muito. O front-end do Google composto apenas por texto e links em HTML, o que faz com que a pgina retorne buscas quase imediatamente, mesmo em combinaes de hardware-software muito antigas, como um 486 com o Internet Explorer 4, ou navegadores muito simples, como o browser em modo texto Links, utilizado por vrias distribuies Linux. Essa leveza, alm de facilitar a vida do usurio, possibilita que o Google jamais tenha sido retirado do ar por problemas de utilizao, e isso contando que recebe cerca de 200 milhes de consultas por dia. Fazer uma pesquisa no Google to simples quanto carregar a pgina digitando www.google.com.br. No Windows, basta digitar o termo desejado para a pesquisa: suponhamos que voc queira pesquisar alguma coisa sobre gravadores. Digite esse termo na caixa de verificao e clique em Pesquisa Google ou aperte o boto Enter.
Como voc pode ver na figura acima, foram retornados alguns milhares de resultados. Isso comum no s no Google, mas tambm em boa parte dos mecanismos de busca. Esse comportamento reproduz uma lei da matemtica, aparentada teoria dos conjuntos: quanto menos delimitadores h em uma consulta a um conjunto de elementos, maior ser o nmero de elementos presentes no resultado final. como se, sendo menos seletivos ao montar uma lista de convidados para a festa (gordos, magros, pode trazer um amigo, no precisa trazer presente) acabssemos convidando a cidade inteira. Esse um outro grande diferencial do Google. Seu motor de busca capaz de adicionar, sem muito esforo, diversos filtros tanto a novas buscas quanto depurando buscas j existentes. Vamos conhecer alguns deles:
6 Segredos do
da Universidade de Stanford um dos mais concorridos dos Estados Unidos, e talvez do mundo os dois estudantes acabaram por descobrir outros pontos de interesse em comum, entre eles um projeto ambicioso: criar um algoritmo de extrao de dados que possibilitasse a extrao de grandes volumes de informao. Esse projeto era restrito aos sites e bancos de dados da Biblioteca Digital da Universidade de Stanford. Para que fosse possvel fazer buscas fora da rede de Stanford, era necessrio construir um novo motor de buscas, com a capacidade de ler pginas de toda a Web em busca de informao, e montando logo em seguida uma lista de links, acompanhada do contexto de cada uma das pginas encontradas.
Em finais de 1998, a Google Inc. foi fundada oficialmente, utilizando como capital (e recursos para saudar dvidas com a compra de hardware) 100 mil dlares oferecidos por Andy Bechtolsheim, um dos fundadores da Sun, e mais 1 milho de dlares doados por amigos e parentes. Nesses primrdios, o Google era assim:
Um motor de busca uma espcie de catlogo mgico. Mas, diferente dos livros de referncia comuns, nos quais est acessvel a informao que algum organizou e registrou, o catlogo do motor de busca est em branco, como um livro vazio. Ao se realizar uma consulta, a lista de ocorrncias de assunto criada em poucos segundos por meio do trabalho de um conjunto de softwares de computador, conhecidos como spiders (aranhas), que vasculham toda a Web em busca das ocorrncias de um determinado assunto em uma pgina. Ao encontrar uma pgina com muitos links, os spiders embrenham-se por eles, conseguindo, inclusive, vasculhar os diretrios internos desde que eles sejam pblicos, ou seja, tenham permisso de leitura para usurios dos sites nos quais esto trabalhando. Motores de busca muito refinados so capazes de saber exatamente que atualizaes houve em um site usando esse mtodo de scanner.
Foi assim que, em 1996, Larry e Sergey lanaram o BackRub. Baseado em Java e Phyton (voc pode ver um link com uma dvida enviada por Larry a uma lista de discusso especializada no endereo: http://groups.google.com/groups?hl=en&lr= &ie=UTF-8&safe=off&threa dm=page-0701962007020001@qwerty.stan ford.edu&rnum=1&prev=/groups?selm=page-0701962007020001@qwerty.stan ford.edu), o BackRub rodava em algumas mquinas Sun e Intel, localizadas no interior da Universidade. Tanta tecnologia (para a poca) era utilizada para amparar a principal diferena do programa em relao aos mecanismos de busca que haviam surgido no ano e meio em que o pr-Google estava sendo desenvolvido: o BackRub era capaz de pesquisar os links listados dentro das pginas pesquisadas, aumentando consideravelmente o nmero de resultados. O nome Google s seria adotado em 1997, ano em que o projeto deixou de utilizar as mquinas de Stanford. O Google funcionou como era possvel at a primeira metade de 1998, quando, impulsionados pela compra milagrosa de vrios terabytes de disco a um preo muito baixo, os scios decidem montar o CPD (Centro de Processamento de Dados) da empresa na casa (mais especificamente, no quarto) de Larry. Bem-vindo ao Universo Google 7