Você está na página 1de 8

Por que, ento, ao fazer uma pesquisa de imagens relacionadas ao termo Linux, o Altavista encontrou somente 91000 imagens,

e o Google, mais de 409.000? No pelo sistema de busca de imagens, que muito parecido: na verdade, o que so procuradas so referncias textuais a figuras ou elementos grficos contidos em pginas HTML. Ao procurar por imagens JPEG, por exemplo, o Google ou o Altavista procuram pela ocorrncia da expresso .JPG no cdigo da pgina. Ao procurar, ento, por Linux, o Google identificar, em uma pgina qualquer, uma imagem que corresponda busca requerida assim:

Como isso no ajuda muito o usurio, o Google trata de enviar as informaes necessrias para que o browser da pessoa que faz a consulta consiga visualizar a pgina de resultados e as imagens encontradas, como a pgina do exemplo abaixo:

Bem-vindo ao Universo Google 15

BUSCAS AVANADAS NO GOOGLE


Tudo o que foi mostrado no captulo anterior no corresponde a 2% do que o Google consegue fazer. Existem diversas opes de busca avanada e a maioria sem sequer sair da pgina inicial do Google que podem ser utilizadas para incrementar pesquisas e procurar muito mais do que links e pginas Web.

Google: o pescador de imagens


Nem s da busca de textos e referncias escritas feito o Google. O maior buscador de informaes do mundo tambm conseguiu, em menos de 2 anos, tornar-se a principal ferramenta de busca de imagens utilizada na Internet. A possibilidade de se pesquisar imagens na Web j existia antes: o pioneiro nesse tipo de servio era o Altavista, que possui um servio de busca de imagens desde fevereiro de 2000. O Altavista (http://www.altavista.com/image/default), alis, possui muito mais ferramentas de filtragem de imagens do que o Google (http://images.google.com.br/imghp?hl=pt-BR): capaz de diferenciar fotos de elementos grficos, botes e banners, alm de possuir um filtro de cores e um de resoluo de imagem com mais de 22 opes.

14 Segredos do

Para resolver esse problema, o Google disponibiliza a funo pginas do Brasil, que faz com que a pesquisa seja filtrada somente em pginas localizadas em servidores brasileiros ou terminadas com o sufixo .br.

erati by Diger 2004 by Digerati Books Todos os direitos reservados e protegidos pela Lei 5.988 de 14/12/1973. Nenhuma parte deste livro, sem autorizao prvia por escrito da editora, poder ser reproduzida ou transmitida sejam quais forem os meios empregados: eletrnicos, mecnicos, fotogrficos, gravao ou quaisquer outros. Diretor Editorial Diretor Editorial Luis Matos Editoral Assistente Editoral Monalisa Neves Redator Tadeu Carmona Reviso Reviso Rosangela Cesar Capa Daniele Oliveira Arte Projeto Grfico Arte e Projeto Grfico Patricia Fernandez Ferrari

SEGREDOS DO GOOGLE
Diger Comunicao erati ecnologia Digerati Comunicao e Tecnologia Ltda. Rua Haddock Lobo, 347 12 andar CEP 01414-001 So Paulo/SP (11)3217-2600 Fax (11) 3217-2617 www.digerati.com Diretor etores Diretores Alessandro Gerardi (gerardi@digerati.com.br) Luis Afonso G. Neira (afonso@digerati.com.br) Alessio Fon Melozo (alessio@digerati.com.br) ISBN: 85-89535-43-6 Impresso Acabamento Impresso e Acabamento Oceano Indstria Grfica Ltda. Bem-vindo ao Universo Google 13

PREFCIO

Utilizando-se, porm, o conjunto de termos entre aspas placa de captura ATI formaremos uma expresso exata, que ser utilizada para delimitar o resultado da busca, como pode ser visto abaixo:

Outros delimitadores de busca


Existem outros delimitadores de busca simples, mas que so prprios do Google. Eles podem ser localizados logo abaixo da barra de pesquisas, em uma linha que comea com a palavra Pesquisar. O padro dessa linha fazer a pesquisa em toda a Web, buscando informaes em todos os servidores disponveis e que contenham pginas ativas. Utilizando-a ao buscar termos tcnicos-padro ou internacionalizados, como por exemplo ADSL, teremos um retorno absurdo de pginas, incluindo algumas em holands, russo e japons:

Parece at lista telefnica da China. So nada menos do que 1,3 bilho de pginas reunidas em um nico local. O nmero de consultas que recebe quase igual ao nmero de habitantes do Brasil. Difcil matar a charada? Ento a vai mais uma dica: seu nome formado por um trocadilho com a palavra googol, que foi inventada por Milton Sirotta, sobrinho do matemtico americano Edward Kasner, para designar o nmero representado por 1 seguido de 100 zeros. Agora ficou fcil. Seu uso to difundido que ele originou um verbo amplamente difundido nos Estados Unidos:googlar. Sinnimo de pesquisa, o Google um poderoso sistema de busca na Internet que propicia acesso fcil e rpido a qualquer tipo de informao disponibilizada na Grande Rede em qualquer canto do mundo. certo que ele teve antecessores que sobrevivem at hoje, como Altavista,Yahoo, Cad e cia.. No entanto, inegvel sua superioridade perante a concorrncia. Tal o fenmeno Google, que motivou a criao desse livro focado em ensinar como explorar todo o potencial e as peculiaridades desse poderoso sistema de busca. Sistema esse que, muitas vezes, nos deixa preocupados, uma vez que quase impossvel ter privacidade na Internet. Basta acessar algum servio como o Auxlio Lista (http://www.auxilio-a-lista.com.br/), e escolher o Estado. Voc ser direcionado para o portal da companhia telefnica, no qual pode digitar o nome de uma pessoa para ter acesso a seu endereo e telefone. a tecnologia contribuindo para a falta de privacidade... Mas essa mesma tecnologia permite coisas boas como, por exemplo, navegar por um verdadeiro museu reunindo a maioria das pginas j postadas na Internet desde a sua criao. Quer fazer o teste? Acesse o portal www.archive.org, digite o endereo do site que pretende pesquisar e veja toda a coleo de pginas e layouts que j foram usados em seus anos de existncia. Sem dvida, algo impressionante... Este livro foi escrito para quem deseja conhecer os recursos do Google, e tambm para aqueles que pretendem fazer o papel de investigador pela infovia e desvendar a vida de uma pessoa ou empresa na Web. Em sntese, o pblico-alvo aquele que, como voc, tem sede de conhecimento, buscando acesso rpido ao grande bem da humanidade nos prximos anos, a caracterstica que vai distinguir aqueles que alcanam o sucesso ou no, e que pode ser resumida em uma palavra: informao. Como se v, o lema conhecimento poder nunca foi to verdadeiro... Luis Matos luismatos@digerati.com.br Diretor Editorial

Essa enxurrada de resultados, sobretudo em lnguas hermticas, pode ser contida. Na pgina inicial do prprio Google, basta clicar na opo pginas em portugus para receber resultados somente em nossa lngua-ptria. Mesmo assim, esses resultados incluiro diversas pginas de Portugal (e algumas de Angola), o que uma perda de tempo ao se pesquisar, por exemplo, sobre servios pblicos, ou procurar o menor preo para determinado produto. 12 Segredos do

OR Delimitador de varivel. O OR (sempre em maiscula) utilizado para encontrar pginas em que se encontre um ou outro termo de uma busca. Ao procurar, por exemplo, pelos termos livros e Digerati separando-os com OR, teremos acesso a todas as pginas nas quais todos os termos ocorram, mesmo que no de forma conjunta. Esse delimitador ideal para termos no-corriqueiros, como expresses cientficas ou literrias. NOT (-) Esse operador utilizado para suprimir um determinado termo de uma busca, servindo, portanto, como uma espcie de filtro de contedo. No Google, utilizada a forma de sinal (-) aplicada antes de um termo. Ao procurar, por exemplo, pelo termo Linux, mas querendo excluir os termos Conectiva e Unix, utiliza-se o seguinte comando:

SEGREDOS DO GOOGLE PRIMEIRA PARTE


O bsico do Google ................................................................ 06 Buscas avanadas no Google ................................................... 14 O Google fora do computador................................................ 23 Calendrios ............................................................................. 27 Datas e horrios na Internet .................................................... 31 Documentos dinmicos com o Google ................................... 35 Colocando seu site em primeiro lugar no Google .................... 38 A volta ao mundo em 80 dias com o Google .......................... 45

ndice

e obtm-se o seguinte resultado:

SEGUNDA PARTE
Voc est no Google O Google e o acesso a informaes pessoais e profissionais ............................................................ 50 O uso de caracteres coringa ..................................................... 53 Descobrindo donos de sites ..................................................... 56 Analisando logs via Google ..................................................... 62 Rastreando cartas e entregas .................................................... 65 Google ajudando os crackers ................................................... 68 Password generator com Google ............................................. 73 Fuando bancos de dados no Google ................................... 76

TERCEIRA PARTE
ASPAS ( ) As aspas so utilizadas na lgica booleana para garantir que uma expresso completa (ou conjunto de termos) seja includa na busca. muito til para o caso de expresses em portugus. Ao procurar, por exemplo, pelos termos placa de captura ATI, teremos como resultado pginas em que pode aparecer tanto a expresso completa quanto apenas os termos placa ou captura, sem nenhuma meno a ATI.

Tudo o que eu preciso saber .................................................... 80 Pesquisa de domnio: como saber tudo sobre um site sem precisar invadi-lo .................................................................... 83 As vrias faces do Google ........................................................ 87 Cuidado com os links falsos .................................................... 91 Dados pessoais via ICQ e MSN .............................................. 93

Bem-vindo ao Universo Google 11

A lgica booleana
Outro diferencial fica por conta da engrenagem lgica do Google, que utiliza a lgica booleana. Batizada assim em homenagem ao matemtico britnico George Boole, esse sistema estabelece a possibilidade de busca de palavras em um texto, condicionando a exibio de resultados a valores lgicos: um valor deve ser sempre verdadeiro ou falso; um valor no pode ser verdadeiro e falso ao mesmo tempo; matematicamente verdadeiro pode ser definido como 1, e falso, como 0. Visando no delimitar a busca em demasia, so utilizados elementos para incrementar as funes booleanas ou algoritmos de busca utilizados pelo Google. Desses elementos, os mais conhecidos so: AND Esse delimitador utilizado para incluir, em uma expresso, todos os elementos que sero propostos em uma consulta (as operaes booleanas so chamadas dessa maneira, apesar de no serem usadas somente em motores de busca). Esse delimitador utilizado em sua forma booleana na maioria dos buscadores, como, por exemplo, no Altavista.

O Google no utiliza o delimitador AND de forma explcita: basta digitar os termos separados por um espao para sua incluso na busca.

10 Segredos do

extrao de dados, que tornam qualquer busca significativamente mais rpida do que qualquer procura realizada com outros sistemas de busca, a interface ajuda muito. O front-end do Google composto apenas por texto e links em HTML, o que faz com que a pgina retorne buscas quase imediatamente, mesmo em combinaes de hardware-software muito antigas, como um 486 com o Internet Explorer 4, ou navegadores muito simples, como o browser em modo texto Links, utilizado por vrias distribuies Linux. Essa leveza, alm de facilitar a vida do usurio, possibilita que o Google jamais tenha sido retirado do ar por problemas de utilizao, e isso contando que recebe cerca de 200 milhes de consultas por dia. Fazer uma pesquisa no Google to simples quanto carregar a pgina digitando www.google.com.br. No Windows, basta digitar o termo desejado para a pesquisa: suponhamos que voc queira pesquisar alguma coisa sobre gravadores. Digite esse termo na caixa de verificao e clique em Pesquisa Google ou aperte o boto Enter.

O BSICO SOBRE O GOOGLE


Ferramentas de busca so recursos relativamente antigos no mundo da informtica. No velho MS-DOS, por exemplo, bastava digitar: C:\ find /N dbito c:\textos\banco.rtf para visualizar na tela todas as linhas de texto em que ocorria a palavra dbito. A busca ficava restrita ao arquivo indicado por exemplo, banco.rtf. Nada fora do documento setado era trazido para o resultado da busca. J era alguma coisa, em um tempo em que o computador era usado para um pouco mais do que substituir as calculadoras e mquinas de escrever. Os sistemas de busca de arquivos mais modernos, como os encontrados no Windows, MacOS e Linux, so mais expansivos: pode-se buscar dados no computador inteiro, na rede em que ele est interligado e at em um diretrio armazenado na Web com apenas alguns cliques. Essa maneira de procurar informaes, apesar de ter sua utilidade, poderia ser comparada oniscincia (a capacidade de saber e conhecer tudo), s que limitada ao interior da sua casa e ao outro lado da rua lugares que voc deveria conhecer bem. Da mesma maneira, saber o que est armazenado em seu prprio disco rgido ou em seus CDs de backup deveria ser natural, se a maioria das pessoas fosse minimamente organizada o que, infelizmente, no corresponde realidade. Assim, o que os sistemas de busca tradicionais fazem ruminar informao que voc deveria ter, ou j deveria saber onde procurar...

As informaes esto l fora


Os servios online, em meados da dcada de 80, j eram mais ou menos conhecidos. Alm da Internet um projeto militar que comeava a tornar-se uma rede de servios ligando as universidades americanas e algumas universidades da Europa entre si , havia diversos outros servios de diretrio que possibilitavam o acesso a contas telefnicas, informaes de bibliotecas e departamentos pblicos e downloads de arquivos. No caso da Internet, era imprescindvel ser universitrio, militar ou trabalhar em um dos dois segmentos. Os servios de diretrio alternativos, como o Teletexto, fornecido no Estado de So Paulo pela antiga Telesp, podiam ser assinados por qualquer pessoa, desde que ela, claro, se comprometesse a pagar as taxas mensais do servio, que eram quase milionrias. Foi no ambiente universitrio que, em 1995, dois estudantes da Universidade de Stanford, Sergey Brin, de 23 anos, especialista em desenho de aplicativos Web e graduado em Engenharia Eletrnica, e Larry Page, de 24 anos, expert em tratamento de dados e licenciado em Informtica e Cincias Matemticas, se conheceram. Interessados em conseguir acesso ao curso de Doutorado em Cincias Informticas

Como voc pode ver na figura acima, foram retornados alguns milhares de resultados. Isso comum no s no Google, mas tambm em boa parte dos mecanismos de busca. Esse comportamento reproduz uma lei da matemtica, aparentada teoria dos conjuntos: quanto menos delimitadores h em uma consulta a um conjunto de elementos, maior ser o nmero de elementos presentes no resultado final. como se, sendo menos seletivos ao montar uma lista de convidados para a festa (gordos, magros, pode trazer um amigo, no precisa trazer presente) acabssemos convidando a cidade inteira. Esse um outro grande diferencial do Google. Seu motor de busca capaz de adicionar, sem muito esforo, diversos filtros tanto a novas buscas quanto depurando buscas j existentes. Vamos conhecer alguns deles:

Bem-vindo ao Universo Google 9

6 Segredos do

da Universidade de Stanford um dos mais concorridos dos Estados Unidos, e talvez do mundo os dois estudantes acabaram por descobrir outros pontos de interesse em comum, entre eles um projeto ambicioso: criar um algoritmo de extrao de dados que possibilitasse a extrao de grandes volumes de informao. Esse projeto era restrito aos sites e bancos de dados da Biblioteca Digital da Universidade de Stanford. Para que fosse possvel fazer buscas fora da rede de Stanford, era necessrio construir um novo motor de buscas, com a capacidade de ler pginas de toda a Web em busca de informao, e montando logo em seguida uma lista de links, acompanhada do contexto de cada uma das pginas encontradas.

Em finais de 1998, a Google Inc. foi fundada oficialmente, utilizando como capital (e recursos para saudar dvidas com a compra de hardware) 100 mil dlares oferecidos por Andy Bechtolsheim, um dos fundadores da Sun, e mais 1 milho de dlares doados por amigos e parentes. Nesses primrdios, o Google era assim:

O que um motor de busca?

Um motor de busca uma espcie de catlogo mgico. Mas, diferente dos livros de referncia comuns, nos quais est acessvel a informao que algum organizou e registrou, o catlogo do motor de busca est em branco, como um livro vazio. Ao se realizar uma consulta, a lista de ocorrncias de assunto criada em poucos segundos por meio do trabalho de um conjunto de softwares de computador, conhecidos como spiders (aranhas), que vasculham toda a Web em busca das ocorrncias de um determinado assunto em uma pgina. Ao encontrar uma pgina com muitos links, os spiders embrenham-se por eles, conseguindo, inclusive, vasculhar os diretrios internos desde que eles sejam pblicos, ou seja, tenham permisso de leitura para usurios dos sites nos quais esto trabalhando. Motores de busca muito refinados so capazes de saber exatamente que atualizaes houve em um site usando esse mtodo de scanner.

O que significa Google?


Ao procurar pelo termo Google utilizando o prprio, voc encontrar, exatamente, 54.200.000 ocorrncias do termo. Mas, curiosamente, nenhum desses links explica o que quer dizer a palavra Google. que Google um termo forjado, retirado do termo googol, inventado pelo Dr. Edward Kasner, da Universidade de Columbia. O Dr. Kasner pretendia batizar, com um nome sonoro e fcil de recordar, a centsima potncia do nmero 10, ou um nmero 1 seguido de 100 zeros. No satisfeito com esse nmero absurdo, o cientista criou o googolplex, que equivale a um googol seguido de um googol de zeros. Seja como for, a nica utilidade do googol, desde o momento de sua inveno, foi a de servir de inspirao para o Google, aproximando a idia de um nmero extenso com a da elasticidade inesgotvel dos limites da Web. Afinal, no existe nada no Universo (nem estrelas, nem gros de poeira, nem de tomos) que sequer chegue perto de um googol. J o googol-plex corresponde a um valor to absurdo que seria necessrio preencher todo o Universo conhecido somente para escrever o algarismo por extenso.

Como funciona o Google


O Google , essencialmente, um mecanismo de busca de palavras e links por toda a Internet, utilizando diversos recursos de filtragem e catalogao de resultados. Mas, o que garantiu o sucesso do Google, j que existia uma infinidade de buscadores no momento em que ele ganhava flego? Alm de seus algoritmos de 8 Segredos do

Foi assim que, em 1996, Larry e Sergey lanaram o BackRub. Baseado em Java e Phyton (voc pode ver um link com uma dvida enviada por Larry a uma lista de discusso especializada no endereo: http://groups.google.com/groups?hl=en&lr= &ie=UTF-8&safe=off&threa dm=page-0701962007020001@qwerty.stan ford.edu&rnum=1&prev=/groups?selm=page-0701962007020001@qwerty.stan ford.edu), o BackRub rodava em algumas mquinas Sun e Intel, localizadas no interior da Universidade. Tanta tecnologia (para a poca) era utilizada para amparar a principal diferena do programa em relao aos mecanismos de busca que haviam surgido no ano e meio em que o pr-Google estava sendo desenvolvido: o BackRub era capaz de pesquisar os links listados dentro das pginas pesquisadas, aumentando consideravelmente o nmero de resultados. O nome Google s seria adotado em 1997, ano em que o projeto deixou de utilizar as mquinas de Stanford. O Google funcionou como era possvel at a primeira metade de 1998, quando, impulsionados pela compra milagrosa de vrios terabytes de disco a um preo muito baixo, os scios decidem montar o CPD (Centro de Processamento de Dados) da empresa na casa (mais especificamente, no quarto) de Larry. Bem-vindo ao Universo Google 7

Você também pode gostar