Você está na página 1de 17

Mecanismos de busca na internet

Salviano A. Leo
21/12/2013

Sumrio
1 Introduo

2 Google

3 Desvendando as Palavras-Chave E a Web Semntica


3.1 Palavras-chave . . . . . . . . . . . . . . . . . . . . . . .
3.2 Web Semntica . . . . . . . . . . . . . . . . . . . . . .
3.3 O Computador No o Gnio da Lmpada . . . . . . .
3.4 A Arte de Encontrar as Palavras Certas . . . . . . . .

7
7
7
7
8

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

4 Pesquisas no Google: Dicas, tcnicas e operadores avanados

5 DuckDuckGo

11

6 Como funcionam os mecanismos de busca da Internet


6.1 Introduo . . . . . . . . . . . . . . . . . . . . . . . . . .
6.2 Olhando a Web . . . . . . . . . . . . . . . . . . . . . . .
6.2.1 Um comeo tmido . . . . . . . . . . . . . . . . .
6.2.2 Meta tags . . . . . . . . . . . . . . . . . . . . . .
6.3 Construindo o ndice . . . . . . . . . . . . . . . . . . . .
6.4 Construindo uma busca . . . . . . . . . . . . . . . . . .
6.5 Busca futura . . . . . . . . . . . . . . . . . . . . . . . . .
6.6 Mais informaes . . . . . . . . . . . . . . . . . . . . . .

11
12
12
12
14
14
15
16
16

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

Introduo

A internet formada basicamente pela ligao entre computadores, que chamamos de rede de
computadores, permitindo uma comunicao entre eles de forma transparente para o usurio,
principalmente atravs do protocolo TCP/IP. A histria do seu desenvolvimento at a criao
da "World Wide Web"(WWW) em 1991 pelo fsico ingls Tim Berners-Lee que trabalhava no
CERN est bem descrita no stio http://pt.wikipedia.org/wiki/Internet. Em sua entrevista a revista VEJA (Abril de 2006 http://veja.abril.com.br/especiais/tecnologia_
2006/p_040.html), Tim Berners-Lee disse que no quis patentear o seu invento, e credita seu
sucesso ao fato dela no estar vinculada a nenhum sistema proprietrio, pelo qual as pessoas
teriam de pagar para ter acesso. Segundo ele, muitos outros projetos semelhantes fracassaram
por no serem abertos.
1

A internet hoje se caracteriza por ser uma grande fonte de informaes distribudas por todo
o mundo. Ela hoje abriga milhes de pginas com textos, imagens, sons e vdeos. O grande
volume de informaes disponveis na Web criou o problema de localizar rapidamente a informao desejada. Para tal, h muitas ferramentas disponveis, entretanto, hoje o mecanismo
de busca de informao na Web mais conhecido pelos usurios da Web talvez seja o o "Google"http://www.google.com.br/. Alm disso, hoje possivelmente ele seja o mais eficiente
mecanismo de busca de toda Web, e por isso, apresentaremos algumas dicas de como tornar
uma busca com o "Google"mais eficiente.
Os mecanismos de busca ("search engines") varrem os sites da Internet e os classificam por
ordem de importncia para os termos pesquisados. Os mais usados so: Google, Yahoo! e
Bing.
Existem, tambm, diretrios que selecionam manualmente os melhores sites como o: About,
Open Directory, SobreSites e o BuscaTemtica.
Alguns sites so especializados em busca de produtos e preos:
BuscaP, Pesquisa de Preos
Bondfaro, preos e lojas
Telelistas, busca de empresas
Shopping UOL, compara preos
CotaCota, Pesquisador de Preos
iG Shopping
Jacotei, comparao de preos
e-bit, consultor para compras
PreoMania.com, comparao
Shopbot, comparao de preos
Zoom, comparao de preos
Zura
Google Shopping
O excelente Google News varre os principais jornais online. O Google Insights for Search
mostra o que se pesquisa no mundo e o Google Blogs pesquisa os blogs por assunto.
Um caso especial o Internet Archive que arquiva um histrico das pginas como eram
visualizadas em anos anteriores.
Se voc tem um site, no necessrio cadastr-lo nos mecanismos de busca. Ele ser
automaticamente detectado atravs das informaes de registro.

Google

O Google, atualmente o mais grandioso site de busca da internet, foi criado no ano de 1996 por,
na poca, dois estudantes de doutorado. Os estudantes Larry Page e Sergey Brin da Universidade de Stanford resolveram criar um projeto baseado em Java e Python chamado BackRub
para desenvolver um site de pesquisa restrito ao banco de dados e os sites da universidade. O
ento nome Google foi adotado no ano de 1997 com base na expresso googol que tem como
significado o nmero 1 seguido de 100 zeros. No ano de 1998 o Google Inc. foi fundado oficialmente com a ajuda financeira de alguns amigos e de um particular fundador da Sun, o
Andy Bechtolsheim. No ano de 1999 o Google j estava com mais de 500 mil acessos por dia e
resolve ento mudar de sede e tambm aprimorar o site. Em seguida, no ano de 2000 o Google
continua a crescer cada vez mais o seu nmero de acessos dirios e resolve em 2001 lanar seus
primeiros servios. O maior sucesso do Google veio atravs da sua leveza e rapidez nas buscas.
O mesmo dispe de um algoritmo de extrao de dados que faz dele o mais rpido em comparao a qualquer outro site de busca. Ainda, o Google tem uma interface extremamente leve,
utilizando-se apenas de links em HTML e textos. Por fim, o Google tem de forma facilitadora
diversas tcnicas de pesquisa que ajudam a melhorar a pesquisa em uma porcentagem absurda.
Vejamos algumas destas tcnicas de pesquisa no tpico a seguir.
O "Google"iniciou-se simplesmente como um mecanismo de busca, mas devido ao seu
crescimento exponencial, ele hoje oferece uma srie de ferramentas listadas no stio http:
//www.google.com.br/intl/pt-BR/options/. Os servios oferecidos para a busca de informaes so:
Acadmico Pesquise trabalhos acadmicos
Barra de ferramentas Adicione uma caixa de pesquisa ao seu navegador
Google Chrome Um navegador desenvolvido para ser rpido, estvel e seguro
Desktop Pesquise no seu prprio computador
Diretrio Navegue pela web por tpico
Earth Explore o mundo do seu computador
iGoogle Adicione notcias, jogos e muito mais pgina inicial do Google
Imagens Pesquise imagens na web
Livros Pesquise textos de livros na ntegra e descubra novos textos
Maps Consulte mapas e encontre a melhor rota
Pesquisa de blogs Encontre blogs sobre os assuntos que lhe interessam
Pesquisa na web Pesquise em mais de 8 bilhes de pginas
Primeiro vamos descrever alguns parmetros e operadores simples que permitem que a busca
seja mais eficiente. Quanto aos termos e operadores da busca temos:
Maisculas/Minsculas e Acentuao O sistema de busca no faz distino entre palavras
que contenham letras maisculas/minsculas e acentuao, portanto qualquer uma das
seguintes expresses ir fornecer o mesmo resultado: FISICA, FsIcA, fiSiCA.
3

Aspas Com o contedo "entre aspas"efetua-se uma busca pela ocorrncia exata da expresso
que est entre as aspas, mantendo a mesma sequncia e forma dos termos que constituem
a expresso.
Sinal de subtrao Usa-se esse sinal/operador entre alguns termos, aps a expresso de
busca, para que as expresses contendo esses termos no apaream no resultado da busca.
Por exemplo, para buscar "Fsica"sem a palavra "Educao"deve-se digitar: fsica
-Educao. Note que entre "fsica"e o sinal menos h um espao enquanto o sinal
digitado junto com a palavra que se deseja excluir.
Sinal de soma Usa-se esse sinal entre alguns termos, aps a expresso de busca, para que as
expresses contendo exatamente esses termos apaream no resultado da busca. Por exemplo, para buscar "Fsica"sem a palavra "Educao"e que contenha a palavra "Mecnica"devese digitar: fsica -Educao +Mecnica. Observe que os espaos so importantes.
Sinal de asterisco * Ao incluir esse caractere entre dois termos de uma busca, ele ir considerar como vlida qualquer expresso entre os dois termos da busca, por isso, ele chamado
de caractere de preenchimento. Por exemplo, a busca software livre * licena ir
retornar as ocorrncias de software livre mais qualquer expresso/palavra e licena.
OR ou OU Termo usado para realizar buscas alternativas. Por exemplo, para buscar Fsica
(mecnica OU eletricidade) -automotiva -automovel -autos ir buscar todas as
ocorrncias de Fsica e mecnica sem ser automotiva ou todas as ocorrncias de Fsica
e eletricidade sem ser automotiva. Note que o termo OR ou OU precisam ser maisculos
e que os parnteses servem para agrupar.
define:termo Operador para buscar por definies do termo. Por exemplo, para buscar as
definies do termo piezoeltrico digite define:piezoeltrico.
info:URL Operador que mostra informaes que o Google tem sobre o stio buscado. Por
exemplo, informaes sobre o stio da UFG so obtidas digitando-se info:www.ufg.br
e para obter informaes do stio do UOL digite info:www.uol.com.br. Essa busca
retornar as seguintes informaes para a URL:
Uma descrio do stio da Web e um link para o stio.
Mostrar o cache do Google para a URL.
Encontrar pginas na Web que sejam semelhantes a URL.
Encontrar pginas na Web que tenham um link para a URL.
Localizar pginas de stio para a URL
Encontrar pginas na Web que contenham o termo "URL"
Essas informaes podem ser obtidas individualmente com um operador de busca especfico.
termo+site:URL busca por expresses que contenham a palavra "termo"no stio cujo endereo URL. Por exemplo, para buscar o termo "linux"no stio da UFG digita-se linux
site:www.ufg.br.
link:URL operador de busca por "pginas externas"que se referenciam ao stio URL. Por
exemplo, os stios que fazem referncia ao stio do Instituto de Fsica da UFG, so obtidos
com link:www.if.ufg.br
4

related:URL operador de busca por pginas similares a da URL fornecida. Por exemplo, a
busca related:www.science.org retornar pginas que tenham um contedo similar ao
do stio www.science.org.
allinanchor: O "anchor" o texto que se clica em um hyperlink. Este um texto descritivo e
no uma URL. O operador allinanchor: encontra todos os termos da pesquisa no texto
"anchor".
inanchor: Use o operador inanchor: quando for incluir um nico termo na busca somente
em expresses que fazem parte do "anchor".
allintext: O operador allintext: encontrar todos os termos da sua busca no texto da pgina
Web. Ele ignora os termos da busca em qualquer outra parte da pgina, seja no ttulo,
no "anchor"ou mesmo na URL.
intext: Este operador busca nos textos de uma pgina Web um nico termo que pode aparecer
em qualquer parte da pgina.
allintitle: O operador allintitle: permite encontrar pginas da Web em que o termo da
busca faa parte do ttulo da pgina.
intitle: Use o operador intitle: quando a busca for feita somente no ttulo das pginas Web.
allinurl: Operador usado para obter resultados que incluam somente pginas da Web nas quais
todos os termos da pesquisa apaream na URL. Essa uma busca muito restritiva, pois
ela restringe os termos da busca somente s URL dos stios.
inurl: Use o operador inurl: para encontrar pginas Web que tenham um nico termo de
busca na URL, enquanto todos os outros termos da busca podem aparecer em outros
lugares dentro da pgina da Web retornada.
Filetype: Operador usado para procurar ocorrncias de algum formato de arquivo especfico.
Por exemplo, para encontrar documentos no formato pdf sobre radiao devemos buscar:
radiao filetype:pdf.
Time: Operador para buscar o horrio das principais cidades do mundo, por exemplo: time:cuiab
retorna a data e a hora em Cuiab.
Weather: Operador para buscar uma previso do tempo para as principais cidades do mundo,
por exemplo: weather:goinia retorna a previso do tempo para a cidade de Goinia.
Movie: Operador para buscar por ttulos de filmes, por exemplo Movie:

the 300 Spartans

Director: Operador para buscar pelo nome do um diretor de um filme, por exemplo Director:
the 300 Spartans.
Calculadora No campo de busca do Google, digitando-se uma expresso matemtica, ele
efetuar a conta. Por exemplo, ao digitar a expresso 83-2, o Google retorna o valor
510. Ele possui algumas funes matemticas intrnsecas, como por exemplo, ln(e2)
ele retorna corretamente o valor 2.
Converso de Moedas faz a converso de uma moeda em outra, por exemplo 10 dollar in
real ou ainda 1 dollar in euro.
5

Converso de temperatura converte uma escala termomtrica em outra, por exemplo 95 F


in C ir resultar em 35 .
Converso de distncias: realiza a converso de distncias, por exemplo 10 milhas em quilometros.
Converso de velocidade: realiza a converso de velocidade, por exemplo 80 kph to mph
ou 80 km/h em mph.
1. Pesquise uma palavra ou frase exata - Para pesquisar uma palavra ou um conjunto de
palavras utilize aspas duplas ("Palavra"). Exemplo: "Jorge Amado".
2. Pesquise vrias palavras - Utilize o operador + para assegurar que os resultados incluam
tudo o que for digitado. Exemplo: fsica+quntica.
3. Excluso de uma palavra - Se voc quiser pesquisar um assunto e excluir alguns resultados
de sua pesquisa utilize o hfen (-). Exemplo: biologia -botnica. Neste caso, a busca
apresentar todos os resultados que no tenham relao com a botnica.
4. Incluso de palavras similares - Quando quiser pesquisar palavras que tenham significados
parecidos utilize o smbolo . Exemplo: flor botnica planta.
5. Pesquisa dentro de um site, domnio ou URL - Caso queira procurar informaes em
uma nica pgina, insira o tema de sua busca mais a palavra site. Exemplo: qumica
site:uol.com.br. Essa funo tambm serve para pesquisar por domnios de websites,
como: .org, edu.Exemplo: qumica site:.edu. Neste caso, voc tambm pode usar o
operador link: para pesquisar por pginas que vinculam a uma URL. Por exemplo, para
encontrar pginas vinculadas ao www.uol.com.br . Exemplo: link:uol.com.br .
6. Termos desconhecidos - Em uma consulta o asterisco (*) serve para agregar informaes
quando um dos termos desconhecido. Por exemplo, voc precisa fazer uma pesquisa
sobre os ditados populares que tenham a palavra gua. Para isso, insira no buscador o
exemplo abaixo e os resultados aparecero. Exemplo: gua*ditado popular.
7. Pesquise uma ou outra palavra. Utilize o operador OR (em maisculo) entre temas que
deseja procurar. Com ele, a pesquisa retorna resultados incluindo algum dos termos
pesquisados. Exemplo: Olimpadas 2012 OR 2016.
8. Pesquise um intervalo numrico. Quando utilizar o Google Acadmico voc pode usar o
operador no ttulo: Como o prprio nome diz, ele retorna os resultados que inclui o termo
definido na pesquisa no ttulo. Exemplo: presidente do Chile 2006..2010.
9. Defina o tipo de arquivo. Caso queira filtrar sua consulta, de acordo com o tipo de arquivo
(.ppt,.htlm, .xls), insira filetype: [tipo de arquivo]. Exemplo: filetype:ppt
10. Pesquisa por ttulo - Quando utilizar o Google Acadmico voc pode usar o operador
no ttulo:, no qual, como o prprio nome j diz, retorna resultados que inclui o termo
definido na pesquisa no ttulo. Exemplo: nottulo: Fernando Pessoa.
O Google, indiscutivelmente, a ferramenta de pesquisa mais utilizadas pelos surfistas da
web, a lder absoluta no gnero. Utilizar o buscador parece ser bem simples, afinal de contas,
digitar sua dvida no campo de pesquisa e pressionar "Enter"qualquer pessoa consegue faz-lo,
no mesmo?
6

Entretanto, a maioria dos usurios no se preocupa com as palavras-chave daquilo que


buscam conhecer e sim em expor toda a sua necessidade informacional atravs de frases e
perguntas. Mas ser que essa despretenso e aleatoriedade no momento da procura possui
efetividade? J parou para pensar se suas pesquisas no poderiam acontecer de maneira mais
qualificada, com resultados mais segmentados e precisos?

Desvendando as Palavras-Chave E a Web Semntica

Para que voc tenha um melhor entendimento, consiga assimilar todo o contedo aqui apresentado e ao final da leitura realize pesquisas com maior eficincia, preciso explorar alguns
conceitos:

3.1

Palavras-chave

Fique atento para as melhores palavras-chave da sua pesquisa. Uma palavra-chave um termo
que explicita o ncleo, ou seja, a essncia das informaes de determinado documento ou pgina
da web. Tal termo tem grande importncia durante as pesquisas, pois sua responsabilidade
referenciar o contedo por completo de forma simplificada e objetiva.
Um arquivo ou pgina na internet pode ter vrias palavras-chave que representem todo o
conhecimento contido nele, e isso que vai agilizar e tornar sua busca mais precisa e criteriosa.
No entre em pnico, voc vai entend-las melhor mais para frente.

3.2

Web Semntica

Na web pode-se observar uma caracterstica muito peculiar: uma rede de computadores com
contedo totalmente voltado para os seres humanos. Isso significa que os sites que acessamos
possuem linguagem, interface e imagens que facilitam nosso entendimento.
Tal fato timo para ns, mas para as mquinas algo que dificulta o relacionamento
de informaes. A Web Semntica a rea do conhecimento que prope tcnicas, mtodos e
ferramentas para que esse contexto sofra alteraes, e j tem mudado bastante, possibilitando
que os computadores "leiam"o contedo disponibilizado na web.
Prepare-se para pesquisas ainda mais amplas
E o que temos a ganhar com isso? Essa iniciativa faz com que softwares criem relaes de
comunicao, entrelaando informaes e contedos - situao que proporciona maior amplitude
nas pesquisas. Esse relacionamento possvel atravs dos metadados, mas isso seria tema para
outro artigo, o qual no o escopo desta matria. Portanto paremos por aqui, est na hora de
partir para a prtica.

3.3

O Computador No o Gnio da Lmpada

Conforme j comentado, as pessoas geralmente realizam pesquisas atravs de frases ou perguntas


que surgem na cabea, sem se preocupar com o cerne do questionamento - o que, convenhamos,
mais prtico num primeiro momento.
Porm, os sites de busca no tm a capacidade de abstrair ou interpretar aquilo que foi
digitado, eles apenas utilizam sistemas de indexao e algoritmos para proceder busca. Caso
tenha interesse, confira no artigo "Descubra os segredos e todo o processo realizado para o funcionamento dos mecanismos de busca"mais informaes sobre como funcionam os mecanismos
de pesquisa.
7

Portanto, para obter maior preciso na pesquisa necessrio adaptar a sua linguagem do
computador e filtrar as ocorrncias. Lembre-se: o computador no o gnio da lmpada e no
consegue adivinhar o que voc quer.
O computador no o gnio da lmpada
Est achando tudo meio abstrato? No conseguiu vislumbrar o processo com clareza? Ento
vamos ao que interessa, exemplos:
1. Digamos que sua mquina comeou a se comportar de maneira estranha e voc gostaria
de saber se ela est com algum vrus ou malware. No senso comum, a busca se realizaria a
partir de "como sei quando peguei um vrus?", "a lentido do computador consequncia
de vrus?"ou ainda "programa para verificar a presena de vrus".A busca por vrus
O primeiro ponto a ser observado que o buscador vai usar todas as palavras digitadas
para realizar a pesquisa, o que resulta em uma quantidade gigantesca de sites listados muitos deles no contendo nada de relevante para a pesquisa.
Para uma busca mais precisa voc apenas precisaria procurar por "software verificar vrus". Essas palavras-chave representam a essncia daquilo de que necessita, as ocorrncias
de resposta so menores, porm, mais exatas.
2. Final de semana se aproximando e voc quer ver um filme no cinema para torn-lo mais
divertido e proveitoso. A maioria dos internautas procuraria por algo como "onde assistir
Dupla Implacvel no dia X em Curitiba?". O que, agora, j sabemos que uma pssima
escolha como termo de pesquisa.
Aps uma breve anlise daquilo de que precisamos, chegamos a "Dupla Implacvel cinema
Curitiba"como sendo a string de busca com as palavras-chave mais apropriadas, o resto
so termos desnecessrios e que s atrapalham a pesquisa. Assim, o resultado da procura
mais relevante.
A procura por um bom filme
3. Um ltimo exemplo para fixar bem a ideia de utilizao de palavras-chave. Sua viagem
de frias por maravilhosas praias rendeu uma infinidade de fotos, as quais ocupam muito
espao no disco rgido. Voc quer reduzi-las de uma nica vez para evitar a fadiga.
A busca mais bvia seria "mudar o tamanho de vrias imagens ao mesmo tempo", porm
o termo "redimensionador" suficiente.

3.4

A Arte de Encontrar as Palavras Certas

A arte da pesquisa: Qualquer pesquisa deve ser encarada como um processo intelectual, ou
seja, que exige raciocnio e anlise sobre o que e como buscar. A procura em mecanismos de
busca na web uma atividade relativamente simples, mas simplesmente "jogar"palavras ou
frases acarretar em respostas, possivelmente, confusas - e boa parte do contedo recuperado
no lhe servir de nada.
A utilizao de palavras-chave uma forma de segmentar o resultado da pesquisa, tornandoo mais preciso e relevante. Esse contexto deve ter maior importncia com a difuso das metodologias e ferramentas da Web Semntica, as quais devem, atravs do relacionamento de
metadados, ampliar o alcance dos sites de busca.
As palavras-chave no funcionam apenas com o Google, mas tambm com outros sistemas
de busca, como o Bing e, at mesmo, aqui no Portal Baixaki (este artigo explica como proceder
nesse caso). Com certeza voc j deve ter experimentado uma situao em que teve dificuldade
8

para encontrar alguma informao, e essa forma objetiva de procura deve refinar e qualificar
suas pesquisas.
Pare e pense antes de realizar a pesquisa:
Quais os passos ou o que voc deve ter em mente ao realizar uma pesquisa? Em suma, no
existe uma "receita de bolo"para pesquisar na internet, mas essencial ter alguns cuidados:
abstrair o cerne da ideia daquilo de que precisa, ou seja, pensar nas palavras-chave do
contexto da sua necessidade informacional;
usar verbos no infinitivo e termos bem especficos, o que vai ajudar a reduzir a quantidade
de contedo intil;
evitar a utilizao de verbos que representem aes genricas e preposies (como: eu,
posso, fazer, de, na, para, etc.);
atentar para a correta grafia das palavras;
caso no tenha encontrado informaes satisfatrias para sua dvida, explore sinnimos
dos termos em novas buscas.
Para ter um desempenho ainda melhor em buscas na web existem algumas tcnicas e macetes
para explorar a fundo todo o contedo virtual. Quer conhec-las? Acesse os artigos "Guia do
Google: encontre at a agulha no palheiro!", "Saiba procurar no Google da melhor forma"e
"Palavras-chave para pesquisar no Google"e descubra como fcil se tornar um especialista em
pesquisas na internet.
Leia mais em: Google como dominar a arte de fazer pesquisa

Pesquisas no Google: Dicas, tcnicas e operadores avanados

Dicas de como fazer uma pesquisa eficiente no Google usando os operadores avanados, tcnicas
e alguns atalhos que podem ajudar nas suas buscas Pesquisas no Google: Dicas, tcnicas e
operadores avanadoss
Especula-se que em torno de 70% de toda navegao na internet tenha incio em algum site
de busca e neste contexto trs sites representam quase que a totalidade das buscas, so eles:
Google, Yahoo, DuckDuckGo e Bing.
Mas como encontrar aquilo que estamos procurando? As vezes buscamos coisas muito
especficas e com algumas particularidades que para ser encontrado no basta digitarmos sem
nenhum critrio na caixa de pesquisa, h casos que se faz necessrio uma otimizao da busca,
ou seja, dizer ao buscador como ele deve procurar os termos que queremos.
Segue algumas dicas importantes para busca no Google:
Termos entre aspas: Se fizermos uma busca por: po de queijo mineiro ele buscar por:
po, de, queijo e mineiro, ou seja, a busca ser feita considerando cada palavra isolada.
Desta forma se a palavra mineiro for encontrada o site poder ser mostrado.
Para refinar esta busca podemos colocar os termos buscado entre aspas: "po de queijo
mineiro", desta forma a busca ser feito pelo conjunto das palavras e no de forma isolada
como no exemplo anterior.

Pesquisas em sites especficos: Supondo que agora voc faa uma busca pelo nome mais
conhecido entre homens: Jesus. Neste caso haver resultados inesperados como por exemplo pessoas que se chamam jesus e nada tem a ver com o nosso Senhor e Salvador Jesus
Cristo, ento uma boa forma de filtrar resultados e determinar em qual site voc quer que
a pesquisa seja feita, veja:
jesus site:evangelizacao.blog.br
No exemplo acima eu estou dizendo que quer que seja feita a busca por jesus, porm,
apenas no site evangelizacao.blog.br, com isto posso eliminar resultados inesperados e
que no tenha relevncia.
Excluir termos da pesquisa: Outra forma interessante de refinar a busca dizer aos buscadores que determinada palavra no dever fazer parte da pesquisa, por exemplo:
"presidentes do Brasil-lula
Vai buscar por presidentes do Brasil, com exceo de resultados que incluem Lula (sorry!)
Pesquisas em arquivos especfico: Apesar dos sites serem feitos em HTML, muitos disponibilizam contedos em outros formatos de arquivos, como PDF, PPT (power point),
DOC (word), XLS (excel), etc. Para fazer uma busca em um tipo especfico de arquivo
usamos a opo filetype como no exemplo abaixo:
"sistemas de informao"filetype:ppt (procura por idade da pedra em arquivos PPT)
"sistemas de informao"filetype:pdf (procura por idade da pedra em arquivos PDF)
"sistemas de informao"filetype:doc (procura por idade da pedra em arquivos DOC)
Previso do tempo: Para saber a previso do tempo de forma rpida digite: Tempo e o
nome do local, exemplos:
Tempo So Paulo
Tempo Braslia
Tempo Rio de Janeiro
Calculadora: Voc poder usar o Google como calculadora, neste caso, bastar informar
a frmula que voc quiser e ele mostrar o resultado. Na busca do Google, digite os
exemplos abaixo para conferir:
12+491
(15*3)+13
(14*63)-(550/13)
pi (ele mostrar o valor do pi)
25% de 2500 (ele mostr qual o valor que representa 25% de 2500)
1650 * 35%
Converso de moedas: O recurso de converso de moedas tambm bastante til e simples
de usar, bastando informar a quantidade em determinada moeda e dizer para qual moeda
deseja fazer a converso. Veja alguns exemplos que voc poder digitar na caixa de
pesquisa do Google:
100 dolares em reais
100 dolares canadenses em reais
10

100 dolares australianos em reais


30 libras em reais
80 euros em reais
O inverso tambm poder ser feito, isto , converter Reais em outras moedas, bastante
apresentar a expresso 100 reais em dolares ou 50 reais em euros, por exemplo.
100 reais em dolares
100 reais em yen
90 reais em libras em
50 reais em euros
Converso de medidas: Outra alternativa a converso de medidas. Metros, centmetros,
polegadas, entre outras medidas podero ser convertidas entre si. Digite os exemplos
abaixo na caixa de pesquisa do Google:
150 cm em metros
35 cm em pol
35 cm em mm
500 mm em pol
3500 mm em metros

DuckDuckGo

Atualmente o Google se tornou sinnimo de pesquisas na Internet e a maioria das pessoas


est acostumada a dizer para algum "Ah, pesquisa no Google!", mas, por outro lado, existem
muitos usurios que ficam frustrados com a enorme quantidade de resultados direcionados a
publicidade.
Outros mecanismos de busca, como o Bing da Microsoft e o Yahoo!, embora no digam
com todas as palavras, fazem o mesmo e necessitam de um alto grau de publicidade para
funcionar, o que tornou a nossa separao de resultados orgnicos (buscas propriamente ditas)
da publicidade quase que instintiva.
Embora as buscas de Internet sejam praticamente dominadas pelos trs mecanismos acima
- e com o Google assumindo a dianteira com bastante folga -, apareceu na internet uma forma
de realizar pesquisas sem se preocupar com nenhuma das caractersticas acima: surgiu o Duck
Duck Go, livre de propagandas e sem direcionamento de resultados.
J adotado por padro em verses do Firefox voltadas para Linux, o Duck Duck Go est
sendo utilizado por inmeros usurios que desejam apenas realizar suas pesquisas e no travar
uma guerra contra os banners e anncios pagos, e embora no tenha ainda a mesma performance
dos irmos maiores, ele j o preferido de muitas pessoas.
Matria completa: DuckDuckGo
O contedo do Canaltech protegido sob a licena Creative Commons (CC BY-NC-ND).
Voc pode reproduzi-lo, desde que insira crditos COM O LINK para o contedo original e no
faa uso comercial de nossa produo.

Como funcionam os mecanismos de busca da Internet

Como funcionam os mecanismos de busca da Internet


11

6.1

Introduo

A boa notcia sobre a Internet e seu componente mais visvel, a World Wide Web, que
existem centenas de milhes de pginas disponveis esperando para apresentar informaes em
uma impressionante variedade de tpicos. A m notcia sobre a Internet que existem centenas
de milhes de pginas disponveis, a maioria delas intitulada de acordo com os caprichos de
seus autores, e quase todas elas acomodadas em servidores com nome criptografados. Quando
voc precisa saber um assunto particular, como sabe que pginas deve ler? Se voc como a
maioria das pessoas, voc visita um mecanismo de busca da Internet.
Os mecanismos de busca da Internet so sites especiais na Web, projetados para ajudar as
pessoas a encontrar informaes armazenadas em outros sites. Existem diferenas nas maneiras
como os vrios mecanismos de busca funcionam, mas eles todos realizam trs tarefas bsicas:
Eles buscam na Internet, ou selecionam pedaos da Internet, com base em palavras importantes.
Eles mantm um ndice das palavras que encontram, e onde eles as encontram.
Eles permitem que os usurios procurem palavras ou combinaes de palavras localizadas
nesse ndice.
Os primeiros mecanismos de busca mantinham um ndice de algumas centenas de milhares
de pginas e documentos, e recebiam, talvez, mil ou duas mil pesquisas por dia. Hoje, um
mecanismo de busca de ponta indexa centenas de milhes de pginas, e responde a dezenas de
milhes de buscas por dia. Neste artigo, mostraremos como essas grandes tarefas so executadas
e como os mecanismos de busca da Internet renem esses pedaos para permitir que voc
encontre as informaes das quais precisa na Web.

6.2

Olhando a Web

Quando a maioria das pessoas fala sobre os mecanismos de busca da Internet, elas, de fato,
se referem aos mecanismos de busca da World Wide Web. Antes de a Web se tornar a parte
mais visvel da Internet, j existiam mecanismos de busca para ajudar as pessoas a encontrar
informaes na Rede. Programas com nomes como "gopher"e "Archie"mantinham ndices de
arquivos armazenados em servidores conectados Internet e reduziam drasticamente a quantidade de tempo requerida para encontrar programas e documentos. No final da dcada de 1980,
extrair o mximo valor da Internet significava saber usar o gopher, Archie, Veronica e outros.
Hoje, a maioria dos usurios da Internet limita suas buscas Web; assim, limitaremos este
artigo aos mecanismos de busca que se concentram no contedo das pginas da Web.
6.2.1

Um comeo tmido

Antes de um mecanismo de busca poder dizer a voc onde um arquivo ou documento est,
ele deve ser encontrado. Para encontrar informaes em centenas de milhes de pginas da
Web, um mecanismo de busca emprega robs de software especiais, chamados aranhas, para
construir listas de palavras encontradas nos sites da Web. Quando uma aranha est construindo
suas listas, o processo chamado de rastejamento da Web. (Existem algumas desvantagens em
chamar parte da Internet de World Wide Web: um grande conjunto de nomes "aracndeos"para
as ferramentas uma delas.) Para construir e manter uma lista til de palavras, as aranhas de
um mecanismo de busca precisam olhar vrias pginas.

12

Como qualquer aranha comea suas viagens na Web? Os pontos iniciais usuais so as
listas de servidores muito usados e pginas muito procuradas. A aranha comear por um site
popular, indexando as palavras em suas pginas e seguindo cada link encontrado dentro do site.
Dessa forma, o sistema de aranhas inicia rapidamente a viagem, alastrando-se pelas partes mais
amplamente usadas da Web.

Figura 1: As "aranhas"pegam um contedo de uma pgina da Web e criam palavras-chave de


busca que possibilitam aos usurios on-line encontrar pginas que eles esto procurando.
O Google.com comeou como um mecanismo de busca acadmico. No documento que
descreve como o sistema foi construdo, Sergey Brin e Lawrence Page do um exemplo do quo
rapidamente suas aranhas podem funcionar. Eles construram seu sistema inicial para usar
mltiplas aranhas, geralmente trs ao mesmo tempo. Cada aranha poderia manter cerca de
300 conexes com pginas da Web abertas ao mesmo tempo. Em seu desempenho mximo,
usando quatro aranhas, o sistemas deles poderia rastejar sobre 100 pginas por segundo, gerando
cerca de 600 kilobytes de dados a cada segundo.
Manter tudo executando rapidamente significava construir um sistema para alimentar as
informaes necessrias para as aranhas. O primeiro sistema do Google tinha um servidor
dedicado a fornecer URLs s aranhas. Em vez de depender de um provedor de servios da
Internet para um servidor de nome de domnio (DNS) que traduz um nome de servidor em um
endereo, o Google tinha seu prprio DNS, para manter os atrasos em patamares mnimos.
Quando a aranha do Google olhou para uma pgina HTML, ela anotou duas coisas:
as palavras dentro da pgina;
onde as palavras foram encontradas.
As palavras que ocorrem no ttulo, subttulos, meta tags e outras posies de relativa importncia foram anotadas para considerao especial durante a busca de usurio subseqente.
13

A aranha do Google foi criada para indexar toda palavra significante em uma pgina, desconsiderando os "um", "uma", "o"e "a". Outras aranhas seguem abordagens diferentes.
Essas abordagens diferentes geralmente tentam fazer a aranha operar mais rpido ou permitir aos usurios buscar com mais eficincia, ou ambos. Por exemplo, algumas aranhas controlaro as palavras no ttulo, subttulos e links, juntamente com as 100 palavras mais frequentemente usadas na pgina e cada palavra nas primeiras 20 linhas de texto. Acredita-se que o
Lycos (em ingls) use essa abordagem para vasculhar a Web com suas aranhas.
Outros sistemas, como o AltaVista (em ingls), vo em outra direo, indexando cada
palavra de uma pgina, incluindo "um", "uma", "o", "a"e outras palavras "insignificantes". O
avano em direo totalidade dessa abordagem equiparado por outros sistemas na ateno
dada parte no vista da pgina da Web, as meta tags.
6.2.2

Meta tags

As meta tags permitem aos proprietrios de uma pgina especificar palavras-chave e determinar
sob quais delas a pgina ser indexada. Isso pode ser til, especialmente nos casos em que as
palavras na pgina podem ter significados duplos ou triplos: as meta tags podem guiar o
mecanismo de busca para escolher qual desses vrios possveis significados para essas palavras
o correto. Existe, porm, um perigo em se confiar em excesso nas meta tags, porque um
dono de pgina inescrupuloso ou descuidado pode acrescentar meta tags que se encaixem em
tpicos muitos populares, mas que no tenham nada a ver com o real contedo da pgina.
Para se proteger contra isso, as aranhas correlacionam as meta tags com o contedo da pgina,
rejeitando aquelas que no coincidam com as palavras na pgina.
Tudo isso presume que o proprietrio de uma pgina, de fato, deseja que essas palavras
sejam includas nos resultados das atividades de um mecanismo de busca. Muitas vezes, o
proprietrio da pgina no deseja que ela seja mostrada em um mecanismo de busca grande,
ou no deseja a atividade de uma aranha acessando a pgina. Considere, por exemplo, um
jogo que cria pginas ativas novas sempre que as sees da pgina so exibidas ou novos links
so seguidos. Se uma aranha da Web acessar uma dessas pginas e comear a seguir todos os
links para novas pginas, o jogo poderia confundir a atividade para um jogador humano muito
veloz e sair de controle. Para evitar situaes como essas, o protocolo de excluso de rob foi
desenvolvido. Esse protocolo, implementado na seo de meta tag no incio de uma pgina da
Web, diz a uma aranha para deixar a pgina: no indexar as palavras na pgina nem tentar
seguir seus links.

6.3

Construindo o ndice

Depois que as aranhas completaram a tarefa de localizao das informaes nas pginas da Web
(e devemos notar que essa uma tarefa nunca realmente concluda: a natureza constantemente
altervel da Web significa que as aranhas esto sempre rastejando), o mecanismo de busca deve
armazenar as informaes de uma forma que as torne teis. Existem dois componentes-chave
envolvidos na reunio de dados acessveis aos usurios:
as informaes armazenadas com os dados;
o mtodo pelo qual as informaes so indexadas.
No caso mais simples, um mecanismo de busca poderia simplesmente armazenar a palavra
e a URL onde ela foi encontrada. Na realidade, isso funcionaria para um mecanismo de uso
limitado, j que no haveria maneira de dizer se a palavra foi usada de uma maneira importante
14

ou trivial em uma pgina, se ela foi usada uma vez ou muitas vezes ou se a pgina continha
links para outras pginas contendo a palavra. Em outras palavras, no haveria maneira de
construir a lista de classificao que tenta apresentar as pginas mais usadas no topo da lista
dos resultados da busca.
Para criar mais resultados teis, a maioria dos mecanismos de busca armazena mais do
que simplesmente a palavra ou URL. Um mecanismo pode armazenar o nmero de vezes que
a palavra aparece em uma pgina. O mecanismo pode atribuir um peso a cada entrada, com
valores crescentes atribudos s palavras medida que elas aparecem prximas ao topo do
documento, em subttulos, em links, nas meta tags ou no ttulo da pgina. Cada mecanismo de
busca comercial tem uma frmula diferente de atribuir peso s palavras em seu ndice. Essa
uma das razes pelas quais uma busca pela mesma palavra em diferentes mecanismos de busca
produzir listas diferentes, com as pginas apresentadas em ordens diferentes.
Independentemente da combinao precisa de partes adicionais de informaes armazenadas
por um mecanismo de busca, os dados sero codificados para economizar espao de armazenamento. Por exemplo, o documento original do Google descreve o uso de 2 bytes, de 8 bits cada,
para armazenar informaes sobre a classificao do peso das palavras: se a palavra estava em
letras maiscula, seu tamanho de fonte, posio e outras informaes para ajudar na classificao. Cada fator pode consumir at 2 ou 3 bits dentro de um grupamento de 2 bytes (8 bits = 1
byte). Como resultado, uma grande quantidade de informaes pode ser armazenada de uma
forma muito compacta. Depois que as informaes so compactadas, elas esto prontas para
indexao.
Um ndice tem um nico propsito: ele permite que as informaes possam ser encontradas
o mais rapidamente possvel. Existem bem poucas maneiras para se construir um ndice, mas
uma das maneiras mais efetivas construir uma tabela hash. Em um hashing, uma frmula
aplicada para anexar um valor numrico a cada palavra. A frmula projetada para distribuir
igualmente as entradas por um nmero predeterminado de divises. A distribuio numrica
diferente da distribuio de palavras no alfabeto, e essa a chave para a eficcia de uma tabela
hash.
Em ingls, existem algumas letras que iniciam muitas palavras, ao passo que outras iniciam
menos palavras. Voc descobrir, por exemplo, que a seo "M"do dicionrio muito mais
grossa que a seo "X". Essa diferena significa que localizar uma palavra que comece com uma
letra muito "popular"poderia demorar muito mais do que encontrar uma palavra que comece
com uma letra menos popular. O processo de hashing iguala a diferena e reduz o tempo mdio
gasto para encontrar uma entrada. Ele tambm separa o ndice da entrada real. A tabela
hash contm o nmero hashed juntamente com um ponteiro para os dados reais, que podem ser
classificados de qualquer maneira que permita que eles sejam armazenados mais eficientemente.
A combinao de indexao eficiente e armazenamento eficaz possibilita a obteno de dados
mais rapidamente, mesmo quando o usurio cria uma busca complicada.

6.4

Construindo uma busca

Realizar uma busca por meio de um ndice envolve um usurio criar uma pesquisa e submet-la
por meio do mecanismo de busca. A pesquisa pode ser bastante simples, pelo menos uma
palavra. Construir uma pesquisa mais complexa requer o uso de operadores booleanos, que
permitem que voc refine e estenda os termos da busca.
Os operadores booleanos mais frequentemente vistos so:
AND - Todos os termos unidos por um "AND"(E) devem aparecer nas pginas ou documentos. Alguns mecanismos de busca substituem o operador "+"pela palavra AND.
15

OR - Pelo menos um dos termos unidos por "OR"deve aparecer nas pginas ou documentos.
NOT - O termo ou termos aps "NOT"no devem aparecer nas pginas ou documentos.
Alguns mecanismos de busca substituem o operador -"pela palavra NOT.
FOLLOWED BY - Um dos termos deve ser diretamente seguido pelo outro.
NEAR - Um dos termos deve estar dentro de um nmero especificado de palavras do outro.
Sinais de aspas - As palavras entre aspas so tratadas como uma frase, e essa frase deve se
encontrar dentro do documento ou arquivo.

6.5

Busca futura

As buscas definidas pelos operadores booleanos so buscas literais: o mecanismo procura por
palavras ou frases exatamente como elas so digitadas. Isso pode ser um problema quando as
palavras digitadas tm vrios significados. "Bed", por exemplo, pode ser um local para dormir,
um local onde flores so plantadas, o espao de armazenamento de um caminho ou um local
onde o peixe desova. Se voc est interessado em apenas um desses significados, voc pode
no desejar ver pginas que apresentem todos os outros. Voc pode construir uma busca literal
que tente eliminar significados indesejados, mas bom se o prprio mecanismo de busca puder
ajudar.
Uma das reas de pesquisa do mecanismo de busca a pesquisa baseada em conceito. Parte
dessa pesquisa envolve o uso de anlise estatstica em pginas que contm as palavras ou frases
pelas quais voc busca para encontrar outras pginas pelas quais voc possa estar interessado.
Obviamente, as informaes armazenadas sobre cada pgina so maiores para um mecanismo
de busca baseado em conceito e muito mais processamento exigido para cada pesquisa. Muitos
grupos esto trabalhando para melhorar ambos, os resultados e o desempenho desse tipo de
mecanismo de busca. Outros prosseguiram em outra rea de pesquisa, chamada pesquisas de
linguagem natural.
A idia por trs das pesquisas de linguagem natural que voc pode digitar uma pergunta
da mesma maneira que perguntaria a um ser humano sentado a seu lado: sem necessidade
de controlar os operadores booleanos ou complexas estruturas de pesquisa. Atualmente o site
de pesquisa de linguagem natural mais popular o AskJeeves.com (em ingls), que analisa a
pesquisa por palavras-chave e depois aplica ao ndice de sites que criou. Ele funciona apenas
com pesquisas simples, mas a competio grande para desenvolver um mecanismo de pesquisa
de linguagem natural que possa aceitar uma pesquisa de grande complexidade.

6.6

Mais informaes

Artigos relacionados
Como funciona a lgica booleana
Como funcionam as pginas da Internet
Como funciona a infra-estrutura da Internet
Como funcionam os servidores da Web
Por que existem tantos links incompletos nos mecanismos de busca? (em ingls)
Links relacionados:
16

Portal de pesquisa Finance-Home-Travel-Legal-Auto


Otimizao de mecanismo de busca
Mais links interessantes (em ingls):
Demonstrao de mecanismo de busca
Observao de mecanismo de busca
UC Berkeley: Os melhores mecanismos de busca
SEO Chat
Google.com: Otimizadores de mecanismo de busca

Referncias
[1] http://programaeducamaisbrasil.blogspot.com.br/2013/06/
confira-10-dicas-para-tornar-sua.html. Acessada em 03/01/2014.
[2] Boas dicas de como fazer uma busca.

http://www.tecmundo.com.br/internet/4061-google-como-dominar-a-arte-de-se-fazer-pes
htm. Acessada em 03/01/2014.

[3] http://www.educacao.cc/tecnologica/pesquisas-no-google-dicas-tecnicas-e-operadores-a
Acessada em 03/01/2014.

[4] http://www.if-not-true-then-false.com/2010/linux-locate-command-find-files-and-dire
Acessada em 21/12/2013.
[5] Foram vistas diversas dicas do comando find no stio: http://www.dicas-l.com.br/.
Acessada em 21/12/2013.
[6] http://www.dicas-l.com.br/cantinhodoshell/cantinhodoshell_20080720.php#
.UrX_qPgdx38. Acessada em 21/12/2013.

[7] http://www.cyberciti.biz/faq/howto-find-delete-empty-directories-files-in-unix-linux
Acessada em 21/12/2013.

17

Você também pode gostar