Você está na página 1de 81
UNIVERSIDADE FEDERAL DO ESPÍRITO SANTO Centro Tecnológico Engenharia de Computação Aplicação de técnicas e

UNIVERSIDADE FEDERAL DO ESPÍRITO SANTO

Centro Tecnológico Engenharia de Computação

Aplicação de técnicas e procedimentos em SEO para melhorar a classificação de um site a partir de resultados de busca por palavras-chave

Acadêmico: Fábio Polola Mamede Orientador: Celso Alberto Saibel Santos

Vitória - ES Julho de 2013

Aplicação de técnicas e procedimentos em SEO para melhorar a classificação de um site a partir de resultados de busca por palavras-chave

Fábio Polola Mamede

Projeto de Conclusão do apresentado à Universidade Federal do Espírito Santo, como requisito parcial para o obtenção de título de bacharel em Engenharia de Computação.

RESUMO

As pesquisas por palavras-chave realizadas nos mecanismos de busca caracterizam um dos principais métodos de acesso a sites na Web. Estar entre os primeiros resultados de classificação nos mecanismos de busca transmite credibilidade e confiança para quem realiza a pesquisa e, com isso, o trabalho de desenvolver websites com recursos que propiciam melhores classificações nas pesquisas é uma tarefa promissora. Muitas empresas têm procurado “otimizar” seus sites para me- lhores posicionamentos nas buscas, num processo conhecido como SEO (Search Engine Optimi- zation – otimização dos motores/mecanismos de busca). O SEO envolve a integração de diversas áreas do conhecimento (tecnologia da informação, marketing, economia, etc.), constante monito- ramento, manutenção permanente do conteúdo, entre outros. Assim, o SEO é mais que uma me- lhoria no ranking de pesquisas, mas principalmente fazer com que os mecanismos de busca ofere- çam resultados mais bem direcionados e precisos a quem está pesquisando. O objetivo principal deste projeto é estudar e aplicar técnicas, métricas e estratégias de SEO para verificar a repercussão na classificação de busca por palavras-chave na busca orgânica nos principais mecanismos de busca:

Google, Yahoo e Bing, verificando o resultado e o funcionamento das ferramentas. A principal motivação para a sua realização é mostrar que técnicas e procedimentos de SEO podem ser empre- gados no site de uma empresa para permitir que ele esteja entre as dez primeiras posições do ran- king de busca pelo conjunto de strings “SEO Web Vitória” em qualquer buscador.

Palavras-chave: Otimização de mecanismos de busca, SEO, técnicas e procedimentos em SEO.

ABSTRACT

The research conducted by keywords in search engines is the main way to the websites. Being placed in top search engine rankings results conveys credibility and confidence to those who perform the research and, therefore, the work to develop websites with features that provide better researches rankings is a promising task. Many companies have tried to "optimize" their sites to top search positions, known as SEO (Search Engine Optimization). The SEO involves different knowledge areas integration (information technology, marketing, economics, else), constant mon- itoring, keep content updated, and else. Thus, SEO is more than a research ranking improvement, but mostly to make the search engines offer better and accurate results to those who are searching. The main objective of this project is to study and apply techniques, metrics and SEO strategies to verify impact keywords search rankings in the major search engines: Google, Yahoo and Bing, checking the results and functioning tools. The motivation for this final project is to show that SEO techniques can be employed in a company website to allow it to be among the top 10 search ranking for the set of strings "SEO Web Vitória" in any Web search engine.

Keywords: Search Engine Optimization, SEO, SEO techniques and procedures.

Lista de Figuras

Figura 1 - Situação inicial de pesquisa para um negócio local

Figura 2 - Representação da métrica do PageRank usando percentuais de probabilidade de acesso

11

a uma página. Fonte: [1]

16

17

Figura 4 - Arquitetura em alto nível do Google. Fonte: [7]

19

Figura 5 - Links patrocinados / Busca orgânica. Fonte: [8]

23

Figura 6 - Detalhamento de consultas

24

Figura 7 - Comparação de palavras no Google Trends

25

Figura 8 - Sugestão de palavras no Google

25

Figura 9 - Meta tag description em uma página Web. Fonte: [8]

27

Figura 10 – Descrição/título exibidos como snippet no resultado da pesquisa. Fonte: [8]

27

Figura 11 - Usuário podem subir de diretório removendo a última parte da URL

28

Figura 12 - Uso de Breadcrumbs

29

Figura 13 - Nuvem de Tags no site da Amazon - http://www.amazon.com/gp/tagging/cloud

33

Figura 14 - Rich Snippets. Fonte: [10]

35

Figura 15 - Exemplo de site map. Fonte: [8]

39

Figura 16 - Exemplo de um XML Sitemap. Fonte: [8]

41

Figura 17 – Exemplo do Google Analytics para um site

49

Figura 18 - Resultado do PageSpeed da página www.ufes.br

50

Figura 19 - Anúncios nos resultados de busca

51

Figura 20 - Análise de palavras-chave com o Google Trends

53

Figura 21 - Teste SEO com a ferramenta SEOquake

56

Figura 22- Teste de velocidade de navegação com o PageSpeed

57

Figura 23 - Response da página smartsti.com.br verificado com o Web-Sniffer

57

Figura 24 – Screenhoot do Google Webmaster Tools [14]

58

Figura 25 - Bing Webmaster [15]

59

Figura 26 - Estrutura de diretórios do site

59

Figura 27 - sitemap.xml do site smartsti.com.br

60

Figura 28- robots.txt

61

Figura 29 - Envio do Sitemap pelo Bing

61

Figura 30 - Menu do Bing Webmaster

62

Figura 31 - Envio de URLs pelo o Bing Webmaster

62

Figura 32 - Situação do site após 3 semanas segundo o Bing

62

Figura 33 - Atividades do site

63

Figura 34 - Verificação de marcação de dados pelo Bing Webmaster

63

Figura 35 - Consulta do cache do Bing

64

Figura 36 - Resultado no Bing em 1º lugar

65

Figura 37 - Resultado no Bing em 5º lugar

65

Figura 38 - Resultado no Bing em 3º lugar

65

Figura 39 - Cache do Bing após alguns dias

66

Figura 40 - Menu de opções do Google Webmaster Tools

67

Figura 41 - Estado do Sipemap enviado no Google Webmaster Tools

67

Figura 42 - Painel do robots.txt no Google Webmaster Tools

68

Figura 43 - Opção " Buscar como o Google"

68

Figura 44 - Estado da marcação de dados no Google

69

Figura 45 - URLs rastreadas, indexadas e bloqueadas pelo Google

69

Figura 46 - URLs removidas do índice do Google

70

Figura 47 - URLs mantiveram no índice mesmo após remoção no Google

71

Figura 48 - Resultado de pesquisa no Google

72

Figura 49 - 10 primeiros resultados no Google para a pesquisa

73

Figura 50 - Resultado de pesquisa mais específica no Google apareceu na primeira página o resultado

73

Figura 51 - Resultado de pesquisa no Yahoo

74

6

SUMÁRIO

1.

Introdução

8

1.1.

Motivação

10

1.2.

Justificativa

12

1.3.

Objetivos

13

2.

Conceitos Teóricos

14

2.1.

PageRank

14

2.2.

Modelagem Matemática do PageRank

16

2.3.

Arquitetura em alto nível do Google

18

2.3.1.

Crawlers

19

2.3.2.

Indexadores

20

2.3.3.

Armazenamento

21

3.

Técnicas e Procedimentos que Influenciam a Classificação dos Resultados dos

Mecanismos de Busca

22

3.1.

Conteúdo e Palavras-chave

23

3.2.

Fatores on-page

26

3.2.1.

Tag <title>

26

3.2.2.

Descrição (“description” meta tag)

26

3.2.3.

URLs e Estrutura de Navegação

28

3.2.4.

Página 404

29

3.2.5.

Links e Âncoras

29

3.2.6.

Imagens

30

3.2.7.

Heading tag

31

3.2.8.

Outras Medidas on-page

31

3.3.

Fatores off-page

33

3.4.

Rich Snippets

34

3.4.1.

Marcação

35

3.4.1.1.

Microdados

36

7

3.4.1.3.

RDFa

38

3.5.

Sitemaps

39

3.6.

Controle de rastreamento

41

3.6.1.

Meta tags para bloqueio

43

3.6.2.

X-Robots-Tag

43

3.7.

Fatores de desempenho (otimização do tempo de navegação)

44

3.8.

White Hat x Black Hat

46

3.8.1.

Cloaking (camuflagem de conteúdo)

47

3.8.2.

Texto e links ocultos

47

3.8.3.

Conteúdo gerado automaticamente

47

3.8.4.

Preenchimento de palavra-chave

48

3.8.5.

Doorway Pages

48

3.8.6.

Página com comportamento malicioso

48

3.8.7.

Esquemas de Link

48

3.9.

Ferramentas de Apoio ao Trabalho de SEO

49

3.10.

Melhoria das classificações na Web usando soluções pagas

50

4.

Estudo de Caso

52

4.1.

Resultados Obtidos

58

4.1.1.

Análise com o Bing

61

4.1.2.

Análise com o Google

66

4.2.

Melhoria dos Resultados

75

5.

Conclusão

76

6.

Referências

78

8

1. Introdução

O acesso à informação e a serviços é um dos principais motivos pelo uso crescente do uso da Internet. A informação está sendo rapidamente difundida, havendo uma produção generalizada de conteúdo digital, onde todos participam de alguma forma, seja produzindo, seja consumindo, seja distribuindo. As redes sociais, blogs, sites de notícias e os agregadores de conteúdo enriquecem a experiência que os usuários obtêm ao navegarem na Web. Dado o volume de dados difundidos na Web é elevado, é premente a necessidade de serem criados mecanismos facilitem a caminhada do usuário ao seu destino: a informação desejada. Os mecanismos de busca (Google, Yahoo, Bing, etc.) tornaram essenciais, uma vez que é praticamente impossível para um usuário chegar ao seu objetivo final sem conhecer o endereço do destino. Além disso, a possibilidade de se encontrar uma diversidade de informações ligadas a um determinado assunto é bastante elevada, além das buscas serem cômodas, simples e rápidas. A relação entre navegar na Web e buscar a informação tornou-se tão estreita que muitas pessoas confundem Internet (e a própria Web) com mecanismos de busca, não conseguindo sequer navegar na rede sem uso de buscadores. As primeiras versões das ferramentas de busca na Web foram desenvolvidas com o propósito de criar listas por categorias a serem exploradas. Cada site receberia então uma atribuição segundo a sua particularidade. Estas listas eram controladas por seres humanos, demandando uma exaustiva análise para cada página na Web a ser incluída em uma categoria. O mecanismo era funcional apenas em pequena escala. Além disso, a análise era lenta e não podia atribuir especificações quanto aos assuntos e objetivos do site. A evolução trouxe novos conceitos relacionados à busca na Web, mostrando a necessidade e tendência a existir um mecanismo que identificasse e classificasse as categorias e os assuntos de forma automática e inteligente. Com isso, começaram a surgir os precursores dos motores de busca, na qual já era possível realizar buscas com base em palavras-chave. Esta tendência evoluiu e originou os mecanismos de busca automáticos que até hoje continuam sendo utilizados. O principal (e o mais utilizado) motor de busca é o Google, devido a sua simplicidade, eficiência e qualidade nos resultados obtidos. Seu algoritmo tem sido constantemente otimizado levando em conta diversos quesitos. Os outros motores têm obtido um crescimento de uso razoável, porém ainda estão bem distantes da hegemonia do principal buscador. O principal

9

método conhecido para a classificação e ordenação das páginas é o PageRank [1]. O PageRank, que foi desenvolvido pelos fundadores do Google Larry Page e Sergey Brin, é um algoritmo matemático que atribui notas aos sites segundo as suas características e propriedades. Além do PageRank, o Google realiza diversas operações, como indexação das páginas, punição por má qualidade (conteúdo, referencias, etc.), classificação das páginas. Quando uma pesquisa é feita, o algoritmo do Google realiza uma classificação das páginas baseado nas palavras-chave e a partir disso são exibidos os resultados de pesquisa baseados no que o algoritmo classificou como mais relevante como resultado. Um bom posicionamento no ranking das páginas retornadas numa operação de busca é um negócio que desperta grande interesse em quem os publica, principalmente empresas. Uma boa colocação pode significar maior credibilidade, difusão, conhecimento, publicidade, arrecadação, entre outras vantagens significativas para empresas e pessoas. Com isso, surgiram técnicas e procedimentos que visam “otimizar” 1 websites (Web e mobile) para que conquistem os primeiros lugares na classificação dos resultados de pesquisa. Estas técnicas de otimização são conhecidas pelo nome SEO (Search Engine Optimization – otimização dos motores/mecanismos de busca). SEO envolve um trabalho minucioso de pesquisa, estudo de tendências, integração de diversas áreas do conhecimento (tecnologia da informação, marketing, economia, etc), constante monitoramento dos resultados de classificação, manutenção permanente do conteúdo, entre outros. Além disso, o uso de dispositivos móveis (smartphones e tablets) tem traçado diretrizes ainda mais abrangentes e complexas para as estratégias de SEO, principalmente na forma e na experiência do usuário em lidar com a informação e seus resultados. Outras técnicas de otimização diretamente ligadas ao SEO são: (i) SMM (Search Media Marketing) – é a área responsável por toda estratégia de marketing dentro das mídias sociais; (ii) SEM (Search Engine Marketing) – utilizando como estratégia o próprio SEO, além dos links patrocinados e outras ferramentas e (iii) SMO (Social Media Optimization) – otimização utilizando mídias sociais para promover acessos a páginas Web.

1 O termo otimizar neste projeto é entendido como aplicar técnicas em SEO numa página Web que poderão apresentar melhores classificações nas buscas por palavras-chave.

10

1.1.Motivação

As pesquisas através de dispositivos móveis cresceram cerca de 30 vezes nos últimos dois anos [3]. Estatísticas indicam que os usuários passaram a realizar mais buscas, uma vez que, com dispositivos móveis usuários pesquisam em qualquer lugar e em qualquer hora. Com isso, o trabalho de SEO adquire diversas propriedades como localização, resultados específicos para Web/celular/tablet diferenciados uns dos outros, manipulação de resultados segundo perfil do usuário, estratégias de marketing diferenciadas, entre outras. Existe uma previsão de que a partir de 2013 existirão mais pessoas usando celulares do que computadores para o acesso à Web [4]. Isso mostra que existe um grande mercado de trabalho em SEO, marketing digital e determinação de perfis de usuários. Outro fato é que existem poucos profissionais e empresas que realizam este tipo de serviço atualmente. A união de recursos de TI com estratégias de marketing e publicidade pode ser um aliado valioso para gerar lucro para as empresas, pois através destes é possível difusão da informação (interesse essencial de todas as empresas). A conquista das melhores colocações nos rankings não depende unicamente do esforço dos mecanismos de busca, mas também do trabalho intenso em SEO no desenvolvimento dos websites das empresas. Estar entre os primeiros (de preferência na primeira ou segunda colocação) após uma busca significa transmitir credibilidade e confiabilidade aos clientes em potencial, além de gerar um maior número de acessos ao site de empresa, o que pode resultar em crescimento nos seus negócios e no seus lucros. A Figura 1 mostra o resultado produzido pelo Google, Bing e Yahoo (respectivamente, da esquerda para a direita) para uma possível busca de empresas especializadas em SEO, na cidade de Vitória–ES, a partir das strings “SEO Vitoria”. Não está em discussão aqui se a string é a mais adequada para isso. Entretanto, trata-se de um procedimento típico de usuários que buscariam esse tipo de serviço. Como pode ser observado, nenhum dos resultados apresentado se refere a uma empresa que realize este tipo de serviço.

11 Figura 1 - Situação inicial de pesquisa para um negócio local A principal motivação

11

11 Figura 1 - Situação inicial de pesquisa para um negócio local A principal motivação para

Figura 1 - Situação inicial de pesquisa para um negócio local

A principal motivação para realização deste projeto de conclusão é mostrar como técnicas e procedimentos de SEO podem ser empregados no site de uma empresa real (uma empresa existente no mercado, que realiza serviços em SEO) para permitir que este esteja entre

12

as 10 primeiras posições do ranking de busca pelo conjunto de strings “SEO Web Vitória” em qualquer um dos buscadores anteriores. Do ponto de vista de empresa, a melhoria na posição do ranking tem o potencial de aumentar o retorno nos negócios realizados com clientes que chegam à empresa através da busca por strings com palavras-chave usando um navegador Web.

1.2.Justificativa

O trabalho de desenvolver websites com recursos que propiciem melhores classificações nas pesquisas constitui-se num excelente mercado para profissionais de TI. As empresas têm procurado “otimizar” seus sites para melhores posicionamentos nas buscas. Além disso, a otimização tem ferramentas que auxiliam estratégias de marketing podendo ser implementada em conjunto com o trabalho de SEO. O SEO é mais que uma melhoria no ranking de pesquisas, mas principalmente fazer com que os mecanismos de busca ofereçam resultados mais bem direcionados e precisos a quem está pesquisando. No Brasil, poucas empresas estão realizando este tipo de trabalho, muito menos no estado do Espírito Santo. A procura de serviços especializados em SEO tem sido alta, o que comprova que é um mercado amplo e promissor para se atuar. Outra questão é que o uso de dispositivos móveis tem ampliado o interesse das empresas adaptarem seus conteúdos Web para as plataformas móveis melhorando a experiência do usuário e direcionando as buscas com resultados interessantes para quem usa estes dispositivos (resultados influenciados pela localização, opção de ligar diretamente pelo resultado da busca, etc.). A partir do conhecimento e pesquisa nesta área, surge o interesse e é possível adquirir experiência e atuar neste negócio podendo ao longo do tempo conquistar clientes potenciais. Para desenvolver um bom trabalho nesta área, é preciso domínio das técnicas e métodos, além de um bom conhecimento do nicho que o cliente atua, e minha atuação no meu Projeto de Graduação me auxiliará no aperfeiçoamento e desenvolvimento na empresa.

13

1.3.Objetivos

O objetivo principal é estudar e aplicar técnicas, métricas e estratégias para verificar a repercussão na classificação de busca por palavras-chave na busca orgânica nos principais mecanismos de busca – Google, Yahoo e Bing – verificando o resultado e o funcionamento das ferramentas. Os objetivos específicos que apoiam a realização do SEO são:

Colocar o site smartsti.com.br nas 10 primeiras posições dos resultados de busca nos principais mecanismos de busca da Web;

Entender o comportamento dos algoritmos de busca dos principais motores de busca;

Estudar as métricas e procedimentos para otimização de páginas para busca;

Estudar as ferramentas de SEO que fazem parte do processo de desenvolvimento de SEO e na análise dos resultados;

Aplicar as técnicas e procedimentos em um estudo de caso, realizado no site smartsti.com.br;

Analisar e comparar os resultados com o uso dos diferentes mecanismos de busca.

14

2. Conceitos Teóricos

Os mecanismos de busca na Web são extremamente robustos e envolvem integração de diversos sistemas de computação e áreas do conhecimento, como a matemática e a estatística. Para que estes mecanismos de busca sejam viáveis para o uso em grande escala é preciso que haja uma tecnologia de rastreamento rápida para adquirir os documentos da Web e os manterem atualizados (dezenas de milhões de páginas adicionadas e alteradas por ano [5]), o armazenamento de dados deve ser eficiente para armazenar os índices gerados pelo rastreamento, o processamento das informações indexadas devem ser eficiente e também as consultas devem suportar uma alta taxa de pesquisas (atualmente o Google processa mais de um bilhão de consultas por dia [6]). O custo e desempenho de hardware como busca em disco, e robustez em sistemas operacionais são fatores extremamente relevantes para esses mecanismos, considerando a taxa de crescimento da Web e das mudanças tecnológicas.

O Google foi projetado para lidar com dados em larga escala, fazendo uso eficiente do

espaço de armazenamento para armazenar os índices e as estruturas de dados são otimizadas para rápido acesso (será detalhado posteriormente). Os detalhes a seguir mostram detalhes sobre a arquitetura e o funcionamento de Google, mas também enquadra os principais mecanismos de busca atuais que seguem a mesma linha de tecnologia.

A partir dos diversos quesitos de projeto, foram desenvolvidos alguns conceitos e

arquiteturas para o projeto de um mecanismo de buscas na Web eficaz que serão abordados a

seguir. Todo o texto a seguir deste capítulo está fundamentado na referência [7].

2.1.PageRank

O principal e primordial indicador de classificação utilizado pelos mecanismos de busca na

Web é o PageRank, que foi introduzido por Sergey Brin 2 e Lawrence Page 2 em 1998 em um artigo científico [1]. O PageRank é um modelo matemático probabilístico que foi adaptado às necessidades para um conceito de classificação. Antes dos mecanismos de busca, as páginas eram localizadas através de listas classificadas por categorias e eram definidas através da análise humana não sendo um processo viável para uma alta escala e oferecendo resultados, na

2 Fundadores do Google

15

maioria das vezes, irrelevantes aos usuários. Para se criar um modelo de classificação por relevância de uma determinada página na Web é preciso compreender de que maneira será definida uma página relevante. As páginas da Web possuem referências entre as mesmas criando uma estrutura encadeada que define seus relacionamentos. A partir de então, percebeu-

se que uma estrutura de links e os textos de link disponibilizam muitas informações para análise

e julgamento da qualidade e relevância de uma página na Web. O Google definiu como essência de classificação dois principais fatores: (1) a estrutura de links na Web para calcular a classificação de relevância em cada página na Web (que foi dado o nome de PageRank) e (2) os textos nos links para melhorar esta classificação. Além destes dois, atualmente o Google considera mais de duzentos outros fatores para determinar a relevância de uma página na Web, sendo que parte destes serão descritos posteriormente neste trabalho. Uma página na Web possui um bom PageRank se possui boas referências que direcionam

a ela, ou seja, páginas relevantes (bem classificadas) apontam para esta. Com relação ao modelo matemático do PageRank, pode ser entendido a partir de um modelo de comportamento de um usuário. Supondo que um usuário aleatório irá acessar uma página na Web aleatória e este usuário irá permanecer clicando em links sem voltar em momento algum à página anterior, conforme mostra a Figura 2. A probabilidade deste usuário acessar uma determinada página será o seu PageRank. Portanto, o PageRank é um índice que é calculado através da estrutura de links que indica a probabilidade de acesso a uma determinada página na Web e também sua importância em relação às demais páginas na Web.

16

16 Figura 2 - Representação da métrica do PageRank usando percentuais de probabilidade de acesso a

Figura 2 - Representação da métrica do PageRank usando percentuais de probabilidade de acesso a uma página. Fonte: [1]

2.2. Modelagem Matemática do PageRank

O cálculo do PageRank possui duas propriedades fundamentais para a aplicabilidade

nos mecanismos de busca: escalável e iterativo. Portanto, o algoritmo é executável em tempo

útil (tempo significativamente suficiente para fins comerciais) com o aumento significativo do

número de páginas na Web e as iterações são finitas convergindo para um valor final do

PageRank. Ele forma uma distribuição de probabilidade entre as páginas na Web, tornando a

soma do PageRank de todas a páginas igual a um. Na primeira iteração todas as páginas

recebem o mesmo PageRank e é atribuído , onde é número total de páginas. A descrição

matemática é conforme a seguir:

1

Supondo A uma página qualquer na Web e esta página possua 1 , 2 , … , ( são páginas na

Web) páginas referenciando a ela e é definido uma função ( ), que representa o número de

links externos que uma página possui. Sendo assim, o valor do PageRank será:

() = ( ( 1 1 ) )

+

( 2 ) ( 2 )

+ ⋯ + ( ) ( )

17

que na forma geral é:

() =

()

()

Equação 1 - Forma simplificada do cálculo do PageRank. Fonte: [7]

onde é o conjunto de todas as páginas que referenciam u e () é o número de referência

em v.

Este cálculo simplificado do PageRank apresenta alguns problemas em determinadas

situações, como páginas sem ligações e ciclo de links (iterações ficam infinitas para o cálculo

do PageRank). A solução dada foi o acréscimo de uma constante chamada fator de

amortecimento que é a probabilidade (em cada passo) de dado um usuário qualquer que esteja

navegando na Web seguindo um fluxo de links manter este fluxo sem que haja interrupção

(desistência de continuidade em uma sequência de links).

A B
A
B
A B D C
A
B
D
C

Figura 3 - Páginas sem ligações e ciclo de links

Com isso, a equação que define o PageRank () incorpora uma componente

correspondente à contribuição das páginas que referenciam para A, ponderado pela

probabilidade do usuário seguir as ligações das páginas e uma componente correspondente

ao usuário ter selecionado a página aleatoriamente ponderado pela probabilidade de o utilizador

não seguir as ligações das páginas (1 − ). Portanto a equação do PageRank será:

() = (1 )

+

∑ ()

()

Equação 2 - Cálculo do PageRank com o fator de amortecimento. Fonte [1]

O fator de amortecimento acrescenta as seguintes propriedades importantes ao cálculo

do PageRank:

Todas páginas possuem a mesma probabilidade de um usuário acessar a qualquer

18

momento.

Páginas sem ligação possuem PageRank não nulos e portanto, recebem uma

classificação.

Nos ciclos de links as iterações irão convergir.

A equação para o cálculo do PageRank é normalmente utilizada na forma de matrizes,

para aprimorar os procedimentos computacionais e apresenta algumas variações que permitem

otimização nas iterações, agregando em alguns casos outros parâmetros que não estão

contemplados no escopo deste projeto.

= [ (1 − )⁄

(1 − )⁄

(1 − )⁄ ] +

(

( 2 ,

1 ,

1 )

1 )

[ ( , 1 )

( 1 , 2 ) ⋱

( , )

( 1 , ) ⋮

( , )]

Equação 3 - Forma matricial do PageRank. Fonte: [1]

onde ( , ) é o inverso do número de referências de uma página para uma página .

2.3.Arquitetura em alto nível do Google

A arquitetura do Google foi apresentada em alto nível em 1998, relatando os sistemas

principais que integram o motor de busca e a maneira geral como eles se relacionam, assim

como suas principais funcionalidades. Os detalhes de projeto e implementação são

considerados pela empresa como “segredo comercial” e com isso, não está disponibilizado para

consulta. Além disso, seu algoritmo sofre em torno de quinhentas alterações anualmente.

Contudo, pode-se obter um entendimento da complexidade e como é o funcionamento de um

mecanismo de busca através dos módulos de arquitetura como indexadores, os crawlers

(rastreadores de conteúdo na Web), buscadores, entre outros módulos do motor de busca. O

cálculo do PageRank, por exemplo, é um dos vários procedimentos que compõem os complexos

mecanismos de busca.

O Google foi desenvolvido nas plataformas Linux e Solaris, podendo funcionar em qualquer

uma delas independentemente. Com o amadurecimento da empresa foi desenvolvida uma

versão própria de sistema operacional baseado em Linux para o uso nos seus Data Centers. A

maior parte do motor de busca foi desenvolvido em C, C++ e Python, tendo em vista a

19

necessidade de eficiência computacional. A Figura 4 relata em alto nível o procedimento que os mecanismos de busca fazem para realizarem as consultas, desde o rastreamento das páginas na Web, criação dos índices, buscas, etc.

das páginas na Web, criação dos índices, buscas, etc. Figura 4 - Arquitetura em alto nível

Figura 4 - Arquitetura em alto nível do Google. Fonte: [7]

2.3.1. Crawlers

O processo de rastrear o conteúdo da Web, é chamado pelo Google de Web Crawling. O rastreamento é feito através de um conjunto de aplicações denominadas Googlebots (conhecido também como bots, robôs ou spiders), que descobrem páginas novas e/ou atualizadas para serem incluídas no índice do Google. Para adquirir o conteúdo das páginas, o Googlebot realiza uma espécie de simulação de navegação da mesma forma que um usuário através do navegador Web, conhecido como post- processing. Um endereço é requisitado, e então é devolvido uma resposta que é extraída e armazenada. O Web Crawling é uma aplicação complexa, pois exige interação com milhões de servidores Web e diversos name servers o que está fora de controle do sistema. Ele é realizado através de um sistema de rastreadores distribuídos para que este rastreamento se realize em tempo útil. Os crawlers são alimentados através do URL Server que disponibiliza endereços para serem rastreados. Cada crawler pode manter aproximadamente trezentas conexões abertas ao mesmo tempo, melhorando o desempenho para adquirir as páginas Web e lidar com outras

20

informações simultaneamente. Nas primeiras implementações, era possível realizar o rastreamento de mais de cem páginas por segundo utilizando apenas quatro crawlers. Outro quesito é a resolução de nomes que é feita através de DNS servers, o que pode reduzir o desempenho e portanto, cada crawler mantém um DNS cache. Com isso, as diversas conexões abertas em cada crawler podem estar em diferentes estados ao mesmo tempo: resolução de nomes, conexão com hosts, envio de requisições e recebendo respostas. Algumas dificuldades são pertinentes quanto ao Web Crawling, como direitos autorais, conteúdos dinâmicos, cloaking (entrega de conteúdos diferentes de uma mesma URL para visitantes específicos, como por exemplo usuários humanos e rastreadores da Web), interação com o usuário, sites com bugs, entre outros. Após o envio da lista de URLs pelo URL Server para os crawlers, eles rastreiam as páginas na Web e em seguida todo conteúdo adquirido no processo de Web Crawling é encaminhado ao Store Server que tem a função de compactar e armazenar as páginas da Web em um repositório. Em seguida, inicia-se o processo de indexação, que será abordado no próximo item.

2.3.2. Indexadores

O sistema de indexação é um sistema complexo e envolve diversas funcionalidades.

Como seu próprio nome diz, o objetivo da indexação é criar índices a partir dos dados e

informações contidos no repositório e distribuir índices de maneira que possa ser criada uma estrutura sistematizada para o relacionamento das partes que fazem parte da arquitetura do mecanismo de busca.

A indexação é composta por três procedimentos: indexador, ordenador e parser. Uma

vez disponibilizados os dados no repositório, o indexador realiza a leitura dos chamados documentos, que são os diferentes tipos de dados armazenados no repositório, como: texto, HTML, PDF, imagens, sons, arquivos de log, entre outros. Estes são descompactados, para em seguida passarem por uma análise de palavras que é feita pelo parser. Esta análise é feita, convertendo cada documento para uma estrutura de dados chamada hits que armazena o conjunto de ocorrência das palavras. Nos hits ficam registradas a sua posição no documento e dados de formatação (tamanho da fonte, maiúscula/minúscula, etc.). O indexador distribui os

21

hits em uma estrutura denominada barrel que é uma espécie de banco de hits, onde estes são inseridos de forma ordenada segundo seus índices de documento (docID 3 ). Além disso, o indexador analisa os links presentes em cada página Web extraindo e armazenando as informações importantes nos arquivos anchors que mantém registrado informação de onde cada link pertence, para onde ele aponta e o texto ancorado a este link. Os anchors são lidos pelo URL Resolver e as URLs são convertidas para URLs absolutas e associando um docID. O URL Resolver também cria um índice para os textos do link e o associa ao docID no qual o link aponta e também gera uma base de dados com os links que fazem parte de um docID. Essa base de dados é utilizada para computar o PageRank das páginas na Web e documentos. O ordenador tem a função de reordenar os hits contidos nos barrels segundo wordID 4 para gerar um índice invertido com as palavras, produzindo uma lista de wordIDs e o offset dos índices invertidos.

2.3.3. Armazenamento

O armazenamento de todos documentos são feitos no repositório. Neste, todos os dados antes de serem inseridos passam por um sistema de compressão realizado pelo Store Server que utiliza a biblioteca de compressão de dados zlib que funciona em multiplataformas. A escolha desta ferramenta deu-se em razão do excelente desempenho, em termos de tempo, nas compressões realizadas em relação à outras ferramentas. Essas compressões conseguem reduzir o espaço em disco em torno de três vezes. No repositório, os documentos são armazenados sequencialmente e em cada pacote (estrutura de dados que contém os dados comprimidos e informações sobre estes dados) são registradas informações como docID, tamanho e URL.

3 docID é uma identificação que cada página na Web recebe quando uma nova URL é analisada durante a indexação de uma página. 4 Identificação que cada palavra distinta possui que é atribuída pelo indexador.

22

3. Técnicas e Procedimentos que Influenciam a Classificação dos Resultados dos Mecanismos de Busca

Para introduzir as técnicas e procedimentos em SEO é necessário conhecer as diretrizes fundamentais para mecanismos de busca, especialmente para o Google, que são: (i) oferecer a melhor experiência ao usuário; (ii) oferecer conteúdos mais relevantes a partir dos resultados da sua pesquisa (conteúdos realmente importantes para sua pesquisa, sendo estes originais e bem produzidos) e (iii) oferecer estes conteúdos de forma rápida e segura (livre de conteúdo malicioso e suspeito). Tendo essas premissas em mente é possível entender melhor o porquê de cada técnica e diretriz usadas na melhoria da classificação nos resultados. Outro ponto importante a ser considerado é que as práticas de SEO não devem levar em conta exclusivamente os mecanismos empregados por máquinas e robôs de busca. Cada ponto considerado na elaboração de uma página na Web deve ser pensado em termos dos usuários, zelando pelas diretrizes fundamentais. Esta é um problema negligenciado por muitos profissionais e que pode, na maioria dos casos, prejudicar a classificação dos sites nas pesquisas, conforme será apresentado posteriormente. Os resultados das pesquisas no Google são divididos em dois setores (Figura 5): (i) os links patrocinados e (ii) a busca orgânica, sendo esta última o foco deste trabalho. A pesquisa orgânica é realizada baseada no conteúdo do site, disponibilizando ao usuário o melhor resultado segundo seus critérios de classificação. As técnicas em SEO tentam otimizar um site de forma que este conquiste melhor classificação em relação ao contexto de pesquisa, porém não é possível garantir em momento algum a ordem de classificação, nem mesmo que irá aparecer entre os primeiros. Entretanto é fundamental seguir as técnicas, pois oferecem uma probabilidade maior de que este site seja encontrado.

23

23 Figura 5 - Links patrocinados / Busca orgânica. Fonte: [8] Os mais de duzentos fatores

Figura 5 - Links patrocinados / Busca orgânica. Fonte: [8]

Os mais de duzentos fatores de classificação [9] não são completamente conhecidos. Entretanto, aqueles essenciais para o trabalho de SEO e aplicados neste projeto serão abordados na sequência do texto.

3.1. Conteúdo e Palavras-chave

O conteúdo e as palavras-chave merecem um tópico especial a seu respeito, pois fazem parte de um importante e indispensável procedimento no trabalho de SEO. Todo conteúdo em um site deve ser elaborado de maneira única, totalmente original, dispensando qualquer cópia ou plágio de algum outro site ou documento da Web. O algoritmo do Google é inteligente suficiente para verificar qualquer tipo de plágio e também consegue analisar a qualidade do conteúdo, como concordâncias, erros gramaticais e sem dúvida erros de digitação. Isso tudo para que seja primado ao usuário uma boa experiência (resultados relevantes e convenientes à busca). Páginas com conteúdo duplicado, copiado e mal redigido são penalizadas na classificação. Para que a página obtenha um bom conteúdo é necessário que quem esteja redigindo seja cuidadoso e produza textos de qualidade, originais e úteis a um determinado público. As palavras-chave em um site são palavras utilizadas em textos, títulos, subtítulos, links, descrições, ou seja, qualquer parte do conteúdo. Ao redigir conteúdo de um site, além de uma boa elaboração, deve se pensar no uso adequado de palavras e não na forma como os mecanismos de busca irão tratar o site, mas sim no que seria útil para quem visita aquela página

24

para que corresponda às suas expectativas. Deve-se ter o cuidado, por exemplo, para que não haja uso excessivo de palavras-chave repetidas para tentar enganar os mecanismos de busca. Isto é não é considerada uma prática honesta, gerando uma penalização na classificação. Outro ponto a ser considerado é que quanto mais específico, melhor o conteúdo, pois conteúdos muito abrangentes e genéricos aumentam a possibilidade da obtenção de resultados inadequados na hora da pesquisa. Por exemplo, uma página de uma loja de sapatos deve informar não apenas conter informações institucionais e produtos, mas deve especificar os tipos de sapato, materiais usados, se vendem masculino e/ou feminino, detalhes sobre cada produto, localidade, etc. Quando usuários fazem pesquisas mais específicas (principalmente, buscando produtos), páginas com conteúdo mais bem especificados são melhores classificadas. A Figura 6 mostra a diferença entre resultados de buscas genéricas e específicas na busca por sapatos, por exemplo.

genéricas e específicas na busca por sapatos, por exemplo. Figura 6 - Detalhamento de consultas Para
genéricas e específicas na busca por sapatos, por exemplo. Figura 6 - Detalhamento de consultas Para
genéricas e específicas na busca por sapatos, por exemplo. Figura 6 - Detalhamento de consultas Para

Figura 6 - Detalhamento de consultas

Para que seja feito um estudo sobre a melhor possibilidade de uso de palavras-chave, o

25

Google disponibiliza de uma ferramenta chamada Google Trends (http://google.com/trends). Com a ferramenta é possível fazer se comparações de palavras em relação às tendências de pesquisa, permitindo ao elaborar o conteúdo melhor colocação, escolha de palavras e/ou sinônimos que sejam mais relevantes para pesquisa de usuários. Além disso, o Google oferece sugestões baseadas naquilo que é digitado. As palavras que seguem o que está sendo digitado são baseadas em frequências e tendências de palavras em pesquisa, permitindo um outro tipo de análise de palavras-chave, como é visto na Figura 7.

de análise de palavras-chave, como é visto na Figura 7. Figura 7 - Comparação de palavras

Figura 7 - Comparação de palavras no Google Trends

como é visto na Figura 7. Figura 7 - Comparação de palavras no Google Trends Figura

Figura 8 - Sugestão de palavras no Google

26

3.2.Fatores on-page

As técnicas aplicadas diretamente à página Web, como o alterações no código HTML são conhecidas como fatores on-page. Estes fatores são os mais relevantes considerando o conteúdo do site, pois determinam sua estrutura hierárquica, descrição de elementos e outros detalhes na página. Nas subseções seguintes serão descritos os fatores on-page e a maneira que cada um deve ser tratado nas páginas Web.

3.2.1. Tag <title>

Esta tag é indispensável para obter relevância pelo Google, pois ela determina não apenas o título da página corrente, mas também é exibida nos resultados de classificação nos resultados da busca. Os títulos que contém as palavras-chave pesquisadas obtém maior relevância para aquela pesquisa. Para determinar o melhor título para uma página, devem ser seguidos os critérios já mencionados para elaboração de conteúdo e palavras-chave, fazendo uma análise em cada página, visando a essência de cada. Os títulos devem ser únicos, precisos e a quantidade de texto deve ser moderada, evitando textos muitos longos e aqueles demasiadamente desprovidos de informações. É preciso ter um bom senso, indicando o que é útil em um título. Nas homepages podem também conter o nome do site ou negócio e outras pequenas informações como localização física e resumo do que se trata o negócio. Os títulos de cada página de um site devem ser diferenciados entre si para que o Google possa distinguir o conteúdo de cada página individualmente. Outro ponto importante é colocar as palavras-chave prioritárias mais à esquerda, pois os mecanismos de busca colocam maior peso às palavras mais à esquerda, uma vez que usuários leem da esquerda para a direita.

3.2.2. Descrição (“description” meta tag)

Além do título, existe a possibilidade de declarar uma descrição de uma página descrevendo um breve resumo. Esta descrição não é obrigatória, porém ajuda aos mecanismos de busca a compreenderem melhor o conteúdo correspondente a esta determinada página. A descrição é feita dentro da tag <meta name=“description” contente=“descrição/resumo da

27

página”> (Figura 9). Ela deve ser escrita levando em conta as palavras-chave que melhor representam o conteúdo da página, oferecendo um breve resumo de aproximadamente um parágrafo. Deve-se ter o cuidado de não elaborar uma descrição muito longa, nem mesmo pequena ao ponto de não descrever corretamente o conteúdo ou assunto. Além disso, a descrição de cada página deve ser única. O Google penaliza páginas com descrições sem relação com o conteúdo, descrições genéricas (como: “Página sobre sapatos”), descrições preenchidas apenas com palavras-chave e conteúdo da página copiado para a descrição. Sites que possuem centenas ou milhões de páginas são tratados de uma maneira um pouco diferenciada, não penalizando a geração automática de descrições.

não penalizando a geração automática de descrições. Figura 9 - Meta tag description em uma página

Figura 9 - Meta tag description em uma página Web. Fonte: [8]

Outro ponto importante sobre as descrições é que elas podem ser utilizadas, na maioria das vezes, como snippets 5 , sendo que as palavras correspondentes à pesquisa são indicadas em negrito, sendo assim uma excelente oportunidade para atrair cliques, como mostra a Figura 10.

oportunidade para atrair cliques, como mostra a Figura 10. Figura 10 – Descrição/título exibidos como snippet

Figura 10 – Descrição/título exibidos como snippet no resultado da pesquisa. Fonte: [8]

5 Nome dado ao resumo apresentado como resultado da pesquisa, abaixo de cada link listado como resultado.

28

3.2.3. URLs e Estrutura de Navegação

Cada página em um site possui em endereço conhecido como URL. Estes endereços também devem ser planejados de maneira que sejam simples de entender (em muitos casos, possíveis de serem memorizados) e, se possível, auto descritivos. Usuários se sentem mais con- fortáveis ao acessar links com endereços “amigáveis” e que disponibilize de palavras reconhe- cíveis. As palavras relevantes inseridas em uma URL forcenem aos mecanismos de busca in- formações sobre aquela página. As URLs também são exibidas nos resultados de busca e as palavras-chave são marcadas quando correspondidas, o que consequentemente melhora a clas- sificação da página nos resultados. As URLs dinâmicas podem prejudicar a classificação, gerando endereços com Ids de sessão, parâmetros, palavras sem sentido, etc. É importante que sejam tratados esses quesitos de maneira que mantenha somente o necessário para a URL. O uso de palavras genéricas (“pa- gina1.html”) e de palavras-chave em excesso também não são recomendados para as URLs.

A estrutura de diretórios de um site na Web deve ser feita de maneira organizada e estruturada ao passo que esta estrutura diferencie categorias, documentos, tipos de arquivo, etc. Os diretórios irão determinar o formato da URL, sendo necessário definir nomes intuitivos, pois além de ajudar os usuários encontrarem rapidamente o que procuram, auxilia os mecanismos de busca compreenderem melhor o contexto e o que cada página representa em um site completo. Além disso, é preciso ter o cuidado de deixar a estrutura muito bem definida, pois usuários comumente removem trechos da URL para subirem um nível no site, como na Figura

11.

da URL para subirem um nível no site, como na Figura 11. Figura 11 - Usuário

Figura 11 - Usuário podem subir de diretório removendo a última parte da URL

Os mecanismos de busca recomendam o uso de breadcrumbs lists 6 (Figura 12) pois são bons para visualização da hierarquia da página que está situado, permitindo uma melhor experiência aos usuários.

6 Breadcrumbs são auxiliares de navegação que aparecem geralmente no topo da página, indicando o nível hierárquico do site em que se encontra o internauta, permitindo que este facilmente retorne às páginas navegadas anteriormente.

29

29 Figura 12 - Uso de Breadcrumbs 3.2.4. Página 404 A página 404 não deve apenas

Figura 12 - Uso de Breadcrumbs

3.2.4. Página 404

A página 404 não deve apenas indicar que a página solicitada não foi encontrada, mas tem que guiar os usuários para a página raiz e oferecer links para páginas populares e páginas relacionadas no site, aperfeiçoando a experiência do usuário. É importante configurar que a página 404 não seja indexada pelos mecanismos de busca.

3.2.5. Links e Âncoras

Os links são fundamentais para o cálculo do PageRank e evidenciam a relação entre o site e o universo da Web. A quantidade, qualidade e relevância dos links influenciam sua clas- sificação. Os links em uma página podem apontar para páginas internas ao site ou páginas de outros sites. Com isso, é possível relacionar o conteúdo da página com o da página que está sendo apontada, auxiliando os mecanismos de busca na compreensão do contexto da página. Páginas com um conteúdo de qualidade e com bons relacionamentos (referencias para sites de qualidade) são priorizados na classificação de busca. Não é uma regra inserir links externos em todas as páginas. Isso deve ser feito somente quando necessário. Os links são formados por uma URL e pode ter um texto ancorado. Este texto também transmite alguma informação para os mecanismos de busca a respeito do que se trata a página

30

referenciada, além de mascarar endereços. O texto ancorado deve ser produzido seguindo as métricas de elaboração de conteúdo e palavras-chave. Este texto deve ser descritivo e conciso, de maneira que contenha ao menos uma ideia básica a respeito do que se refere à página linkada, evitando o uso de textos não relacionados com o contexto, textos genéricos (“clique aqui”), usando a própria URL e textos longos como um parágrafo. Deve-se sempre distinguir uma an- cora de um texto comum, para não prejudicar a experiência dos usuários, fazendo-os perder links ou clica-los acidentalmente. Links quebrados também devem ser verificados e removidos para não ser penalizado na classificação de busca. Os links externos possuem um peso no cálculo do PageRank, porém determinadas pá- ginas com má reputação ou maliciosas prejudicam a classificação de um site nas pesquisas. Em páginas que apenas um administrador controla o conteúdo não é necessário se preocupar com esse aspecto, porém em páginas que contém iteração com usuários e colaboração de terceiros é importante ter cautela com o uso de links. Para isso existe o atributo rel=nofollow” que quando os robôs de busca realizam a indexação e classificação de um site, quando eles enxergam este atributo em um link, eles desconsideram aquela referência. Em blogs, fóruns e outros é extre- mamente importante tomar o cuidado de inserir este atributo nos links para que usuário mal intencionados não prejudiquem a classificação com links de má reputação e spam.

3.2.6. Imagens

Imagens não podem ser compreendidas pelos mecanismos de busca. Elas podem exercer um papel importante na melhoria da classificação em um site se tratadas de maneira correta, pois estão presentes em quase todos os sites na Web. Para que os mecanismos de busca compreendam do que se trata uma imagem são necessários três procedimentos básicos. O primeiro é o uso do atributo alt que tem a finalidade de descrever um texto alternativo à imagem e os mecanismos de busca o utilizam para indexar aquela imagem para pesquisa de imagens e relacionar a imagem com o contexto em que ela está imersa. Essa descrição deve ser curtas, porém descritivas. O segundo procedimento é atribuir um nome associativo ao arquivo, por exemplo: em um site de compras de sapatos, é interessante atribuir à imagem de um sapato algo como sapato-couro-masculino-ref01.jpg. O último procedimento é organizar os arquivos de imagem de forma centralizada, inserindo todos em um único diretório, pois facilita os mecanismos de busca encontrarem imagens no site.

31

Outras observações são importantes como:

Extensões das imagens devem ser JPEG, GIF, PNG ou BMP que são os formatos suportados pela maioria dos navegadores;

Evitar nomes como imagem1.jpg , a.jpg , etc;

Nomes de arquivos muito longos;

Colocar somente palavras-chave no atributo alt ou cópia de trechos do conteúdo;

As imagens também podem ser usadas como links, porém somente quando for realmente necessário que é recomendado o uso deste recurso, pois seu uso excessivo atrapalha os mecanismos de busca compreenderem as referências com seu conteúdo. Neste caso, o atributo alt funciona de maneira similar à âncora nos links.

3.2.7. Heading tag

Em todas páginas é importante manter uma estrutura hierárquica bem definida, pois auxilia o usuário visualmente, criando um ambiente organizado. Uma maneira de implementar um tipo de hierarquia é utilizando heading tags. Elas variam de <h1>, a mais importante até <h6> com menos importância. Essas tags indicam algo importante, que merece destaque perante o texto. Para os mecanismos de busca é essencial utilizar em cada página, se possível, ao menos a tag <h1>, pois ela é utilizada para fins de título interno ou cabeçalho, o que disponibiliza o conhecimento do escopo ou assunto que a página ou texto se trata e que seja utilizado apenas uma vez por página. A tag <h2> é vista como um nível abaixo de importância do <h2> e é importante para definir subtítulos. As demais devem ser utilizadas para implementar a estrutura hierárquica no conteúdo, indicando destaques e pontos importantes no texto.

Deve-se tomar cuidado com a utilização dessas tags evitando evidenciar textos desnecessários, fazer uso quando pode-se ser substituído por um negrito ou itálico, desrespeitar a sequência correta no uso das tags, fazer uso excessivo, etc.

3.2.8. Outras Medidas on-page

Existem alguns detalhes minuciosos que auxiliam na otimização de um site para os

32

mecanismos de busca. Muitas vezes pequenos cuidados e providencias conseguem melhorar a classificação nas pesquisas. No conteúdo de um site é altamente recomendado não utilizar imagens como textos, pois os mecanismos de busca não interpretam conteúdo de imagens. Não deve ser criada uma página sem que esta tenha conteúdo suficiente, ou que seja desnecessário, ou pouco diferenciada de alguma outra já existente ou que dispense uma página exclusiva, pois para os mecanismos de busca é interpretado como páginas que não trazem uma boa experiência para os usuários e consequentemente são penalizadas.

O uso de recursos para organização visual do conteúdo e do texto beneficia os usuários

permitindo uma navegação mais confortável, o que é visto como um ponto positivo aos

mecanismos de busca que são beneficiados também por uma facilidade maior de compreensão do conteúdo. Com isso, o uso de parágrafos (<p>), títulos (<h1>), subtítulos (<h2>) e divisórias (<div>). Além disso, o uso de negrito e itálico trazem indícios para o mecanismo de busca que aquela palavra está recebendo um destaque é importante naquele contexto, aprimorando sua classificação, porém é importante ter cautela com o uso para não ser penalizado. Separações (<hr>) também indica que existe uma divisão de contextos, permitindo agregação maior de contextos diferentes relacionados ao escopo da página. Páginas que mantem seu conteúdo atualizado e com certa frequência modificados ganham prioridade na classificação, pois evidencia que o site procura manter o conteúdo atual e de qualidade. Páginas com conteúdos similares em um site não são bem vistos pelos mecanismos de busca, o que deve ser evitado.

A meta tag keywords deve ser desconsiderada quando a SEO tem objetivo simplesmente

o Google (quase a totalidade), pois este não a utiliza como fator de classificação. Além disso,

permite que outros profissionais de SEO vejam no código as palavras-chave que foram selecionadas que muitas vezes exige muito tempo de trabalho para determinar as melhores.

O uso do atributo style nas tags em HTML deixa o código confuso, atrapalhando a

organização e legibilidade, além de deixar o tempo de carregamento da página maior que quando utilizado a estilização em CSS. Nuvem de tags é uma lista hierarquizada visualmente, uma forma de apresentar os itens de conteúdo de um website, conforme mostra a Figura 13. Uma nuvem de tags em geral reúne um conjunto de etiquetas utilizadas em um determinado website disposto em ordem alfabética,

33

e a quantidade de conteúdos que o site apresenta em cada etiqueta é mostrado proporcionalmente pelo tamanho da fonte. Dessa forma, em uma mesma interface é possível localizar uma determinada etiqueta tanto pela ordem alfabética como pela frequência da incidência de conteúdos marcados com a mesma etiqueta no referido site. As etiquetas disponibilizadas na nuvem são links que levam a itens relacionados às palavras da etiqueta. Como isto ajuda o usuário, sugerindo itens para ele navegar, então pode aumentar o trafego no site, o que pode aprimorar a classificação nas buscas.

no site, o que pode aprimorar a classificação nas buscas. Figura 13 - Nuvem de Tags

Figura 13 - Nuvem de Tags no site da Amazon - http://www.amazon.com/gp/tagging/cloud

Os rodapés exercem um papel importante em SEO. Ao navegar em uma página na Web, pessoas veem em formato de ‘F’ (esquerda para direita e de cima para baixo), onde a última parte vista é o rodapé. Com isso, deve ser explorada uma boa estratégia de conteúdo para sugerir o que o usuário pode fazer para dar continuidade à navegação, aumentado o fluxo de acesso nas páginas e gerando conversões.

3.3. Fatores off-page

Os fatores off-page estão relacionados a técnicas que podem melhorar a classificação de um site através de medidas que não envolvem diretamente o conteúdo do site, ou seja, nenhuma atividade que realize alteração no layout, na estrutura muito menos no código HTML das páginas. Nos primeiros robôs de rastreamento, os algoritmos levavam em conta os fatores on-

34

page, calculavam o PageRank através do esquema de links e então as páginas eram classificadas.

O universo da Web trouxe diversas propriedades que aperfeiçoaram essa classificação,

adicionando outros fatores que envolvem o relacionamento das pessoas com um site. Esse relacionamento é dado através das mídias sociais, blogs, e-mails e outros. A essência dos fatores

off-page é que quando uma página é visitada, se esta apresenta conteúdos de qualidade, relevantes e únicos, a tendência é que haja uma difusão daquela página gerando uma certa publicidade. Funciona da mesma forma quando uma pessoa compra algum produto e se satisfeito faz recomendações a amigos. Portanto, cada recomendação é vista como uma citação,

ou um voto de confiança perante outros usuários de que aquele conteúdo é relevante. Com isso,

quanto mais citada uma página, maior será sua popularidade, e então esta recebe maior importância na ordem de classificação. Exemplos de fatores off-page são: comentários em blogs sugerindo link, anúncios (banners, blogs), e-mail marketing (Newsletter), links em páginas de parceiros (desde que não seja realizado esquema de troca ou aluguel de links), feed de notícias (RSS) e marcação de localização no Google Places (auxilia nas pesquisas locais). Outro fator extremamente relevante são as mídias sociais. Existe um campo em SEO que promove a otimização nos resultados de busca através das redes sócias, conhecido como SMO (Social Media Optimization). Este segmento realiza atividades em torno de um negócio, realizando um trabalho publicitário, criando páginas sociais associadas ao negócio, publicando notícias e informações referentes ao contexto, atraindo um público para aquele segmento. Consequentemente, gera conversões (visita seguida de venda) para o site. Permitir compartilhamento de conteúdo diretamente de uma página é importante para possibilitar divulgação, desde que não seja aderido a um esquema de promoção artificial. O resultado deste trabalho é reconhecido pelos mecanismos de busca que ponderam a popularidade e considera este fator no momento da classificação.

3.4. Rich Snippets

As descrições dos resultados de busca no Google são conhecidas como snippets, que transmitem ao usuário um importante resumo do que se trata uma dada página. Geralmente é

mostrado nos resultados o que foi definido na meta tag description, caso este tenha sido definido,

ou trechos contidos no conteúdo da página. Contudo, é possível descrever detalhes sobre o

35

conteúdo de maneira que os mecanismos de busca ofereçam resultados de maior qualidade e identificação para os usuários, que é chamado de rich snippet. Os Rich Snippets (Figura 14) são utilizados para resumir o conteúdo de uma página de forma que torne mais fácil para os usuários entenderem no que consiste a página nos resultados de pesquisa. Tudo que é importante como informação disponibilizar durante os resultados, permitindo oferecer um resumo ainda mais útil do conteúdo de uma página, deve utilizar os rich snippets.

Se os mecanismos de busca “compreenderem” o conteúdo de uma página, podem criar rich snippets adequados associados a ela. Por exemplo, o snippet de um restaurante pode mostrar a avaliação média e a faixa de preço, o snippet de uma página de receita pode mostrar o tempo total de preparação, uma foto e a classificação da avaliação da receita, e o snippet de um álbum de música pode listar as músicas junto com um link para reproduzir cada uma. Esses rich snippets ajudam os usuários a identificar se o site é relevante para a pesquisa e podem resultar em mais cliques em uma página.

a pesquisa e podem resultar em mais cliques em uma página. Figura 14 - Rich Snippets.

Figura 14 - Rich Snippets. Fonte: [10]

3.4.1. Marcação

O termo utilizado para fazer as especificações do conteúdo das páginas é chamado de

marcação, que podem ser feitas utilizando três formatos: Microdados, Microformatos e RDFa

que podem ser verificados e testados com o link da página, antes que sejam exibidos como resultado de pesquisa. Após a marcação, na próxima indexação do Google ele já irá detectar os rich snippets.

A marcação de rich snippets deve não apenas descrever o conteúdo de uma página, mas

36

também descrever informações atualizadas, conteúdo original e de maneira alguma vinculada

a

outra página que não esteja disponível integralmente na página. Além disso, não é garantido

o

uso dos rich snippets nos resultados de classificação, pois devem atender os critérios do

Google. Abusos de marcação, fraude, conteúdo invisível aos usuários, conteúdo irrelevante ou enganoso (fora do escopo da página) são alguns critérios que inutilizam seu uso. A marcação de dados para os rich snippets não afetará a classificação de uma página nos resultados de pesquisa, mas é extremamente importante para o aumento da taxa de cliques. O Google suporta rich snippets para os seguintes tipos de conteúdo: resenhas, pessoas, produtos, negócios e organizações, receitas, eventos, músicas, vídeo, aplicativos e locais. Cada tipo tem seus atributos e propriedades de acordo com o formato a ser utilizado. Nos exemplos mostrados a seguir, estão abordados exemplos simples para compreensão do que pode ser feito, para produzir rich snippets para os demais tipos além dos exemplos basta procurar a documentação de cada formato para o tipo especifico que se deseja marcar.

3.4.1.1.

Microdados

Os microdados usam atributos simples em tags HTML para atribuir nomes curtos e descritivos a itens e propriedades. Um exemplo de um bloco pequeno de HTML mostrando as informações básicas de um contato:

<div> Meu nome é Bob Smith, mas todos me chamam de Smithy.

gina inicial:

<a href="http://www.example.com">www.example.com</a> Moro em Albuquerque, Novo México, e trabalho como engenheiro na ACME Corp. </div>

Esta é a minha pá-

O mesmo HTML marcado com microdados:

37

<a href="http://www.example.com" itemprop="url">www.example.com</a>. Moro em <span itemprop="address" itemscope itemtype="http://data-vocabulary.org/Address"> <span itemprop="locality">Albuquerque</span>, <span itemprop="region">Novo México</span> </span> e trabalho como <span itemprop="title">engenheiro</span> na <span itemprop="affiliation">ACME Corp</span>. </div>

I.

Na primeira linha, o itemscope indica que o conteúdo é um item. item- type="http://data-vocabulary.org/Person indica que o item é uma pessoa.

II.

Cada propriedade do item Pessoa é identificada com o atributo itemprop. Por exem- plo, itemprop="name" descreve o nome da pessoa.

III.

A propriedade address é um item que contém seu próprio conjunto de propriedades. Isso é indicado colocando o atributo itemscope no item que declara a proprie- dade address e usando o atributo itemtype para especificar o tipo de item que está sendo descrito.

3.4.1.2.

Microformatos

Os microformatos são convenções simples (conhecidas como entidades) utilizadas para descrever um tipo específico de informação, por exemplo, uma avaliação, um evento, um produto, uma empresa ou uma pessoa. Cada entidade tem suas próprias propriedades, por exemplo, uma pessoa tem as propriedades nome, endereço, cargo, empresa e endereço de e- mail. Em geral, os microformatos usam o atributo class em tags HTML para atribuir nomes curtos e descritivos a entidades e suas propriedades. Um exemplo de um bloco pequeno de HTML mostrando as informações básicas de um contato.

<div> <img src="www.example.com/bobsmith.jpg" /> <strong>Bob Smith</strong> Editor sênior da ACME Reviews 200 Main St Desertville, Arizona 12345 </div>

38

O mesmo HTML marcado com microformato hCard (pessoa).

<div class="vcard"> <img class="photo" src="www.example.com/bobsmith.jpg" /> <strong class="fn">Bob Smith</strong> <span class="title">Editor sênior</span> na <span class="org">ACME Re- views</span> <span class="adr"> <span class="street-address">200 Main St</span> <span class="locality">Desertville</span>, <span class="region">Ari- zona</span> <span class="postal-code">12345</span> </span> </div>

I. Na primeira linha, class="vcard" indica que o HTML incluído descreve uma pessoa.

II. O exemplo descreve propriedades do item pessoa, como uma foto, nome, cargo, or- ganização e endereço.

3.4.1.3.

RDFa

RDFa é uma forma de nomear o conteúdo de modo a descrever um tipo específico de informação, como uma resenha de restaurante, um evento, uma pessoa ou uma listagem de produtos. Estes tipos de informações são chamados entidades ou itens. Cada entidade tem um número de propriedades. Por exemplo, uma pessoa tem as propriedades nome, endereço, cargo, empresa e endereço de e-mail.

Em geral, RDFa usa atributos simples em tags XHTML para atribuir nomes curtos e descritivos a entidades e propriedades. Um exemplo de um bloco pequeno de HTML mostrando

as informações básicas de um contato é mostrado a seguir.

<div> Meu nome é Bob Smith, mas todos me chamam de Smithy.

inicial:

<a href="http://www.example.com">www.example.com</a>. Moro em Albuquerque, Novo México, e trabalho como engenheiro na ACME Corp. </div>

Esta é a minha página

O mesmo HTML marcado com RDFa.

39

<div xmlns:v="http://rdf.data-vocabulary.org/#" typeof="v:Person"> Meu nome é <span property="v:name">Bob Smith</span>, mas todos me chamam de <span property="v:nickname">Smithy</span>. Esta é a minha página inicial:

<a href="http://www.example.com" rel="v:url">www.example.com</a>. Moro em Albuquerque, Novo México, e trabalho como <span pro- perty="v:title">engenheiro</span> na <span property="v:affiliation">ACME Corp</span>. </div>

I.

O exemplo começa com uma declaração de namespace usando xmlns. Isso indica o na- mespace onde o vocabulário (uma lista de entidades e seus componentes) é especificado. Pode-se usar a declaração de namespace xmlns:v="http://rdf.data-vocabu- lary.org/#" sempre que marcar páginas para pessoas, revisões ou dados de locais.

II.

Na primeira linha, typeof="v:Person" indica que o conteúdo marcado representa uma pessoa. O nome de propriedade typeof é prefixado com v: (typeof="v:Person")

III.

Cada propriedade da pessoa (como nome e apelido) é rotulada usando property. O

nome da propriedade é prefixado com v: (<span property="v:nickname">).

IV.

Para indicar um URL, é usado rel em vez de property.

3.5. Sitemaps

Existem dois tipos de mapas de site que são utilizados e ambos com finalidades distintas. O primeiro, site map (mapa de site) é uma simples página em um site que exibe a estrutura do site, listando uma hierarquia das páginas de um site, que são úteis aos usuários quando estes tem alguma dificuldade em encontrar alguma página. Mesmo que os mecanismos de busca rastreiam esta página, ela é voltada principalmente para os usuários, podendo melhorar sua experiência.

para os usuários, podendo melhorar sua experiência. Figura 15 - Exemplo de site map. Fonte: [8]

Figura 15 - Exemplo de site map. Fonte: [8]

Os XML Sitemaps (Figura 16) são um modo de informar e declarar aos mecanismos de busca sobre todas as páginas de um site que não poderiam ser rastreadas de outra forma. Criar

40

e enviar um Sitemap ajuda a garantir que os mecanismos de busca tenham conhecimento de

todas as páginas de um site, incluindo URLs que não seriam encontrados por meio do processo

normal de rastreamento.

Além disso, é possível usar Sitemaps para fornecer metadados sobre tipos específicos de conteúdo, como vídeo, imagem, celular e notícias. Por exemplo, uma entrada de Sitemap de

vídeo pode especificar o tempo de execução, categoria e status de "indicado para menores" de um vídeo. Uma entrada de Sitemap de imagem pode fornecer informações sobre o assunto, tipo

e licença de uma imagem.

Sites com conteúdo dinâmico, AJAX, sites recém-criados são essenciais o uso de Sitemaps, pois facilita os robôs de busca rastrearem estes tipos de situações que poderiam provocar algum tipo de dificuldade nos procedimentos padrões de rastreamento.

O Google não garante que todos os URLs são rastreados ou indexados. No entanto, os dados

no Sitemap são usados para aprender sobre a estrutura de um site, beneficiando, na maioria dos casos, quem envia o Sitemap, e jamais são penalizados por fazê-lo.

É possível definir a prioridade relativa de todas as páginas em um site de modo que informe

ao rastreador quais páginas são mais (e também menos) importantes dentro do site. Definir a prioridade de páginas não afeta a classificação do site nos resultados de pesquisa. Os

mecanismos de busca usam essa informação ao selecionar URLs no mesmo site. Com isso, aumenta a possibilidade de que as páginas mais importantes estejam em um índice de pesquisa

e obtenham mais acessos dentro de um site.

Os Sitemaps seguem padrões como o protocolo de Sitemaps e podem ser criados manualmente ou utilizando ferramentas para geração de Sitemaps disponíveis na Web. O XML

a seguir é um Sitemap básico com algumas URLs e definição de prioridade e frequência de atualização de uma página.

41

41 Figura 16 - Exemplo de um XML Sitemap. Fonte: [8] Além do formato padrão acima,

Figura 16 - Exemplo de um XML Sitemap. Fonte: [8]

Além do formato padrão acima, é possível produzir Sitemaps mais simples em formato txt que incluem somente URLs de páginas da web, e não imagens, vídeo ou outros dados especializados. Basta informar uma URL por linha e salvar no modo txt antes de enviar.

Para informar aos mecanismos de pesquisa sobre o local e a existência de um Sitemap, deve-se incluir a seguinte linha no arquivo robots.txt:

sitemap: http://www.example.com/sitemap.xml

3.6. Controle de rastreamento

Em muitos casos é útil definir o que deve ser rastreado pelos mecanismos de busca ou não, pois em um domínio pode conter páginas não interessantes aos usuários, diretórios apenas para backup ou arquivos não necessários para indexação do site, subdomínios e outros. Para isso, existem três maneiras de bloquear o rastreamento: utilizando metatags, o arquivo robots.txt e x-robots-tag. Quando se tem acesso à raiz do domínio pode-se usar simplesmente o robots.txt, caso contrário, é possível restringir o acesso usando os outros dois modos. Para impedir completamente que o conteúdo de uma página seja rastreado, mesmo que outros sites estejam

42

vinculados a ela, utiliza-se a metatag noindex ou uma x-robots-tag. Quando os mecanismos de busca rastrearem a página, encontrará a metatag noindex e impedirá que a página apareça no índice da web. O cabeçalho HTTP x-robots-tag é útil principalmente quando se deseja limitar a indexação de arquivos não HTML, como gráficos e outros tipos de documentos.

O robots.txt é um arquivo utilizado para definir como as URLs de um site serão tratadas

durante o rastreamento. O arquivo robots.txt é necessário apenas para o caso de incluir algum conteúdo que você não queira que não os mecanismos de pesquisa indexem. Caso deseja-se que os mecanismos de pesquisa indexem tudo o que há em um site, o arquivo robots.txt não será necessário (nem mesmo um arquivo em branco). No robots.txt é possível definir quais robôs deseja-se aplicar alguma regra, regras de padrões de arquivos e extensões, URLs, recursão para diretórios e outros. Além disso, é possível informar a existência do Sitemap.

O robots.txt é criado de uma maneira simples contendo apenas duas clausulas: Disallow

e User-agent, sendo o primeiro para determinar qual o robô se deseja aplicar a regra e o segundo

a URL que deseja bloquear, por exemplo:

User-agent: * Disallow: /folder1/

User-agent: Googlebot Disallow: /folder2/

Neste exemplo, apenas os URLs que correspondem a /pasta2/ não serão permitidos para

o Googlebot.

Além das duas regras, pode-se usar outra pouco usada: Allow que é útil quando deseja- se criar exceções à alguma regra determinada pelo Disallow.

Existe uma lista de mais de trezentos robôs em operação que rastreiam a Web que pode ser encontrada na página www.botsvsbrowsers.com. Os detalhes de definição de bloqueio de user-agents e padrões de correspondência podem ser encontrados na facilmente em diversas documentações na Web. Para utilizar o robots.txt é preciso apenas colocá-lo na raiz do site, por exemplo: http://www.example.com/robots.txt .

43

3.6.1. Meta tags para bloqueio

Para impedir completamente que o conteúdo de uma página seja rastreado, mesmo que outros sites levem a ela, pode-se usar a meta tag noindex. Quando os robôs rastrearem a página, encontrará a meta tag noindex e impedirá que a página apareça nos resultados de pesquisa.

O padrão de meta noindex está descrito em http://www.robotstxt.org/meta.html. Esse

método é útil não se tem acesso à raiz do servidor, pois permite controlar o acesso a cada página do site. Para impedir todos os robôs de indexarem uma página em um site, coloca-se a seguinte meta tag na seção <head> da página:

<meta name="robots" content="noindex">

Para permitir que outros robôs indexem a página de um site, impedindo somente os robôs do Google de indexar sua página:

<meta name="googlebot" content="noindex">

Ao usar a meta tag noindex em uma página, o Google removerá a página por completo de seus resultados de pesquisa, mesmo se houver outras páginas vinculadas. No entanto, outros mecanismos de pesquisa podem interpretar essa instrução de modo diferente, podendo aparecer nos resultados de pesquisa.

3.6.2. X-Robots-Tag

O X-Robosts-Tag pode ser usado como um elemento de HTTP response para uma dada

URL. Qualquer tipo de restrição e bloqueio realizado pela metatag pode ser realizado pelo X-

Robots-Tag. Para definição das restrições pode ser feita através do servidor Web utilizado, como por exemplo o Apache. Para adicionar o X-Robots-Tag ao HTTP response de um site usando o .htaccess e httpd.conf que são padrões em servidores Web baseados no Apache. A vantagem de do uso de X-Robots-Tag é que pode-se aplicar regras de rastreamento por todo o site, pelo grande suporte a expressões regulares. Por exemplo, para adicionar um noindex ou nofollow ao HTTP response para todos arquivos com extensão PDF em todo o site deve-se inserir o seguinte código nos arquivos .htaccess e no httpd.conf:

44

<Files ~ "\.pdf$">

Header set X-Robots-Tag "noindex, nofollow"

</Files>

3.7. Fatores de desempenho (otimização do tempo de navegação)

Um site com um bom desempenho em relação ao tempo de navegação oferece aos usuários uma melhor experiência. A meta do Google é fornecer aos usuários resultados mais relevantes e uma ótima experiência. Sites mais rápidos aumentam a satisfação do usuário e melhoram a qualidade geral da Web (especialmente para os usuários com conexões lentas com a Internet). Algumas práticas simples podem otimizar o tempo de navegação e existem ferramentas de análise de desempenho (relativo ao tempo) para verificar diversos parâmetros e indicar o que pode ser melhorado. O desempenho na navegação é um critério de avaliação dos mecanismos de busca, especialmente o Google para classificar páginas nos resultados de busca.

Para aprimorar o tempo de navegação é preciso seguir uma série de fatores, detalhados as seguir:

a) Minimizar o tamanho de carga nos pacotes: minimizando o tamanho da carga dos recursos dinâmicos pode reduzir significativamente a latência de rede.

i) Habilitar compressão: A maioria dos navegadores modernos suportam compressão de dados para arquivos HTML, CSS e JavaScript. Isto permite que o conteúdo a ser enviado através da rede de forma mais compacta e pode resultar em uma redução no tempo de transferência.

ii) Remover CSS não utilizados

iii) Minimizar JavaScripts, CSS e HTML: Minimizar o código refere-se a eliminação de espaços extras, quebras de linha, indentação, tornando o código compacto. Essa pratica poder reduzir a quantidade de bytes de um código. Existem diversas ferramentas para efetuar a minimização.

iv) Adiar carregamento de JavaScript: Adiando o carregamento de funções JavaScript que não são chamados na inicialização reduz o tamanho inicial de

45

download, permitindo outros recursos serem baixados em paralelo, e acelerar a execução e tempo de renderização.

v) Otimizar imagens: Formatando imagens de maneira correta pode reduzir o tempo de carregamento. A extensão indicada para imagens (não fotografias) é .gif. e fotos .jpg, pois são mais compactas. Além disso, comprimir as imagens para uma resolução que atenda às necessidades, evitando deixar imagens em alta resolução se não necessário.

vi) Centralizar recursos: Imagens, estilos e scripts podem ser referenciados em diversas páginas em um site. Determinar uma única URL para cada um destes recursos evita cópias.

b) Minimizar RTT (Round-Trip Time)

i) Minimizar pesquisa DNS: Reduzir o número de nomes de host únicos a partir do qual os recursos são servidos reduz o número de resoluções DNS que o navegador tem de fazer e, portanto, atrasos RTT.

ii) Evitar requisições inválidas: Remover links “quebrados” ou requisições que resultem em erro 404/410.

iii) Combinar JavaScripts e CSS externos: Combinar diversos scripts externos fragmentados no mínimo possível potencialmente reduz o RTT.

iv) Otimizar a ordem dos estilos e scripts: Ordenar corretamente a declaração de folhas de estilo e scripts permite uma melhor paralelização de donwloads e acelera o tempo de renderização do navegador.

v) Evitar uso de document.write()

vi) Evitar uso de CSS @import: Em vez de @import, usar a tag <link> para cada estilo. Isso permite que o navegador para baixar folhas de estilo em paralelo, o que resulta em tempos de carregamento mais rápido da página.

vii) Recursos assíncronos: Buscando recursos de forma assíncrona impede que recursos bloqueiam o carregamento da página.

46

e JavaScript. Formatando o código e páginas de forma que exploram as características dos navegadores atuais, é possível melhorar o desempenho no lado do cliente.

i) Uso eficiente de seletores CSS: Evitar o uso de chaves que abrangem um grande número de elementos.

ii) Colocar CSS no cabeçalho do documento

iii) Especificar dimensões das imagens: Especificando a largura e a altura de todas as imagens permite uma renderização mais rápida, eliminando a necessidade de redimencionamentos desnecessários e reconstruções.

iv) Especificar a codificação de caracteres

3.8. White Hat x Black Hat

A otimização para os mecanismos de busca é realizada através de uma série de técnicas e estratégias, como foi visto anteriormente. O objetivo de fazer SEO sempre deve ser em levar aos usuários um conteúdo original e de qualidade e não otimizar para mecanismos de busca. A tentativa de utilizar o conhecimento do funcionamento dos mecanismos de busca para realizar atividades que possam de alguma maneira trazer benefícios na classificação de uma página nos resultados de pesquisa, mas que não sejam benéficas aos usuários, é conhecido como Black Hat. Este utiliza artifícios que violam as diretrizes em fazer SEO: oferecer uma boa experiência aos usuários, com conteúdo relevante e de qualidade. Utilizar essas técnicas pode trazer algum retorno curto prazo, mas que ao serem percebidos pelos mecanismos de busca, podem ser severamente penalizados ou até mesmo banidos do índice de busca. O Google combate arduamente o uso de Black Hat e seus robôs de busca são capazes de detectar grande parte das violações imediatamente. Outras mais sutis são detectadas em pouco tempo. Ao contrário do Black Hat, o White Hat é conhecido pela utilização das estratégias e técnicas em SEO sempre respeitando as recomendações e tendo como objetivo melhorar a Web e trazer a melhor experiência possível aos usuários. A seguir estão relatadas as principais técnicas de Black Hat e como evitar seu uso.

47

3.8.1. Cloaking (camuflagem de conteúdo)

Cloaking é uma técnica utilizada para entregarem conteúdos diferentes de uma mesma URL para visitantes específicos do site. Os visitantes podem ser classificados por tipo (Web Crawler ou Human User) ou por localidade (região do mundo ou Endereço IP). Para isso existem 3 métodos de cloaking:

Cloaking Por User-Agent: Detecta o user-agent e o classifica.

Cloaking Por IP Delivery: Entrega um conteúdo diferente para um usuário de IP específico.

Cloaking Por Geo-Targeting: Entrega um conteúdo diferente para usuários dentro de uma faixa de IPs que delimitam uma região do mundo específica.

3.8.2. Texto e links ocultos

Ocultar texto ou links no conteúdo para manipular as classificações de pesquisa dos mecanismos de busca pode ser visto como enganoso, sendo uma violação. O texto pode ser ocultado de diversas formas, como:

Uso de texto com fonte branca em fundo branco;

Localização de texto atrás de imagens;

Usar CSS para posicionar texto fora da tela;

Configuração do tamanho da fonte para zero;

Ocultar um link vinculando apenas um pequeno caractere, por exemplo, um hífen no meio de um parágrafo.

3.8.3. Conteúdo gerado automaticamente

Conteúdo gerado automaticamente é o conteúdo que foi gerado de maneira programática, consistindo em parágrafos aleatórios de texto que não fazem nenhum sentido ao leitor, mas que podem conter palavras-chave de pesquisa, como:

Texto traduzido por uma ferramenta automática sem revisão humana antes da publicação.

48

Texto gerado por processos automatizados.

Texto gerado usando sincronização automatizada ou técnicas de ocultamento.

Texto gerado copiando feeds Atom/RSS ou resultados de pesquisa.

Agrupamento ou combinação de conteúdos de diferentes páginas da web sem acréscimo de valor suficiente.

3.8.4. Preenchimento de palavra-chave

Preenchimento de palavra-chave refere-se à prática de encher uma página web com palavras-chave ou números na tentativa de manipular a classificação do site em um resultado de pesquisa. O uso excessivo de palavras e sinônimos é visto como uma experiência negativa para os usuários.

3.8.5. Doorway Pages

As páginas de entrada geralmente são grandes conjuntos de páginas de pouca qualidade em que cada página é otimizada para uma palavra-chave ou frase específica, levando aos usuários pouca informação e conteúdos irrelevantes.

3.8.6. Página com comportamento malicioso

Distribuir conteúdo ou software em um site que se comporte de forma diferente do esperado pelo usuário, manipulando conteúdo na página de maneira inesperada ou faça o download ou execute arquivos no computador de um usuário de forma involuntária, geração de SPAMs, consultas automáticas, é considerado Black Hat.

3.8.7. Esquemas de Link

Existem diversas maneiras de violar as diretrizes de qualidade dos mecanismos de busca através do uso de links. Utilizar compra de links sem uso da tag nofollow, troca de links com sites parceiros que não tenham relação ao escopo da página (pode ser usado com nofollow), link farms – esquema de criação de sites somente com a finalidade de linkar outros sites, links com redirecionamento, links em blogs sem nofollow, entre outros.

49

3.9. Ferramentas de Apoio ao Trabalho de SEO

Algumas ferramentas são uteis para o trabalho de SEO a respeito da elaboração do conteúdo e análise dos resultados segundo diversos aspectos. Para estratégia baseada na melhoria/otimização de conteúdo, sugere-se o uso da ferramenta Google Trends, conforme mostrado na sessão 3.1. Para análise dos resultados, sugere-se o uso do Google Analytics (Figura 17). Ela é uma ferramenta muito poderosa, pois disponibiliza informações detalhadas sobre as impressões nas páginas, como público alvo, informações demográficas, horários, idiomas de busca, navegador, sistema operacional, tipo de dispositivo, tempo de permanência, palavras-chave que levaram a página, qualidade no conteúdo e diversas outra informações que podem ser analisadas para melhoria das estratégias de SEO.

podem ser analisadas para melhoria das estratégias de SEO. Figura 17 – Exemplo do Google Analytics

Figura 17 – Exemplo do Google Analytics para um site.

Outra ferramenta importante para análise dos resultados é a PageSpeed (Figura 18) do Google que faz uma análise da qualidade de desempenho de navegação. Com ela é possível verificar o que pode ser feito para melhorar a velocidade de navegação, com instruções de como fazê-las. Além disso, uma nota é dada a página avaliando a qualidade de otimização para navegação.

50

50 Figura 18 - Resultado do PageSpeed da página www.ufes.br 3.10. Melhoria das classificações na Web

Figura 18 - Resultado do PageSpeed da página www.ufes.br

3.10. Melhoria das classificações na Web usando soluções pagas

Além da busca orgânica, existe a possibilidade de criar campanhas para links patrocinados. Os links patrocinados do Google são exibidos como resultados de pesquisa, porém são destacadas do resultado da busca orgânica e podem aparecer em outros sites como banner ou em forma de link. Esta é uma solução que pode ter um custo alto, tendo a possibilidade de alcance segmentado, utilizando o Google Adwords (Figura 19).

51

51 Figura 19 - Anúncios nos resultados de busca Para criar campanhas de links patrocinados é

Figura 19 - Anúncios nos resultados de busca

Para criar campanhas de links patrocinados é preciso criar uma conta no Google e seguir os passos no Google Adwords de maneira bem simples. Além disso, é possível monitorar e acompanhar o desempenho e verificar sugestões e fatores indicativos que podem gerar resultados positivos para maior acesso. Tendo apresentado os principais desafios e fatores que influenciam na classificação dos sites pelos mecanismos de busca, é possível iniciar o trabalho a ser desenvolvido por um profissional de SEO. O próximo capítulo apresenta o estudo de caso deste projeto, aplicando as técnicas apresentadas neste capítulo. No estudo de caso, um site real de uma empresa terá sua classificação melhorada com a aplicação das técnicas e procedimentos apresentados neste projeto e os resultados serão analisados comparando os principais mecanismos de busca.

52

4. Estudo de Caso

O estudo de caso foi realizado utilizando um site preexistente na Web

(http://smartsti.com.br), que foi desenvolvido inicialmente sem nenhum tipo de otimização para

mecanismos de busca. Este site foi reestruturado e foram aplicadas as técnicas on-page e off- page descritas nos tópicos anteriores com o objetivo de analisar a melhoria da classificação orgânica nos resultados de busca no Google, Bing e Yahoo. Como a empresa tem um foco no mercado local, as otimizações no site foram feitas tendo em vista este tipo de cliente potencial, ou seja, aquele que realiza a busca de um conteúdo (informação) associado a algo com proximidade física do local onde a pesquisa é realizada. Para realizar o trabalho de SEO, foi necessário seguir algumas etapas fundamentadas nos princípios citados nos capítulos anteriores, e assim permitir que os robôs rastreiem as URLs e informações do site da empresa e que os resultados produzidos pelos mecanismos de busca coloquem o site da empresa o mais próximo do topo dos seus índices. O primeiro passo realizado foi a pesquisa e o planejamento de conteúdo. A pesquisa foi baseada numa análise do mercado, verificando como os concorrentes trabalham, a qualidade

dos seus sites, o tempo de permanência da Web, a imersão nas redes sociais e, em alguns casos, inspecionar o código HTML de páginas concorrentes para verificar se foi feito SEO para que na fase de planejamento possa tomar algumas medidas para aprimorar o que foi feito por concorrentes.

Na fase de planejamento foram definidas as estratégias de conteúdo, que definem os

assuntos abordados, quais páginas seriam criadas, analise de palavras-chave (Figura 20) e demais tarefas referentes ao conteúdo (assunto, texto e imagens). Além disso, é importante definir uma lista de pesquisas por palavras-chave como meta de classificação, definindo a posição nos resultados de busca e o tempo desejado para este objetivo, por exemplo: “uma página A de um site tem o assunto B e eu desejo que nas pesquisas com as palavras (C D E) tragam esta página entre os 10 primeiros resultados nos próximos seis meses”. Estas atividades são importantes pois: (i) auxiliam a elaboração de textos fundamentados no que foi definido, propiciando conteúdos mais relevantes, evitando que sejam criadas páginas com assuntos genéricos, com pouco conteúdo ou irrelevantes e (ii) definem métricas para analisar os resultados.

53

53 Figura 20 - Análise de palavras-chave com o Google Trends
53 Figura 20 - Análise de palavras-chave com o Google Trends
53 Figura 20 - Análise de palavras-chave com o Google Trends

Figura 20 - Análise de palavras-chave com o Google Trends

54

Após o planejamento, inicia-se o desenvolvimento das atividades planejadas na fase anterior, elaborando os textos, selecionando as imagens e fazendo as mudanças de layout necessárias para as alterações e atualizações de conteúdo definidas. Nesta etapa, não é necessário implementar as técnicas de SEO ainda, pois trata-se apenas de remodelar os site para absorver as alterações definidas no planejamento. Em seguida, todas as técnicas de SEO foram abordadas e implantadas quando necessário, como todos os detalhes necessários no código HTML, marcação de dados, controle de rastreamento, esquema de links, hierarquias, etc. Com isso, é interessante fazer um checklist com todas as atividades a serem realizadas para obter um controle do que foi feito. As tabelas a seguir mostram a comparação entre a situação inicial e após a otimização.

Tabela 1 - Check list fatores on-page

Fatores On-Page

 

Tarefas

Situação Inicial

Após SEO

Páginas com conteúdo relevante

NÃO

SIM

Otimização de palavras-chave

NÃO

SIM

Título (<title>)

SIM

SIM

Título otimizado

NÃO

SIM

Descrição (“description”)

NÃO

SIM

URLs descritivas

NÃO

SIM

Estruturas de navegação e diretórios

NÃO

SIM

Breadcrumbs Lists

SIM

SIM

Página 404

NÃO

SIM

Links internos

SIM

SIM

Links externos

SIM

SIM

Conteúdo com links indicativos e âncoras

NÃO

SIM

Uso de nofollow em links

NÃO

NÃO

Atributo alt em imagens

NÃO

SIM

Diretórios para imagens

NÃO

SIM

Imagens em extensões recomendadas

SIM

SIM

Heading Tags

SIM

SIM

Hierarquia de heading tags

NÃO

SIM

Imagens como texto

SIM

NÃO

Páginas relevantes

NÃO

SIM

Parágrafos, títulos, divisões, hierarquia

SIM

SIM

Páginas similares

SIM

NÃO

Meta tag keywords

NÃO

NÃO

Style nas tags HTML

SIM

NÃO

Nuvem de Tags

NÃO

NÃO

Rodapé

SIM

SIM

Rodapé sugestivo

NÃO

SIM

Marcação microdados

NÃO

SIM

XML Sitemap

SIM

SIM

Controle de rastreamento

NÃO

SIM

Compressão habilitada

NÃO

SIM

55

Remoção de arquivos desnecessários

NÃO

SIM

Imagens otimizadas

NÃO

SIM

Links quebrados

NÃO

NÃO

Conteúdo irrastreável (Flash, JavaScript)

SIM

NÃO

Recursos assíncronos

SIM

SIM

Codificação de caracteres especificada

NÃO

SIM

Idioma especificado

NÃO

SIM

(*) As linhas selecionadas com fundo cinza representam aspectos e práticas ruins que prejudicam a classificação de um site nos resultados de busca.

Tabela 2 - Check list fatores off-page

Fatores Off-Page

 

Tarefas

Situação Inicial

Após SEO

Links em sites parceiros

SIM

SIM

Marcação Google Places

NÃO

SIM

Página Facebook

SIM

SIM

Conta Twitter

NÃO

SIM

Página Google +

NÃO

SIM

Página Linkedin

NÃO

SIM

Após a realização das atividades do checklist, todo o site foi publicado (submetido ao servidor de hospedagem) para em seguida fazer uma série de testes para conferir erros, verificar a qualidade de navegação (se existem problemas de sobrecarga para navegação) e algumas medidas que, por algum motivo, não foram realizadas. O SEOquake [11] (plugin instalado no navegador Firefox) faz diversas verificações, disponibiliza estatísticas de rastreamento e indexação, analise de SEO, informações de redes sociais e diversos outros detalhes. É importante destacar que estas ferramentas de SEO são simplesmente para auxiliar o trabalho de SEO e, portanto, algumas informações disponibilizadas nem sempre são necessárias cabendo ao profissional discernir o melhor a ser feito.

O PageSpeed [12] é uma ferramenta do Google que dá uma nota de 0 a 100 da qualidade relacionada ao tempo e desempenho de navegação de uma página e informa os problemas, detalhando o nível de relevância de cada um, sugerindo soluções reais que podem trazer resultados importantes para a navegação do site, que é uma métrica adotada pelos mecanismos de busca como classificação nos resultados de busca. Outra ferramenta importante para verificação dos resultados obtidos a partir das requisições das URLs de um site é o HTTP Web-Sniffer [13]. Ele permite analisar o Header do Request e o Response de uma página que é útil para verificar se o servidor está realizando a compressão corretamente, bloqueio de agentes e robôs, codificação, cache, formato de conexão

56

com o servidor e diversas outras configurações que podem ser feitas.

56 com o servidor e diversas outras configurações que podem ser feitas. Figura 21 - Teste
56 com o servidor e diversas outras configurações que podem ser feitas. Figura 21 - Teste

Figura 21 - Teste SEO com a ferramenta SEOquake

57

57 Figura 22- Teste de velocidade de navegação com o PageSpeed Figura 23 - Response da

Figura 22- Teste de velocidade de navegação com o PageSpeed

22- Teste de velocidade de navegação com o PageSpeed Figura 23 - Response da página smartsti.com.br

Figura 23 - Response da página smartsti.com.br verificado com o Web-Sniffer

58

Uma vez realizados os testes e verificações, devem ser tomadas medidas necessárias para correção dos problemas pendentes para que esteja tudo pronto para a última fase que é a de monitoramento dos robôs de busca e do estado dos índices dos mecanismos de busca e verificação dos resultados.

4.1. Resultados Obtidos

O rastreamento pelos robôs de busca e a inclusão nos índices são processos naturais e, portanto, são tarefas clássicas dos mecanismos de busca. Os manuais de SEO disponibilizados pelos principais buscadores não preveem nenhum tipo de prazo ou periodicidade, nem mesmo uma garantia que as URLs de um site serão rastreadas e/ou indexadas. Por isso, na maioria das vezes exige-se paciência para aguardar os resultados da inclusão nos índices de busca, o que pode levar até meses de espera. Uma forma de possibilitar o acompanhamento e o monitoramento dos resultados é feita através de alguns recursos e ferramentas disponíveis pelos mecanismos de busca para que o webmaster não fique aguardando os resultados sem qualquer tipo de informação, que são (i) as buscas especiais e (ii) as ferramentas disponibilizadas pelo Google e o Bing para webmasters 7 que possibilitam uma série de atividades de monitoramento. O Yahoo não possui uma ferramenta própria de monitoramento e combina os dados de navegação com o Bing.

monitoramento e combina os dados de navegação com o Bing. Figura 24 – Screenhoot do Google

Figura 24 – Screenhoot do Google Webmaster Tools [14]

7 O Webmaster é um profissional capaz de realizar tarefas tanto de um web designer (elaboração do projeto estético e funcional de um web site) quanto de um web developer (que faz a parte da programação, como sistemas de login, cadastro, área administrativa).

59

59 Figura 25 - Bing Webmaster [15] O site http://smartsti.com.br possui uma estrutura simples, conforme mostra

Figura 25 - Bing Webmaster [15]

O site http://smartsti.com.br possui uma estrutura simples, conforme mostra a Figura 26. Ele contém um diretório para as imagens (/images), outros dois com folhas de estilo (/stylesheets) e scripts (/scripts), um com as páginas de serviços, e os demais foram configurados para não serem rastreados, pois não tem utilidade para este site. Alguns arquivos na raiz compõem páginas e os demais são para configuração do servidor, controle de rastreamento, Sitemap e verificação de autoridade de página, exigida para o monitoramento pelas ferramentas para webmasters. No total os site contém 5 páginas e a página 404. Além disso, contém 130 arquivos de imagens, 15 arquivos de scripts e 6 folhas de estilo (CSS), totalizando 3.07MB de conteúdo publicado.

e 6 folhas de estilo (CSS), totalizando 3.07MB de conteúdo publicado. Figura 26 - Estrutura de

Figura 26 - Estrutura de diretórios do site

60

O sitemap.xml e o robots.txt são definições do comportamento desejado pelos robôs de busca, e podem (é recomendado) ser submetidos através das ferramentas para webmasters. O Sitemap, por exemplo, propõe aos mecanismos de busca uma série de recomendações e informações à respeito de algumas URLs do site, mas nenhum mecanismo de busca garante que será tratado exatamente daquela maneira, mas recomendam seu uso.

tratado exatamente daquela maneira, mas recomendam seu uso. Figura 27 - sitemap.xml do site smartsti.com.br O

Figura 27 - sitemap.xml do site smartsti.com.br

O robots.txt foi definido de forma bem simples restringindo algumas URLs e diretórios que não eram desejados que fossem rastreados por nenhum robô de busca e nenhum mecanismo de busca, além de definir a localização do sitemap.xml .

61

61 Figura 28- robots.txt A seguir serão mostrados os resultados e o comportamento dos mecanismos de

Figura 28- robots.txt

A seguir serão mostrados os resultados e o comportamento dos mecanismos de busca nos rastreamento pelos robôs de busca e a indexação das páginas por cada uma das ferramentas de busca consideradas (Bing/Yahoo e Google) para webmasters e as consultas nas busca especiais.

4.1.1. Análise com o Bing

Primeiramente o Bing Webmaster foi bem consistente, simples, rápido e eficiente nos resultados. O sitemap.xml foi submetido (Figura 29) e processado com êxito no mesmo dia. O Bing Webmaster não possui opção de envio do robots.txt, supostamente detectando durante o rastreamento por seus robôs de busca.

detectando durante o rastreamento por seus robôs de busca. Figura 29 - Envio do Sitemap pelo

Figura 29 - Envio do Sitemap pelo Bing

O Bing Webmaster disponibiliza algumas outras funcionalidades, como: enviar URLs para serem indexadas (solicitação); bloquear URLs; remover cache e diversas informações de estatísticas sobre o site; além de diagnósticos e ferramentas.

62

62 Figura 30 - Menu do Bing Webmaster Figura 31 - Envio de URLs pelo o

Figura 30 - Menu do Bing Webmaster

62 Figura 30 - Menu do Bing Webmaster Figura 31 - Envio de URLs pelo o

Figura 31 - Envio de URLs pelo o Bing Webmaster

Conforme pode ser observado na Figura 32, extraída do Bing Webmaster, a situação após 3 semanas foi de 5 páginas rastreadas (total de 5) e 10 páginas indexadas (total de 5, possivelmente as páginas antigas ainda estão contabilizadas no índice) e 18 URLs rastreadas (o total varia de acordo com o que cada mecanismo de busca considera como URL, por exemplo:

imagem, folha de estilo, XML, PDF, etc.).

URL, por exemplo: imagem, folha de estilo, XML, PDF, etc.). Figura 32 - Situação do site

Figura 32 - Situação do site após 3 semanas segundo o Bing

63

63 Figura 33 - Atividades do site A marcação de dados é detectada sem dificuldades, sendo

Figura 33 - Atividades do site

A marcação de dados é detectada sem dificuldades, sendo possível a conferência inserindo a URL de uma página e verificando a marcação de dados, como mostra a Figura 34.

verificando a marcação de dados, como mostra a Figura 34. Figura 34 - Verificação de marcação

Figura 34 - Verificação de marcação de dados pelo Bing Webmaster

Foram enviadas as URLs das páginas do site, conforme mostra a Figura 31, solicitando o Bing rastrear e indexar estas páginas. O resultado foi praticamente imediato. Em algumas horas o índice do Bing já continha as novas páginas (conforme a consulta especial mostrada na

64

Figura 35) mesclados com URLs já removidas presentes na versão antiga do site.

com URLs já removidas presentes na versão antiga do site. Figura 35 - Consulta do cache

Figura 35 - Consulta do cache do Bing

Os resultados obtidos durante as buscas pelo Bing foram satisfatórias. Como pode ser observado nos exemplos de busca das Figuras 36, 37 e 38, foi conquistado o resultado entre as 10 primeiras posições para mais de uma pesquisa no Bing.

65

65 Figura 36 - Resultado no Bing em 1º lugar Figura 37 - Resultado no Bing

Figura 36 - Resultado no Bing em 1º lugar

65 Figura 36 - Resultado no Bing em 1º lugar Figura 37 - Resultado no Bing

Figura 37 - Resultado no Bing em 5º lugar

Bing em 1º lugar Figura 37 - Resultado no Bing em 5º lugar Figura 38 -

Figura 38 - Resultado no Bing em 3º lugar

Observou-se que, cerca de dois dias após efetuar a indexação, o Bing desenvolve algum tipo de verificação de spams e de políticas de privacidade e segurança, que remove algumas URLs do índice (ver Figura 39). Segundo o manual de instruções para webmasters do Bing este comportamento é comum e, após algum tempo, os resultados iniciais voltam ao índice, desde que não haja violação de nenhuma diretriz.

66

66 Figura 39 - Cache do Bing após alguns dias 4.1.2. Análise com o Google Semelhante

Figura 39 - Cache do Bing após alguns dias

4.1.2. Análise com o Google

Semelhante à forma que foi trabalhada no Bing, foi realizado um monitoramento com o Google para acompanhar o processo de rastreamento dos robôs e a indexação. Estes dois procedimentos são feitos sem uma previsão, podendo ser rápidos (alguns dias) ou demandando um prazo maior (alguns meses). Além disso, o Google não garante o rastreamento e indexação de nenhum site. Sites com poucos ou nenhum link externo tendem a levar um tempo maior para o rastreamento, justificado pela maneira que o algoritmo do PageRank trabalha. Entretanto, a ferramenta de webmasters do Google [14], permite (semelhante à ferramenta do Bing) um acompanhamento das informações dos robôs e o índice. O Google no seu manual de SEO [8], recomenda o uso de Sitemaps, mas também não garante que as URLs do Sitemap serão rastreadas e indexadas. O Sitemap e o robots.txt podem ser detectados pelo processo natural dos robôs de busca, mas é possível fazer o envio destes através do Google Webmaster Tools, o que foi feito como mostra a Figura 41.

67

67 Figura 40 - Menu de opções do Google Webmaster Tools Figura 41 - Estado do

Figura 40 - Menu de opções do Google Webmaster Tools

67 Figura 40 - Menu de opções do Google Webmaster Tools Figura 41 - Estado do

Figura 41 - Estado do Sipemap enviado no Google Webmaster Tools

Observa-se que todas URLs contidas no Sitemap foram enviadas e apenas 2 indexadas (após 3 semanas de envio). Portanto, no momento, existem apenas 2 (das 5 enviadas) páginas no índice do Google segundo o Google Webmaster Tools. Diferente do Bing, a ferramenta do Google permite o envio de robots.txt e testar URLs do site para verificar se serão bloqueadas ou não segundo a política de rastreamento definida pelo robots.txt. O envio foi realizado com sucesso e conforme os testes realizados, o bloqueio das URLs desejadas está funcionando corretamente.

68

68 Figura 42 - Painel do robots.txt no Google Webmaster Tools Outra funcionalidade importante desta ferramenta

Figura 42 - Painel do robots.txt no Google Webmaster Tools

Outra funcionalidade importante desta ferramenta é a opção “Buscar como o Google”, que busca uma URL e, quando processado, permite solicitar o envio para o índice. A URL de todas as páginas foi submetida, porém não influenciou de fato no índice do Google.

porém não influenciou de fato no índice do Google. Figura 43 - Opção "Buscar como o

Figura 43 - Opção "Buscar como o Google"

A marcação de dados estruturados foi detectada duas semanas após a conclusão da modificação e submissão do Sitemap. Esta marcação foi feita utilizando microdados com a coleção de esquemas do schema.org e foi mantida inalterada desde a publicação do site. Mesmo

69

assim, percebeu-se que a quantidade de páginas detectadas com marcação inexplicavelmente variou na ferramenta, conforme mostra a Figura 44.

variou na ferramenta, conforme mostra a Figura 44. Figura 44 - Estado da marcação de dados

Figura 44 - Estado da marcação de dados no Google

Quanto ao rastreamento das URLs pelos robôs de busca e a inclusão no índice de pesquisas do Google, a situação após 3 semanas da publicação do site e submissão do Sitemap foi a

seguinte: foram rastreados 67 URLs (o total varia de acordo com o que cada mecanismo de busca considera como URL, tais como, imagem, folha de estilo, XML, PDF, etc.) e deste total 7 páginas indexadas, o que mostra uma pequena inclusão no índice do Google mediante o total.

uma pequena inclusão no índice do Google mediante o total. Figura 45 - URLs rastreadas, indexadas

Figura 45 - URLs rastreadas, indexadas e bloqueadas pelo Google

As URLs presentes no site, antes de aplicar o trabalho de SEO, que não existem no site atual podem ser solicitadas para remoção do índice do Google bem como solicitar a mesma do cache

70

de qualquer página que estiver no índice, o que é útil quando uma página é alterada. Esta opção não se mostrou muito eficiente, pois diversas URLs solicitadas para remoção do índice se mantiveram nos resultados, conforme se observa nas Figuras 46 e 47.

se mantiveram nos resultados, conforme se observa nas Figuras 46 e 47. Figura 46 - URLs

Figura 46 - URLs removidas do índice do Google

71

71 Figura 47 - URLs mantiveram no índice mesmo após remoção no Google A consulta especial

Figura 47 - URLs mantiveram no índice mesmo após remoção no Google

A consulta especial (site:url) é feita para consultar o estado do índice dos mecanismos de busca. Além desta, o Google permite o uso de outras consultas especiais (ver Tabela 3).

72

Tabela 3 - Consultas Especiais do Google

Resultado

Consulta Especial

Verificar páginas indexadas de um site

site:url

Verificar páginas que possuem links para um site

link:url

Verificar cache de uma página

cache:url

Verificar páginas similares

related:url

Verificar relação das opções anteriores

info:url

Observando a consulta especial do Google sobre o índice do site, percebe-se que todas as páginas novas (inclusive algumas antigas já solicitadas de serem removidas) estão incluídas no índice e, portanto indexadas. Entretanto a informação disponibilizada pelo Google Webmaster Tools sobre as URLs indexadas que foram submetidas pelo Sitemap (as mesmas URLs mostradas na consulta especial), conforme a Figura 41, contrapõe o resultado da consulta especial, informando apenas 2 páginas indexadas. Seguido desses resultados, os testes de pesquisa por palavras-chave no Google foram realizados (Figura 48), não apresentando resultados satisfatórios, pois o objetivo era estar entre os 10 primeiros resultados, atingindo a 30ª posição na mesma pesquisa que no Bing atingiu a 1ª posição. Além disso, pode-se observar que nos 10 primeiros resultados do Google não retornaram resultados relevantes para a consulta sobre o negócio local, mostrando anúncios, perfis pessoais, vídeo não relacionado, oferta de empregos, etc.

anúncios, perfis pessoais, vídeo não relacionado, oferta de empregos, etc. Figura 48 - Resultado de pesquisa

Figura 48 - Resultado de pesquisa no Google

73

73 F i g u r a 4 9 - 1 0 p r i m

Figura 49 - 10 primeiros resultados no Google para a pesquisa

o o g l e p a r a a p e s q u i

Figura 50 - Resultado de pesquisa mais específica no Google apareceu na primeira página o resultado

74

Inserindo uma palavra-chave (Web) a mais o resultado da busca colocou o site da empresa entre os 10 primeiros conforme a Figura 50. Quanto mais palavras-chave inseridas nas pesquisas, menor é o universo que engloba um contexto, ou seja, é determinada uma especificação maior para o que está se pesquisando. Além disso, a palavra “Web”, possui uma relevância grande no contexto que o site está inserido, conforme foi visto nas pesquisas por palavras-chave na ferramenta Google Trend (Figura 20) e, com isso, o Google interpretou melhor a pesquisa retornando o site entre as primeiras posições. Outra observação realizada é que durante as pesquisas os rich snippets a marcação do Google Places foi considerada, mostrando os resultados como snippets comuns, não diferenciando a marcação de dados feita no site dos demais (supostamente deveria ser relevado mediante os demais sem marcação). O Yahoo compartilha informações de índice do Bing e apresentou exatamente os mesmos resultados do Bing.

de índice do Bing e apresentou exatamente os mesmos resultados do Bing . Figura 51 -

Figura 51 - Resultado de pesquisa no Yahoo

75

4.2. Melhoria dos Resultados

A seção anterior mostrou que os resultados obtidos foram satisfatórios, especialmente com o Bing. Os resultados devem ser trabalhados de forma que seja mantida a classificação alcançada e/ou até mesmo melhorada, especialmente no Google que em determinada pesquisa não foi atingido uma posição esperada na classificação dos resultados de busca. Uma análise crítica para os resultados é que o site apresenta poucas páginas com conteúdo, e ainda tem pouca reputação relativa às redes sociais, o que pode ter prejudicado o resultado para algumas consultas. Para melhorar os resultados é necessário realizar uma análise do que foi feito e o que é possível fazer para melhorar a classificação, baseado no que foi proposto neste projeto. Além disso, trabalhar nas redes sociais e manter o conteúdo do site atualizado ou modificado contribuem para resultados melhores. As ferramentas mostradas, como as de webmasters são importantes para o monitoramento e diagnóstico do estado das páginas e sugestões de melhorias.

76

5. Conclusão

A otimização de Websites para buscas orgânicas é uma tarefa que exige muito trabalho não apenas técnico, mas outras áreas importantes como pesquisa de mercado, análise do consumidor e os resultados não são imediatos, podendo levar meses para alcançar uma meta desejada. Além disso, é necessário estar sempre realizando um acompanhamento e melhorias para que os resultados não percam classificação, pois eles variam diariamente. Estar entre os primeiros é um resultado de um trabalho constante.

Os resultados obtidos no intervalo de tempo de um mês mostraram que os mecanismos de

busca, especialmente o Google, apresentam diversas diretrizes que prometem destacar o site ou

relevar, mas na prática não funcionam de maneira conforme prometido. Na busca por uma empresa de SEO em Vitória pode-se observar que no Google foram exibidos diversos resultados irrelevantes sem qualquer relação com as palavras-chave, mostrando anúncios e currículos pessoais e sites desenvolvidos sem qualquer diretriz de qualidade recomendada pelos mecanismos de busca. Outro ponto, é que a marcação de dados para rich snippets não foi considerada nas pesquisas locais, nem mesmo a marcação de locais no Google Places.

O Google Webmaster Tools apresentou uma série de inconsistências relacionadas às

informações disponibilizadas pela ferramenta para webmasters e as consultas especiais. Foi verificada uma divergência de informações comuns, como quantidade de páginas indexadas, URLs informadas de terem sido removidas pelo Google Webmaster Tools sendo exibidas no índice do Google, marcação de dados com problema de detecção, conflito de cache de páginas indexadas exibindo cache da página antiga, além de gastar um tempo muito maior (semanas para indexar poucas URLs) que o Bing Webmaster (menos de uma semana para indexar as principais URLs) para rastreamento e indexação. Outras observações foram feitas, como um erro de rastreamento de uma URL que já havia sido removida e notificada ao Google, título de páginas no índice inexistentes, snippet de uma página aparecendo em outra, informações mudando em tempo real (somente atualizando a página da ferramenta de webmaster do Google), entre outros. Além disso, o Google exibiu resultados totalmente irrelevantes à frente das páginas do site colocado como estudo de caso. Conforme foi visto no capítulo 2, é possível fazer um relacionamento dos resultados com o que a arquitetura dos mecanismos de busca modernos tem como referência. A inconsistência de

77

informações confirma que as informações são coletadas por máquinas distintas (crawlers) e que existe um atraso de sincronização de dados entre servidores que armazenam os documentos (repository) quando é realizado algum tipo de consulta (até mesmo a coleta de dados das ferramentas de webmasters), ou algum problema de cache, possivelmente pelo fato que os barrels não estão sempre atualizados, pois o indexer não entra em ação sempre que documentos são adicionados ao repositório, e sim com certa periodicidade definida pela arquitetura. Estes fatos são característicos da arquitetura dos mecanismos de busca modernos tendo em vista que são descentralizadas diversas operações e em seguida sincronizadas, pois com isso, é possível obter melhor desempenho computacional para processamento de informações na Web. Além disso, o Google apresentou uma maneira diferente de rastrear as páginas, coletando dados parciais em cada rastreamento e não a página como um todo, identificando detalhes em sequência em cada página, o contribuiu gerando uma série de divergências e inconsistências nas informações disponibilizadas. Os mecanismos de busca, especialmente o Google alcançaram muita credibilidade pela sua eficiência e resultados, entretanto, foi observado que ainda existem falhas e problemas de atualização e sincronização de informações de páginas na Web que em muitos casos podem prejudicar ou não trazerem resultados relevantes aos usuários e também para quem os pública. De maneira alguma é possível garantir uma posição na classificação orgânica de pesquisa. O uso de soluções pagas, como Links patrocinados é uma forma que pode garantir a exibição nos resultados de busca, diferente da busca orgânica. Existem vantagens dos Links patrocinados em relação fazer SEO e vice-versa. Fazer SEO é interessante, pois estar entre os primeiros na busca orgânica demonstra credibilidade, além de permitir realizar uma otimização de quantas palavras-chave se desejar. Já os links patrocinados tem a vantagem de obter resultados imediatos, além de que é muito difícil fazer páginas otimizadas para todas as palavras-chave desejadas. Portanto não é possível determinar qual é melhor em relação ao outro, pois depende da intenção e dos objetivos de cada página.

78

6. Referências

[1]

PageRank,” [Online]. Available: http://pt.wikipedia.org/wiki/PageRank.

[2]

D. Ivo, “PageRank,” Conversion, [Online]. Available:

[3]

http://www.conversion.com.br/otimizacao-de-sites-seo/PageRank/. “The Mobile PlayBook,” Google, [Online]. Available:

[4]

http://www.themobileplaybook.com/br/#/cover. Gartner, “GoMobile,” Google, 2011. [Online]. Available:

[5]

http://www.howtogomo.com/br/d/porque-virar-mobile/#reasons-mobile-matters. “pingdom,” 16 Janeiro 2013. [Online]. Available:

http://royal.pingdom.com/2013/01/16/Internet-2012-in-numbers/.

[6]

Google, “Facts about Google and Competition,” Google, [Online]. Available:

[7]

http://www.google.com/competition/howgooglesearchworks.html. S. a. L. P. Brin, “The anatomy of a large - sca le hypertextual web search engine.,” 2000.

[8]

“Google SEO starter Guide,” [Online]. Available:

[9]

http://static.googleusercontent.com/external_content/untrusted_dlcp/www.google.com/ pt-BR//webmasters/docs/search-engine-optimization-starter-guide.pdf. “Google Basics,” Google, [Online]. Available:

http://support.google.com/webmasters/bin/answer.py?hl=pt-BR&answer=70897.

[10]

Rich snippets (microdados, microformatos, RDFa e Marcador de dados),” [Online]. Available: http://support.google.com/webmasters/bin/answer.py?hl=pt-

BR&answer=99170.

[11]

“SEOquake,” [Online]. Available: http://www.seoquake.com/.

[12]

“Make the Web Faster,” Google, [Online]. Available:

[13]

https://developers.google.com/speed. “View HTTP Request and Response Header,” [Online]. Available: http://web-

[14]

sniffer.net/. “Google Webmaster Tools,” Google, [Online]. Available:

[15]

http://www.google.com/webmasters/tools. “Bing - Ferramenta do Webmaster,” Microsoft, [Online]. Available:

[16]

http://www.bing.com/toolbox/webmaster. “Google Analytics,” Google, [Online]. Available: http://www.google.com/analytics/.

[17]

“Server-side scripting,” [Online]. Available: http://en.wikipedia.org/wiki/Server-

[18]

side_scripting. K. Ramirez, “Build Ajax-based Web sites with PHP,” IBM, 2 Setembro 2008. [Online].

[19]

Available: https://www.ibm.com/developerworks/library/wa-aj-php/. D. Ivo, “Open SEO,” Conversion, [Online]. Available:

[20]

http://www.conversion.com.br/openseo/. “About the Robots <META> tag,” [Online]. Available:

[21]

http://www.robotstxt.org/meta.html. “Robots meta tag and X-Robots-Tag HTTP header specifications,” Google, [Online]. Available: https://developers.google.com/webmasters/control-crawl-

79

[22]

index/docs/robots_meta_tag?hl=pt-BR. “Conteúdo gerado automaticamente,” Google, [Online]. Available:

http://support.google.com/webmasters/bin/answer.py?hl=pt-BR&answer=2721306.

[23]

“Esquemas de link,” Google, [Online]. Available:

http://support.google.com/webmasters/bin/answer.py?hl=pt-BR&answer=66356.

[24]

“Cloaking,” Google, [Online]. Available:

http://support.google.com/webmasters/bin/answer.py?hl=pt-BR&answer=66355.

[25]

“Texto e links ocultos,” Google, [Online]. Available:

http://support.google.com/webmasters/bin/answer.py?hl=pt-BR&answer=66353.

[26]

“Páginas de entrada,” Google, [Online]. Available:

http://support.google.com/webmasters/bin/answer.py?hl=pt-BR&answer=2721311.

[27]

“Programas de afiliação,” Google, [Online]. Available:

http://support.google.com/webmasters/bin/answer.py?hl=pt-BR&answer=76465.

[28]

“Conteúdo copiado,” Google, [Online]. Available:

http://support.google.com/webmasters/bin/answer.py?hl=pt-BR&answer=2721312.

[29]

“Preenchimento de palavra-chave,” Google, [Online]. Available:

http://support.google.com/webmasters/bin/answer.py?hl=pt-BR&answer=66358.

[30]

“Criação de páginas com comportamento malicioso,” Google, [Online]. Available:

http://support.google.com/webmasters/bin/answer.py?hl=pt-BR&answer=2721313.

[31]

“Diretrizes para rich snippets,” Google, [Online]. Available:

http://support.google.com/webmasters/bin/answer.py?hl=pt-BR&answer=2722261#3.

[32]

“Sobre microdados,” Google, [Online]. Available:

http://support.google.com/webmasters/bin/answer.py?hl=pt-BR&answer=176035.

[33]

“Sobre microformatos,” Google, [Online]. Available:

http://support.google.com/webmasters/bin/answer.py?hl=pt-

BR&answer=146897&topic=1088472&ctx=topic.

[34]

“Sobre RDFa,” Google, [Online]. Available:

http://support.google.com/webmasters/bin/answer.py?hl=pt-BR&answer=146898.

[35]

Rich Snippets for Local Search,” Google, [Online]. Available:

[36]

http://maps.google.com/help/maps/richsnippetslocal/. “Consultas automáticas,” Google, [Online]. Available:

http://support.google.com/webmasters/bin/answer.py?hl=pt-BR&answer=66357.

[37]

“Sobre Sitemaps,” Google, [Online]. Available:

http://support.google.com/webmasters/bin/answer.py?hl=pt-

BR&answer=156184&from=40318&rd=1.

[38]

“Como adicionar mais informações a um Sitemap,” Google, [Online]. Available:

http://support.google.com/webmasters/bin/answer.py?hl=pt-BR&answer=71936.

[39]

“Sitemap index file,” Google, [Online]. Available:

http://support.google.com/webmasters/bin/answer.py?hl=pt-

BR&answer=71453&topic=8476&ctx=topic.

[40]

“Como criar Sitemaps,” Google, [Online]. Available:

http://support.google.com/webmasters/bin/answer.py?hl=pt-

80

BR&answer=183668&topic=8476&ctx=topic.

[41]

“Como enviar Sitemaps,” Google, [Online]. Available:

http://support.google.com/webmasters/bin/answer.py?hl=pt-

BR&answer=183669&topic=8476&ctx=topic.

[42]

“Imagens,” Google, [Online]. Available:

http://support.google.com/webmasters/bin/answer.py?hl=pt-BR&answer=114016.

[43]

“Desempenho do site,” Google, [Online]. Available:

http://support.google.com/webmasters/bin/answer.py?hl=pt-BR&answer=158541#1.

[44]

“Search Engine Optimization (SEO),” Google, [Online]. Available:

http://support.google.com/webmasters/bin/answer.py?hl=en&answer=35291.

[45]

“Web Performance Best Practices,” Google, [Online]. Available:

[46]

https://developers.google.com/speed/docs/best-practices/rules_intro. E. Enge, S. Spencer e R. Fishkin, The Art of SEO, O'Reilly, 2012.