Você está na página 1de 30

Passo 1: Escolha um nome de projeto e pasta de destino

1. Alterar a pasta de destino, se necessrio


mais conveniente para organizar todos os espelhos em um
diretrio, por exemplo, Meus Sites
Se voc j fez espelhos usando HTTrack, certifique-se de que voc
selecionou a pasta correta.

2. Selecione o nome do projeto:


o

Selecione um novo nome de projeto

Este nome , por exemplo, o tema dos locais espelhados, por


exemplo site do meu amigo

OU
o

Selecione um projeto existente para atualizao / nova


tentativa

Selecionar diretamente o nome do projeto existente na lista pop-up

3. Clique no boto AVANAR

Passo 2: Preencha os endereos

1. Selecione uma ao
A ao padro baixar sites

Baixar web site (s)

Ser Transferido os locais desejados com opes padro


o

Baixar web site (s) + perguntas

Ser Transferido os locais desejados com opes padro e fazer perguntas


se todas as ligaes (links) so consideradas como potencialmente
transfervel
o

Obter arquivos individuais

S obter os arquivos desejados especificados (por exemplo, arquivos ZIP),


mas no aranha atravs de arquivos HTML
o

Download de todos os locais em pginas (espelho mltiplo)

Ir baixar todos os sites que aparecem no site (s) selecionada. Se voc


arrastar e soltar o arquivo boormark, esta opo permite que voc espelhe
todos os seus sites favoritos
o

Ligaes de teste em pginas (teste de indicador)

Ir testar todas as ligaes indicadas. til para verificar um arquivo de


favoritos

* Continuar download interrompido

Use esta opo se um download tiver sido interrompido (interrupo do


usurio, acidente ..)
o

* Atualizao de download existente

Use esta opo para atualizar um projeto existente. O motor vai reavaliar a
estrutura completa, verificando cada arquivo baixado para qualquer
atualizao no site

2. Digite os endereos do site


Voc pode clicar no boto Adicionar um URL para adicionar cada
endereo, ou simplesmente digite-os na caixa

3. Voc pode definir opes clicando no Conjunto de opes de boto


possvel definir filtros ou descarregar parmetros no painel de opo
4. Voc tambm pode adicionar um URL clicando no um URL Adicionar
boto

Esta opo permite que voc defina parmetros adicionais (login / senha)
para o URL, ou capturar uma URL complexa do seu navegador
5. Clique no boto AVANAR

6. Ir para o passo seguinte ...

Adicionar uma URL


1. Digite um endereo da Web tpico
Basta digitar o seu endereo no campo

OU
2. Digite um endereo da Web com autenticao
til quando voc precisa de autenticao bsica para assistir a
pgina da Web

OU
3. Capturar um link do seu navegador da Web para HTTrack
Utilize esta ferramenta apenas para pginas com base em formulrios
(pginas entregues depois de submeter um formulrio) que precisam
alguma anlise

Set, como explicou, suas preferncias de proxy do navegador da Web


para os valores indicados: ajustar o endereo do proxy e porta do
proxy, em seguida, clique no boto ou link, como costuma fazer no
seu browser Web.
O proxy temporrio, instalado por HTTrack, ento capturar o link e
exibir uma pgina de confirmao.

Passo 3: Pronto para comear

1. Se voc quiser, voc pode se conectar imediatamente ou retardar o


espelho
Se voc no selecionar nada, HTTrack ir assumir que voc j est
conectado Internet e que voc deseja iniciar a ao espelho agora
o

Conectar-se a este provedor

Voc pode selecionar aqui um fornecedor especfico para conectar-se


quando comeando o espelho, se voc ainda no estiver conectado
Internet.
o

Desligue quando terminar

Clique na caixa de seleo para pedir este httrack para desconectar a rede
quando espelho est terminado.
o

Shutdown PC quando terminar

Clique na caixa de seleo para pedir este httrack para desligar o


computador quando espelho est terminado.
o

Em espera

Voc pode inserir aqui a hora do incio espelho. Voc pode atrasar at 24
horas um espelho usando este recurso.

2. Clique no boto CONCLUIR

3. Ir para o passo seguinte ...

Etapa 5: Confira o resultado

1. Verifique os arquivos de log


Voc pode verificar o arquivo de log de erro, que poderia conter informao
til se os erros ocorreram

2. Veja a soluo de problemas pgina

Painel Opo

Clique em um dos guia opo abaixo para ter mais informaes


Cada guia opo descrita, incluindo observaes e exemplos

Painel Opo: Tipos MIME

Tipos de MIME

Um novo recurso importante para algumas pessoas. Este painel informa o


mecanismo que, se um link encontrado, com um tipo especfico (.cgi, .asp,
ou .php3 por exemplo), ele deve assumir que esta ligao tem sempre o
mesmo tipo de MIME, por exemplo, a "text / html "Tipo de MIME. Isto muito
importante para acelerar muitos espelhos. Alguns arquivos HTML grandes
que tm muitas ligaes de tipo desconhecido incorporado, como "ASP",
fazer com que o motor para testar todos os links, e isto atrasa o analisador.
Neste caso, voc pode dizer HTTrack: "pginas.asp esto em pginas HTML
de fatos"
Isto possvel, utilizando-se:
Tipo de Arquivo: identidade MIME asp: text / html
Voc pode declarar mltiplas definies, ou declarar vrios tipos separed
por ",", como em:
Tipo de arquivo: ASP, PHP, php3 MIME identidade: text / html
A maioria dos tipos de MIME importantes so:

text / html

Arquivos de html, analisados por HTTrack

image / gif

Arquivos GIF

image / jpeg

Ficheiros JPEG

image / png

Os arquivos PNG

application / x-zip

arquivos .zip

application / x-mp3

arquivos .mp3

application / x-foo

.foo arquivos

application / octet-stream

Arquivos desconhecidos

Voc pode renomear arquivos em um espelho. Se voc sabe que todos os


"que" os arquivos so de fato "zip" arquivos renomeados para "dat", voc
pode dizer httrack:
Tipo de Arquivo: dat identidade MIME: application / x-zip
Voc pode tambm "name" um tipo de arquivo, com o seu tipo MIME
original, se este tipo no conhecido por HTTrack. Isso ir evitar um teste
quando o link ser alcanado:
Tipo de Arquivo: identidade MIME foo: application / octet-stream
Neste caso, HTTrack no ir verificar o tipo, porque ele aprendeu que "foo"
um tipo conhecido, ou o tipo MIME "application / octet-stream". Portanto, ele
vai deixar intocado o tipo "foo".

Painel Opo: Navegador ID

Browser "Identidade"

Digite aqui o nome do motor, como ele vai ser visto por servidores de Web
Por exemplo, digitar "Mozilla / 4.5 (compatible; MSIE 4.01; Windows 98)" vo
disfarar HTTrack em um navegador padro MSIE4
Este campo para fins estatsticos, e voc pode inserir o que quiser, um
nome de navegador que no existe ou at mesmo o nome da sua av
No entanto, cuidado que vrios sites podem entregar um contedo
diferente se o navegador chamado de "Netscape" ou "Explorer" .. alguns
dos mais elitistas vai mesmo recusar-se a entregar qualquer coisa,
dependendo do nome do navegador. Este caso raro, felizmente.

HTML Rodap

Digite aqui o texto optionnal que ser includo como um comentrio em


cada arquivo HTML para tornar mais fcil o arquivamento
A seqncia inserida geralmente um comentrio HTML (<! - Comentrio
HTML ->) com optionnal% s, que ser transformada em uma seqncia
especfica informaes:
# 1% s: nome do host (por exemplo, www.someweb.com)
# 2% s: nome do arquivo (por exemplo, /index.html)
% s # 3: data do espelho
Exemplo: <- Pgina espelhado de% s, arquivo% s!. Data Archive:% s ->
Nota: Voc pode selecionar (nenhum), neste caso no h comentrios
sero adicionados s pginas. No entanto, isso no aconselhvel que voc
pode querer saber no futuro em que a pgina tenha sido tomada, quando /
por que ..

Painel Opo: Os arquivos de log, Index, Cache

Fora para armazenar todos os arquivos no cache

Fora para armazenar todos os arquivos no cache, mesmo arquivos GIF,


arquivos zip e assim por diante ..
Sem esta opo, o motor s ir poupar em cache de arquivos de html para a
atualizao / continuar finalidade.
Pode ser til, no entanto, para manter todos os arquivos no cache, se voc
quiser, no futuro, para mudar a estrutura do site
Aviso! Esta opo ir sensivelmente inflar o cache que vai se tornar to
grande quanto o prprio espelho!

No re-download arquivos apagados localmente

Esta opo impede que HTTrack de voltar a pedir a um arquivo que existe
no local com tamanho nulo, ou que tenha sido apagado pelo usurio
(Se o usurio apagar o arquivo, esta opo ir criar um ficheiro nulo para
evitar que o motor pegar o arquivo da prxima vez)
til se voc estiver apagando arquivos grandes progressivamente no
espelho local e no quer recarreg-los!

Criar arquivos de log

Criar arquivo de log, onde informaes, erros e advertncias sobre o espelho


atual ser salva
Se voc no gerar arquivos de log, voc no ser capaz de saber o que
erros ocorreu!
altamente recomendvel deixar esta opo marcada
Nota: Voc pode definir o nvel de depurao dos log-arquivos. O padro
"normal"

Faa um ndice

Gerar um index.html no topo do diretrio. Muito til.

Faa um banco de dados palavra

Gerar um banco de dados index.txt no topo do diretrio. Muito til para a


anlise lingustica, esse recurso permitir que voc listar todas as palavras
de todas as pginas espelhadas no projeto atual.
Com este arquivo de ndice, voc ser capaz de listar quais foram
detectados palavras, e onde.

Painel Opo: Opes Avanadas

Conselho: deixar estas opes para os valores padro!

Use um cache para atualizaes

Esta opo deve ser definido se voc quiser atualizar o site mais tarde, ou
se voc quer ter a oportunidade de continuar um espelho caiu
Desativ-lo somente se voc quiser economizar alguns kilobytes, mas, err,
novamente, no aconselhvel para desabilitar esta opo!

Filtro primrio (modo scan)

Quais arquivos devem ser salvos?


Voc pode escolher Html e / ou no-Html, ou nenhum (esta ltima opo
automaticamente definida para a digitalizao)

Modo de viagem

Definir a direo spidering padro


O padro pegar todos os arquivos no mesmo nvel e nveis mais baixos, o
que o mais lgico

Modo global de viagens

Definir a direo spidering global padro


O padro para ficar no mesmo endereo, caso a autorizao no
especfica foi entregue

Ative o modo de depurao

Permite que algumas informaes de depurao extras, como cabealhos de


depurao e algumas informaes de interface (apenas para depurao
fins)

Painel Opo: Proxy

Proxy

Voc pode inserir manualmente o nome do proxy ea porta (digite o nome no


primeiro campo, o porto no segundo campo)

Usar proxy para transferncias FTP

O motor pode usar proxy HTTP padro para todos ftp (ftp: //) transferncias.
A maioria dos proxies permitir isso, e se voc estiver atrs de um firewall,
esta opo ir permitir que voc pegar facilmente todas as ligaes de ftp.
Alm disso, transferncias FTP gerenciados pelo proxy so mais confiveis
do que padro cliente FTP do motor.
Esta opo marcada por padro

Configurar

Clique neste boto para configurar o proxy.


Se o proxy precisa de autenticao que voc pode definir o logon de
usurio / senha

Ocultar senha

Use-o se voc no deseja exibir a senha (se esconde o nome do proxy)

Painel Opo: Regras de digitalizao

Filtros (digitalizar regras) so a opo mais importante e poderosa que pode


ser usada: voc pode excluir ou aceitar subdiretrios, ignorar certos tipos
de arquivos, e assim por diante .. Se voc tem arquivos ausentes (imagens
em diretrios de nvel superior, por exemplo) usando filtros podem ajud-lo!

Excluir link (s)

Este boto permite que voc adicione um filtro para excluir qualquer um
diretrio, um domnio, um certo tipo de arquivo ...
Veja abaixo para descobrir como adicionar uma regra de filtro ...

Incluir link (s)

Este boto permite que voc adicione um filtro para autorizar qualquer um
diretrio, um domnio, um certo tipo de arquivo ...
Veja abaixo para descobrir como adicionar uma regra de filtro ...

Como adicionar uma regra


(aceitar ou ligaes forbide)
o

Selecione uma regra

Em seguida, digite a palavra-chave (s)

Clic no boto Adicionar para adicionar a regra

Outro exemplo:
Aceitar um nome de diretrio especfico
Suponha que voc est espelhando um site em
http://www.awondefulsite.com/mike/index/index.html mas voc no
pode obter imagens localizados em / images / paisagens / (por
exemplo, a imagem http: // www.
awondefulsite.com/images/landscapes/bluewater.jpg no foi
recuperada)
o

Selecione uma regra: neste caso para identificar todos os itens


de um nome de pasta especfica

Em seguida, digite a palavra-chave (s): neste caso, o nome


do diretrio (sem a inicial e final /)

Clic no boto Adicionar para adicionar a regra

Foi adicionado a regra

Veja tambm: avana filtros

Painel Opo: Limites

Profundidade mxima de espelho

Definir o quo profundo ser o motor de busca no site A profundidade de 3


significa que voc vai pegar todas as pginas que voc indicou, alm de
tudo o que pode ser acessado clicando duas vezes em qualquer link

Nota: Esta opo no foi preenchido por padro, ento a profundidade


infinito. Mas porque o motor ir permanecer no local que voc indicou,
apenas os sites desejados sero espelhados, e no toda a web!

Profundidade externa mxima

Definir o quo profundo ser o motor de busca em sites externos, ou em


endereos que foram proibidos.
Normalmente, HTTrack no vai passar dos sites externos por padro (exceto
se autorizada por filtros), e vai evitar endereos proibidos pelos filtros. Voc
pode substituir esse comportamento, e dizer que o motor pegar nveis de N
de sites "externos".
Nota: Use esta opo com muito cuidado, uma vez que est substituindo
todas as outras opes (filtros e limitador do motor padro)
Nota: Esta opo no foi preenchido por padro, ento a profundidade
igual a zero.

O tamanho mximo de um arquivo HTML

Definir o maior arquivo HTML do motor permitido para pegar.


Esta opo permite-lhe evitar grandes arquivos se voc no quiser baixlos.

Tamanho mximo de um arquivo no-HTML

Definir o maior arquivo no-html (imagem, arquivo ZIP ..) o motor


permitido para pegar.
Esta opo permite-lhe evitar grandes arquivos se voc no quiser baixlos.

Limite de tamanho do Site

Esta opo limita a quantidade total de bytes que pode ser baixado no
espelho atual

Pausa depois de baixar ..

Esta opo permite que o motor de fazer uma pausa a cada vez que
recuperou uma quantidade especfica de bytes
til se voc estiver espelhando um site maior que o espao disponvel: voc
pode, em seguida, backup e apagar os arquivos baixados durante a pausa

Tempo mximo global

Esta opo limita a quantidade total de tempo que pode ser gasto com o
espelho de corrente

Taxa de transferncia de Max

Esta opo limita a velocidade de transferncia sobre o espelho de corrente


til se voc no quer HTTrack para monopolizar a largura de banda!

Conexes Max / segundo

Esta opo limita o nmero de conexes por segundo para o espelho atual.
Este nmero pode ser um nmero flutuante (tal como 0,1 == 1 conexo por
10 segundos)
til para limitar a carga do servidor.
O padro 10, mas voc pode desativ-lo com um valor de 0 - esta no
AVISADO A MENOS QUE VOC SABE O QUE VOC EST FAZENDO (riscos de
sobrecarga de servidor)

O nmero mximo de ligaes

O nmero mximo de links que podem ser analisados, ou seja, quer


baixado, ou no baixaram. No defina um limite muito baixo para que,
porque uma vez que o limite atingido, o motor pra imediatamente.
No defina um limite muito alto, muito, porque vai demorar um pouco de
memria .. 100.000 ligaes (padro) geralmente suficiente.

Painel Opo: Controle de Fluxo

Nmero de conexes

Defina o nmero de conexes simultneas que podem ser iniciados pelo


motor.
Recomenda-se a limitar esse nmero a 1 ou 2 se voc estiver espelhando
grandes arquivos em um site, mais em sites padro (8 recomendado, at
42 se for suportada pelo sistema)

Tempo esgotado

Definir o que vez que o motor tem de esperar se no houver resposta se for
dada por um servidor.
120 segundos recomendada (menos de tubos rpidos, mais se voc
desleixado conexo)
Opcionalmente, possvel ignorar todas as ligaes a partir de um host que
tem gerado um tempo limite. Aviso: se esta opo for selecionada, um
tempo limite ir eliminar todos os links de origem do servidor

Tentativas

Nmero de novas tentativas se um erro no fatal ocorreu (tempo limite, por


exemplo)
Note que isto no vai resolver erros fatais, como "Not Found" pginas e
assim por diante!

Min Taxa de Transferncia

Taxa de transferncia mnima tolerada em um site. Se a taxa de


transferncia se mais lento que o valor definido, ento a ligao ignorada
Opcionalmente, possvel ignorar todas as ligaes a partir de um host que
tem gerado um erro "muito lento". Aviso: se esta opo for selecionada, um
erro "muito lento" ir eliminar todos os links de origem do servidor

Painel Opo: Links

Tentar detectar todas as ligaes

Solicita o motor para tentar detectar todos os links em uma pgina, mesmo
para marcas desconhecidas ou cdigo javascript desconhecido. Isso pode
gerar pedidos ruins ou erro em pginas, mas pode ser til para pegar todos
os links desejados
til, por exemplo, em pginas com muitos truques Javascript

Se os arquivos no-html relacionada com um link

Esta opo permite que voc pegar todas as referncias de arquivo em


arquivos HTML capturados, mesmo os externos
Por exemplo, se uma imagem em uma pgina HTML tem a sua fonte em
outro site, esta imagem ser capturada junto.

Validade do ensaio de todos os links

Esta opo fora o mecanismo para testar todas as ligaes em pginas


spidered, ou seja, para verificar se cada elo vlida ou no atravs da
realizao de um pedido para o servidor. Se ocorreu um erro, ele relatado
para o arquivo de log de erro.
til para testar todos os links externos em um site

Obter arquivos HTML primeiro!

Com essa opo ativada, o motor tentar baixar todos os arquivos HTML
primeiro, e depois baixar outros arquivos (imagens). Isso pode acelerar o
processo de anlise, por forma eficiente a digitalizao da estrutura HTML.

Painel Opo: Construir

Estrutura Local Tipo

Permite definir a estrutura local do site.


O padro "estrutura do site": voc vai ter a mesma pasta / arquivos de
nomes e estrutura que o original
Voc pode, no entanto, colocar todas as imagens em uma nica pasta, html
em outro e assim por diante ..

DOS Names

Forar o motor para gerar nomes DOS (8 caracteres para o nome, 3 para o
tipo)

ISO9660 Names

Forar o motor para gerar nomes compatveis com ISO9660 para o


armazenamento em mdias como CD-ROM ou DVD ROM

No pginas de erro

No gerar as pginas de erro (se um erro 404 ocorreu, por exemplo)


Se uma pgina est faltando no site remoto, no haver nenhum aviso
sobre o site local

No existem ligaes externas

Reescrever todos os links externos (links que precisa de uma conexo com a
Internet), de modo que no pode haver uma pgina de aviso antes
("Ateno, voc precisa estar on-line para ir a este link ..")
til se voc quiser separar o domnio local e on-line

Ocultar senhas

No inclua nome de usurio e senha para stios protegidos no cdigo,


quando um link no ser pego. Isto permite manter-se a dados privados de
acesso.

Ocultar cordas de consulta

No incluem cadeias de consulta para ligaes locais. Seqncias de


consulta (foo = 45 & bar = 67?) No so geralmente necessrios para local
(file: //) arquivos, mas seqncias de consulta pode ser til para mostrar
vrias informaes (exemplo:? Page-4.html index = Histrico). No entanto,
alguns navegadores bsicos podem no entender que (browsers sem fio,
especialmente), e escondendo seqncias de consulta pode ser uma boa
idia neste caso.

No limpar arquivos antigos

No purgar, depois de uma atualizao, os arquivos locais que no existem


mais no site remoto, ou que tenham sido ignorado

Painel Opo: Aranha

Aceitar cookies

Aceitar cookies gerados pelo servidor remoto


Se voc no aceitar cookies, algumas pginas "gerada por sesso" no vai
ser recuperada

Verifique o tipo de documento

Definir quando o motor tem de verificar o tipo de documento


O motor deve saber o tipo de documento, para reescrever os tipos de
arquivo. Por exemplo, se um link chamado /cgi-bin/gen_image.cgi gera uma
imagem GIF, o arquivo gerado no ser chamado "gen_image.cgi", mas
"gen_image.gif"
Evite "nunca", porque o espelho local poderia ser falso

Analisar arquivos java

Devem os arquivos .java de anlise motor (classes Java) para procurar


nomes de arquivo Includo?
Ela marcada por padro

Aranha

O motor deve seguir regras robots.txt remotos quando eles existem?


O padro "seguir"

Atualizao de corte

Tentativa de limitar as transferncias envolvendo respostas falsas


conhecidos dos servidores. Por exemplo, pginas com mesmo tamanho ser
considerado como "at data", mesmo que o carimbo do tempo parece
diferente. Isto pode ser til para muitas pginas geradas de forma dinmica,
mas esta tambm pode causar pginas no-actualizados em casos raros.

Solicitaes tolerantes

Tolerar o tamanho do arquivo errado, e fazer pedidos em conformidade com


antigos servidores
Ele desmarcada por padro, porque essa opo pode causar arquivos para
se tornar falso

Fora velho solicitaes HTTP / 1.0

Esta opo fora do motor para usar HTTP / 1.0 solicitaes, e evitar
solicitaes cabea.
til para alguns sites com verses antigas do servidor, ou com muitas
pginas geradas dinamicamente.