Você está na página 1de 10

João Carlos Martins de Sousa - Março de 1997

A
CAPTURA
DE
PÁGINAS
DA
WWW

Acção de formação financiada pelo


Centro de Formação FUNDO SOCIAL EUROPEU
e Aperfeiçoamento
de Professores do Lumiar
Desenvolvimento de Projectos Educativos com Suporte Telemático

A Captura de Páginas da Web


A informação que se encontra disponível na World Wide Web constitui uma
fonte que, na maior parte dos casos, irá ser objecto de repetidas consultas. Uma vez
que o acesso a esta informação não é grátis, é importante possuir ferramentas
informáticas que permitam a captura das estruturas de páginas da web para dispositivos
de armazenamento locais (disquetes ou discos rígidos) por forma a possibilitar a
realização de consultas repetidas sem os inconvenientes técnicos e económicos do
estabelecimento das ligações telefónicas. Uma vez feita a captura dessa estrutura de
folhas (por exemplo as folhas do Museu Nacional de Arte Antiga) é então possível
‘navegar’ vezes sem conta por elas, bastando para isso ter um browser.

O Web Whacker
Já vimos que na INTERNET podemos encontrar ‘sites’ de onde se podem
carregar programas utilitários variados. Um deles é o Web Whacker que se encontra
disponível no URL www.ffg.com. Esta aplicação permite a captura e a leitura off-line
das páginas da Web.

O Web Whacker não é um programa de domínio público, pelo que não deve
ser utilizado sem encargos; é sim um produto de 'SHAREWARE' o que significa que é
de livre distribuição mas, depois de um determinado período de tempo, deixa de estar
funcional, pelo que se torna necessária a realização de um registo associado ao envio
de uma determinada importância.

Na sequência deste processo, é enviado para o utilizador um número de registo


que permite o carregamento (download) de uma versão funcional sem limite de tempo.

Centro de Formação 7-2


e Aperfeiçoamento
de Professores do Lumiar
Desenvolvimento de Projectos Educativos com Suporte Telemático

O WebWhacker é uma das muitas ferramentas concebidas para reduzir a


dependência dos utilizadores nas ligações à Internet para a consulta das estruturas de
páginas HTML mais procuradas. O WebWhacker carrega ("Whacks") páginas
isoladas, grupos de páginas WWW ou mesmo Web sites completos, incluindo texto
(HTML) e imagens, armazenando-os num directório do computador local. Os links
das páginas e das imagens carregadas são adaptados para os nomes dos ficheiros
locais, permitindo a sua consulta sem o estabelecimento de uma ligação Internet,
utilizando o seu browser habitual.

Presentemente, e entre um conjunto de outras ferramentas com a mesma


funcionalidade básica1, já se encontram disponíveis a versão 2 do WebWhacker, a 32
bits, e o Web Whacker 95, mas as suas funcionalidades fundamentais de captura são
análogas às da versão de 16 bits que aqui será abordada, divergindo apenas no facto de
se constituirem como autênticos ambientes de gestão das folhas capturadas e estarem,
no caso da última versão referida, perfeitamente integradas com o browser que esteja a
ser utilizado.

Operação Básica
Utilizar o WebWhacker é simples. Basta criar um novo grupo do WebWhacker
ou abrir um já existente, adicionar o URL desejado, indicar o número de níveis a serem
carregados (opcional) e iniciar o processo de Whacking! Uma barra indicadora do
progresso permite controlar a actividade do WebWhacker e depois desta ter sido
concluída, pode utilizar qualquer browser da World Wide Web para visualizar as
páginas locais off-line.

1
De referir especialmente a aplicação freeware que pode ser carregada a
partir de http://www.freeloader.com
Centro de Formação 7-3
e Aperfeiçoamento
de Professores do Lumiar
Desenvolvimento de Projectos Educativos com Suporte Telemático

Este documento contém toda a informação necessária para a operação com o


WebWhacker, incluindo a descrição da funcionalidade dos ícones da barra de
ferramentas, apresentação das características do WebWhacker e indicação da forma de
realização de tarefas específicas.

Ecrã de boas-vindas
No início da operação é apresentado um ecrã de boas-vindas concebido para
facilitar o acesso do utilizador a todas as facilidades oferecidas pelo WebWhacker.
Seleccione Quick Start para visualizar os 6 passos básicos do processo de captura de
folhas WWW ou um grupo de amostra para praticar. Seleccione New Group para
criar um novo grupo ou Open Group para trabalhar com um grupo de folhas já
existente - o primeiro passo aconselhável. O utilizador pode desligar o aparecimento
do Ecrã de boas-vindas na opção Preferences do menu Options.

Primeiros passos
São um conjunto de 6 passos que apresentam as funcionalidades básicas do
WebWhacker  criar grupos, adicionar URLs, capturar folhas e visualizá-las  ao novo
utilizador. Para obter uma explicação sucinta deve escolher a opção Quick Start no
ecrã de boas-vindas ou no menu Help..

* Grupo de amostra
É aconselhável que os novos utilizadores comecem por abrir o Sample Group,
um grupo já definido de URLs remotos prontos a serem capturados. Aceda ao Sample
Group a partir do ecrã de boas-vindas ou do menu Help.

WebWhacker Help
Este manual de operação em hiper-texto pode ser activado escolhendo a opção
Contents do menu Help. Contém toda a informação necessária à operação com esta
aplicação.

Ícones da Barra de Ferramentas


- mostra a janela de diálogo de New Group. Permite criar um directório e um
novo grupo de folhas a capturar
- mostra a janela de diálogo Open Group. Permite abrir um grupo de folhas
capturadas (ou a capturar) que já exista.
- Captura todas as páginas (com todo o seu conteúdo) do grupo que tenham sido
marcadas para captura, referenciadas por um ícone com uma faca na segunda coluna
da lista (ver figura). Todos os novos URLs que sejam adicionados ao grupo são
inicialmente colocados em modo de captura.
Centro de Formação 7-4
e Aperfeiçoamento
de Professores do Lumiar
Desenvolvimento de Projectos Educativos com Suporte Telemático

- Interrompe o processo de captura de folhas. É completada a captura da folha


em curso e todas as folhas já capturadas são religadas com os endereços locais.

- corta a página seleccionada, guardando-a na Área de Transferência.

- copia o texto seleccionado para a Área de Transferência.

- repõe o conteúdo da Área de Transferência no local onde se encontra o cursor.

- adiciona o URL activo no Netscape ao grupo corrente, automaticamente


colocando o seu título. Pode-se regressar à visualização da página no browser fazendo
um duplo-clique na linha de título do URL.

- mostra a caixa de diálogo Add Links para a página local seleccionada. Esta
janela de diálogo lista todos os links contidos na folha e permite adicionar alguns ou
todos eles à lista do grupo, para posterior captura.

- mostra a caixa de diálogo de Properties para a página seleccionada. Esta caixa


de diálogo mostra a informação básica sobre a folha, incluindo o URL, estado do
download e data em que foi efectuado, nome do ficheiro local e última data de
modificação do URL remoto. A partir desta janela pode seleccionar os botões de
Links, Images, ou Errors para visualizar essa informação específica para a página.

O que é um “grupo”?
Um grupo é uma estrutura lógica contida por um ficheiro de extensão WWD
que pode conter uma lista de páginas de um ou mais sites que estejam física ou
funcionalmente relacionadas. É o elemento que possibilita ao WebWhacker organizar
a informação capturada.
Centro de Formação 7-5
e Aperfeiçoamento
de Professores do Lumiar
Desenvolvimento de Projectos Educativos com Suporte Telemático

Janela de grupo do WebWhacker


A janela de grupo do WebWhacker Group mostra uma lista das páginas
(URLs) que foram adicionadas ao grupo. Uma página tem que ser adicionada à lista do
grupo antes de ser capturada. Uma página de início dum conjunto de folhas HTML
pode ser adicionada à lista de muitas formas diferentes: arrastando um link a partir do
Netscape, capturando o URL activo do browser ou escrevendo-o a partir do teclado.

Quando uma folha é capturada, os links que ela contém também podem ser
adicionados à lista para posterior captura. Um grupo pode conter qualquer número de
folhas, quer adicionadas como folhas iniciais, links de folhas que tenham sido
carregadas ou adicionadas automaticamente pela captura de níveis duma estrutura.
Todas as páginas de um grupo ficarão interligadas localmente desde que estejam
relacionadas umas com as outras.

Um grupo pode conter folhas locais (capturadas) e folhas remotas (a capturar).


Existe uma coluna à esquerda da lista de URL’s onde podem existir dois ícones: o
primeiro indica o estatuto local ou remoto de cada folha - folhas locais são indicadas
pelo símbolo de um ficheiro com um globo no interior, enquanto que as folhas
apresentam um globo grande. Um ícone com uma faca aparece na segunda coluna
para indicar que a folha será capturada posteriormente. Quando a faca está sobre uma
única folha, indica que apenas vai ser capturado um nível, se estiver sobre várias
folhas, indica que vão ser capturados múltiplos níveis (definidos para aquele link na
caixa de diálogo de Whack Levels).

Depois de terminada a captura, todos os ficheiros locais pertencentes ao grupo


são ligados, isto é, os links desses ficheiros são alterados por form a apontarem para os
ficheiros locais. Qualquer folha da lista pode ser visualizada no browser definido
fazendo duplo-clique sobre ela. Se a folha tiver sido capturada, será visualizada a
folha local, no caso contrário,a consulta será feita através da World Wide Web.

Criar um Grupo
Da primeira vez que iniciar o WebWhacker, pode abrir o grupo de exemplo ou
criar um grupo novo da sua escolha. Para criar um grupo novo deve seleccionar a
opção New Group do ecrã de boas-vindas ou do menu File. Na caixa de diálogo que
então surge, deve indicar o directório onde deseja armazenar os ficheiros locais que
integrarão o grupo (pode utilizar o botão New Folder para criar um novo directório,
se tal fôr necessário - note que é aconselhável utilizar um directório diferente para cada
grupo). Nessa janela de diálogo é também preciso indicar um nome para o ficheiro de
índice e para a janela do grupo.

Á medida que continue a capturar páginas, podem-se criar mais grupos, ou


adicioná-las aos já existentes. Pode-se optar por agrupar páginas dum mesmo ‘site’,
Centro de Formação 7-6
e Aperfeiçoamento
de Professores do Lumiar
Desenvolvimento de Projectos Educativos com Suporte Telemático

de vários ‘sites’ que estejam interligados, ou de vários ‘sites’ que contenham


informação relacionada.

Propriedades dos Grupos


Escolha a opção Group Properties do menu Options para obter informações
como o nome do ficheiro de registo do grupo, sua localização, data e hora da última
modificação e convenção de escolha dos nomes dos ficheiros.

Ordenar o Grupo pela descrição, pelo


URL, ou „As Added‟
Os URLs que se encontram na lista de qualquer grupo podem ser organizadas
de várias formas alternativas à estabelecida por defeito, As Added (ordem de adição).
Para tal deve-se escolher a opção Sort By do menu View e depois a opção desejada
Label, URL, ou As Added. Pode-se também alterar a forma de organização por
defeito em Preferences.

Adicionar URLs ao Grupo


Primeiro deve-se criar um novo grupo ou abrir um que já exista. De uma janela
de grupo que se encontre aberta, pode ser indicada uma folha de início para a lista das
seguintes formas:

 Captura da folha corrente do browser. Se a página desejada estiver a ser


visualizada no browser pressione o ícone na barra de ferramentas do
WebWhacker. O URL e o nome da página serão adicionados à lista e marcada para
captura na próxima sessão.

 Entrada directa pelo WebWhacker. Escolha aopção New URL no menu Group.
Escreva ou copie a partir da Área de Transferência o URL completo que deve ser
iniciado por http:// por forma a ser capturado de forma correcta. O endereço
indicado será adicionado à lista para captura na próxima sessão.

Centro de Formação 7-7


e Aperfeiçoamento
de Professores do Lumiar
Desenvolvimento de Projectos Educativos com Suporte Telemático

Opção „Whack Levels‟


Deve-se utilizar a opção Whack Levels para capturar automaticamente um site
completo ou a totalidade da estrutura dependente dum URL. Para tal deve-se
seleccionar o URL e escolher a opção Whack Levels do menu Options, indicando o
número de níveis a capturar. Na próxima captura desse URL serão automaticamente
capturadas e ligadas ao grupo todas as folhas do número de níveis indicado. Pode-se
capturar a totalidade dum site escolhendo a opção all levels, assim como incluir um
nível de links externos.

Captura
A captura ou download das folhas WWW (e suas imagens) para ficheiros locais
no seu computador é efectuada utilizando o ícone da barra de ferramentas ou
escolhendo a opção Whack do menu File. Não se torna necessário seleccionar
páginas para adicionar à lista; já que todas as páginas que mostrem à esquerda do URL
o ícone com uma faca serão capturadas. As páginas são automaticamente colocadas
em modo de captura quando são adicionadas à lista do grupo. Depois da captura,
todas as páginas capturadas com sucesso deixam de mostrar o ícone da faca, mas este
marcador pode ser ligado ou desligado manualmente, fazendo duplo-clique na coluna
da esquerda ou escolhendo as opções Enable ou Disable Whack do menu Edit. Um
novo processo de captura pode ser então iniciado pressionando o botão da barra
de ferramentas. A captura cria ficheiros locais no directório especificado para o grupo.
Existe um ficheiro de extensão HTM por cada página capturada, mais um ficheiro por
cada imagem ou elemento multimédia referenciado nessas páginas.

Aviso de Erro de „Download‟


Se o WebWhacker não fôr capaz de carregar a página ou a imagem, o URL na
lista de grupo será apresentado em texto vermelho e o erro em causa registado. Para
visualizar a mensagem de erro, seleccione o URL em causa, escolha a opção URL
Properties do menu Options (ou seleccione o ícone da barra de ferramentas), e
pressione o botão Errors da caixa de diálogo Properties.

Centro de Formação 7-8


e Aperfeiçoamento
de Professores do Lumiar
Desenvolvimento de Projectos Educativos com Suporte Telemático

Adicionando Páginas ao Grupo


Uma vez capturada um página, pode-se adicional alguns ou todos os links nela
contidos à lista do grupo, capturando de seguida essas páginas. Para tal deve-se
seleccionar a página capturada (ícone com um globo) e pressionar o botão de Links da
barra de ferramentas (ou escolher a opção Add Links do menu Group). Estas
operações permitem mostrar a janela de diálogo de Add Links. Seleccione os links
desejados para serem adicionados à lista do grupo. Os links seleccionados ficam
marcados com um globo na coluna esquerda. Pode marcar um link isolado fazendo
duplo-clique sobre a coluna da esquerda, e pode marcar mais links seleccionando-os
(utilize a tecla de shift para selecções múltiplas) e pressionando depois o botão Mark.
Pode também seleccionar a totalidade dos links pressionando o botão Mark All. Os
botões UnMark e UnMark All permitem remover as selecções indesejadas. Quando
estiverem seleccionados todos os links pretendidos, pressione o botão Add e eles
serão adicionados à lista do grupo com o ícone com uma faca à esquerda a indicar que
eles serão capturados na próxima ocasião.

Centro de Formação 7-9


e Aperfeiçoamento
de Professores do Lumiar
Desenvolvimento de Projectos Educativos com Suporte Telemático

ACTIVIDADES - A CAPTURA DE
PÁGINAS DA WWW
Pode capturar para um directório da sua disquete de trabalho um interessante
guia sobre a fusão nucler em língua portuguesa2. Para tal, proceda do seguinte modo:

1. Inicie uma sessão do WebWhacker e crie um grupo novo num directório


da sua disquete de trabalho (verifique primeiro se tem nela 300 K
disponíveis). Para tal utilize a sucessão de comandos:
File - New Group - New Folder - <nome e localização do
directório> - OK - <nome do ficheiro de grupo> - OK

2. Indique o URL que pretende capturar fazendo:


Group - New Url - http://www.cfn.ist.utl.pt/portugues/expofusao/- OK

3. Indique que pretende capturar dois níveis de folhas HTML da estrutura,


fazendo:
Options - Whack Levels - 2 - OK

4. Inicie a captura pressionando o botão da barra de ferramentas.

5. Uma vez terminada a captura, termine a ligação à Internet e ‘navegue’


pela estrutura de folhas que capturou, começando pela folha de índice.

6. Restabeleça a ligação à rede e, procedendo de forma análoga, capture


folhas HTML de um URL à sua escolha.

2
Em alternativa, pode capturar parte da informação do site do Museu Nacional de Arte antiga em
http://www.eunet.pt/IPM/AANTIGA/aantiga.htm ou, por exemplo,um interessante guia sobre a
Internet, o hipertexto e os hipermedia em língua inglesa em http://www.eit.com/web/www.guide.
Centro de Formação 7 - 10
e Aperfeiçoamento
de Professores do Lumiar

Você também pode gostar