Escolar Documentos
Profissional Documentos
Cultura Documentos
NA WEB
CURSO BÁSICO
José Antonio V. S. de M. Oliveira
Aula 2 – Maio/2010
Recapitulando
Codificação de caracteres
Tabelas mais usadas em PT-BR
ASCII, ISO-8859-1 e UTF-8
Cada sistema usa uma terminação de
linha diferente.
Unix e MacOS X– LF [10]
Windows – CR + LF [13 10]
Mac (até versão 9) – CR [13]
Usar a codificação e/ou a quebra de linha
erradas resulta em erros na contagem
de palavras ou de linhas e a análise do
corpus fica prejudicada.
Recapitulando
Elementos de páginas da Web
Toda página está codificada através de tags
<tag atributo1=“dados” atributo2=“dados”>
CONTEÚDO
</tag>
Estrutura da Página:
Versão do HTML
Head
Body
Geralmente, o que procuramos está dentro
do body da página. Podemos ignorar o
head.
HTML Escape Codes
Acentos e outros caracteres especiais
As versões iniciais do HTML só permitiam
que o código tivesse caracteres da
tabela ASCII (Até 127).
Para fazer acentos ou outros caracteres
especiais, usava-se os “Escape
Characters”, que consistem numa
representação dos caracteres entre um
& e um “;”, por exemplo:
á => á
ç => ç
HTML Escape Codes
“As estações de trem de Magalhães Bastos e da Vila Militar, no
ramal Santa Cruz, vão ficar de cara nova. A Secretaria
Estadual de Transportes publica, nos próximos dias, edital
de licitação para as obras de ampliação e modernização de
duas das oito estações que serão reformadas até as
Olimpíadas de 2016.”
Lista completa:
http://www.escapecodes.info/