Você está na página 1de 16

COLETA DE CORPUS

NA WEB
CURSO BÁSICO
José Antonio V. S. de M. Oliveira
Aula 2 – Maio/2010
Recapitulando
 Codificação de caracteres
 Tabelas mais usadas em PT-BR
 ASCII, ISO-8859-1 e UTF-8
 Cada sistema usa uma terminação de
linha diferente.
 Unix e MacOS X– LF [10]
 Windows – CR + LF [13 10]
 Mac (até versão 9) – CR [13]
 Usar a codificação e/ou a quebra de linha
erradas resulta em erros na contagem
de palavras ou de linhas e a análise do
corpus fica prejudicada.


Recapitulando
 Elementos de páginas da Web
Toda página está codificada através de tags
 <tag atributo1=“dados” atributo2=“dados”>
 CONTEÚDO
 </tag>
 Estrutura da Página:
 Versão do HTML
 Head
 Body
 Geralmente, o que procuramos está dentro
do body da página. Podemos ignorar o
head.
HTML Escape Codes
 Acentos e outros caracteres especiais
 As versões iniciais do HTML só permitiam
que o código tivesse caracteres da
tabela ASCII (Até 127).
 Para fazer acentos ou outros caracteres
especiais, usava-se os “Escape
Characters”, que consistem numa
representação dos caracteres entre um
& e um “;”, por exemplo:
á => &aacute;
 ç => &ccedil;
HTML Escape Codes
 “As estações de trem de Magalhães Bastos e da Vila Militar, no
ramal Santa Cruz, vão ficar de cara nova. A Secretaria
Estadual de Transportes publica, nos próximos dias, edital
de licitação para as obras de ampliação e modernização de
duas das oito estações que serão reformadas até as
Olimpíadas de 2016.”

 <em>&ldquo;As esta&ccedil;&otilde;es de trem de


Magalh&atilde;es Bastos e da Vila Militar, no ramal Santa
Cruz, v&atilde;o ficar de cara nova. A <strong>Secretaria
Estadual de Transportes</strong> publica, nos
pr&oacute;ximos dias, edital de licita&ccedil;&atilde;o para
as obras de amplia&ccedil;&atilde;o e
moderniza&ccedil;&atilde;o de duas das oito
esta&ccedil;&otilde;es que ser&atilde;o reformadas
at&eacute; as Olimp&iacute;adas de 2016.&rdquo;</em>

HTML Escape Codes
 Duas maneiras: &escapecode; ou &#code;
 &euro; &Otilde; &amp; &ecirc; (“€”, “Õ”, “&”,
“ê”)
 &#8364; &#213; &#38; &#234; (“€”, “Õ”,
“&”, “ê”)

 Lista completa:
 http://www.escapecodes.info/

 Ainda existem muitas páginas que usam os


escape codes para acentuar as letras e
usar caracteres especiais.
Feeds RSS e Atom
 Para acompanhar vários periódicos on-line
sem ter que visitar todos os sites é preciso
centralizar as notícias (ou pelo menos as
chamadas) em um único lugar.

 Para isso criou-se o conceito de Feed RSS, ou


seja, um endereço que é “alimentado”
constantemente com as matérias mais
recentes.
Feeds RSS e Atom
 Os feeds são arquivos XML
 Assim como no HTML, no XML os dados são envolvidos
por
TAGs.
Feeds RSS e Atom
 O que vem num feed?
 Lista de itens (notícias, artigos etc.)
 <item>
 <title>Invasão do Planeta Terra</title>
 <link>
 http://news.noticias.com.br/2010/05/09/invasao.htm
 </link>
 <description>
 O planeta Terra foi atacado por uma frotade naves
provenientes do outro lado da galáxia. Por sorte,
 graças a um erro de cálculo de escala, toda armada
 foi comida por um poodle.
 </description>
 </item>
Feeds RSS e Atom
Exemplo de leitor de Feed : Google Reader
Feeds RSS e Atom
 Existem inúmeras ferramentas para acompanhar
Feeds
 O Google Reader
 Outlook
 Firefox
 Netvibes
 Além de notícias, os feeds podem ser usados para
qualquer coisa que possua atualizações:
 Versões de programas
 Músicas
 Blogs
 Aulas
 Feeds também podem ser direcionados para
adicionar conteúdo a programas.
Feeds RSS e Atom
 Dois formatos são usados atualmente:
 RSS
 RSS 1.0 (RDF Site Summary)
 RSS 2.0 (Really Simple Syndication)
 Atom(uma tentativa de unir RSS 1.0 e
RSS 2.0)
 Apesar de parecidos, os formatos
possuem aspectos particulares.
 Ambos são fáceis de processar
 Feeds Completos e Incompletos
Feeds Incompletos
 Geralmente, jornais não fornecem o texto
completo das notícias no seu RSS.
Feeds Incompletos
 Os feeds incompletos sempre indicam um
link para que o usuário clique e visite o
texto completo da matéria no site do
periódico.
 Eles acabam servindo para indicar
matérias novas e para que o leitor
(humano) possa decidir se vai ler ou
não a matéria completa.
 Para se obter o texto completo
precisaremos seguir o link, abrir a
página do periódico e interpretar o
HTML da página.
Feeds Completos
 O sonho de consumo de todo “caçador de
corpus”.
Feeds Completos
 Um feed completo contém todo o texto
do artigo no próprio RSS
 Pode conter o texto em HTML ou em
“plain text” (texto puro).
 Raramente se encontra em publicações
que não sejam gratuitas (blogs
particulares, foruns etc.)

Você também pode gostar

  • Aula 9
    Aula 9
    Documento6 páginas
    Aula 9
    javsmo
    Ainda não há avaliações
  • Aula 7
    Aula 7
    Documento16 páginas
    Aula 7
    javsmo
    Ainda não há avaliações
  • Aula 8
    Aula 8
    Documento8 páginas
    Aula 8
    javsmo
    Ainda não há avaliações
  • Aula 7
    Aula 7
    Documento16 páginas
    Aula 7
    javsmo
    Ainda não há avaliações
  • Aula 5
    Aula 5
    Documento11 páginas
    Aula 5
    javsmo
    Ainda não há avaliações
  • Aula 2
    Aula 2
    Documento16 páginas
    Aula 2
    javsmo
    Ainda não há avaliações
  • Aula 3
    Aula 3
    Documento16 páginas
    Aula 3
    javsmo
    Ainda não há avaliações
  • Aula 1
    Aula 1
    Documento21 páginas
    Aula 1
    javsmo
    Ainda não há avaliações
  • Aula 4
    Aula 4
    Documento16 páginas
    Aula 4
    javsmo
    Ainda não há avaliações