Bem-vindo(a) ao Scribd!

Pular no carrossel

6.5 05 - Scrapy - TrabalhandoComScrapyParte4

Enviado por

40192142

0% acharam este documento útil (0 voto)

10 visualizações11 páginas

Título original

6.5 05_scrapy_TrabalhandoComScrapyParte4

Direitos autorais

Formatos disponíveis

PDF, TXT ou leia online no Scribd

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Denunciar este documento

Direitos autorais:

Formatos disponíveis

Baixe no formato PDF, TXT ou leia online no Scribd

Sinalizar o conteúdo como inadequado

0% acharam este documento útil (0 voto)

10 visualizações11 páginas

6.5 05 - Scrapy - TrabalhandoComScrapyParte4

Enviado por

40192142

Direitos autorais:

Formatos disponíveis

Baixe no formato PDF, TXT ou leia online no Scribd

Sinalizar o conteúdo como inadequado

Pular para a página

Você está na página 1de 11

Pesquisar no documento

Scrapy

Trabalhando com Scrapy – Parte 4

Python Web Scraping – Evaldo Wolkers

Scrapy
Seguindo links

Até agora nós raspamos material de páginas

específicas do site
http://quotes.toscrape.com.
Agora vamos ver como navegar para outras
páginas seguindo os links que apontam para
a próxima página.

Python Web Scraping – Evaldo Wolkers

Scrapy
Seguindo links
Acesse quotes.toscrape.com, clique com o botão direito e
selecione a opção para exibir o código-fonte, veja a parte
destacada na imagem:
Este é o link para a
próxima página.
Acionado quando clicamos
no botão “Next”.

Python Web Scraping – Evaldo Wolkers

Scrapy
Seguindo links
Vamos usar o scrapy shell.
$ scrapy shell “http://quotes.toscrape.com”
Dentro do shell digite o comando:
response.css(‘li.next a’).extract_first()
Com este comando retornamos a tag “a” inteira. Veja o resultado:

Python Web Scraping – Evaldo Wolkers

Scrapy
Seguindo links
Precisamos do atributo href. O Scrapy oferece suporte
a uma extensão CSS que permite selecionar o conteúdo
do atributo, veja:
$ response.css(‘li.next a::attr(href)’).extract_first()

Python Web Scraping – Evaldo Wolkers

Scrapy
Seguindo links
Vamos agora implementar um spider para seguir
recursivamente para as próximas páginas, extraindo os
dados das mesmas (o sistema executará até a última
página, a página 10).
Crie o projeto:
$ scrapy startproject aulascrapy
Crie o arquivo “citacoes.py” na pasta spiders.

Python Web Scraping – Evaldo Wolkers

Scrapy
Seguindo links
import scrapy
class QuotesSpider(scrapy.Spider):
name = "citacoes"
start_urls = ['http://quotes.toscrape.com/page/1/',]

def parse(self, response):

for quote in response.css('div.quote'):
yield {
'texto': quote.css('span.text::text').extract_first(),
'autor': quote.css('small.author::text').extract_first(),
'tags': quote.css('div.tags a.tag::text').extract(),
}
pagina = response.url.split("/")[-2]
nome_arquivo = f'citacoes-{pagina}.html'
with open(nome_arquivo, 'wb') as f:
f.write(response.body)
next_page = response.css('li.next a::attr(href)').extract_first()

if next_page is not None:

next_page = response.urljoin(next_page)
yield scrapy.Request(next_page, callback=self.parse)

Python Web Scraping – Evaldo Wolkers

Scrapy
Seguindo links
Depois de extrair os dados, o método parser procura o
link para a próxima página, cria uma URL completa
usando o método urljoin(), uma vez que os links podem
ser relativos e produz uma nova solicitação para a
próxima página.
Podemos utilizar esta mesma ideia para navegar em
blogs, fóruns ou outros sites com paginação.

Python Web Scraping – Evaldo Wolkers

Scrapy
Seguindo links
Podemos usar o response.follow como um atalho para
as requisições.
Ao contrário de scrapy.Request, response.follow
suporta URLs relativas diretamente, não sendo
necessário utilizar o método urljoin.
Podemos passar também um seletor para o
response.follow em vez de uma string.
Veja: for href in response.css('li.next a::attr(href)'):
yield response.follow(href, callback=self.parse)

Python Web Scraping – Evaldo Wolkers

Scrapy
Seguindo links
Para elementos <a> existe um atalho. O
response.follow usa seu atributo href
automaticamente, então, o código pode ser melhorado
ainda mais.

for a in response.css('li.next a'):

yield response.follow(a, callback=self.parse)

Python Web Scraping – Evaldo Wolkers

FIM

Python Web Scraping – Evaldo Wolkers

Você também pode gostar

3.1 02 - Scrapy - TrabalhandoComScrapyParte1
Documento19 páginas
3.1 02 - Scrapy - TrabalhandoComScrapyParte1
40192142
Ainda não há avaliações
8.2 Umpoucomaisdebeautifulsoup
Documento10 páginas
8.2 Umpoucomaisdebeautifulsoup
40192142
Ainda não há avaliações
Fastify - Validation-and-Serialization - MD at Master Fastify - Fastify GitHub
Documento16 páginas
Fastify - Validation-and-Serialization - MD at Master Fastify - Fastify GitHub
Henrique Lima
Ainda não há avaliações
Selenium - O Que Você Deveria Saber - Parte 1
Documento4 páginas
Selenium - O Que Você Deveria Saber - Parte 1
Angelo Silva
Ainda não há avaliações
Internet - Os Processos Por Trás de Um Site PDF
Documento2 páginas
Internet - Os Processos Por Trás de Um Site PDF
Fernando Abreu
Ainda não há avaliações
Web Scraping Com Python - Introdução Ao Scrapy
Documento12 páginas
Web Scraping Com Python - Introdução Ao Scrapy
coripheu
50% (2)
Java
Documento9 páginas
Java
Fortenoite Games
Ainda não há avaliações
Slide de Aula - Unidade IV
Documento44 páginas
Slide de Aula - Unidade IV
Alline Moreira
Ainda não há avaliações
Curso Spring Boot
Documento9 páginas
Curso Spring Boot
Eduardo Sehn
Ainda não há avaliações
Gatsby Js
Documento20 páginas
Gatsby Js
YBR CURSOS
Ainda não há avaliações
Tutorial CodeIgniter
Documento12 páginas
Tutorial CodeIgniter
hique88
Ainda não há avaliações
Web Service Aula 1
Documento4 páginas
Web Service Aula 1
Robusto Silva
Ainda não há avaliações
Programação em JavaScript
No Everand
Programação em JavaScript
Preston Prescott
Nota: 3 de 5 estrelas
3/5 (1)
Elasticsearch: Consumindo dados real-time com ELK
No Everand
Elasticsearch: Consumindo dados real-time com ELK
Alexandre Lourenço
Ainda não há avaliações
Tags Customizadas Com Tagfiles - Java para Desenvolvimento Web
Documento18 páginas
Tags Customizadas Com Tagfiles - Java para Desenvolvimento Web
marcos
Ainda não há avaliações
Criando Seu Proprio Client Router em Javascript
Documento14 páginas
Criando Seu Proprio Client Router em Javascript
Neto
Ainda não há avaliações
Monitoramento de Aplicações Web Modernas Com Zabbix
Documento52 páginas
Monitoramento de Aplicações Web Modernas Com Zabbix
Philip Aps
Ainda não há avaliações
JSP
Documento136 páginas
JSP
fpierin
Ainda não há avaliações
1804 Aula Links
Documento14 páginas
1804 Aula Links
Pedro Henrique
Ainda não há avaliações
Como Utilizar o CSS para Melhorar A Aparência de Uma Página Web
Documento22 páginas
Como Utilizar o CSS para Melhorar A Aparência de Uma Página Web
Janaina Piress
Ainda não há avaliações
Passo A Passo No SpringBoot Com JPA
Documento6 páginas
Passo A Passo No SpringBoot Com JPA
Carol Farias
Ainda não há avaliações
Capítulo 01 - FFS PDF
Documento35 páginas
Capítulo 01 - FFS PDF
Felipe Santana
Ainda não há avaliações
Curso Java EE
Documento146 páginas
Curso Java EE
francislon
Ainda não há avaliações
Aulas Do Módulo 01
Documento86 páginas
Aulas Do Módulo 01
uebec
Ainda não há avaliações
Maceteiro Laravel
Documento25 páginas
Maceteiro Laravel
Carlos Poppolino
Ainda não há avaliações
Projeto Cliente de Serviço SOAP Com Spring Boot e JPA
Documento8 páginas
Projeto Cliente de Serviço SOAP Com Spring Boot e JPA
Lucas Rodrigues
Ainda não há avaliações
Minha Coleção Webapi
Documento63 páginas
Minha Coleção Webapi
Paulo André Moraes
Ainda não há avaliações
Como Fazer Um Web Crawler
Documento5 páginas
Como Fazer Um Web Crawler
Gabriel Eivazian
Ainda não há avaliações
Puxando Código HTML WordPress em ASP Clássico
Documento5 páginas
Puxando Código HTML WordPress em ASP Clássico
Sylvio Edgard Castro Pinheiro
Ainda não há avaliações
Slides de Aula - Unidade II PDF
Documento56 páginas
Slides de Aula - Unidade II PDF
vitb Paulo
Ainda não há avaliações
Bootstrap 4: Conheça a biblioteca front-end mais utilizada no mundo
No Everand
Bootstrap 4: Conheça a biblioteca front-end mais utilizada no mundo
Natan Souza
Nota: 5 de 5 estrelas
5/5 (4)
CSS Avancado
Documento26 páginas
CSS Avancado
Marcio Chiaveli
Ainda não há avaliações
Workshop PHP
Documento137 páginas
Workshop PHP
Alcafale Elafacla
Ainda não há avaliações
Aula 04 - Java
Documento6 páginas
Aula 04 - Java
marihofergama
Ainda não há avaliações
Livro JQuery E Ajax Um Mero Resumo
Documento36 páginas
Livro JQuery E Ajax Um Mero Resumo
Jonas Mayer
Ainda não há avaliações
JQuery
Documento24 páginas
JQuery
Matheus A.Novais
Ainda não há avaliações
Fluent NHibernate PDF
Documento37 páginas
Fluent NHibernate PDF
Leandro Lemos Lima
Ainda não há avaliações
Cursos WebDesigner
Documento16 páginas
Cursos WebDesigner
Crispiniano Vital
Ainda não há avaliações
Tutorial em ASP
Documento49 páginas
Tutorial em ASP
Osvald Cs
Ainda não há avaliações
Uma Breve Introdução À Alquimia SQL
Documento26 páginas
Uma Breve Introdução À Alquimia SQL
dourival
Ainda não há avaliações
Do Despachante de URL - de Documentação Django Django
Documento12 páginas
Do Despachante de URL - de Documentação Django Django
Bruno Navega
Ainda não há avaliações
Biblioteca de Códigos
Documento6 páginas
Biblioteca de Códigos
Uremia
Ainda não há avaliações
Web Scraping Notes01
Documento21 páginas
Web Scraping Notes01
Utopia a 2
Ainda não há avaliações
Começando Com o Rails
Documento12 páginas
Começando Com o Rails
Igor
Ainda não há avaliações
Html
No Everand
Html
Alenir Paulino Rodrigues
Ainda não há avaliações
Use A Cabeça! HTML Css
Documento11 páginas
Use A Cabeça! HTML Css
Daniel
Ainda não há avaliações
Ember.js: Conheça o framework para aplicações web ambiciosas
No Everand
Ember.js: Conheça o framework para aplicações web ambiciosas
Clairton Rodrigo
Ainda não há avaliações
Web Scraping Com Python-Faça Da Web Sua Database2.0
Documento8 páginas
Web Scraping Com Python-Faça Da Web Sua Database2.0
cortijo
Ainda não há avaliações
CRUD Com JPA e Hibernate
Documento8 páginas
CRUD Com JPA e Hibernate
AmarildodaSilva
Ainda não há avaliações
Aula02 - Webdesign
Documento16 páginas
Aula02 - Webdesign
rickartur
Ainda não há avaliações
06 Links e Imagens - O Projeto Odin
Documento12 páginas
06 Links e Imagens - O Projeto Odin
Aline Lopes Padalecki
Ainda não há avaliações
107 04 Flask Parte1
Documento27 páginas
107 04 Flask Parte1
Lucas Custodio
Ainda não há avaliações
03.02 - HTML & CSS - Primeiros Passos No CSS
Documento18 páginas
03.02 - HTML & CSS - Primeiros Passos No CSS
thiago m
Ainda não há avaliações
Repositório Laravel
Documento9 páginas
Repositório Laravel
eduardoavargas
Ainda não há avaliações
Tutorial - Como Iniciar Um Projeto Com o Hibernate
Documento17 páginas
Tutorial - Como Iniciar Um Projeto Com o Hibernate
thilario1870
Ainda não há avaliações
Trybersd 032 B Project Job Insights
Documento1 página
Trybersd 032 B Project Job Insights
tqwyvc7q7j
Ainda não há avaliações
Dreamweaver - Sistema de Busca Interna
Documento9 páginas
Dreamweaver - Sistema de Busca Interna
Ernesto Pereira
100% (5)
Senai 200922 Introducao Ao
Documento63 páginas
Senai 200922 Introducao Ao
JOAO OTAVIO DOS SANTOS BISPO
Ainda não há avaliações
HTML e CSS
Documento29 páginas
HTML e CSS
João de Paula
Ainda não há avaliações
Iniciando Com O Zend Framework 2
No Everand
Iniciando Com O Zend Framework 2
Elton Luís Minetto
Ainda não há avaliações
7.1 06 - Scrapy - Projeto - Crawler - Telelista
Documento38 páginas
7.1 06 - Scrapy - Projeto - Crawler - Telelista
40192142
Ainda não há avaliações
7.5 Aula - 06 - LXML - XPATH
Documento20 páginas
7.5 Aula - 06 - LXML - XPATH
40192142
Ainda não há avaliações
10.2 Expressoesregularesbs
Documento12 páginas
10.2 Expressoesregularesbs
40192142
Ainda não há avaliações
Todos Slides Juntos
Documento70 páginas
Todos Slides Juntos
40192142
Ainda não há avaliações
Guia Rápido Do Python 3 - 240401 - 232852
Documento177 páginas
Guia Rápido Do Python 3 - 240401 - 232852
nashidragneel1706
Ainda não há avaliações
Proposta Desenvolvimento Plataforma
Documento66 páginas
Proposta Desenvolvimento Plataforma
Yan Costa
Ainda não há avaliações
Ementa Python Impressionador
Documento30 páginas
Ementa Python Impressionador
Evelyn Von
Ainda não há avaliações
Programando Phyton
Documento40 páginas
Programando Phyton
Evaldo Wolkers
Ainda não há avaliações
Consulta Rapida Python
Documento2 páginas
Consulta Rapida Python
Enio Velleda Gonzales
Ainda não há avaliações
Instituto Federal Do Espírito Santo
Documento10 páginas
Instituto Federal Do Espírito Santo
Igor Rufino
Ainda não há avaliações
Apostila Aula 3
Documento45 páginas
Apostila Aula 3
David Aragão
Ainda não há avaliações
Código Computacional para o Cálculo Das Forças Atuantes Na Amarração de Navios e Energia de Atracação de Defensas Portuárias
Documento2 páginas
Código Computacional para o Cálculo Das Forças Atuantes Na Amarração de Navios e Energia de Atracação de Defensas Portuárias
CLEYTON VINICIUS DE ALMEIDA HALLEY
Ainda não há avaliações
Mautic
Documento71 páginas
Mautic
Bruce Ballboa FGod
Ainda não há avaliações
An Drax Book
Documento37 páginas
An Drax Book
Marcos Messias
78% (9)
Plano de Ensino Logica de Programação
Documento4 páginas
Plano de Ensino Logica de Programação
Beatriz Azulay
Ainda não há avaliações
Inteligência Artificial
Documento14 páginas
Inteligência Artificial
amoalliti
100% (1)
Resolvendo o Problema de Agendamento de Enfermagem: Representação Da Solução
Documento184 páginas
Resolvendo o Problema de Agendamento de Enfermagem: Representação Da Solução
Fernando Silva
Ainda não há avaliações
Tutorial de Implementação de Envio de Alerta Via YOWSUP (WHATSAPP)
Documento9 páginas
Tutorial de Implementação de Envio de Alerta Via YOWSUP (WHATSAPP)
pedropilla
Ainda não há avaliações
Guia Rápido Mapas Com Python
Documento7 páginas
Guia Rápido Mapas Com Python
Marina
Ainda não há avaliações
Ai - B - 03 - Estruturas de Controlo em Python
Documento21 páginas
Ai - B - 03 - Estruturas de Controlo em Python
Joana Rêgo
Ainda não há avaliações
Bioinfo 01
Documento305 páginas
Bioinfo 01
Kenny Pinheiro
Ainda não há avaliações
Apostila Python 1
Documento39 páginas
Apostila Python 1
Camila Ferreira Dias
Ainda não há avaliações
Pdi Python Rotacao de Imagens
Documento8 páginas
Pdi Python Rotacao de Imagens
ow005958
Ainda não há avaliações
Apostila Intensivão de Python - Aula 1
Documento54 páginas
Apostila Intensivão de Python - Aula 1
Dioni Toledo
Ainda não há avaliações
Fora (76) :: Pandas: Poderoso Kit de Ferramentas de Análise de Dados Python, Versão 1.4.4
Documento300 páginas
Fora (76) :: Pandas: Poderoso Kit de Ferramentas de Análise de Dados Python, Versão 1.4.4
Manuel Ramos
Ainda não há avaliações
Prova Eletrônica - Tópicos Especiais em Internet Das Coisas - Silvio
Documento6 páginas
Prova Eletrônica - Tópicos Especiais em Internet Das Coisas - Silvio
Eliel Sobral
Ainda não há avaliações
Notas Python
Documento130 páginas
Notas Python
Ricardo Oliveira
Ainda não há avaliações
Capitulo 3 - Manipulação de Listas, Funções e Módulos
Documento29 páginas
Capitulo 3 - Manipulação de Listas, Funções e Módulos
Gabriel Azevedo
Ainda não há avaliações
Fa 694805 C 3
Documento26 páginas
Fa 694805 C 3
Marcos Stopa
Ainda não há avaliações
4 Analise de Dados em Python Com Pandas
Documento60 páginas
4 Analise de Dados em Python Com Pandas
Ricardo Bomfim
Ainda não há avaliações
Geoespacial Python PDF
Documento25 páginas
Geoespacial Python PDF
Fernando França
Ainda não há avaliações
Peri: Uma Linguagem de Programação Embasada Na Pós-Modernidade
Documento2 páginas
Peri: Uma Linguagem de Programação Embasada Na Pós-Modernidade
Rosa Magenta
Ainda não há avaliações
Manual STS 134A
Documento62 páginas
Manual STS 134A
Carlos Souza
Ainda não há avaliações