Você está na página 1de 5

7/25/2020 GitHub - ponggung / ITC_TradeMap: Obtenha o banco de dados ITC Trade Map por rastreador da Web, limpe dados

e dados e traduza para json

ponggung / ITC_TradeMap

Get ITC Trade Map database by web crawler, clean data and translate to json

1 star 1 fork

Star Watch

Código Problemas 1 Solicitações pull Ações Projetos Segurança

Dispensar
Adira ao GitHub hoje
O GitHub é o lar de mais de 50 milhões de
desenvolvedores trabalhando juntos para hospedar e
revisar códigos, gerenciar projetos e criar software
juntos.

inscrever-se

mestre Ir para o arquivo

LEIA-ME da atualização do wpk ... on Jan 16, 2019 6

View code

README.md

ITC_TradeMap
1. 爬蟲
2. 解析 HTML
3. 成 成 整理 轉 成 Json
4. API do GCP APP Engine

主 程式
https://github.com/ponggung/ITC_TradeMap 1/5
7/25/2020 GitHub - ponggung / ITC_TradeMap: Obtenha o banco de dados ITC Trade Map por rastreador da Web, limpe dados e traduza para json

Degrau Trabalhos Código

1 爬蟲 spider.py

2 解析 HTML parser.py.py

3 DataFrame para json toJson.py

爬蟲
Versão: https://www.trademap.org/Country_SelProduct_TS.aspx
Anterior: Mapa de comércio ITC, clique aqui
要求 要求: 下載 特定 品 項 的 每月 進出口 值 、.

1. Use o pacote Python Selenium


2. 登入 會員 才能 選取 到 題目 要求 的 品 項

(1) Produtos = ["020711 - Galinhas, frescas ou refrigeradas, da espécie Gallus domesticus,


não cortadas em pedaços" "020712 - Galinhas da espécie Gallus domesticus, congeladas,
não cortadas em pedaços" "020714 - Pedaços congelados e miudezas comestíveis da
espécie Gallus domesticus "" 040700 - Ovos de aves com casca, frescos, conservados ou
cozidos "] (2) Países =" Mundo "(3) Registros = [" Exportações "," Importações "] (4) Séries
temporais = "Séries temporais mensais" (5) Indicadores = ["Valores", "Quantidades"] (6)
Período (número de colunas) = "20 por página" (7) Linhas por página = "300 por página"
(8) ... 其餘 為 網站 預設 值

https://github.com/ponggung/ITC_TradeMap 2/5
7/25/2020 GitHub - ponggung / ITC_TradeMap: Obtenha o banco de dados ITC Trade Map por rastreador da Web, limpe dados e traduza para json

Instalar

sudo pip install -r requirement.txt

Driver da Web
firefox 64.0, geckodriver v0.23.0

O driver do SO OS, o firefox, o mac e o geckodriver, o firefox, o firefox, o Selenium, o


selenium e o selenium estão disponíveis.
https://github.com/ponggung/ITC_TradeMap 3/5
7/25/2020 GitHub - ponggung / ITC_TradeMap: Obtenha o banco de dados ITC Trade Map por rastreador da Web, limpe dados e traduza para json

wget
https://github.com/mozilla/geckodriver/releases/download/v0.23.0/geckodriver-
v0.23.0-macos.tar.gz
tar -zxvf geckodriver-v0.23.0-macos.tar.gz

phantomjs 2.1.1

使用 anaconda 的 安裝 套件 安裝

conda install -y -c conda-forge phantomjs

Docker

docker build -t itc_trade_spider:latest -f Dockerfile .


docker run itc_trade_spider

Teste rápido

python spider.py
python parser.py
python toJson.py
check.ipynb

API do GCP
https://itc-map-result.appspot.com/map_result

Corre

python run.py

https://github.com/ponggung/ITC_TradeMap 4/5
7/25/2020 GitHub - ponggung / ITC_TradeMap: Obtenha o banco de dados ITC Trade Map por rastreador da Web, limpe dados e traduza para json

Resultado

df_all.pickle
map_result.json

Lançamentos

Nenhum release publicado

línguas

Jupyter Notebook 95,7% Pitão 4,1% Dockerfile 0,2%

https://github.com/ponggung/ITC_TradeMap 5/5

Você também pode gostar