Escolar Documentos
Profissional Documentos
Cultura Documentos
1
Trabalho apresentado para obtenção do título de especialista em Data
Science e Analytics – 2022
Resumo
Abstract
The Brazilian Amazon is considered one of the largest and most diverse contiguous
ecosystems in the world, suffering strong anthropic pressure. The expansion or
intensification of agriculture is considered one of the most impacted factors in the change in
forest cover in this region. Despite extensive scientific and academic knowledge on the
subject, accurate estimates of deforestation rates are difficult to obtain. In view of this, this
study aimed to predict deforestation in the Brazilian Amazon, as well as to identify what are
the main factors that contribute to this event. The data used were collected in different
government entities. Pearson's correlation was calculated and the variables with the highest
correlations were used for future predictions. Two Bayesian Networks were built, one
adopting the temporal evolution of the data. For forecasts, were used three time series
models and the one that presented better accuracy was used for forecast. The construction
of the Bayesian Networks pointed out that deforestation is related to outbreaks of fires in the
same year that deforestation occurs and in consecutive years. The time series adjusted
models showed that in the coming years deforestation rates going to reach higher levels
compared to previous years.
Keywords: deforestation, forecasts, machine learning, time series.
Introdução
2
Trabalho apresentado para obtenção do título de especialista em Data
Science e Analytics – 2022
3
Trabalho apresentado para obtenção do título de especialista em Data
Science e Analytics – 2022
Material e Métodos
4
Trabalho apresentado para obtenção do título de especialista em Data
Science e Analytics – 2022
5
Trabalho apresentado para obtenção do título de especialista em Data
Science e Analytics – 2022
6
Trabalho apresentado para obtenção do título de especialista em Data
Science e Analytics – 2022
Análise exploratória
Para caracterização das séries temporais foi realizada, primeiramente, uma análise
exploratória de dados para identificar os valores médios observados, bem como os valores
de máximo e mínimo para o período. A fim de verificar a associação entre os dados foram
calculados os coeficientes de correlações (Figura 3).
Rede Bayesiana
A Rede Bayesiana é um modelo matemático que tem como base nós e arcos que
retratam, respectivamente, as variáveis de um universo e as dependências entre estas
(Sousa, 2018). As RBs possuem partes qualitativas e quantitativas; os nós e arcos são a
parte qualitativas, e as probabilidades prévias e condicionais possibilitam a análise
quantitativa (Amin et al., 2018). As redes bayesianas são governadas pelo Teorema de
Bayes.
De acordo com Bastos (2018), a modelagem pelas Redes Bayesianas permite
expressar a crença das relações de dependências entre as variáveis através de grafos,
onde as relações de dependência são apresentadas por setas ou arcos que apontam do
parâmetro para a variável dependente. A Rede Bayesiana Dinâmica [RBD] é um derivado do
7
Trabalho apresentado para obtenção do título de especialista em Data
Science e Analytics – 2022
Os dados tratados neste estudo apresentam natureza temporal e por este motivo optou-
se pela esquematização de duas Redes Bayesianas, uma hierárquica ou convencional e
outra dinâmica. A estruturação das variáveis neste formato possibilitou a inferência sobre a
influência das variáveis preditoras sobre o desmatamento.
Para a montagem das redes foi utilizado o pacote do R “dbnR: Dynamic Bayesian
Network Learning and Inference” versão 0.7.5 (Quesada e Valverde, 2022). Os parâmetros
da RBD foram ajustados pelo método da máxima verossimilhança.
Séries temporais
Para a análise das séries temporais e modelagem de valores futuros foram adotados
diferentes modelos univariados para séries temporais. As bases de dados foram divididas
em treino e teste; os três últimos anos das séries (2019, 2020 e 2021) foram utilizados para
treinar os modelos e posteriormente toda a série foi utilizada para validação e predição.
O desempenho dos modelos de previsão foi mensurado pela magnitude do erro de
previsão para o ano t+2, em que t é o último ano observado. Os erros de previsão
computados foram: raiz quadrada do erro médio [RE], erro absoluto percentual da média
[EA%], erro absoluto da média [EA] e coeficiente de determinação [R²]. A seguir são
apresentados os modelos ajustados no presente estudo:
a) Modelos Autorregressivos
Modelo autorregressivo integrado de médias móveis [ARIMA] é um modelo
generalizado autorregressivo [ARMA] que combina os processos autorregressivos [AR] e de
média móvel [MA], construindo um modelo composto da série temporal (Siami-Namini et al.,
2018). A estrutura do modelo ARIMA é na forma (p, d, q), onde: p indica o número de termos
autorregressivos, d é a ordem de diferenciação e q o número de termos de média móvel.
ARIMA possui dois tipos diferentes de modelos baseados nos efeitos sazonais, como
modelo ARIMA e SARIMA. O modelo sazonal autorregressivo integrados de médias móveis
[SARIMA] é semelhante ao modelo ARIMA, sendo preferível quando a série temporal exibe
8
Trabalho apresentado para obtenção do título de especialista em Data
Science e Analytics – 2022
sazonalidade. O modelo SARIMA pode ser expresso como um modelo ARIMA(p, d, q)(P, D,
Q)S . Os parâmetros do modelo P, D, Q e S correspondem à ordem sazonal, diferenciação
sazonal, ordem de média móvel sazonal e tempo de repetição do padrão sazonal,
respectivamente (Samal et al., 2019).
Para obter a maior precisão dos modelos, a função “auto.arima” do pacote forecast
(Hyndman et al., 2022; Hyndman e Khandakar, 2008) foi utilizada para gerar
automaticamente um conjunto de parâmetros ideais testando todas as combinações
possíveis de (p, d, q)(P, D, Q)S , quando identificada sazonalidade, e retornando o modelo
com a melhor combinação para o conjunto de dados.
b) Random Forest
Random forest [RF] é um algoritmo de aprendizagem de conjunto que pode lidar
tanto com classificação de alta dimensão quanto regressão. RF é um método de conjunto
baseado em árvores onde todas as árvores dependem de uma coleção de variáveis
aleatórias (Yan et al., 2015). A fim de transformar um problema de previsão de séries
temporais em um modelo de regressão RF, os regressores das séries foram transformados
em um vetor T contendo as observações mais recentes de cada série na matriz
característica X (Mussumeci e Codeço Coelho, 2020). A regressão RF foi realizada no
ambiente R utilizando o pacote parsnip (Kuhn e Vaughan, 2022) definindo 500 árvores.
c) PROPHET
PROPHET é um procedimento para predições futuras de séries temporais
desenvolvido pela equipe de Cientistas de Dados do Facebook com o objetivo de ser uma
ferramenta de previsão que é automatizada por natureza, permitindo maior facilidade de uso
em métodos de ajuste temporal e permitindo que analistas de qualquer background ou
pessoas com pouco ou nenhum conhecimento prévio em séries temporais sejam capazes
de fazer previsões com sucesso (Aditya Satrio et al., 2021).
O Prophet adota um método de ajuste de curva Bayesiano para suavizar e prever
dados de série temporal, sendo a sua característica mais distinta em comparação com os
modelos tradicionais de previsão de séries temporais, como Holt Winters, ARIMA, entre
outros (Taylor e Letham, 2018; Zhao et al., 2018). Em outras palavras, o Prophet utiliza
várias funções lineares e/ou não lineares para se adequar aos componentes temporais,
tendo o tempo como o único regressor (Zhao et al., 2018).
A modelagem do Prophet foi feita de forma automática. Foi necessário separar as
variáveis em data frames com duas colunas, uma com a informação de data, formatada
como tal, para que a interface do programa reconhece a informação, e outra com a
informação da variável de interesse.
9
Trabalho apresentado para obtenção do título de especialista em Data
Science e Analytics – 2022
Resultados e Discussão
Análise exploratória
Como uma das premissas necessárias para o estudo de séries temporárias é a
estacionariedade dos dados, foi realizado o teste de Dickey-Fuller aumentado com 4 lags e
probabilidade estatística de 0,05. Os resultados do teste estatístico são apresentados na
Tabela 2. Foi possível observar que as variáveis selecionadas para predições futuras são
estacionárias, atendendo um dos mais importantes pressupostos para a modelagem de
séries temporais.
10
Trabalho apresentado para obtenção do título de especialista em Data
Science e Analytics – 2022
Redes Bayesianas
A Figura 6 apresenta a Rede Bayesiana Hierárquica modelada com todas as
variáveis adotadas neste estudo. A estrutura dos dados demonstra uma separação em dois
nós pais, desmatamento e área plantada de milho, respectivamente. Inicialmente era
esperado que todas as variáveis convergissem para o desmatamento e apresentassem
algum tipo de relação entre elas. As variáveis agrícolas: preço da saca de soja e de milho,
área plantada de milho e área plantada de soja, e o preço do boi gordo, não demonstraram
relação causal com o desmatamento.
Figura 6. Modelo hierárquico de Rede Bayesiana com ‘desmatamento’ como target e demais
variáveis explicativas.
Fonte: Resultados originais da pesquisa
11
Trabalho apresentado para obtenção do título de especialista em Data
Science e Analytics – 2022
12
Trabalho apresentado para obtenção do título de especialista em Data
Science e Analytics – 2022
13
Trabalho apresentado para obtenção do título de especialista em Data
Science e Analytics – 2022
A – Previsão do desmatamento
14
Trabalho apresentado para obtenção do título de especialista em Data
Science e Analytics – 2022
processos de desmatamento que ocorreram antes do mês de mapeamento, mas que eram
anteriormente indetectáveis devido ao regime de nuvens.
A Tabela 4 apresenta a estatística dos modelos ajustados para os dados de área de
soja plantada na região da Amazônia Legal. De acordo com o erro absoluto percentual e R²,
o modelo ARIMA(0,1,0)(1,1,0)[12] apresentou maior acurácia, sendo o mais indicado para
fazer o “forecasting” da série temporal.
Tabela 4. Acurácia dos modelos ajustados para os dados de área de soja plantada
Modelos EA EA% RE R²
ARIMA(0,1,0)(1,1,0)[12] 1204,26 0,90 1733,54 0,98
PROPHET 2105,78 1,58 2668,61 0,97
RANDOMFOREST 14148,97 10,73 15213,50 0,90
Fonte: Resultados originais da pesquisa
15
Trabalho apresentado para obtenção do título de especialista em Data
Science e Analytics – 2022
Figura 10. Projeção futura da área plantada de soja nos estados da Amazônia Legal
Fonte: Resultados originais da pesquisa
Tabela 5. Acurácia dos modelos ajustados para os dados de área plantada de milho
Modelos EA EA% RE R²
ARIMA(0,1,0)(1,0,0)[12] with Drift 3721,89 5,42 4223,48 0,97
PROPHET 16164,18 23,69 17628,30 0,83
RANDOMFOREST 13785,54 20,16 15184,40 0,89
Fonte: Resultados originais da pesquisa
A Figura 12 apresenta a projeção para dois anos da área cultivada de milho. A série
assume o comportamento de uma linha reta, o que indica que os valores crescerão
indefinidamente.
16
Trabalho apresentado para obtenção do título de especialista em Data
Science e Analytics – 2022
Conclusões
Referências
Adams, A.B.; Pontius, J.; Galford, G.; Gudex-Cross, D. 2019. Simulating forest cover change
in the northeastern U.S.: decreasing forest area and increasing fragmentation. Landscape
Ecology 34(10): 2401–2419.
Aditya Satrio, C.B.; Darmawan, W.; Nadia, B.U.; Hanafiah, N. 2021. Time series analysis and
forecasting of coronavirus disease in Indonesia using ARIMA model and PROPHET.
Procedia Computer Science 179: 524–532.
17
Trabalho apresentado para obtenção do título de especialista em Data
Science e Analytics – 2022
Agarwal, D.K.; Silander, J.A.; Gelfand, A.E.; Dewar, R.E.; Mickelson, J.G. 2005. Tropical
deforestation in Madagascar: Analysis using hierarchical, spatially explicit, Bayesian
regression models. Ecological Modelling 185(1): 105–131.
Amin, M.T.; Khan, F.; Imtiaz, S. 2018. Dynamic availability assessment of safety critical
systems using a dynamic Bayesian network. Reliability Engineering & System Safety 178:
108–117.
Andriatsitohaina, R.N.N.; Celio, E.; Llopis, J.C.; Rabemananjara, Z.H.; Ramamonjisoa, B.S.;
Grêt-Regamey, A. 2020. Participatory Bayesian network modeling to understand driving
factors of land-use change decisions: insights from two case studies in northeast
Madagascar. Journal of Land Use Science 15(1): 69–90.
Baccini, A.; Goetz, S.J.; Walker, W.S.; Laporte, N.T.; Sun, M.; Sulla-Menashe, D.; Hackler,
J.; Beck, P.S.A.,;Dubayah, R.; Friedl, M.A.; Samanta, S.; Houghton, R.A. 2012. Estimated
carbon dioxide emissions from tropical deforestation improved by carbon-density maps.
Nature Climate Change 2(3): 182–185.
Barrozo, J.C.; Rosa, J. C. 2018. A expansão do cultivo da soja no brasil através dos dados
oficiais. Pampa (Santa Fe) dez. 2018: 79–98.
Braswell, B.H.; Hagen, S.C.; Frolking, S.E.; Salas, W.A. 2003. A multivariable approach for
mapping sub-pixel land cover distributions using MISR and MODIS: Application in the
Brazilian Amazon region. Remote Sensing of Environment 87(2–3): 243–256.
Brown, J.C.; Jepson, W.E.; Kastens, J.H.; Wardlow, B.D.; Lomas, J.M.; Price, K.P. 2007.
Multitemporal, Moderate-Spatial-Resolution Remote Sensing of Modern Agricultural
Production and Land Modification in the Brazilian Amazon. GIScience & Remote Sensing
44(2): 117–148.
Canal Rural. 2021. Soja aumenta em 22% a área na Amazônia em 2019/20 em desacordo
com moratória, informa Abiove. Disponível em
:<https://www.canalrural.com.br/noticias/agricultura/soja/soja-aumenta-em-22-a-area-na-
amazonia-em-2019-20-em-desacordo-com-moratoria-informa-abiove/>. Acesso em: 14 abr.
2022.
18
Trabalho apresentado para obtenção do título de especialista em Data
Science e Analytics – 2022
Chadid, M.A.; Dávalos, L.M.; Molina, J.; Armenteras, D. 2015. A Bayesian spatial model
highlights distinct dynamics in deforestation from coca and pastures in an Andean
biodiversity hotspot. Forests 6(11): 3828–3846.
Diniz, C.G.; Souza, A.A.D.A.; Santos, D.C.; Dias, M.C.; Luz, N.C.; Moraes, D.R.V.; Maia,
J.S.A.; Gomes, A.R.; Narvaes, I.D.S.; Valeriano, D.M.; Maurano, L.E.P.; Adami, M. 2015.
DETER-B: The New Amazon Near Real-Time Deforestation Detection System. IEEE Journal
of Selected Topics in Applied Earth Observations and Remote Sensing 8(7): 3619–3628.
Dlamini, W.M. 2016. Analysis of deforestation patterns and drivers in Swaziland using
efficient Bayesian multivariate classifiers. Modeling Earth Systems and Environment 2(4): 1–
14.
Durieux, A.M.S.; Ren, C.X.; Calef, M.T.; Chartrand, R.; Warren, M.S. 2020. BUDD: Multi-
modal Bayesian Updating Deforestation Detections. International Geoscience and Remote
Sensing Symposium (IGARSS), 6638–6641. Disponível em:
<https://doi.org/10.1109/IGARSS39084.2020.9323938>. Acesso em: 14 abr. 2022.
Freitas, F.L.M.; Sparovek, G.; Berndes, G.; Persson, U.M.; Englund, O.; Barretto, A.;
Mörtberg, U. 2018. Potential increase of legal deforestation in Brazilian Amazon after Forest
Act revision. Nature Sustainability 1(11): 665–670.
Hirsch, A.I.; Little, W.S.; Houghton, R.A.; Scott, N.A.; White, J.D. 2004. The net carbon flux
due to deforestation and forest re-growth in the Brazilian Amazon: analysis using a process-
based model. Global Change Biology 10(5): 908–924.
Hyndman, R.; Athanasopoulo, G.; Bergmeir, C.; Caceres, G.; Chhay, L.; O’hara-Wild, M.;
Petropoulos, F.; Razbash, S.; Wang, E.; Yasmeen, F. 2022. forecast: Forecasting functions
for time series and linear models (R package version 8.16).
https://pkg.robjhyndman.com/forecast/
Hyndman, R.J.; Khandakar, Y. 2008. Automatic Time Series Forecasting: The forecast
Package for R. Journal of Statistical Software 27(3): 1–22.
Kuhn, M.; Vaughan, D. 2022. parsnip: A Common API to Modeling and Analysis Functions
(0.2.1). https://github.com/tidymodels/parsnip,%0Ahttps://parsnip.tidymodels.org/
Lemos, N.S.A.; Cunha, J.M. 2021. Analysis of fire risk in the Amazon: a systematic review.
Ambiente e Agua - An Interdisciplinary Journal of Applied Science 16(3): e2706.
19
Trabalho apresentado para obtenção do título de especialista em Data
Science e Analytics – 2022
Levers, C.; Butsic, V.; Verburg, P.H.; Müller, D.; Kuemmerle, T. 2016. Drivers of changes in
agricultural intensity in Europe. Land Use Policy 58: 380–393.
Lobora, A.L.; Nahonyo, C.L.; Munishi, L.K.; Caro, T.; Foley, C.; Beale, C.M. 2017. Modelling
habitat conversion in miombo woodlands: insights from Tanzania. Journal of Land Use
Science 12(5): 391–403.
McAlpine, C.A.; Etter, A.; Fearnside, P.M.; Seabrook, L.; Laurance, W.F. 2009. Increasing
world consumption of beef as a driver of regional and global change: A call for policy action
based on evidence from Queensland (Australia), Colombia and Brazil. Global Environmental
Change 19(1): 21–33.
Mello, M.P.; Risso, J.; Atzberger, C.; Aplin, P.; Pebesma, E.; Vieira, C.A.O.; Rudorff, B.F.T.
2013. Bayesian networks for raster data (BayNeRD): Plausible reasoning from observations.
Remote Sensing 5(11): 5999–6025.
Mello, M.P.; Rudorff, B.F.; Adami, M.; Rizzi, R.; Aguiar, D.A.; Gusso, A.; Fonseca, L.M. 2010.
A simplified Bayesian Network to map soybean plantations. In 2010 IEEE International
Geoscience and Remote Sensing Symposium. p. 351-354.
Mihajlovic, V.; Petkovic, M. 2001. Dynamic bayesian networks: a state of the art. Europhys.
Lett. CTIT Technical Report Series Vol. 01-34. University of Twente. Disponível em: <
http://www.ub.utwente.nl/webdocs/ctit/1/0000006a.pdf>. Acesso em: 18 de mar. 2022.
Mussumeci, E.; Codeço Coelho, F. 2020. Large-scale multivariate forecasting models for
Dengue - LSTM versus random forest regression. Spatial and Spatio-Temporal Epidemiology
35: 100372.
Numata, I.; Cochrane, M.A.; Souza Jr, C.M.; Sales, M.H. 2011. Carbon emissions from
deforestation and forest fragmentation in the Brazilian Amazon. Environmental Research
Letters 6(4): 044003.
Pendrill, F.; Persson, U.M.; Godar, J.; Kastner, T.; Moran, D.; Schmidt, S.; Wood, R. 2019.
Agricultural and forestry trade drives large share of tropical deforestation emissions. Global
Environmental Change 56: 1–10.
Potter, C.; Klooster, S.; Genovese, V. 2009. Carbon emissions from deforestation in the
Brazilian Amazon Region. Biogeosciences 6(11): 2369–2381.
Quesada, D.; Valverde, G. 2022. dbnR: Dynamic Bayesian Network Learning and Inference
20
Trabalho apresentado para obtenção do título de especialista em Data
Science e Analytics – 2022
Rindfuss, R.R.; Entwisle, B.; Walsh, S.J.; Mena, C.F.; Erlien, C.M.; Gray, C.L. 2007. Frontier
Land Use Change: Synthesis, Challenges, and Next Steps. Annals of the Association of
American Geographers 97(4): 739–754.
Ruiz-Martinez, I.; Marraccini, E.; Debolini, M.; Bonari, E. 2015. Indicators of agricultural
intensity and intensification: a review of the literature. Italian Journal of Agronomy 10(2): 74–
84.
Salmona, J.; Heller, R.; Quéméré, E.; Chikhi, L. 2017. Climate change and human
colonization triggered habitat loss and fragmentation in Madagascar. Molecular Ecology
26(19): 5203–5222.
Samal, K.K.R.; Babu, K.S.; Das, S.K.; Acharaya, A. 2019. Time series based air pollution
forecasting using SARIMA and prophet model. ACM International Conference Proceeding
Series p: 80–85.
Siami-Namini, S.; Tavakoli, N.; Namin, A.S. 2018. A Comparison of ARIMA and LSTM in
Forecasting Time Series; A Comparison of ARIMA and LSTM in Forecasting Time Series.
17th IEEE International Conference on Machine Learning and Applications (ICMLA).
Silva Junior, C.H.L.; Pessôa, A.C.M.; Carvalho, N.S.; Reis, J.B.C.; Anderson, L.O.; Aragão,
L.E.O.C. 2020. The Brazilian Amazon deforestation rate in 2020 is the greatest of the
decade. Nature Ecology & Evolution 5(2): 144–145.
Silveira, M.V.F.; Petri, C.A.; Broggio, I.S.; Chagas, G.O.; Macul, M.S.; Leite, C.C.S.S.;
Ferrari, E.M.M.; Amim, C.G.V.; Freitas, A.L.R.; Motta, A.Z.V.; Carvalho, L.M.E.; Silva Junior,
C.H.L.; Anderson, L.O.; Aragão, L.E.O.C. 2020. Drivers of Fire Anomalies in the Brazilian
Amazon: Lessons Learned from the 2019 Fire Crisis. Land 9(12): 516.
Simões, M.; Ferraz, R.; Verweij, P.; Equihual, M.; Maqueo, O.; Alvez, A. 2014. Modelo
Bayesiano de dados espaciais aplicado ao mapeamento da integridade ecossistêmica da
Amazônia brasileira. In Environnement et Géomatique: Approches Comparées France-
Brésil, Rennes. Actes du colloque.[Sl]: USP: Université Rennes, 2014. p. 371-378.
21
Trabalho apresentado para obtenção do título de especialista em Data
Science e Analytics – 2022
Siqueira-Gay, J.; Sánchez, L.E. 2021. The outbreak of illegal gold mining in the Brazilian
Amazon boosts deforestation. Regional Environmental Change 21(2): 1–5.
SOUSA, L.C.A. Classificação da tríplice infecção viral transmitida pelo mosquito Ae. aegypti
por meio do sistema Especialista Aedes Expert. Dissertação de Mestrado em Engenharia
Biomédica. Universidade de Brasília, Brasília, DF, Brasil.
Taylor, S.J.; Letham, B. 2018. Forecasting at Scale. The American Statistician 72(1): 37–45.
Yan, W.; Naing, N.; Htike, Z.Z. 2015. Forecasting of monthly temperature variations using
random forests. ARPN Journal of Engineering and Applied Sciences 10(21): 101109–
110112.
Zhao, N.; Liu, Y.; Vanos, J.K.; Cao, G. 2018. Day-of-week and seasonal patterns of PM2.5
concentrations over the United States: Time-series analyses using the Prophet procedure.
Atmospheric Environment 192: 116–127.
22