Escolar Documentos
Profissional Documentos
Cultura Documentos
LONDRINA
2022
PRISCILA GABRIELA DA SILVA DUARTE
LONDRINA
2022
Agradeço primeiramente a Deus pelo dom a vida e todo seu amor por nós. Agradeço em
especial minha mãe Marcia Helena da Silva, uma mulher incrível que nunca me deixou desistir
e sempre me incentivou a estudar e procurar o melhor caminho, agradeço também meu pai
Adilson Rafael Duarte, meus irmãos Douglas Silva Duarte e Maria Tereza Silva Duarte, em
memória a minha avó Tereza Rafael Duarte em memória, e todos que participaram e
contribuíram na minha jornada para a realização a conquista do meu título de Mestre(a) em
Engenharia Ambiental. Agradeço por todos os conselhos e apoio no decorrer dessa jornada.
Agradeço a Deus por ter me proporcionado a oportunidade de cursar a pósgraduação em uma
excelente universidade Federal como a Universidade Tecnológica Federal do Paraná campus
Londrina. Agradeço a Prof. Drº Jorge Alberto Martins pela orientação durante esses dois anos
e pela oportunidade de fazer parte do grupo de pesquisa, neste período e por ele abraçar a ideia
para eu concretizar a minha dissertação de mestrado. Agradeço a Prof. Drª Ligia Flavia Antunes
Batista, pela sua coorientação e imensa colaboração para eu desenvolver a dissertação inclusive
alcançar meus resultados, seus ensinamentos me deram norte para conduzir a pesquisa de forma
produtiva, agradeço ambos professores por todo ensinamento o qual me proporcionaram.
Agradeço aos meus colegas por toda ajuda que me ofereceram durante o período de mestrado,
em especial a minha amiga de pesquisa Pamela Venturin. Agradeço a oportunidade de participar
do protejo Rain Solutins e Fundação Araucária por ter investido em minha pesquisa. O segredo
da vida não está na chegada na linha final e ganhar o lugar mais alto do pódio, e sim, tudo aquilo
que levamos para si, mediante a tudo que absorvemos das pessoas e, o que emitimos para elas
da nossa essência durante esse percurso.
DUARTE, Priscila Gabriela Silva. Métodos de Machine Learning Aplicados à Classificação
do Uso e Ocupação do Solo Na Microbacia Do Lago Igapó Na Cidade De Londrina/Pr.
2022. 77 p. Dissertação (Mestrado) Curso de Programa de PósGraduação em Engenharia
Ambiental, Universidade Tecnológica Federal do Paraná (UTFPR), Londrina, 2022.
RESUMO
O crescimento das áreas urbanas é um fenômeno mundial e seus problemas têm gerado imensos
desafios para a sociedade. Um desses desafios está relacionado à drenagem das águas de chuva
em ambiente urbano. Com a urbanização, a cobertura original do solo é substituída por
elementos que impedem ou dificultam a infiltração das águas da chuva. As soluções baseadas
na natureza têm se mostrado uma alternativa viável para o enfrentamento dos problemas
associados à drenagem urbana. Entretanto, o sucesso das intervenções é altamente dependente
de uma compreensão dos elementos que predominam na superfície urbana. Nesse sentido, o
principal objetivo deste trabalho foi a aplicação de algoritmos de machine learning em imagens
de satélite de alta resolução para classificação do uso e ocupação do solo na área de drenagem
do sistema de lagos Igapó, um conjunto de lagos urbanos da cidade de LondrinaPR. Imagens
da constelação de satélites Pléiades, com elevado nível de detalhamento espacial, foram usadas
para a classificação. Foram estabelecidas 12 classes temáticas específicas para classificação do
uso do solo. A classificação supervisionada foi aplicada e os seguintes algoritmos de
aprendizado de máquina foram avaliados: Decision Tree (DT), Randon Forest (RT), Suport
Vector Machine (SVM), KNearest Neighbors (KNN) e Normal Bayes. DT foi o classificador
que apresentou o melhor desemprenho, tanto para a classificação global quanto para as classes
individuais. Os valores para os índices Kappa, Precisão, Recall e F1Score ficaram entre 90 %
e 100 % para o classificador DT. As áreas verdes, representadas por Árvores/arbustos e Grama,
juntamente com telhados, representam as classes majoritárias, com 24% e 23% da cobertura do
solo da área de estudo, respectivamente. Asfalto e calçada, com 19% da área, e solo exposto,
com 14%, também foram classes com participações expressivas. A fração remanescente é
constituída por água, inclusive superfície de piscina, e áreas sombreadas. Com o refinamento
das classes, a resolução espacial e a qualidade do mapeamento realizado, os resultados
apresentados neste trabalho podem ser uma ferramenta de grande utilidade para a elaboração
de projetos de intervenção que promovam o uso de soluções baseadas na natureza para a solução
dos problemas relacionados à drenagem urbana.
ABSTRACT
The growth of urban areas is a worldwide phenomenon and its problems have generated
immense challenges for society. One of these challenges is related to the drainage of rainwater
in an urban environment. With urbanization, the original land cover is replaced by elements
that prevent or hinder the infiltration of rainwater. Naturebased solutions have proved to be a
viable alternative for dealing with problems associated with urban drainage. However, the
success of interventions is highly dependent on an understanding of the elements that
predominate on the urban surface. In this sense, the main objective of this work was the
application of machine learning algorithms in high resolution satellite images to classify land
use and occupation in the drainage area of the Igapó lake system, a set of urban lakes in the city
of LondrinaPR. Images of the Pléiades satellite constellation, with a high level of spatial
resolution, were used for the classification. Twelve specific thematic classes were established
for classifying land cover. Supervised classification was applied, and the following Machine
Learning algorithms were evaluated: Decision Tree (DT), Randon Forest (RT), Support Vector
Machine (SVM), KNearest Neighbors (KNN) and Normal Bayes. DT was the classifier that
presented the best performance, both for the global classification and for the individual classes.
The values for the Kappa, Precision, Recall, and F1Score indices were between 90% and 100%
for the DT classifier. The green areas, represented by Trees/bushes and Grass, together with
roofs, represent the majority classes, with 24% and 23% of the land cover of the study area,
respectively. Asphalt and pavement, with 19% of the area, and exposed soil, with 14%, were
also classes with expressive participation. The remaining fraction consists of water, including
pool surface, and shaded areas. With the refinement of the classes, the spatial resolution, and
the quality of the developed mapping, the results presented in this work can be a very useful
tool for the elaboration of intervention projects that promote the use of naturebased solutions
to solve urban drainage problems.
1 INTRODUÇÃO .............................................................................................. 13
2 OBJETIVO .................................................................................................... 16
2.1 Objetivo geral .......................................................................................................... 16
4 METODOLOGIA .......................................................................................... 32
4.1 Caracterização da área de estudo ......................................................................... 32
4.5.3 Definição das Classes de uso e ocupação do solo e seleção de amostras de treinamento e
validação ......................................................................................................................... 42
6 CONCLUSÃO ................................................................................................ 16
REFERÊNCIAS................................................................................................ 17
APÊNDICES..................................................................................................... 27
13
1 INTRODUÇÃO
2 OBJETIVO
3. REVISÃO DA LITERATURA
A REM é o elemento de ligação entre todos os demais. Para o caso de aplicação das
técnicas de sensoriamento remoto no estudo dos recursos naturais, tanto o Sol quanto a Terra
podem ser a fonte de REM. Embora a terra não emita luz visível, ela é fonte para os sensores
passivos de microondas e termais (NOVO e PONZONI, 2001).
O sensor é o instrumento capaz de coletar e registrar a REM refletida ou emitida pelo
objeto, que também é denominado alvo, e que representa o elemento do qual se pretende extrair
informação (MENESES e ALMEIDA, 2012). Ele também é capaz de responder a faixas
específicas do espectro eletromagnético, registrála e gerar um produto numa forma adequada
para a interpretação do usuário (STEFFEN et al., 1981). Os sensores remotos podem ser
classificados em função da fonte de energia. Quando os sensores não possuem fonte própria de
radiação são denominados de sensores passivos (e.g., sensores que medem a radiação solar
refletida pela superfície da Terra ou as ondas de infravermelho emitidas por ela). Por outro lado,
quando os sensores possuem sua própria fonte de REM são denominados sensores ativos.
Radares, por exemplo, são dispositivos que medem a radiação que eles próprios emitem, mas
que é refletida pelo alvo (INPE, 2006).
19
Os sensores podem ainda ser classificados em função do tipo de produto. Sensores não
imageadores são aqueles que não geram imagem da superfície sensoriada (e.g., radiômetros e
espectroradiômetros). Sensores nãoimageadores são essenciais para aquisição de informações
precisas sobre o comportamento espectral dos objetos. Por outro lado, sensores imageadores
produzem uma imagem, fornecendo informações sobre a variação espacial da resposta espectral
da superfície observada (INPE, 2006).
3.2 Geoprocessamento
de máquina, permite que a avaliação e classificação sejam quantificadas com mais precisão
(RAHMANA et al. 2020).
Segundo Moreira (2003), existem dois métodos mais comuns para a classificação:
supervisionados e não supervisionados. A classificação supervisionada envolve o uso de dados
de treinamento, onde os pixels da imagem são definidos a partir de descrições numéricas a fim
de definir a quantidade e as classes temáticas que serão utilizadas na classificação. Na
classificação não supervisionada o processo ocorre sem que o usuário necessite de amostras
para treinar o classificador. Neste caso, tratase de um processo essencialmente realizado pelo
computador, em que o usuário apenas especifica o número de classes espectrais desejado e elas
são criadas a partir de faixas dos valores de pixel. Assim, os pixels são agrupados de acordo
com a similaridade espectral, a limitação neste caso reside no fato de que o usuário terá que
interpretar que tipo de cobertura do solo corresponde uma dada classe criada (CRÓSTA, 2002).
Huang et al. (2017) relatam que um método de conjunto multinível, baseados em pixel
e objetos, pode explorar os pontos fortes dos classificadores individuais. Do ponto de vista da
interpretação de imagens, o método apresentado, integrando regras e recursos múltiplos
baseados em pixels e objetos, é eficaz para a classificação de imagens de alta resolução.
Learning aprendem a induzir uma determinada função ou hipótese, que seja capaz de resolver
um problema baseado em dados que representam instâncias do problema a ser resolvido. Ou
seja, é um método de análise de dados que desenvolve modelos, por meio do uso de algoritmos
que aprendem interativamente a partir de entradas de dados, possibilitando que os
computadores encontrem resultados preditivos com base no que aprendeu (CARVALHO
2011). No aprendizado supervisionado estão presentes técnicas como regressão linear,
regressão logística, redes neurais artificiais (ANN), máquina se suporte vetorial (SVM), árvores
de decisão (DT), kvizinhos mais próximos (KNN) e Bayes (HONDA et al., 2017).
satélite, possui ótima capacidade de generalização, ou seja, apresenta eficiência para prever
dados que não pertençam ao conjunto utilizado no treinamento (SMOLA et al. 2000).
Garofalo et al. (2015) relatam que inúmeros trabalhos têm mostrado que técnicas de
classificação não paramétricas, com o emprego de classificadores SVM, têm se destacado na
classificação orientada a objetos.
O modelo de classificação K Nearest Neighbors (KNN) classifica, para cada instância não
rotulada, seus k vizinhos mais próximos no espaço multidimensional de características
abrangendo um conjunto de instâncias de treinamento. A partir dessa classificação, é atribuído
um valor de classe de acordo com a maioria de uma classe particular dentro dessa vizinhança
(WIELAND e PITTORE, 2014).
Os k vizinhos mais próximos são identificados por uma medida de distância que compara
os vetores de características da instância não rotulada e o conjunto de instâncias de treinamento
27
O modelo Naive Bayes (NB) consiste em uma classificação probabilística simples que
assume a distribuição normal do espaço de características para cada classe. Com base em
instâncias de treinamento selecionadas, o algoritmo NB estima vetores médios e matrizes de
covariância para cada classe e os utiliza para previsões (BRADSKI et al., 2008; FUKUNAGA
1990).
Para Zhang, (2004), o Naive Bayes é um dos mais eficientes e eficazes algoritmos de
aprendizado indutivo para aprendizado de máquina e mineração de dados, pois seu desempenho
competitivo na classificação é surpreendente. O algoritmo apresenta independência condicional
do valor de qualquer outra característica. Tratase de um conjunto de algoritmos de aprendizado
supervisionado baseado na aplicação do Teorema de Bayes.
O classificador NB supõe que a presença de uma característica particular em uma classe
não está relacionada com a presença de nenhuma outra característica, condição que é chamada
de independência condicional (GUARNIZZO, 2021).
O uso e cobertura do solo é uma área de estudo que permite avaliar o impacto dos
processos naturais e das atividades humanas sobre as características da superfície do planeta e
como essas atividades modificam o tipo de cobertura existente ao longo do tempo. Como em
geral se refere a estudos comparativos, aspectos como o processo histórico de colonização do
local a ser avaliado, o regime político e os aspectos socioeconômicos, urbanos e ambientais
devem ser levados em consideração. Esse conjunto de elementos articulados nos permite uma
28
Embora o mapeamento da cobertura do solo possa ser realizado por avaliação direta da
área de interesse, o processo pode se tornar altamente oneroso, enviesado e inviável no tempo
quando se trata de grandes áreas. Nesse sentido, o sensoriamento remoto tem se revelado uma
alternativa muito eficaz e mundialmente usada para o mapeamento de regiões de interesse pelas
mais diversas áreas do conhecimento (GONG, et al., 2015; HADJIMITSIS, et al. 2010; LIU, et
al. 2018). O geoprocessamento se associa ao sensoriamento remoto e permite a classificação
digital de uma imagem. Podese dizer que o mapeamento da cobertura do solo é uma aplicação
importante do geoprocessamento, que oferecendo a possibilidade de separação da superfície em
temas, gera mapas temáticos de elementos relacionados às estruturas territoriais, à geografia e
aos recursos naturais, por exemplo. O conjunto de informações sistematizadas da área analisada
podem facilitar o delineamento de um problema, a tomada de decisões e o planejamento
(BARBARA e RIBEIRO, 2019).
Nesse aspecto, vale ressaltar que, por uma questão de resolução espacial dos sensores,
os primeiros estudos não encontraram uma aplicação direta nas questões urbanas. Atividades
como o monitoramento ambiental e o planejamento urbano estão intrinsecamente relacionados
à natureza heterogênea dos espaços urbanos. Entretanto, com o desenvolvimento dos satélites
de observação da Terra, houve aprimoramento das órbitas e da tecnologia dos sensores
embarcados, o que tornou possível imagens mais precisas e com maior detalhamento dos
objetos presentes na superfície. A série de satélites do programa LANDSAT é um dos exemplos
de maior sucesso desse aprimoramento (ALMAZROUI, et al., 2017; LI, et. al., 2015; YUAN
et al., 2005). Seu acervo histórico e a constante atualização tecnológica dos novos satélites que
vão se incorporando à série garantem uma importância ímpar para a compreensão dos grandes
problemas ambientais do mundo moderno. Com esse tipo de programa, o sensoriamento remoto
ganhou um espaço significativo nos estudos voltados à compreensão do uso e ocupação do solo
em áreas urbanas (CAI, et al., 2019; FANG e YU, 2017).
Dentre os mais variados temas abordados por estudos relacionados ao mapeamento da
cobertura do solo, a urbanização é aquele de interesse no presente estudo. Ainda assim, o campo
de conhecimento é muito amplo e a última década experimentou um avanço considerável nos
sensores e nas técnicas matemáticas de classificação da cobertura do solo em áreas urbanas,
com destaque para imagens de altíssima resolução fornecidas por satélites modernos, como por
exemplo, os das séries WorldView, GeoEye e constelação Plêiades (PANAGIOTAKIS, et
al.,2018; HUANG, et al, 2018). Essas imagens têm sido capazes de revelar eficazmente as
30
O conceito de soluções baseadas na natureza (SbN) surgiu nos anos 2000e foi ganhando
destaque entre organismos internacionais e na União Europeia como uma aposta para a
adaptação às mudanças climáticas, pois as SbN são entendidas como soluções que de alguma
forma se inspiram, copiam ou tomam como base processos naturais para gerar benefícios
sociais, ambientais e econômicos para a sociedade (HERZANG, 2020).
Para Devecchi et. al (2020), as SbN apresentam entre seus objetos os problemas
relacionados com o manejo das águas em áreas urbanas, reconhecendo a natureza e seus
processos, essencialmente o ciclo hidrológico, como elementos fundamentais na construção do
aglomerado urbano. As SbN se propõem a substituir as intervenções humanas poluidoras ou
ambientalmente agressivas por práticas ecológicas inspiradas em ecossistemas saudáveis.
As intervenções feitas nas paisagens urbanas, periurbanas e rurais, com alterações na
cobertura do solo e nos processos naturais, eliminaram ou alteraram ecossistemas que
mantinham as funções ecológicas dessas áreas, o que tem levado, muitas vezes, a consequências
dramáticas (FRAGA e SAYOGA, 2020).
Segundo Rodrigues (2021) é possível citar algumas Soluções Baseadas na Natureza que
podem ser aplicadas nas cidades e fazer parte dos centros urbanos, auxiliando a amenizar e/ou
eliminar as problemáticas ambientais, ao mesmo tempo em que proporcionam diversos outros
benefícios para o ser humano e a biodiversidade do planeta.
Os extremos como inundações e alagamentos ou da falta de água, a poluição
generalizada do ar, das águas e do solo, com impactos diretos sobre a saúde e o bemestar das
31
pessoas, e as emissões de gases de efeito estufa que aceleram o aquecimento global, têm levado
à busca por alternativas mais harmoniosas com a natureza e seus processos e fluxos. Nesse
contexto as Soluções baseadas na Natureza (SbN) estão se tornando alternativas cada vez mais
aceitas e aplicadas para enfrentar os diversos desafios e manter o funcionamento das cidades
(FRAGA e SAYOGA, 2020).
32
4 METODOLOGIA
4.1.2 Clima
O clima da região é classificado como temperado úmido com verão quente (Cfa
conforme a classificação Köppen e Geiger). A temperatura média é de 20,9 °C e a pluviosidade
média anual de 1429 mm (IAP, 2020). Entretanto, a área se encontra numa zona de transição e
muito próxima de outros padrões climáticos que variam de clima temperado a inverno seco.
4.1.3 Solos
4.1.4 Vegetação
4.1.5 Hidrografia
O município de Londrina faz parte da Bacia Hidrográfica do Rio Tibagi a qual está entre
as maiores bacias hidrográficas do Estado do Paraná. Esta localizase na porção centroleste do
Paraná e possui área de aproximadamente 24.530 km², correspondendo a cerca de 13% da
superfície do estado. A Bacia abrange o primeiro, o segundo e o terceiro planalto paranaense,
atribuindo à área inúmeros ambientes, o que permite dividila em três regiões: alto, médio e
baixo Tibagi, onde se localiza o município de Londrina (MEDRI et al., 2002).
A rede de drenagem do município de Londrina é composta pelas seguintes subbacias:
Jacutinga, Lindóia, Cambé, Limoeiro, Cafezal e Três Bocas. A hidrografia de Londrina sofreu
com a intensa antropização dos mananciais naturais, forçando canalizações de alguns rios
(BARROS et al. 2008 e CARDOSO, 2013).
O presente estudo foi realizado nos limites da Bacia do Ribeirão Cambé (Figura 6), o
qual vem sofrendo alterações decorrentes da ação antrópica, devido ao desenvolvimento
urbano.
CHANG et. al, 2021, relata que a bacia do Ribeirão Cambé, no município de
Londrina/PR é pouco ramificada, tem área de 29,95 km², confirmando a área do presente
estudo. O perímetro é de 27,14 km e o comprimento do canal principal é de 11,25 km, com uma
rede de drenagem total de 24,09 km. A densidade de drenagem é de 0,80 km/km², indicando
que a bacia possui uma boa capacidade de drenagem. Este é um importante fator, pois indica o
grau de desenvolvimento do sistema de drenagem de uma bacia.
A bacia em estudo nasce no município de CambéPR, a oeste do município de Londrina
PR, possui uma área de 77,20 km² (Figura 6) e o comprimento do principal curso d’água, o
Ribeirão Cambé, é de 25 km. A área da Bacia do Ribeirão Cambé, além do curso d’água
principal, conta com tributários como o córrego Capivara, Leme, Água Fresca, Colina Verde,
Rubi, Baroré e córrego da Mata, (ARAUJO, 2004 e IPUL, 2013) (Figura 7).
35
A construção do Lago Igapó não considerou as matas ciliares que são fundamentais para
aumentar a infiltração de águas pluviais no solo e protegêlo contra riscos geomorfológicos,
como erosão e o assoreamento subsequente (BORTOLO, 2011; GALHOTE, 2019 e SANTOS
et al. 2017).
Porém, o processo de assoreamento do lago Igapó pode estar relacionado aos processos
erosivos identificados nos seus afluentes, em suas margens ou em solos adjacentes,
principalmente (LORENZO, 2011).
Atualmente, o lago pode ser considerado um exemplo de valorização de espaço
público, visto que consiste em uma área de lazer que se caracteriza por uso intenso e
diversificado em relação aos segmentos sociais e faixas etárias de seus frequentadores.
Figura 7 Mapa de Localização Lago Igapó na subbacia do Rio Cambé no município de LondrinaPR.
4.2 Material
Com base na definição da área de interesse foi realizada a aquisição de dados do satélite
Pléiades junto a empresa Tecterra Geotecnologias e Meio Ambiente LTDA. As especificações
da imagem obtida são apresentadas na Tabela 1:
Tabela 1: Especificações técnicas da imagem de satélite Pléiades da área de interesse do presente projeto
Dados Especificações
Satélite Pléiades
Resolução Espacial 2M RGB / 0,5 PAN
Bandas Espectrais RGB e NIR
Data da cena 16/06/2020
Cobertura de nuvens 0%
Formato GeoTIFF
Fonte: Da Autora (2022).
39
Figura 10 Imagem de alta resolução com área delimitada da área de estudo em LondrinaPR, no ano de 2020.
padrão e variância, para cada segmento e para cada banda. A tabela 3 apresenta a descrição de
cada variável.
O algoritmo calcula as estatísticas a partir dos valores do raster, tendo como referência
a delimitação dos segmentos da camada vetorial obtida na segmentação. Todavia, é
fundamental que os segmentos representem adequadamente os objetos da imagem
(GONÇALVES, 2021).
4.5.3 Definição das Classes de uso e ocupação do solo e seleção de amostras de treinamento e
validação
Outros 7 Sombra
Fonte: Da Autora, (2022).
44
4.5.5 Classificação
O processo de avaliação foi realizado através o plugin SCP no Qgis. Apenas o parâmetro
de acurácia conhecido como F1score foi calculado de acordo com a metodologia utilizada por
Kugler et. al 2018.
A primeira fase para avaliar os dados consistiu na geração da matriz de confusão, a qual
representa a confusão entre as classes, conforme mostra o Quadro 2. Existem quatro possíveis
saídas da classificação para cada instância:
• Verdadeiro Positivo (TP): corresponde aos dados positivos classificados corretamente
pelo algoritmo.
• Falso Negativo (FN): o número de dados positivos classificados incorretamente.
• Verdadeiro Negativo (TN): quando a instância negativa é classificada como tal.
• Falso Positivo (FP): no caso de dados positivos classificação incorretamente.
Precisão:
A precisão é uma métrica que avalia a quantidade de verdadeiros positivos sobre a soma de
todos os valores positivos e pode ser obtida pela Equação (2):
𝑇𝑃
𝑃𝑟𝑒𝑐𝑖𝑠ã𝑜 = 𝑇𝑃+𝐹𝑃 (2)
F1score:
Fscore ou score F1 é uma média harmônica calculada com base na precisão e na
sensibilidade. Ela pode ser obtida com base na Equação (3):
𝑝𝑟𝑒𝑐𝑖𝑠ã𝑜∗𝑠𝑒𝑛𝑠𝑖𝑏𝑖𝑙𝑖𝑑𝑎𝑑𝑒
𝑓1 = 2 ∗ 𝑝𝑟𝑒𝑐𝑖𝑠ã𝑜+𝑠𝑒𝑛𝑠𝑖𝑏𝑖𝑙𝑖𝑑𝑎𝑑𝑒 (3)
A estatística Kappa varia de 0 a 1,0, sendo que o valor de Kappa igual a 0,0 sugere que
a classificação não é melhor do que uma classificação aleatória dos pixels (Tabela, 4). No
entanto, um valor próximo de 1,0 sugere um processo de classificação altamente eficiente
(MOREIRA, 2001).
As métricas (Recall, Precisão, F1score e Kappa) utilizadas para a avaliação dos
classificadores foram aplicadas para todas as 12 classes utilizadas na classificação. Para a
avaliação global de cada classificador as métricas foram a matriz de confusão, acurácia global,
Kappa e F1score. Tais valores foram obtidos através do processamento da acurácia do plugin
SCP, exceto o valor do F1score.
5 RESULTADOS E DISCUSSÃO
A B C
D E F
AImagem Pléiades ; B Decision Tree; C Randon Forest; D Naive Bayes E SVM FKNN
Fonte: Da Autora, 2022.
cabendo ao usuário avaliar qual tipo de erro na classificação é aquele que pode trazer maior
prejuízo ao produto desejado. Na sequência serão apresentados os resultados de desempenho
de cada modelo, a partir das métricas de avaliação.
Decision tree (DT): Com base no indicador RECALL, o modelo DT obteve desempenho
ótimo para a quase totalidade das 12 classes. Os piores desempenhos foram para as classes
Grama (66,7%), seguida de Solo exposto (80,6%) e Telhado de cerâmica clara (81,3%). Para a
Precisão, os indicadores com pior desempenho foram para telhado de cerâmica clara (74,5%),
seguido de Árvore e Calçada, ambos em torno de 78%. Para F1 score, os dois piores
desempenhos estão associados às classes de cobertura Grama e Telhado de cerâmica clara, com
75,7% e 77,7%, respectivamente. Para o índice Kappa, os piores desempenhos estão associados
às classes Telhado de cerâmica clara (0,74), Árvore (0,75) e Calçada (0,78). Para as demais
classes de cobertura, a classificação pode ser ótima, com base nos valores das métricas.
Random Forest (RF): O modelo apresentou desempenho no indicador recall entre 66%
e 100 % sendo classificados com pontuação máxima telhado cerâmica escura e sombra e a
menor pontuação foi para a classe telhado metálico (41%). No indicador precisão, o menor
valor foi de 69,5 % para a classe telhado cerâmica escura e o maior valor para as classes árvores,
piscina e solo exposto com o valor de 100%. Já para o índice kappa, as classes piscina, solo
exposto e calçada obtiveram classificação máxima obtendo o valor 1,0, classificando como
excelente.
Naive Bayes (NB): O indicador recall para o modelo apresentou melhores resultados
para as classes asfalto e telhado cinza, ambas 99%, e o menor valor foi para a classe água 23%.
A métrica precisão variou entre 100 e 82%, sendo que a classe árvore obteve o valor de precisão
de 82%, e a classe água, de 100%. No índice Kappa, o pior desempenho foi para classe solo
exposto, com o valor de 0,74, seguido da classe arvore (0,81), enquanto que as demais classes
obtiveram desempenho ótimo conforme os valores da métrica.
Support Vector Machine (SVM): Para a métrica recall, os valores variaram entre 100%,
valor atribuído para as classes piscina e telhado de cerâmica escura, e o menor valor de recall,
de 29%, para a classe asfalto. Os valores de precisão variam de 32%, valor adquirido para classe
asfalto, e 100%, para as classes piscina e telhado de cerâmica escura. O valor de Kappa foi de
0,23 para a classe asfalto, sendo uma classificação com desempenho fraco, assim como a classe
solo exposto, com o valor de 0,46. As demais classes podem ser classificadas entre bom e ótimo.
KNearest Neighbors (KNN): Este é o modelo que apresentou menor desempenho nas
métricas de acurácia. Os valores de recall foram de 85% para a classe piscina e 0% para a classe
água, com a média de 42% para este modelo. Os valores de precisão foram de 69% para a classe
54
sombra e 0% para a classe água. Os valores de Kappa ficaram entre 0 e 0,6 e, com exceção da
classe sombra, todas as outras classes foram classificadas entre fraca e regular.
As métricas Recall e Precisão podem ser usadas para medir de que forma o modelo
consegue reconhecer as instâncias positivas (recall) ou negativas (Precisão).
A pontuação F1Score combina os valores de precisão e recall em relação a uma classe.
O F1Score pode ainda ser interpretado como uma média ponderada da Precisão e Recall, onde
uma pontuação F1 atinge seu melhor valor em 100% e pior em 0. É uma média harmônica entre
o Recall e Precisão, que está muito mais próxima dos menores valores do que uma média
aritmética simples (RODRIGUES, 2019). Conforme mostrado anteriormente, para as
subclasses avaliadas, os melhores valores dessa métrica foram para a classificação realizada
através do algoritmo DT, apresentando menor dispersão e uma média de 90,8%, sendo um valor
ótimo para a métrica.
Em relação ao índice Kappa, os melhores desempenhos foram para os algoritmos NB e
DT, ambos apresentando uma média de 0,9. O índice Kappa é a medida relativa do grau de
concordância entre a classificação digital realizada e a fonte de referência (CAMPBELL e
WYNNE, 2011). Os valores do índice Kappa variam de 1 a 1, onde 0 indica sem concordância
e 1 concordância perfeita. Os valores do índice Kappa são normalmente utilizados quando se
compara distintos classificadores.
No caso deste trabalho, esperase oferecer subsídio ao tomador de decisão quando há
interesse em avaliar o potencial de instalação de SbN em uma dada área. Nesse sentido, o
excesso de falso positivo pode ser um agravante, uma vez que pode induzir o gestor a elaborar
projetos e empenhar recursos em áreas que podem não corresponder à expectativa de sucesso
decorrente da implantação de uma SbN. Portanto, a Precisão parece ser a métrica mais indicada
para a tomada de decisão no contexto deste trabalho.
O método mais usual para avaliar a acurácia de maneira mais detalhada é através da
matriz de confusão, também conhecida como matriz de erro. A matriz de erro do presente
estudo encontrase no Apêndice I. A denominação confusão se dá pelo fato de que, além de
indicar a acurácia geral, a matriz também indica a confusão que o classificador pode gerar entre
classes. Os valores apresentados na matriz correspondem à quantidade de pixels que o
classificador reconheceu, ou a porcentagem dos mesmos (SILVA, 2020; CAMPBELL e
WYNNE, 2011).
55
não absorvem água confirma se tratar de uma área muito antropizada e que vem sofrendo com
problemas de alagamento, principalmente em dias de chuva intensa.
Cabe lembrar que a busca por soluções de problemas urbanos decorrentes do mau
planejamento no passado vem se tornando algo recorrente pela gestão pública. Esse interesse
serve tanto para mitigar as dificuldades já existentes, como também para evitar que ocorra
problemas semelhantes futuramente. Nesse sentido, o uso do sensoriamento remoto,
geotecnologias e técnicas de inteligência artificial são grandes aliados para uma boa gestão de
planejamento, pois auxilia na tomada de decisão, otimiza o uso do tempo das visitas a campo
para levantamentos e oferece produtos seguros, precisos e confiáveis.
6% 7%
4% 4% 4%
3%
2%
Água
Piscina
Asfalto
Árvore
Telhado C. Clara
Calçada
Solo Exposto
Telhado C. Escura
Telhado Cinza
Grama
Telhado Metálico
6 CONCLUSÃO
REFERÊNCIAS
ALMAZROUI, M., MASHAT, A., ASSIRI, M. E., & BUTT, M. J. Application of landsat data
for urban growth monitoring in Jeddah. Earth Systems and Environment, v.1, p. 25, 207.
AMARAL, Fernando. Aprenda mineração de dados: teoria e prática. Alta Books Editora,
2016.
BARNSLEY, M.J.; MOLLERJENSEN, L. E BARR, S.L. Inferring urban land use through
spatial and structural pattern recognition. Londres. Remote Sensing and Urban Analysis.
2001.
BISHOP, Yvonne MM; FIENBERG, Stephen E.; HOLLAND, Paul W. Discrete multivariate
analysis Cambridge. 1975.
BLASCHKE T. & KUX H. Sensoriamento Remoto e SIG Avançados: novos sistemas sensores
métodos inovadores. São Paulo: Oficina de Textos, 2005.
BORTOLO, A. C. The production of the public free space of lago Igapó in urban context
londrinense: historical analysis of photos and data as tools for the construction of the study.
Presidente Prudente, Revista Geografia em Atos, v.2, n. 11, p. 97109, 2011.
BRADSKI, Gary; KAEHLER, Adrian. Learning OpenCV: Computer vision with the
OpenCV library. " O'Reilly Media, Inc.", 2008.
BRANDT. TSO MATHER, P. Classification Methods for Remotely Sensed Data. ed.2,
London, CRC Press, 2009, 352 p.
CAMPBELL, James B; WYNNE, Randolph H. Introduction to Remote Sensing. 5th ed. The
Guilford Press, New York, 2011.
CHANG, Mein Mieko; PINHEIRO, Hemerson Donizete. Análise temporal do uso e cobertura
do solo de uma bacia hidrográfica urbana do município de Londrina/PR.
19
COSTA, P. C. E., AUGUSTO, C, R., SEABRA, S. V. Análise da eficiência dos índices Built
up e NDBI para classificação de áreas urbanas em imagens Landsat 8 OLI. In: XVIII Simpósio
Brasileiro de Sensoriamento Remoto, 2017, Santos, Anais [...] Brasil, São Paulo, INPE, p.6632
6639.
COWEN, D. J. GIS versus CAD versus DBMS: what are the differences? Photogrammetric
Engineering and Remote Densing, v. 54, p. 15511554, 1988.
FRAGA, Raiza Gomes; SAYAGO, Doris Aleida Villamizar. Soluções baseadas na Natureza:
uma revisão sobre o conceito. Parcerias Estratégicas, v. 25, n. 50, p. 6782, 2021.
GOEBEL, Michael; GRUENWALD, Le. A survey of data mining and knowledge discovery
software tools. ACM SIGKDD explorations newsletter, v. 1, n. 1, p. 2033, 1999.
GONÇALVES, André Ricardo. Máquina de vetores suporte. Acesso em, v. 21, 2010.
GONG P, WANG J, YU L, et al. Finer resolution observation and monitoring of global land
cover: first mapping results with Landsat TM and ETM+ data. Int J Remote Sens, v.34, p.54,
2013.
HEPNER, Georgef et al. Artificial neural network classification using a minimal training set
Comparison to conventional supervised classification. Photogrammetric Engineering and
Remote Sensing, v. 56, n. 4, p. 469473, 1990.
HUANG, B. ZHAO, B. SONG, Y.Urban landuse mapping using a deep convolutional neural
network with high spatial resolution multispectral remote sensing imagery. Rem. Sens.
Environ, v.214, p. 7386,2018.
HUANG, X., WEN, D., LI, J. QIN, R. Multilevel monitoring of subtle urban changes for the
megacities of China using highresolution multiview satellite imagery. Remote Sensing of
Environment. v.196, p. 5675, 2017.
HUANG, X., WEN, D., LI, J. QIN, R. Multilevel monitoring of subtle urban changes for the
megacities of China using highresolution multiview satellite imagery. Remote Sensing of
Environment. v.196, p. 5675, 2017.
KAVZOGLU, Taskin; COLKESEN, Ismail. A kernel functions analysis for support vector
machines for land cover classification. International Journal of Applied Earth Observation
and Geoinformation, v. 11, n. 5, p. 352359, 2009.
22
LAMCHIN, Munkhnasan et al. Assessment of land cover change and desertification using
remote sensing technology in a local region of Mongolia. Advances in Space Research, v. 57,
n. 1, p. 6477, 2016.
LAWRENCE, Rick et al. Classification of remotely sensed imagery using stochastic gradient
boosting as a refinement of classification tree analysis. Remote sensing of environment, v. 90,
n. 3, p. 331336, 2004.
LI, X.; GONG, P.; LIANG, L. A 30year (1984–2013) record of annual urban dynamics of
Beijing city derived from Landsat data. Remote Sens. Environ, v.166, p.78–90, 2015.
LIU, X.; HU, G.; CHEN, Y.; LI, X.; XU, X.; LI, S.; PEI, F.; WANG, S. Highresolution multi
temporal mapping of global urban land using Landsat images based on the Google Earth Engine
Platform. Remote Sens. Environ, v.209, p.227–239, 2018.
MACHADO, Walquíria; COLAVITE, Ana Paula; STIPP, Nilza Aparecida Freres. Avaliação
De Impactos Ambientais Através De Matriz De Interação Na Gleba Palhano–LondrinaPr.
Monografia (Bacharel em Geografia) – Universidade Estadual de Londrina, Londrina, 2004.
MAXWELL, Aaron E.; WARNER, Timothy A.; FANG, Fang. Implementation of machine
learning classification in remote sensing: An applied review. International Journal of Remote
Sensing, v. 39, n. 9, p. 27842817, 2018.
NESSHÖVER, Carsten et al. The science, policy and practice of naturebased solutions: An
interdisciplinary perspective. Science of the total environment, v. 579, p. 12151227, 2017.
RAHMANA, A. ABDULLAHA, M. H., TOUSIF TANZIR, T., HOSSAIN. J., KHAN, M. B.,
MIAH, G., ISLAM, I. Performance of different machine learning algorithms on satellite image
classification in rural and urban setup. Remote Sensing Applications: Society and
Environment. v.20, 10p., 2020.
RUDKE, Anderson Paulo et al. Dinâmica da cobertura do solo para a Bacia Hidrográfica
do Alto Rio Paraná. 2018. Dissertação de Mestrado. Universidade Tecnológica Federal do
Paraná.
RUIZ, C. F. L., GUASSELLI, A. L., CATEN, T. A. Object based analysis and decision tree for
the classification of submetrical spatial resolution images captured by UAV. Bol. Ciênc. Geod,
Curitiba, v. 23, n2, p.252 267, 2017.
25
SAMPAIO, Rafael João. Classificação Do Uso Do Solo De Uma Bacia Hidrográfica Por Meio
De Algoritmos De Machine Learning. Revista Engenharia, Meio Ambiente e Inovação, Rio
de Janeiro, v. 3, n. 2, p. 2941. 2019.
SANTOS, R.F.dos. Planejamento ambiental: teoria e prática. São Paulo: Oficina de Textos,
184p. 2004.
SIGKDD Explor. Newsl., Association for Computing Machinery, New York, NY, USA, v.
1, n. 1, p. 20–33, jun. 1999.
SILVA, Mariana de Sá Rodrigues da et al. O uso de dados de sensoriamento remoto, com ênfase
à tecnologia RPA, para análise e controle da ocupação urbana. 2020.
SMITH, T.; MENON, S.; STAR, J.; ESTES, J. Requirements and principles for the
implementation and construction of lagescale geographic information systems. International
Journal of Geographical Information Systems, v.1, n.1 p1331, 1987.
VACARIO, Ester Paula Leite; MACHADO, Ginei. Transbordamentos das águas superficiais
em Londrina: o caso do Ribeirão Cambé. Os Desafios da Geografia Física na Fronteira do
Conhecimento, v. 1, p. 512521, 2017.
WU, Xindong et al. Top 10 algorithms in data mining. Knowledge and information systems,
v. 14, n. 1, p. 137, 2008.
YUAN F., SAWAYA K.E., LOEFELHOLZ B. C., BAUER M. E. Land cover classifcation and
change analysis of the Twin Cities (Minnesota) Metropolitan Area by multitemporal Landsat
remote sensing. Remote Sens Environ, v.98, p.317–328,2005.
ZHAO, M. LIU, X. Reprint of: Regional risk assessment for urban major hazards based on GIS
geoprocessing to improve public safety. Safety Science. v.97, p.112119, 2017.
27
APÊNDICE V – KNN
Matriz de Confusão
ERROR MATRIX (pixel count)
Reference
Classe 1 2 3 4 5 6 7 8 9 10 11 12 Total
1 15397 6481 28 0 101 0 16530 0 0 0 24 106 38667
2 0 0 0 0 0 0 0 0 0 0 0 0 0
3 6235 2722 1997 0 0 0 2021 45 0 0 0 332 13352
4 0 0 0 250527 19129 208765 10069 0 0 0 6084 0 494574
5 144737 583282 0 134688 559895 217449 615061 0 0 0 0 0 2255112
6 0 115650 0 163845 373196 367482 0 0 0 0 501 0 1020674
7 20703 11519 324 1984 12607 5785 125545 0 0 0 0 1883 180350
8 0 0 0 0 153 278 0 1322 502 812 356 779 4202
9 0 0 0 0 0 842 0 1491 2382 334 1992 3921 10962
10 0 0 0 0 0 0 0 158 257 2678 0 0 3093
11 0 0 444 1391 0 9778 0 0 1116 0 3457 4035 20221
12 1151 1148 268 0 0 1343 0 0 562 165 1023 3578 9238
Total 188223 720802 3061 552435 965081 811722 769226 3016 4819 3989 13437 14634 4050445