Você está na página 1de 19

IDENTIFICAÇÃO DE ANOMALIAS NA ENVOLVENTE EXTERIOR DE EDIFÍCIOS

INDUSTRIAIS COM BASE EM TÉCNICAS DE INTELIGÊNCIA ARTIFICIAL E COM O

APOIO DE VEÍCULO AÉREO NÃO TRIPULADO

Francisco Heron Cavalcante Felix – 1190080

Relatório Final da Unidade Curricular de Trabalho


Preparatório e Conceção (TPC-DIPRE) do Mestrado em
Engenharia Civil, Especialização de Construções, na sua
edição de 2022/2023.

Fevereiro de 2023
ABREVIATURAS

ÍNDICE

Glossário .......................................................................................................................................................iii

1 Introdução ............................................................................................................................................. 1

1.1 Considerações Iniciais .................................................................................................................... 1

1.2 Motivação e objetivos principais ................................................................................................... 1

2 Proposta de temática de Dissertação ................................................................................................... 3

2.1 Generalidades ................................................................................................................................ 3

2.2 EXEMPLOS DE APRIMORAMENTO E EVOLUÇÃO DAS REDES......................................................... 3

2.2.1 REDES SEMI-ASSISTIDAS ......................................................................................................... 3

2.2.2 USO DE VEÍCULOS AÉREOS NÃO TRIPULADOS ....................................................................... 4

2.2.3 SEGMENTAÇÃO SEMÂNTICA .................................................................................................. 5

2.2.4 SERED ...................................................................................................................................... 7

2.3 CRONOGRAMA ............................................................................................................................. 12

3 Atividades de Formação Complementar e conclusões ....................................................................... 13

3.1 Ações de formação em que participou ........................................................................................ 13

3.2 Participação em outras atividades complementares................................................................... 13

3.3 Conclusões ................................................................................................................................... 14

Bibliografia .................................................................................................................................................. 15
GLOSSÁRIO

AlexNet: rede neural convolucional profunda (CNN) que consiste em 8 camadas, incluindo 5 camadas
convolucionais e 3 camadas totalmente conectadas, treinada com cerca de um milhão de imagens, que
tem sido amplamente utilizada como ponto de partida para outras tarefas de classificação de imagens.

Database Augmentation: expansão de um banco de dados adicionando-lhe novos dados; geralmente é


feito no Aprendizado de Máquina para melhorar a acurácia e a generalização de um modelo, ajudando-o
a lidar melhor com as variações nos dados de entrada e a evitar o ajuste excessivo aos dados de
treinamento.

DeepLabv3+: estado da arte em modelo de aprendizado profundo para segmentação semântica de


imagens, é uma tarefa de visão computacional que envolve a atribuição de um rótulo semântico (por
exemplo, pessoa, cachorro, céu) a cada pixel de uma imagem.

Epoch: uma única passagem por todo o conjunto de dados durante o processo de treinamento. Em cada
epoch, os parâmetros do modelo são atualizados com base no erro entre sua saída prevista e o valor real.
O número de epochs define o número de vezes que o modelo será exposto a todo o conjunto de dados
de treinamento antes que o processo de treinamento seja considerado concluído e depende de fatores
como o tamanho do conjunto de dados, a complexidadedo modelo e a precisão desejada.

F1 Score: medida da acurácia de um modelo que equilibra precisão e revocação; é a média harmônica de
acurácia e recall, onde acurácia é o número de previsões verdadeiro-positivas dividido pela soma de
previsões verdadeiro-positivo e falso-positivo, e recall é o número de previsões verdadeiramente-
positivas dividido pela soma de verdadeiro-positivo e previsões falsas negativas. Uma alta pontuação F1
indica que o modelo tem um bom equilíbrio entre acurácia e revocação, o que significa que faz
relativamente poucas estimativas falsas positivas ou falsas negativas. Varia de 0 a 1, onde 1 é precisão
perfeita.

Mask R-CNN: algoritmo de Aprendizado Profundo para detecção de objetos e segmentação de instâncias.
Ele estende o R-CNN mais rápido adicionando uma ramificação para prever uma máscara de objeto em
paralelo com a ramificação existente para reconhecimento de uma caixa delimitadora. A rede prevê as
caixas delimitadoras e máscaras para cada instância em uma imagem, permitindo precisão em nível de
pixel na identificação da instância do objeto.

Mean Intersection over Union (mIoU): métrica de qualidade comumente usada, pois fornece um único
número que resume o desempenho do modelo em várias classes e exemplos, levando em consideração
erros falsos positivos e falsos negativos.
ABREVIATURAS

Precision: métrica utilizada na avaliação de problemas de classificação binária e multiclasse, mede a


proporção de instâncias positivas entre as instâncias que o modelo previu como positivo, também
conhecido como valor preditivo positivo. Em um problema de classificação binária, é calculada como o
número de previsões positivas verdadeiras dividido pela soma das previsões positivas verdadeiras e falsas.
Na classificação multiclasse, a precisão normalmente é calculada como a precisão média em todas as
classes.

Recall: métrica usada na avaliação de problemas de classificação binária e multiclasse, mede a proporção
de instâncias positivas que são identificadas corretamente pelo modelo, também conhecida como taxa
de verdadeiros positivos (TPR). Em um problema de classificação binária, é calculado como o número de
predições verdadeiro-positivas dividido pela soma das predições verdadeiro-positivo e falso-negativo. Na
classificação multiclasse, é calculado como o recall médio em todas as classes.

Region of Interest (RoI): arquitetura de rede neural usada em tarefas de detecção de objetos e
segmentação semântica. A rede é reinada para prever um rótulo de classe ou máscara semântica para
cada região de uma imagem identificada como região de interesse. A rede RoI é responsável por processar
um conjunto de regiões, extraídas da imagem e passadas como entradas, e fornecer as previsões de saída
para cada região.

Segmentação Visual Semântica: tarefa de classificar cada pixel de uma imagem em um conjunto
predefinido de classes de objetos ou categorias semânticas, como céu, prédio, pessoa, estrada, etc. O
objetivo é produzir uma rotulagem densa da imagem, onde cada pixel recebe um rótulo que corresponde
ao seu significado semântico.

Super-pixel segmentation: visa dividir uma imagem em regiões contíguas e coerentes, chamadas de
superpixels, de aparência semelhante. A ideia é agrupar pixels adjacentes com propriedades semelhantes,
como cor, textura ou intensidade, em um único superpixel, que pode ser tratado como uma unidade
básica para tarefas de processamento posteriores, como reconhecimento de objetos, edição de imagens
e assim por diante.

Transfer Learning: técnica de Aprendizado de Máquina em que um modelo treinado em uma tarefa é
reaproveitado em uma segunda tarefa relacionada; toma-se o modelo pré-treinado, com seus parâmetros
aprendidos, e usa-o como ponto de partida para treinar um novo modelo em uma nova tarefa, que será
aprendida mais rapidamente e com melhor desempenho em comparação a começar do zero.

U-Net: arquitetura de aprendizado profundo para tarefas de segmentação de imagens, como


segmentação semântica, consiste em um caminho de contração (downsampling) e um caminho expansivo
(upsampling), e inclui conexões de salto, que concatenam os mapas de recursos destes caminhos,
permitindo que o modelo capture informações semânticas de alto nível e detalhes refinados – como
resultado, estima um mapa de rótulos denso para cada imagem de entrada.
1 INTRODUÇÃO

1.1 CONSIDERAÇÕES INICIAIS

O presente trabalho tem por objetivo descrever a pesquisa a ser desenvolvida no âmbito da disciplna
DIPRE, no mestrado de engenharia civil – ramo de construções.

A inspeção visual é essencial para manter a segurança e a operacionalidade adequadas de edificações e


infraestruturas. O tema escolhido centra portanto foco na inspeção predial, no sentido de aprofundar-se
em sua automatização. Trata-se de demanda de domínio público em Portugal, face ao notório
escasseamento de mão-de-obra. Assim sendo, a linha de pesquisa acompanha diversos trabalhos em
países desenvolvidos, posteriormente citados, abordando o tratamento de dados visuais obtidos por
veículos não tripulados e tratados e analisados por redes neurais convolucionais.

1.2 MOTIVAÇÃO E OBJETIVOS PRINCIPAIS

Pode-se definir a questão de pesquisa em “como é possível aprimorar o uso de dados obtidos por veículos
aéreos não tripulados e tratados por uma rede convolucional mediante inovação algoritmica com R-CNN
no contexto da cobertura de um galpão industrial em Portugal?”

Isto porto, este trabalho terá por objetivo principal o desenvolvimento de uma metodologia experimental
autónoma capaz de identificar, com precisão, anomalias existentes na envolvente exterior de edifícios
industriais (cobertura e fachadas). As anomalias e patologias a identificar estão geralmente relacionadas
com a presença de pontos de corrosão, danos mecânicos em painéis e zonas de acumulação de águas.

Salienta-se que para atingir este objetivo geral podem-se ter como objetivos específicos:

a) definição de uma instrução conhecida (definição do Sistema de Predição);

b) treinar a(s) variável(is), de forma a dar-lhe valor, mediante o estabelecimento de uma Métrica de
Qualidade;

c) definir uma Abordagem de Exploração, de forma a economizar recursos computacionais, entre


outras restrições;

d) teste e implementação do modelo.

1
2 PROPOSTA DE TEMÁTICA DE DISSERTAÇÃO

2.1 GENERALIDADES

A utilização de algoritmos de Inteligência Artificial (IA) para monitoramento e inspeção de edificações tem
sido objeto de variados estudos acadêmicos. Dentre os algoritmos experimentados, destacamos a Mask
R-CNN como ferramenta relevante, ao acessar as regiões mais remotas de uma estrutura e fornecer
resultados confiáveis (LEMOS, 2022).

Figura 1 - atividades relacionadas a um modelo R-CNN (LEMOS, 2022)

2.2 EXEMPLOS DE APRIMORAMENTO E EVOLUÇÃO DAS REDES

2.2.1 REDES SEMI-ASSISTIDAS

Karaaslan (2021) descreveu um novo método para melhorar a acurácias da quantificação de danos
(detecção + segmentação) usando uma técnica de atenção guiada, ou seja, utilizando a interação humana
(inspetor visual) e máquina (rede SSD). Obteve um incremento de 30% na precisão, sem um custo
computacional significativo.

3
CAPÍTULO 2

Figura 2 - colaboração em humano e IA - acréscimo da área menor pelo inspetor (KARAASLAN, 2021).

Figura 3 - arquitetura da rede SSD (KARAASLAN, 2021)

2.2.2 USO DE VEÍCULOS AÉREOS NÃO TRIPULADOS

Han (2021) obtiveram imagens de corrosão em uma ponte em Tianjin Jinbu, analisando-as mediante
algoritmo simple linear iterative clustering (SLIC), treinamento da rede com feature pyramid network
(FPN) e path aggregation network (PANet), obtendo acurácia de reconhecimento de 97,15% e taxa de erro
TÍTULO DO CAPÍTULO 2

de 4%. Os resultados demonstram que o método de monitoramento em dois estágios pode obter a
proporção da área de corrosão e a posição relativa da estrutura.

Figura 4 - mapeamento de voos e aquisição de imagens (HAN, 2021)

Figura 5 - resultados no monitoramento de corrosão (HAN, 2021)

2.2.3 SEGMENTAÇÃO SEMÂNTICA

Lu (2022), mediante a construção prévia de um dataset de 5366 imagens de resíduos de construção,


utilizou DeepLabv3+ para identificar, mediante rotulagem, seus diferentes componentes. Sua medida de
qualidade apresentou como resultado um mIoU de 0.56, com performance de 0.51s por imagem. A
CAPÍTULO 2

confiabilidade obtida constrói a base necessária para o uso de modelos de gestão dos resíduos de
construção.

Figura 7 - estrutura do modelo de segmentação semântica (LU, 2022)

Figura 6 – performance do modelo, em teste e validação (LU, 2022)


TÍTULO DO CAPÍTULO 2

2.2.4 REDE NEURAL CONVOLUCIONAL COM 16 CAMADAS OCULTAS

Munawar (2022) desenvolveu um estudo baseado em rede U-Net para processar imagens obtidas por
veículo aéreo não tripulado que baseava-se em uma rede convolucional com aprendizado e agregação de
recursos multiescala e multinível enquanto se move das camadas convolucionais baixas para as camadas
de alto nível, reduzindo assim a perda de consistência nas imagens devido à inclusão do treino com
CycleGAN.Utilizou CRF para refinar a estimação. Obteve melhor performance se comparado a PSPNet,

DeepLab, e SegNet.

Figura 8 - estrutura da rede CNN com 16 camadas (MUNAWAR, 2022)


CAPÍTULO 2

Como resultado, utilizou com métricas de qualidade Global Accuracy (GA); Class Average Accuracy (CAC);
mean Intersection Of the Union (IOU); Precision (P); Recall (R); e F-score, com valores 0.989, 0.931, 0.878,
0.849, 0.818 and 0.833, respectivamente.

Figura 9 - arquitetura U-Net usada para detectar fissuras (MUNAWAR, 2022).

2.2.5 REDES NEURAIS CONVOLUCIONAIS COM AlexNet

Santos (2022) propôs o uso de imagens obtidas por veículo aéreo não tripulado de grandes estruturas de
concreto para rastrear barras de aço expostas.

Figura 10 - veículoa aéreos não tripulados utilizados (SANTOS, 2022).


TÍTULO DO CAPÍTULO 2

A estrutura da rede convolucional é AlexNet, e seu objetivo foi gerar mapas ortomosaicos de patologias,
ou estruturar modelos 3D com patologias sobrepostas .

Figura 11 - fluxograma da construção da base de dados (SANTOS, 2022)

O toobox de Deep Learning do Matlab© foi usado para realizar o treinamento da CNN, optando-se pela
utilização da rede pré-treinada AlexNet. As imagens foram subdivididas, sendo 80% utilizadas para
treinamento da CNN e 20% reservadas para validação.

As métricas aplicadas para avaliar o desempenho da CNN com base no subconjunto de validação incluíram
medidas de acurácia, precisão, sensibilidade (normalmente denominada Recall) e equilíbrio entre
precisão e sensibilidade (normalmente denominada pontuação F1). Essas métricas alcançaram resultados
consistentes de 97,6%, 98,9%, 97,4% e 98,14%, respectivamente, para cada um dos critérios mencionados
anteriormente. O processo de treinamento resultou em uma precisão de 99,1%.
CAPÍTULO 2

2.2.6 APRIMORAMENTO DO ALGORITMO DE MASK R-CNN

Zhang (2022) usou um algoritmo aprimorado para a MASK R-CNN como a estrutura de treinamento de
seu modelo de reconhecimento de poros em concreto, com vista a melhorar a performance e a acurácia
do método corrente, manual threshold segmentation.

Figura 12 - arquitetura da rede MASK R-CNN (ZHANG, 2022).

Figura 13 – output em diferentes Epochs (ZHANG, 2022)


TÍTULO DO CAPÍTULO 2

Para melhorar a precisão da segmentação dos poros (especialmente poros pequenos), a estrutura da rede
foi otimizada. Em segundo lugar, dois grupos de amostras de concreto permeável foram preparados e
tomografia computadorizada foi realizada para obter imagens das amostras, que foram usadas como o
conjunto de dados original. Em terceiro lugar, o conjunto de dados original foi pré-processado, rotulado
e aumentado (augmentation mediante uso de uma rotina em Python) para formar o conjunto de dados
final e, em seguida, o treinamento do modelo foi realizado. Por fim, a influência do algoritmo aprimorado
no efeito de identificação de poros foi analisada (ZHANG, 2022).

Figura 14 - comparação entre MASK R-CNN e sua versão aprimorada (ZHANG, 2022)
CAPÍTULO 2

2.3 CRONOGRAMA

As tarefas associadas a este trabalho compreendem:

i) aprendizagem do funcionamento do drone (DJI Mavic 2);

ii) recolha de imagens em campo dos vários tipos de anomalias/patologias de interesse e


constituição de bases de dados de imagens;

iii) desenvolvimento do algoritmo de deteção de anomalias/patologias com base em técnicas de


aprendizagem supervisionada do tipo rede neuronal convolucional por regiões e com recurso
a máscaras (Mask-R-CNN);

iv) aplicação da metodologia desenvolvida a uma construção localizada na Zona Industrial de


Santo Tirso.

A proposta de cronograma dos trabalhos supracitados, exposta na tabela abaixo, extrapola o calendário
de época normal de entrega do trabalho de DIPRE, em função da complexidade inerente à aquisição,
modelagem e processamento de dados.

Mês
Março Abril Maio Junho Julho Agosto
Tarefas
Pesquisa de Bibliografia
Execução da redação
Planeamento do
levantamento
Levantamento
Processamento de dados
Construção da Rede
Aprimoramento do algoritmo
Análise dos Dados
Calibração do Modelo
Validação dos Outputs
Análise dos Resultados
3 ATIVIDADES DE FORMAÇÃO COMPLEMENTAR E CONCLUSÕES

3.1 AÇÕES DE FORMAÇÃO EM QUE PARTICIPOU

No âmbito da unidade curricular de TPC-DIPRE participou nas seguintes ações de formação:

• B-on - Pesquisar e usar a informação

• Processador de texto Microsoft Word

• Prepara-te para a apresentação da tua Tese

Participou ainda nas seguintes ações de formação, organizadas fora da unidade curricular de TPC-DIPRE:

• Métodos quantitativos (MATLAB) - HARVARDX

• Álgebra linear: de básica a avançada (implementação em MATLAB) – University of Texas System

• Introdução à Inteligência Artificial – Microsoft

• Introdução a Aprendizado de Máquina com Azure - Microsoft

• Introdução à programação com Python – SENAI/SP

• Introdução a Python - Microsoft

• Python como ferramenta de cálculo científico – ISEP

• Inspeção Predial - INBEC

• Piloto de Drone – subcategoria A1-A3

3.2 PARTICIPAÇÃO EM OUTRAS ATIVIDADES COMPLEMENTARES

Além destas formações, mais recentes, cujos títulos já falam por si, minha experiência como inspetor de
qualidade em construção industrial confere-me compreensão da importância e nível de detalhe da
investigação proposta.

13
CAPÍTULO 3

3.3 CONCLUSÕES

O presente relatório debruça-se de forma limitada sobre o trabalho de pesquisa, que já se iniciou com
pesquisa conceitual e bibliográfica, e alguns exemplos do corpo de pesquisa ao qual pretende-se
acrescentar contribuição.

O aprimoramento do modelo de redes neurais convolucionais emerge como um campo relevante de


pesquisa, almejando o presente trabalho constituir-se em uma continuação de trabalhos anteriores.
BIBLIOGRAFIA

HAN, Q., ZHAO, N., XU, J. (2021). Recognition and location of steel structure surface corrosion
based on unmanned aerial vehicle images. Journal of Civil Structural Health Monitoring,
2021.
LI, Y., LU, Y., CHEN, J. (2021). A deep learning approach for real-time rebar counting on the
construction site based on YOLOv3 detector. Automation in Construction, 124.
LU, W., CHEN, J., XUE, F. (2022). Using computer vision to recognize composition of construction
waste mixtures: A semantic segmentation approach. Resources, Conservation & Recycling,
178.
KARAASLAN, E., BAGCI, U., CATBAS, N. (2021). Attention-guided analysis of infrastructure
damage with semi-supervised deep learning. Automation in Construction, 125.
MAEMURA, Y., CHUN, P., YAMANE, T. (2022). A deep learning-based image captioning method
to automatically generate comprehensive explanations of bridge damage. Computer-Aided
Civil and Infrastructure Engineering.
MUNAWAR, H., ULLAH, F., SHAHZAD, D., HERAVI, A., QAYYUM, S., AKRAM, J. (2022). Civil
Infrastructure Damage and Corrosion Detection: An Application of Machine Learning.
Buildings, 2022.
SANTOS, R. L. (2022). IDENTIFICAÇÃO DE ANOMALIAS EM EDIFÍCIOS INDUSTRIAIS COM BASE EM
TÉCNICAS DE INTELIGÊNCIA ARTIFICIAL E IMAGENS OBTIDAS COM VEÍCULOS AÉREOS NÃO
TRIPULADOS. Universidade Federal de Ouro Preto.
SANTOS, R., RIBEIRO, D., LOPES, P., CABRAL, R., CALÇADA, R. (2022). Detection of exposed steel
rebars based on deep-learning techniques and unmanned aerial vehicles. Automation in
Construction, 139.
ZHANG, H., ZHANG, R., SUN, D., YU, F., GAO, Z., SUN, S., ZHENG, Z. (2022). Analyzing the pore
structure of pervious concrete based on the deep learning framework of Mask R-CNN.
Construction & Building Materials, 318.

15

Você também pode gostar