INDUSCON 2023 Transformadores de Visão para Previsão Densa

Transformadores de visão para previsão densa*
* Revisão de alguns resultados da literatura
1st Rodrigo Sagaseta de Oliveira Souza 2nd Luiz Alberto Luz de Almeida
Programa de Pós-Graduação em Engenharia Elétrica Programa de Pós-Graduação em Engenharia Elétrica
UFABC - Universidade Federal do ABC UFABC - Universidade Federal do ABC
Santo André - SP, Brasil Santo André - SP, Brasil
email: rodrigo.sagaseta@ufabc.edu.br email: luiz.almeida@ufabc.edu.br
ORCID: 0000-0002-9047-2671 ORCID: 0000-0001-6769-0139
Resumo—In this review, we delve into the advancements and demandas de memória e computacionais se mantenham geren-
applications of monocular depth prediction, focusing on the ciáveis. Contudo, seu campo receptivo restrito os inabilita de
intricacies of the protocol experiments, dataset transfer, and fine- discernir o contexto global.
tuning. We highlight the incorporation of gradient matching loss
and the significance of employing a depth inverse representation. Os Transformadores de Visão (TVs), em contrapartida,
Furthermore, our study underscores the expansive utility of such fracionam a imagem em tokens não sobrepostos e empregam
predictive models, not only in surveillance within smart city uma série de módulos de autoatenção para processá-los. Estes
paradigms and public security but also in diverse domains such as módulos possuem um campo receptivo abrangente, mas des-
agribusiness, education, and biomedical engineering. Leveraging providos dos vieses inatos às camadas convolucionais, tornam-
datasets like MIX 5, MIX 6, and ADE20K, we elucidate the per-
formance enhancement achieved by Transformer-based Neural se vorazes por dados. Cada arquitetura, portanto, apresenta
Networks in dense prediction tasks. Through these findings, the seus méritos e limitações intrínsecos.
potential for Transformer-based models in practical applications, A decrescente resolução acarreta desafios particularmente
respecting data protection norms like LGPD, becomes evident. evidentes em tarefas de previsão densa, nas quais a precisão
The collaborative efforts of academic and domestic partners in e a especificidade das características são comprometidas nos
realizing this review are also acknowledged.
Index Terms—Predição monocular de profundidade, Aprendi- níveis mais profundos do modelo. Embora estas nuances não
zado de máquina, Redes neurais com transformadores, LGPD - sejam cruciais em certas tarefas, como classificação de ima-
Lei Geral de Proteção de Dados. gem, são imperativas para a previsão densa, onde a resolução
ideal das características deve aproximar-se da imagem original.
I. INTRODUÇÃO Diferentes técnicas para atenuar a perda de especificidade
têm sido propostas, incluindo treinamento em resoluções am-
O desempenho superior das Redes Neurais Convolucionais pliadas, uso de convoluções dilatadas para acelerar o campo
(RNCs) as consolidou como a arquitetura predominante para receptivo sem degradar a resolução, e conexões diretas po-
tarefas em visão computacional. A vasta maioria das arquite- sicionadas estrategicamente entre os estágios de codificação
turas para previsão densa fundamenta-se em RNCs. O design e decodificação. Adicionalmente, recentes avanços sugerem a
dessas arquiteturas se orienta por um padrão que bifurca a rede ligação de representações de múltiplas resoluções em simul-
logicamente em um codificador e um decodificador. O codifi- tâneo em todas as RNCs. Contudo, mesmo que tais métodos
cador, frequentemente, origina-se de uma rede de classificação induzam uma elevação notável na qualidade das predições,
de imagens, referida como "backbone". O decodificador, por eles são intrinsecamente limitados pelo mecanismo central:
sua vez, amalgama recursos do codificador e os transmuta nas a convolução. As convoluções, por natureza, são operações
predições densas finais. Assim, a inovação arquitetônica para lineares com um campo receptivo circunscrito. Para alcançar
previsão densa centra-se nesta lógica. Entretanto, é consensual um contexto vasto, é mandatório o empilhamento em sequên-
que a seleção da arquitetura "backbone"exerce um impacto sig- cia em arquiteturas profundas, o que demanda uma profusão
nificativo nas capacidades do modelo global. Informações omi- de representações intermédias e um consumo de memória
tidas no codificador tornam-se irrecuperáveis no decodificador. considerável. Por consequência, reduções na resolução des-
Estes "backbones"convolucionais diminuem gradativamente a sas representações tornam-se essenciais para compatibilizar
resolução da imagem de entrada para extrair características o consumo de memória com as arquiteturas computacionais
em múltiplas escalas. Esta redução facilita um crescimento contemporâneas.
sequencial do campo receptivo, consolidando características A discrepância nos fundamentos operacionais entre os
primárias em complexas, e simultaneamente assegura que as Transformadores de Visão (TVs) e as Redes Neurais Convolu-
cionais (RNCs) gera indagações pertinentes sobre a sua perfor-
O presente trabalho foi realizado com apoio da Coordenação de Aper-
feiçoamento de Pessoal de Nível Superior - Brasil (CAPES) - Código de mance diante de variações de distribuição, sua robustez contra
Financiamento 001 ataques adversariais, e a sua fiabilidade em predições voltadas
para cenários reais. Surge o questionamento sobre a extensão crita anteriormente, uma reconfiguração sistemática é condu-
na qual os TVs assimilam heurísticas específicas, como a zida, conforme delineado na Figura 1.
textura de um objeto, ao invés de se inclinarem a soluções • Em avaliações com conjuntos de dados de distribuição
preconcebidas. Embora várias dessas inquietações tenham sido inerente, os TVs apresentaram previsões mais precisas,
parcialmente discutidas no âmbito da classificação de imagens, embora operassem a um ritmo mais lento em comparação
muitas permanecem inexploradas para tarefas mais intricadas, com suas contrapartes RNCs. Ademais, ao considerar
como a detecção e segmentação. Neste contexto, propõe-se cenários de Shift Fora da Distribuição (SFD), os dados
uma análise detalhada, estruturando modelos elementares de evidenciam uma maior generalização dos TVs em relação
detecção que empregam o DeiT como mecanismo extrator de a variações de distribuição.
características para tarefas de predição densa. Para elucidar o • As análises indicam que os TVs possuem uma melhor
procedimento, a Figura 1 oferece uma representação gráfica calibração, e consequentemente, são mais confiáveis do
do estágio inicial de codificação da imagem. que os RNCs, o que os torna mais aptos para integração
em sistemas de alta criticidade em segurança.
• Ao elevar a resolução da imagem para inferência, nota-se
uma degradação na performance tanto dos TVs quanto
dos RNCs. Contudo, em tarefas de detecção, as RNCs
exibem superioridade em relação aos TVs, especialmente
em resoluções elevadas.
• Evidências sugerem que os TVs tendem a convergir para
mínimos locais mais extensos em relação aos RNCs,
característica esta associada à sua capacidade de gene-
ralização.
• Em cenários de corrupções naturais e ataques adversariais
(direcionados ou não), os TVs demonstram consistente-
mente maior robustez quando comparados aos RNCs.
• O escopo da pesquisa foi expandido para abordar o viés
de textura em tarefas de predição densa. Os resultados
corroboram que os TVs são menos susceptíveis a de-
pender de características texturais, em contraste com os
RNCs, para efetuar suas predições.
II. TRANSFORMAÇÃO DE PREDIÇÃO DENSA (TPD)
Nesta seção, introduzimos a Transformação de Predição
Densa (TPD) - uma arquitetura dedicada à predição densa.
Esta estrutura é fundamentada em um esquema de codificador-
decodificador, capitalizando o bloco de construção computa-
cional do codificador. Distintamente, emprega-se os Transfor-
madores de Visão (TVs) como arquitetura de backbone. Nesse
contexto, as representações produzidas pelos TVs são reconfi-
guradas em representações de características que assemelham-
se a imagens em múltiplas resoluções. Estas, por sua vez, são
progressivamente amalgamadas nas representações finais den-
sas, valendo-se de um decodificador convolucional. Assim, em
contraposição a redes inteiramente convolucionais, o backbone
dos TVs abdica de operações de down-sampling explícitas pós-
integração inicial da imagem. Isso é atribuído à sua capacidade
de manter dimensões constantes ao longo de todas as etapas
de processamento, assegurando simultaneamente um campo
receptivo global em cada fase. Tais características são particu-
larmente benéficas para tarefas de predição densa, conduzindo
intrinsecamente a previsões mais acuradas e congruentes.
Figura 1. Arquitetura e remodelagem para detecção de objetos e segmentação A. Trabalho relacionado
semântica com backbone TVs © Esta figura é uma reprodução de umaq
imagem apresentada no artigo [1]. Redes inteiramente convolucionais constituem uma arqui-
tetura emblemática para a predição densa. Ao longo do
Subsequentemente à etapa de codificação da imagem des- tempo, inúmeras variantes deste paradigma fundamental foram
propostas. No entanto, todas essas arquiteturas empregam de progressiva, culminando em uma previsão meticulosamente
forma intrínseca a convolução e a subsamostragem como seus refinada.
pilares centrais, visando aprender representações em diversas Um aspecto crítico observado subsequentemente é a opera-
escalas e assim, capitalizar um contexto de amplitude ade- ção de reconstrução. Nesta fase, os tokens são reconfigurados
quada. Diversas abordagens sugerem o incremento sequencial para formar mapas de funcionalidade que correspondem a 1s
das representações agrupadas em estágios distintos mediante a da resolução espacial da imagem de entrada.
utilização de convoluções ou a agregação paralela de caracte- Finalmente, durante o processo de fusão, os recursos são
rísticas em escalas variadas. Esta prática objetiva a recuperação amalgamados usando unidades convolucionais residuais, pro-
de previsões mais sofisticadas mantendo, simultaneamente, um movendo, assim, um aumento na resolução dos mapas de
contexto abrangente. As arquiteturas contemporâneas preser- funcionalidade.
vam uma representação de alta resolução, complementada por 1) Codificador do Transformador: Em uma perspectiva de
múltiplas representações de resolução inferior ao longo da alto nível, o Transformador de Visão (TVs) opera usando
rede. uma representação de tokens, analogamente a "palavras"em
Nos últimos anos, modelos centrados em mecanismos de linguagem textual. Segmentos de imagens são incorporados
atenção, em especial os transformadores, têm emergido como a isoladamente em um espaço de recursos, ou alternativamente,
arquitetura preeminente na aprendizagem de robustos modelos em recursos profundos derivados da imagem, assumindo,
de Processamento de Linguagem Natural (PLN). Estes são ca- assim, o papel de "regras gramaticais das palavras". Optaremos
racterizados por seus mecanismos intrínsecos de autoatenção. por referenciar estas "palavras incorporadas"como tokens ao
Modelos precedentes demonstraram eficácia quando configu- longo deste artigo. Os transformadores, por sua vez, modificam
rados como arquiteturas de alta capacidade e submetidos a esse conjunto de tokens através de blocos sequenciais de Auto
treinamento em datasets volumosos. Há uma crescente proli- Atenção de Vários Cabeçalhos (AAVC), que correlacionam
feração de estudos que adaptam mecanismos de atenção para tokens entre si para refinar sua representação.
análise de imagens, corroborando que a implementação direta É vital enfatizar que, em sua aplicação, um transformador
de arquiteturas transformadoras baseadas em tokens, previa- mantém a contagem de tokens constante em todas as ope-
mente bem-sucedidas em PLN, pode resultar em desempenho rações. Quando um token tem correspondência direta com
competitivo na classificação de imagens. É crucial ressaltar um segmento de imagem, isso significa que o codificador
que, assim como seus homólogos em PLN, os transformadores TVs preserva a resolução espacial da incorporação inicial
de visão requerem uma quantidade substancial de dados de durante todas as etapas do transformador. Adicionalmente, o
treinamento para alcançar seu potencial ótimo. AAVC executa operações intrinsecamente globais, visto que
cada token pode referenciar e, consequentemente, influenciar
B. Arquitetura todos os outros tokens. Isso contrasta notadamente com redes
Na abordagem do Transformador de Visão Densa (TVD), convolucionais, que expandem seu campo receptivo à medida
adota-se uma estrutura canônica de codificação e decodifica- que as características avançam através de camadas sequenciais
ção, capitalizando os transformadores de visão como a arqui- de convolução e subamostragem.
tetura backbone. Esta configuração permite que a representa- O TVs processa uma parte da imagem extraindo segmentos
ção produzida pelo codificador seja eficientemente convertida não sobrepostos de pixels de tamanho p2 da imagem. Estes
em previsões densas, subjacente à intuição intrínseca para o segmentos são linearizados em vetores e, individualmente,
sucesso desta metodologia. Uma representação esquemática incorporados através de uma projeção linear. Uma variante
da arquitetura proposta pode ser visualizada na Figura 2. Ao alternativa, e mais eficiente em termos de amostragem do
analisar a Figura 2, notamos que a imagem é inicialmente con- TVs, aplica um ResNet50 à imagem e utiliza os recursos
vertida em tokens (indicados em laranja) por meio da extração pixel a pixel dos mapas de recursos resultantes como tokens.
de segmentos não sobrepostos. Estes são subsequentemente Uma vez que os transformadores operam como funções de
sujeitos a uma projeção linear de sua representação achatada, "conjunto para conjunto", eles não mantêm intrinsecamente
nomeadamente para os modelos TPD-Base e TPD-Large. a informação das posições espaciais dos tokens individuais.
Alternativamente, emprega-se um extrator de recursos ResNet- Assim, as incorporações da imagem são concatenadas com
50 no modelo TPD-Hybrid. A representação da imagem é uma incorporação posicional de aprendizado para adicionar
então ampliada mediante a incorporação posicional, seguida essas informações à representação. Complementarmente, no
pela introdução de um token de leitura que é independente do contexto do PLN, os TVs também adicionam um token es-
segmento (destacado em vermelho). pecial que não é originado da imagem de entrada, atuando
À medida que os tokens são processados através de múl- como a representação global final da imagem utilizada para
tiplos estágios do transformador de visão, eles são poste- classificação. Denominamos este token especial de "token de
riormente reconfigurados. Esta reconfiguração agrupa tokens leitura". A aplicação do procedimento de incorporação em uma
de diferentes estágios para formar uma representação remi- imagem de dimensões A × L (Altura por Largura) resulta em
niscente de uma imagem em diversas resoluções (ilustradas um conjunto t0 = {t00 , . . . , t0Np }, t0n ∈ RD de tokens, onde
em verde). Os módulos de fusão (em marrom) trabalham no Np = A×L p2 , t0 é o token de leitura e D é a dimensão do
sentido de fundir e subamostrar essas representações de forma recurso de cada token.
Figura 2. Visão geral da arquitetura © Esta figura é uma reprodução de umaq imagem apresentada no artigo [2].
Os tokens de entrada são processados usando C camadas de de remontagem para recuperar representações que mimetizem
transformadores para obter novas representações tc , onde c de- imagens a partir dos tokens de saída de camadas escolhidas
nota a saída da c-ésima camada do transformador, descrevendo aleatoriamente do codificador do transformador:
várias variantes deste modelo base. Três variantes são desta-
ReamostraD
s (t) = (Reamostrars · Leitura · Concatenada)
b
cadas neste artigo: TVs-Base, que utiliza o procedimento de
incorporação baseado em amostragem e contém 12 camadas de onde s representa a proporção entre o tamanho de saída da
transformador; TVs-Largo, que segue o mesmo procedimento representação reestruturada e a imagem original, enquanto D
b
de incorporação, mas tem 24 camadas de transformador e uma denota a dimensão da característica de saída.
dimensão de feature D mais ampla; e TVs-Híbrido, que utiliza Inicialmente, os tokens Np + 1 são mapeados para um
o ResNet50 para calcular a incorporação da imagem, seguido conjunto Np , o qual é propício à concatenação espacial em
por 12 camadas de transformador. Adotamos a dimensão de uma forma que se assemelha a uma imagem:
amostra p = 16 para todos os experimentos. Direcionamos
os leitores interessados para os trabalhos originais de onde Leitura: RNp +1×D → RNp ×D (1)
este estudo se originou para obter mais detalhes sobre essas Essencialmente, esta operação visa manipular de forma ade-
arquiteturas. quada o token de leitura. Dado que o propósito do token de
Os procedimentos de incorporação para TVs-Base e TVs- leitura não é claramente definido para a tarefa de previsão
Largo projetam as amostras linearizadas para as dimensões densa, mas pode ainda assim servir como meio para capturar
D = 768 e D = 1024, respectivamente. Como ambas as e disseminar informações globais, propusemos três variantes
dimensões de recurso superam o número de pixels em um deste mapeamento:
segmento de entrada, isso indica que o procedimento de
incorporação pode, teoricamente, aprender a reter informações Leituraignorada (t) = {t1 , . . . , tNp } (2)
quando isso for benéfico para a tarefa. Os recursos das
que simplesmente dispensa o token de leitura na saída,
amostras de entrada podem ser reconstruídos com precisão
ao nível de pixel. Analogamente, a arquitetura TVs-Híbrido Leituraadicionada (t) = {t1 + t0 , . . . , tNp + t0 } (3)
extrai recursos em 1/16 da resolução de entrada,
transmitindo informações do token de leitura a todos os outros
C. Decodificador Convolucional tokens por meio da adição de representações, e
O processo de decodificação envolve a reestruturação de Leitura projetada(t) =
um conjunto de tokens em representações de características (4)
{mlp(cat(t1 , t0 )), . . . , mlp(cat(tNp , t0 ))}
que se assemelham a imagens em distintas resoluções. Estas
representações são progressivamente amalgamadas até culmi- transmitindo informações a outros tokens ao concatenar o
nar na previsão densa final. Propomos uma operação tríplice token de leitura a todos os outros tokens e, posteriormente,
projetar a representação para a dimensão de amostragem origi- No entanto, é imperativo notar que a incorporação de posi-
nal D usando uma camada linear seguida pela não-linearidade ção é intrinsecamente dependente das dimensões da imagem,
GELUs (Gaussian Error Linear Units). visto que representa as coordenadas de amostragem na matriz
Após a operação de leitura, os tokens resultantes Np podem de entrada. Assim, adotamos uma estratégia inspirada na
ser remodelados em uma forma que se assemelhe a uma transformação de reconhecimento de imagem em escala, na
imagem, posicionando cada token de acordo com a localização qual as incorporações de posição são interpoladas linearmente
inicial do patch na imagem. De maneira formal, empregamos para corresponder à dimensão alvo. Esta operação é eficiente
uma operação de concatenação espacial resultando em um e pode ser executada instantaneamente para cada matriz.
mapa de amostra de dimensões A L
p × p com D canais: Ao concluir o processo de incorporação e as fases trans-
A L
formadoras, os módulos de reestruturação e fusão adaptam-se
Concatenar : RNp ×D → R p × p ×D (5) naturalmente a um espectro variável de tokens. No entanto,
é mandatório que a dimensão da imagem de entrada esteja
Posteriormente, esta representação é processada por uma
alinhada ao intervalo estabelecido pelo decodificador convo-
camada de reamostragem espacial, redimensionando-a para
A L lucional, especificamente 32 pixels.
s × s com D amostras por pixel:
A L A L III. EXPERIMENTOS E ANÁLISES
Reamostrars : R p × p ×D → R s × s ×D (6)
b
Neste segmento, aplicamos o Transformador de Previsão
Esta operação é implementada primeiramente usando convo- Densa (TPD) a duas tarefas essenciais de previsão densa:
luções 1 × 1 para projetar a entrada para D, b seguida por a estimativa de profundidade monocular e a segmentação
uma convolução 3 × 3 quando s ≥ p, ou uma convolução semântica. Em ambas as atividades, evidenciamos que o TPD
transposta 3 × 3 quando s < p para efetuar respectivamente é capaz de potencializar a acurácia de forma expressiva em
operações de downsample e upsample. Independente da estru- comparação com redes convolucionais de capacidade análoga,
tura base do transformador, os recursos são reestruturados em sobretudo quando dispomos de um vasto conjunto de trei-
quatro distintos estágios e resoluções. Camadas mais internas namento. Inicialmente, destacamos os resultados primordiais
do transformador são mapeadas em resoluções mais baixas, com base na configuração padrão, e posteriormente, discuti-
enquanto recursos de camadas mais superficiais são mapeados mos análises ablativas de diversas configurações do TPD.
em resoluções mais altas. Ao utilizar o modelo TVs-Largo, re-
estruturamos tokens das camadas l = {5, 12, 18, 24}, enquanto A. Estimativa de Profundidade Monocular
com o TVs-Base, os tokens das camadas l = {3, 6, 9, 12} A tarefa de estimativa de profundidade monocular é fre-
são utilizados. Para o TVs-Híbrido, os recursos do primeiro quentemente caracterizada como um problema de regressão
e segundo bloco ResNet são aproveitados nas camadas l = densa. Foi corroborado que é viável a construção de extensos
{9, 12}. Esta configuração padrão emprega projeção como conjuntos de metadados a partir de bancos de dados pré-
operação de leitura e produz mapas de amostragem com existentes. Contudo, para tal, é imprescindível uma meticu-
Db = 256 dimensões. Referimo-nos a estas arquiteturas como losa estratégia de unificação de diferentes representações de
TPD-Base, TPD-Largo e TPD-Híbrido, respectivamente. profundidade em um formato padrão. Ademais, é fundamental
Finalmente, os mapas de amostragem obtidos de estágios que ambiguidades recorrentes (como a ambiguidade de escala)
consecutivos são amalgamados utilizando um bloco de fusão sejam minuciosamente gerenciadas durante a fase de treina-
baseado no método RefineNet (Networks for High-Resolution mento. Dado que os transformadores se destacam primordial-
Semantic Segmentation) e a representação é progressivamente mente quando há uma plenitude de dados de treinamento, a
aumentada em um fator de dois em cada estágio de fusão. A estimativa de profundidade monocular emerge como um teste
representação resultante tem metade da resolução da imagem perfeito para avaliar as aptidões do TPD.
original. Um cabeçote de saída específico da tarefa é acoplado 1) Protocolo de Experimentação: Utilizou-se uma rede
para produzir a previsão final. Uma visão geral completa deste para previsão de profundidade monocular incorporando uma
processo é ilustrada na Figura 2. função de perda robusta, invariante a escala e deslocamento,
que opera em uma representação inversa de profundidade,
D. Manipulação de Tamanhos de Imagens Diversificados complementada pela função de perda de correspondência de
A analogia ao comportamento das Redes Totalmente Con- gradiente proposta. Conjuntos de metadados foram constituí-
volucionais (Fully Convolutional Networks - FCN) é evidente dos, incorporando dados originais, designados neste experi-
na capacidade do TPD (Transformador de Previsão Densa) de mento como MIX 5, e ampliados com cinco datasets adicio-
gerenciar uma variedade de dimensões de imagens. Contudo, é nais, sendo esta compilação denominada MIX 6. Esta última
crucial que a dimensão da imagem seja um múltiplo de p. Uma agregação contém aproximadamente 1, 4 milhões de imagens,
vez satisfeita essa condição, o procedimento de incorporação estabelecendo-se, segundo este estudo, como o maior conjunto
é eficazmente aplicado, gerando um conjunto adaptável de to- de treinamento para estimativa de profundidade monocular já
kens de imagem, Np . Dada a arquitetura do tipo conjunto para compilado.
conjunto (set-to-set), o codificador transformador se adapta Adotou-se a otimização multiobjetivo, definindo taxas de
com facilidade a um número oscilante de tokens. aprendizado de 1e˘5 para o backbone e 1e˘4 para os pesos
çadas por comparações visuais, conforme ilustrado na Figura
3. O TPD demonstra habilidade em reconstruir detalhes finos
e, concomitantemente, em aprimorar a coerência global em
zonas que desafiam arquiteturas convolucionais.
3) Ajuste Fino em Datasets Reduzidos: Procedeu-se ao
ajuste fino do TPD-Híbrido nos datasets KITTI e NYUv2,
visando uma avaliação mais abrangente da capacidade re-
presentacional do TPD. Dado que a rede foi instruída com
uma perda afim invariante, suas predições apresentam-se
arbitrariamente escalonadas e deslocadas, podendo alcançar
magnitudes elevadas. A otimização direta seria um desafio
devido à divergência global na magnitude das predições frente
aos dados verdadeiros. Desta forma, alinharam-se inicialmente
Figura 3. Resultado do modelo para estimativa de profundidade monocular. as predições da rede a cada amostra de treinamento, aplicando
© Esta figura foi extraída do artigo [2]. um procedimento robusto de alinhamento.
B. Segmentação Semântica
do decodificador. O codificador foi pré-inicializado com pesos Selecionou-se a segmentação semântica como segunda ati-
oriundos do ImageNet, enquanto o decodificador foi iniciali- vidade, por represent
zado de forma aleatória. Implementou-se um módulo de saída ar tarefas de rotulação discretas e ser um paradigma compe-
composto por três camadas convolucionais. Este módulo reduz titivo para arquiteturas de predição densa. Utilizou-se a mesma
gradativamente a dimensão da característica pela metade, estrutura de backbone e decodificador dos experimentos pre-
ampliando a resolução das predições após a primeira camada cedentes. Implementou-se um módulo de saída que realiza
convolucional. Optou-se por desabilitar a normalização em lote predições em meia resolução, ampliando-as para a resolução
no decodificador para prevenir potenciais influências negativas completa através de interpolação bilinear.
nos resultados regressivos. As imagens foram ajustadas para 1) Protocolo de Experimentação: Adotaram-se funções de
que sua maior dimensão fosse de 384 pixels, com treinamento perda de entropia cruzada, incorporando adicionalmente um
em recortes quadrados aleatórios de 384 pixels. Conduziram- módulo auxiliar de saída, associado a uma função de perda
se treinos por 60 épocas, definindo-se uma época como 72.000 auxiliar, na saída da penúltima camada de fusão. Estabeleceu-
passos com um tamanho de lote de 16. Dada a indissociabi- se o peso desta função de perda auxiliar em 0.2. O procedi-
lidade do tamanho do lote pelo número de datasets, os mini- mento de dropout, com uma taxa de 0.1, foi aplicado antes da
lotes foram elaborados pela seleção aleatória de datasets antes camada de classificação final em ambos os módulos. Utilizou-
da coleta de amostras dos respectivos conjuntos. Ademais, se SGD com momentum de 0.9 e um agendador polinomial
foram adotadas inversões horizontais aleatórias como técnica para a taxa de aprendizagem com fator de decaimento de 0.9.
de data augmentation. Implementou-se a normalização de lote nas camadas de fusão
2) Transferência em Conjunto de Dados Cruzados de Tiro e treinamentos com tamanho de lote de 48.
Zero: Investigou-se a transferência de aprendizado de tiro 2) ADE20K: O TPD foi treinado no dataset de segmentação
zero para datasets não contemplados no treinamento. As semântica ADE20K por 240 épocas. O TPD-Híbrido demons-
leituras relacionadas foram consultadas para obter detalhes trou superioridade perante todas as arquiteturas convolucionais
dos procedimentos avaliativos e métricas de erro. Em todas as existentes. Já o TPD-Largo exibiu performance ligeiramente
métricas adotadas, menores valores correspondem a melhores inferior, provavelmente devido ao menor volume do dataset
resultados. Ambas as variantes do TPD superaram notavel- em relação aos experimentos anteriores.
mente as abordagens existentes. A melhoria relativa média
em comparação com a arquitetura MiDaS, considerada um
referencial, foi de 23% para o TPD-Híbrido e 28% para o
TPD-Largo.
Para assegurar que os avanços observados não se originaram
meramente do aumento do conjunto de treinamento, a rede
convolucional utilizada pelo MiDaS foi reavaliada no conjunto
de metadados expandido MIX 6. Apesar da rede integralmente
convolucional se beneficiar do conjunto ampliado, ambas as Figura 4. Visão geral da arquitetura © Esta figura foi extraída do artigo [2].
variantes do TPD mantiveram superioridade marcante. Este
fenômeno sinaliza que o TPD capitaliza de forma mais eficaz A Figura 4, fornece comparações. É possível observar que o
o acréscimo no volume de treinamento, corroborando observa- TPD tende a produzir delineamentos mais limpos e refinados
ções prévias sobre arquiteturas baseadas em transformadores dos limites dos objetos e que as previsões também são, em
em diferentes domínios. As conclusões quantitativas são refor- alguns casos, menos desordenadas.
3) Ajuste fino em pequenos conjuntos de dados: Foram educacional, há um potencial inexplorado na análise de enga-
ajustados o TPD-Híbrido no conjunto de dados de contexto jamento e segurança dos estudantes. A engenharia biomédica,
Pascal para 50 épocas. Todos os outros hiper parâmetros por sua vez, pode se beneficiar enormemente da monitorização
permanecem os mesmos, demonstrando novamente que o TPD constante e não intrusiva dos pacientes, enquanto o setor de
pode fornecer um forte desempenho mesmo em conjuntos de segurança pública vê uma ferramenta potente para detecção e
dados menores. alerta precoce de incidentes.
Outro aspecto relevante destacado foi a conformidade com
C. APLICAÇÕES PRÁTICAS EM DIVERSOS SETORES a Lei Geral de Proteção de Dados (LGPD), garantindo que
Ao incorporar este conceito inovador a sistemas de monito- os direitos individuais sejam respeitados, mesmo diante de
ramento por câmeras, e direcionando a Inteligência Artificial monitoramentos intensivos.
(IA) para áreas como cidades inteligentes, agronegócios, edu- Em suma, a intersecção de tecnologias de monitoramento
cação, engenharia biomédica e segurança pública, observamos avançado com IA moderna tem o potencial de remodelar di-
a viabilização de uma aprendizagem robusta. Esta é capaz de versas indústrias e setores, oferecendo melhorias significativas
identificar objetos e analisar o fluxo de movimentação, propor- em eficiência, segurança e conformidade. À medida que a
cionando alicerces para a criação de modelos de treinamento tecnologia continua a evoluir, espera-se que sua adoção se
eficientes e acurados. expanda, trazendo consigo novas inovações e aplicações.
No âmbito do agronegócio, tais capacidades podem ser
utilizadas na monitorização e análise de cultivos, identificando D. AGRADECIMENTOS
pragas, avaliando as condições de crescimento e otimizando Expresso minha profunda gratidão ao meu orientador, Prof.
as práticas agrícolas através da análise automatizada. Luiz Alberto Luz de Almeida, cuja orientação e auxílio foram
Na educação, câmeras equipadas com IA podem auxiliar na imprescindíveis durante a leitura e pesquisa dos artigos que
gestão do espaço físico das instituições, monitorando a utili- fundamentaram esta revisão. Agradeço também à UFABC
zação de instalações e garantindo a segurança dos estudantes. - Universidade Federal do ABC pelo ambiente propício e
Além disso, poderiam ajudar na análise da eficácia das me- suporte acadêmico oferecidos ao longo de minha jornada. Por
todologias pedagógicas ao observar padrões de engajamento fim, mas não menos importante, sou eternamente grato à minha
dos alunos. esposa, Cintia Florencio Sagaseta, cujo apoio incondicional foi
Na engenharia biomédica, os sistemas podem ser adap- fundamental para a realização deste trabalho.
tados para monitorar pacientes em hospitais, identificar al- O presente trabalho foi realizado com apoio da Coordenação
terações em seus sinais vitais ou comportamentos e alertar de Aperfeiçoamento de Pessoal de Nível Superior - Brasil
a equipe médica sobre possíveis complicações. A tecnologia (CAPES) - Código de Financiamento 001
poderia, por exemplo, ser útil na detecção precoce de quedas Agradecemos aos detentores dos direitos autorais das ima-
ou outros incidentes em ambientes de cuidado. gens usadas neste artigo.
Quanto à segurança pública, a capacidade de detectar A Figura 1 é uma reprodução de uma imagem © [1].
comportamentos anômalos ou desalinhados ao padrão de mo- A Figura 2 é uma reprodução de uma imagem © [2].
vimentação usual é inestimável. A ferramenta de filtragem As Figuras 3 e 4 foram extraídas do artigo © [2].
de alertas minimiza a exigência de operadores monitorando
constantemente as transmissões das câmeras. Além disso, E. AUTOR
alinhando-se à Lei Geral de Proteção de Dados (LGPD), Mestrando em Engenharia Elé-
as gravações seriam acessadas ou monitoradas somente após trica pela Universidade Federal do
a detecção e contextualização de incidentes, permitindo que ABC (UFABC), Santo André, SP,
sistemas de IA baseados em redes neurais e transformadores Brasil, com término previsto para
de visão para predições densas desempenhem seu papel efici- 2023. Possui graduação em Enge-
entemente. nharia Elétrica pela UNIP e em
1) CONCLUSÃO: Este estudo abordou em profundidade a Marketing pela Anhanguera. Con-
aplicação de redes neurais, particularmente transformadores de cluiu especializações em Perícia
visão para predições densas, em diversos setores e ambientes. Técnica Judicial, Marketing Inter-
A eficácia da combinação de Inteligência Artificial (IA) e mo- nacional, e MBAs em Segurança
nitoramento por câmeras revelou-se uma solução promissora Pública e Privada e Comércio Ex-
para enfrentar desafios em áreas tão diversas quanto cidades terior. Atualmente, é pesquisador
inteligentes, agronegócios, educação, engenharia biomédica e no Programa de Pós-Graduação Figura 5. Rodrigo Sagaseta
segurança pública. em Engenharia Elétrica (PPGEE)
O valor intrínseco dessa abordagem reside em sua capaci- da UFABC, com enfoque em inteligência artificial. Sua pes-
dade de aprendizagem robusta e detecção acurada de padrões e quisa se concentra na automação de processos usando trans-
anomalias, possibilitando a criação de modelos de treinamento formações de imagens via redes neurais convolucionais, tecno-
mais refinados. Em ambientes agrícolas, esta abordagem pode logias de IoT e integração com OpenCV. O objetivo principal
revolucionar a gestão e monitorização de cultivos. No setor é aprimorar sistemas de segurança pública e inteligência de
negócios, visando a melhoria da gestão pública em sintonia
com as expectativas da comunidade.
F. ACRÔNIMOS E ABREVIAÇÕES
Acrônimo Descrição
IA Inteligência Artificial
LGPD Lei Geral de Proteção de Dados
TPD (Do inglês) Predição Densa Baseado em Transformadores
MIX Metadados Expandidos
MiDaS (Do inglês) Modelo de Estimativa de Profundidade
KITTI Conjunto de Dados KITTI (Com base no inglês)
NYUv2 Conjunto de Dados NYU versão 2 (Com base no inglês)
ADE20K Conjunto de Dados ADE20K (Com base no inglês)
SGD (Do inglês) Descida Gradativa Estocástica
pixAcc (Do inglês) Acurácia de Pixel
mIoU (Do inglês) Média da Intersecção sobre a União
Tabela I
L ISTA DE ACRÔNIMOS E A BREVIAÇÕES
R EFERÊNCIAS
[1] R. Ranftl, A. Bochkovskiy, V. Koltun, “Vision Transformers for Dense
Prediction,” Intel Labs, arXiv:2103.13413v1 [cs.CV] 24 Mar 2021.
[2] K. Jeeveswaran, S. Kathiresan, A. Varma, O. Magdy, B. Zonooz,
E. Arani “A Comprehensive Study of Vision Transformers on Dense
Prediction Tasks,” Advanced Research Lab, NavInfo Europe, Eindhoven,
The Netherlands, arXiv:2201.08683v1 [cs.CV] 21 Jan 2022.

INDUSCON 2023 Transformadores de Visão para Previsão Densa

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

INDUSCON 2023 Transformadores de Visão para Previsão Densa

Enviado por

Direitos autorais:

Formatos disponíveis

Transformadores de visão para previsão densa*

* Revisão de alguns resultados da literatura

Você também pode gostar