Você está na página 1de 5

Universidade Federal de Minas Gerais

Engenharia de Controle e Automação

Setembro 2019

Projeto de Final de Curso I - Entrega 1 - Introdução

Aluno: Rafael Augusto Vieira de Azevedo

Professor Orientador: Erickson Rangel do Nascimento

Um arcabouço para análise de métodos de transferência de movimento,


aparência e detecção de pose entre vı́deos

1
Sumário
1 Introdução 3

2 Próximos Passos 4

3 Declaração 5

2
1 Introdução
Atualmente, cada vez mais o campo de Visão Computacional exerce sua influência
no cotidiano da sociedade com o desenvolvimento da tecnologia. Realidade aumentada,
realidade virtual, carros autônomos e diversas modernizações no campo da indústria foram
possibilitadas devido ao crescimento desse campo. Apesar disso, a capacidade das máquinas
de ”enxergar” e extrair informações de dados multidimensionais ainda é muito limitada e
existe um vasto espaço no campo de Visão Computacional a ser explorado que promete ainda
mais avanços.
O trabalho em questão explora a transferência de movimento entre dados multidimen-
sionais, visando criar um arcabouço de comparação entre os métodos existentes na literatura
e contribuir com o avanço de novos métodos. Nos dias de hoje, grande parte dos trabal-
hos desenvolvidos no campo de Visão Computacional utilizam técnicas de Deep Learning,
que baseia-se em um conjunto de algoritmos que tentam modelar abstrações de alto nı́vel
de dados usando um grafo profundo com várias camadas de processamento, compostas de
várias transformações lineares e não lineares que visam generalizar os dados recebidos com
o objetivo de ”aprendê-los” e identificar corretamente instâncias desconhecidas. O método
desenvolvido no trabalho trata-se de uma modelagem para tornar possı́vel a identificação de
estilos musicais por uma arquitetura de Rede Neural de forma que ao receber como entrada
dados de áudio (como um espectograma), o processo será capaz de aproximar por meio de
uma regressão a qual estilo músical a dada entrada pertence, gerando como saı́da as poses
referentes ao estilo identificado em pixels.
Para a tarefa de identificação dos estilos musicais, é utilizada uma arquitetura de rede
convolucional já conhecida pela literatura chamada Soundnet [1], criada especificamente para
a tarefa de aprendizado a partir de áudio.
Na figura abaixo, vê-se um exemplo da arquitetura de 8 camadas da Soundnet, composta
por funções lineares ”estacadas” por funções não lineares, de forma a generalizar melhor os
dados aprendidos.

3
Figure 1: Arquitetura Soundnet

Além da SoundNet, para a geração das poses correspondentes aos áudios foi utilizado o
OpenPose [2], que é um sistema para identificação e estimativa das posições das juntas do
corpo humano. Abaixo, um exemplo de detecção realizada pelo OpenPose.

Figure 2: Detecção OpenPose

2 Próximos Passos
Assim como descrito na proposta, os próximos passos do projeto envolvem a con-
tinuidade da revisão bibiliográfica, implementação da metodologia idealizada e, por fim,
a comparação do método desenvolvido com os já existentes da literatura.

4
3 Declaração
Estão de acordo com as informações dispostas nesse documento o aluno Rafael Augusto
Vieira de Azevedo, matrı́cula 2014104390, e o professor Erickson Rangel do Nascimento do
Departamento de Ciência da Computação da Universidade Federal de Minas Gerais.

.................................. ..................................
Erickson Rangel do Nascimento Data

.................................. ..................................
Rafael Augusto Vieira de Azevedo Data

References
[1] Yusuf Aytar and Carl Vondrick and Antonio Torralba SoundNet: Learning Sound Rep-
resentations from Unlabeled Video, 2016

[2] Zhe Cao and Gines Hidalgo and Tomas Simon and Shih-En Wei and Yaser Sheikh Open-
Pose: realtime multi-person 2D pose estimation using Part Affinity Fields, 2018