Introdução PFC

Universidade Federal de Minas Gerais
Engenharia de Controle e Automação
Setembro 2019
Projeto de Final de Curso I - Entrega 1 - Introdução
Aluno: Rafael Augusto Vieira de Azevedo
Professor Orientador: Erickson Rangel do Nascimento
Um arcabouço para análise de métodos de transferência de movimento,

aparência e detecção de pose entre vı́deos
1
Sumário
1 Introdução 3
2 Próximos Passos 4
3 Declaração 5
2
1 Introdução
Atualmente, cada vez mais o campo de Visão Computacional exerce sua influência
no cotidiano da sociedade com o desenvolvimento da tecnologia. Realidade aumentada,
realidade virtual, carros autônomos e diversas modernizações no campo da indústria foram
possibilitadas devido ao crescimento desse campo. Apesar disso, a capacidade das máquinas
de ”enxergar” e extrair informações de dados multidimensionais ainda é muito limitada e
existe um vasto espaço no campo de Visão Computacional a ser explorado que promete ainda
mais avanços.
O trabalho em questão explora a transferência de movimento entre dados multidimen-
sionais, visando criar um arcabouço de comparação entre os métodos existentes na literatura
e contribuir com o avanço de novos métodos. Nos dias de hoje, grande parte dos trabal-
hos desenvolvidos no campo de Visão Computacional utilizam técnicas de Deep Learning,
que baseia-se em um conjunto de algoritmos que tentam modelar abstrações de alto nı́vel
de dados usando um grafo profundo com várias camadas de processamento, compostas de
várias transformações lineares e não lineares que visam generalizar os dados recebidos com
o objetivo de ”aprendê-los” e identificar corretamente instâncias desconhecidas. O método
desenvolvido no trabalho trata-se de uma modelagem para tornar possı́vel a identificação de
estilos musicais por uma arquitetura de Rede Neural de forma que ao receber como entrada
dados de áudio (como um espectograma), o processo será capaz de aproximar por meio de
uma regressão a qual estilo músical a dada entrada pertence, gerando como saı́da as poses
referentes ao estilo identificado em pixels.
Para a tarefa de identificação dos estilos musicais, é utilizada uma arquitetura de rede
convolucional já conhecida pela literatura chamada Soundnet [1], criada especificamente para
a tarefa de aprendizado a partir de áudio.
Na figura abaixo, vê-se um exemplo da arquitetura de 8 camadas da Soundnet, composta
por funções lineares ”estacadas” por funções não lineares, de forma a generalizar melhor os
dados aprendidos.
3
Figure 1: Arquitetura Soundnet
Além da SoundNet, para a geração das poses correspondentes aos áudios foi utilizado o
OpenPose [2], que é um sistema para identificação e estimativa das posições das juntas do
corpo humano. Abaixo, um exemplo de detecção realizada pelo OpenPose.
Figure 2: Detecção OpenPose
2 Próximos Passos
Assim como descrito na proposta, os próximos passos do projeto envolvem a con-
tinuidade da revisão bibiliográfica, implementação da metodologia idealizada e, por fim,
a comparação do método desenvolvido com os já existentes da literatura.
4
3 Declaração
Estão de acordo com as informações dispostas nesse documento o aluno Rafael Augusto
Vieira de Azevedo, matrı́cula 2014104390, e o professor Erickson Rangel do Nascimento do
Departamento de Ciência da Computação da Universidade Federal de Minas Gerais.
.................................. ..................................
Erickson Rangel do Nascimento Data
.................................. ..................................
Rafael Augusto Vieira de Azevedo Data
References
[1] Yusuf Aytar and Carl Vondrick and Antonio Torralba SoundNet: Learning Sound Rep-
resentations from Unlabeled Video, 2016
[2] Zhe Cao and Gines Hidalgo and Tomas Simon and Shih-En Wei and Yaser Sheikh Open-
Pose: realtime multi-person 2D pose estimation using Part Affinity Fields, 2018

Introdução PFC

Enviado por

Dados do documento

Descrição original:

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Introdução PFC

Enviado por

Direitos autorais:

Formatos disponíveis

Universidade Federal de Minas Gerais

Engenharia de Controle e Automação

Projeto de Final de Curso I - Entrega 1 - Introdução

Aluno: Rafael Augusto Vieira de Azevedo

Professor Orientador: Erickson Rangel do Nascimento

Um arcabouço para análise de métodos de transferência de movimento,

Figure 2: Detecção OpenPose

Você também pode gostar