Escolar Documentos
Profissional Documentos
Cultura Documentos
C ENTRO DE T ECNOLOGIA
P ROGRAMA DE P ÓS -G RADUAÇÃO EM E NGENHARIA E LÉTRICA E
UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE
DE C OMPUTAÇÃO
Aos meu pais, Walkíria e Valdemir, por tudo. A eles devo tudo o que sou e tudo que
conquistei.
A Augusto, meu companheiro de muitas vidas, por todo o amor, pelo carinho, pela paci-
ência e pelo apoio incondicional.
A toda minha família, aqueles que estão em todos os planos, por todo o apoio.
Ao meu orientador, Prof. Luiz Marcos, por toda ajuda nesta jornada, pela confiança, pelo
aprendizado e todas as orientações e conselhos que sempre me incentivaram a alcançar o
meu melhor.
Aos colegas do Lavid, em especial, Prof. Tiago Maritan, pelas valiosas discussões, orien-
tações e dicas.
Sumário i
Lista de Figuras iv
Lista de Tabelas v
1 Introdução 1
1.1 Motivação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Tema, Problema e Hipótese de Pesquisa . . . . . . . . . . . . . . . . . . 4
1.2.1 Hipótese de Pesquisa . . . . . . . . . . . . . . . . . . . . . . . . 5
1.3 Contribuições . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.4 Escopo do Trabalho . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.5 Estrutura do Texto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2 Embasamento Teórico 8
2.1 Audiodescrição . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.2 Audiodescrição de Vídeos . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.2.1 Roteiro de Audiodescrição . . . . . . . . . . . . . . . . . . . . . 10
2.3 Roteiro Cinematográfico . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.4 Reconhecimento de Padrões em Vídeo . . . . . . . . . . . . . . . . . . . 12
2.4.1 Redes Neurais Convolucionais - CNN . . . . . . . . . . . . . . . 13
2.4.2 Redes Neurais Recorrentes - RNN . . . . . . . . . . . . . . . . . 16
2.5 Considerações Metodológicas . . . . . . . . . . . . . . . . . . . . . . . 17
i
4.1.3 Roteiro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
4.1.4 Vídeo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
4.2 Etapas do Processo de Geração Automática de AD . . . . . . . . . . . . 36
4.2.1 Identificação dos Gaps . . . . . . . . . . . . . . . . . . . . . . . 36
4.2.2 Seleção das Informações de Interesse . . . . . . . . . . . . . . . 36
4.2.3 Formação das Sentenças . . . . . . . . . . . . . . . . . . . . . . 37
4.2.4 Alocação das Sentenças nos Gaps . . . . . . . . . . . . . . . . . 37
4.3 Considerações Sobre a Solução Adotada . . . . . . . . . . . . . . . . . . 38
5 Implementação 39
5.1 Solução Proposta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
5.2 Componente de Extração de Informações . . . . . . . . . . . . . . . . . 40
5.2.1 Roteiro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
5.2.2 Vídeo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
5.3 Componente Gerador de Roteiros de AD . . . . . . . . . . . . . . . . . . 42
5.4 Audiodescrição Baseada nas Ações do Roteiro e nos Objetos Reconheci-
dos no Vídeo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
5.4.1 Formação das Sentenças . . . . . . . . . . . . . . . . . . . . . . 43
5.4.2 Alocação dos Gaps . . . . . . . . . . . . . . . . . . . . . . . . . 44
5.5 Audiodescrição Baseada na Detecção de Múltiplos Objetos Reconhecidos
no Vídeo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
5.5.1 Formação das Sentenças . . . . . . . . . . . . . . . . . . . . . . 45
5.5.2 Alocação dos Gaps . . . . . . . . . . . . . . . . . . . . . . . . . 46
5.6 Cenários de Uso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
5.7 Resumo da Implementação . . . . . . . . . . . . . . . . . . . . . . . . . 46
6 Experimento e Resultados 48
6.1 Cenário de Uso 1: Aplicação em Filmes de Ficção . . . . . . . . . . . . . 48
6.1.1 Análise Técnica das Abordagens de Geração de AD . . . . . . . 49
6.1.2 Sessão de Avaliação com Usuários . . . . . . . . . . . . . . . . . 52
6.2 Cenário de Uso 2: Aplicação em Vídeos de Vigilância . . . . . . . . . . 60
6.2.1 Análise Técnica da Qualidade de Geração de AD . . . . . . . . . 61
6.2.2 Avaliação do Desempenho de Geração de Audiodescrição . . . . 62
6.3 Discussões Sobre o Experimento e Resultados . . . . . . . . . . . . . . . 64
7 Conclusão 65
7.1 Propostas para Trabalhos Futuros . . . . . . . . . . . . . . . . . . . . . . 66
Referências bibliográficas 67
iv
Lista de Tabelas
v
Capítulo 1
Introdução
Pessoas com deficiência visual possuem alguma dificuldade para enxergar. Depen-
dendo do grau de severidade do problema, o indivíduo pode apresentar desde problemas
de limitação parcial da visão até a cegueira total, em que não consegue processar nenhuma
informação visual. Para pessoas com este problema, as experiências audiovisuais como o
cinema, o teatro, a televisão e a ópera, entre outras, são dificultadas principalmente pelas
barreiras encontradas na percepção de expressões gestuais, descrição de cenários e per-
sonagens, entre outros elementos que são essenciais na compreensão do conteúdo visual.
Para contornar ou suavizar este problema e a fim de melhorar a compreensão do conteúdo,
a audiodescrição surge como recurso de acessibilidade que foi desenvolvido para tornar a
informação visual acessível a pessoas com limitações no sentido da visão.
Neste contexto, o presente trabalho propõe uma solução para geração automática de
audiodescrição com base na detecção de eventos no vídeo, com o objetivo de melhorar o
acesso de pessoas com deficiência visual aos conteúdos essencialmente visuais, como os
filmes.
Este capítulo apresenta a motivação deste trabalho na Seção 1.1, define o tema, o
problema e a hipótese de pesquisa na Seção 1.2, as contribuições na Seção 1.3, a definição
do escopo do trabalho na Seção 1.4 e, por fim, na Seção 1.5 é apresentada a organização
deste documento.
1.1 Motivação
Grande parte das informações veiculadas atualmente utiliza um meio audiovisual para
transmiti-las. Em um cenário em que as pessoas dependem desse conteúdo audiovisual
como fonte de informação, deficientes visuais podem ser excluídos por causa das barreiras
que enfrentam ao acessar esse tipo de conteúdo.
De acordo com o censo demográfico do Instituto Brasileiro de Geografia e Estatística
(IBGE) de 2010 1 , no Brasil, cerca de 35,7 milhões de pessoas apresentam algum nível
de deficiência visual. Essa parcela representa cerca de 18,8% da população brasileira.
Além disso, o censo mostra que, dentre as deficiências investigadas em 2010, a deficiência
visual possui a maior incidência na população brasileira. Esses dados mostram que muitas
1 https://censo2010.ibge.gov.br/
CAPÍTULO 1. INTRODUÇÃO 2
automático usando qualquer uma das abordagens, em cenários que exigem a descrição em
tempo-real?
Os dois primeiros questionamentos tratam da integração de técnicas de inteligência
artificial para reconhecer automaticamente os elementos do vídeo, quando roteiro cine-
matográfico estiver disponível ou não, como forma de obter informações para elaborar a
audiodescrição. Neste sentido, torna-se este o fator em comum entre os questionamentos
e que centraliza a hipótese definida neste trabalho. O terceiro questionamento trata do ce-
nário de uso em relação ao tempo de geração da AD, que se apresenta como uma questão
de pesquisa que deve ser trabalhada como um desdobramento do problema central.
Diante desses aspectos e visando solucionar o problema em questão, formulamos o
seguinte questionamento central: quando profissionais não estiverem disponíveis, é pos-
sível gerar AD automaticamente a partir de técnicas de IA e de visão computacional?
Sendo assim, este trabalho foca na resolução deste questionamento central.
1.3 Contribuições
A principal contribuição deste trabalho é a proposta de uma solução para a geração
automática de audiodescrição para vídeos, com a possibilidade de usar informações ex-
traídas das seguintes fontes: I) roteiro e vídeo; e II) apenas vídeo, que possa ser utilizada
quando um profissional não estiver disponível ou como forma de otimizar o trabalho feito
por um humano. Assim, o produto do trabalho é um sistema para geração automática
de audiodescrição, visando diminuir as barreiras de acesso aos vídeos, sendo este um
problema enfrentado no dia a dia pelas pessoas com deficiência visual. Para que esta pro-
posta principal fosse completada, vários estudos foram desenvolvidos, que resultaram em
técnicas ou metodologias, ou em outras contribuições parciais, que também podem ser
consideradas como resultados da tese e foram implementadas ao longo do doutorado:
CAPÍTULO 1. INTRODUÇÃO 6
Além das contribuições técnicas e científicas acima, este trabalho deve contribuir tam-
bém no âmbito social com o desenvolvimento de uma solução tecnológica que pode re-
fletir na qualidade de vida e inclusão social das pessoas com deficiência visual, como
também, no incentivo e divulgação de pesquisas que promovam a acessibilidade.
Embasamento Teórico
Este capítulo apresenta os conceitos e definições das áreas que servem de base para
implementação deste trabalho. Inicialmente, na Seção 2.1, o conceito e as principais ca-
racterísticas da audiodescrição são apresentadas. A Seção 2.2 descreve as especificidades
da audiodescrição de vídeos. Em seguida, as Seções 2.3 e 2.4 apresentam definições
e descrições relevantes relacionadas às duas fontes de informações consideradas no sis-
tema: roteiro cinematográfico e o próprio vídeo. A Seção 2.3 apresenta os elementos
fundamentais que compõem o roteiro cinematográfico e o seu papel dentro da elabora-
ção da AD. Por fim, a Seção 2.4 apresenta os modelos de aprendizado profundo que são
aplicados para reconhecer elementos visuais diretamente no vídeo.
2.1 Audiodescrição
Este trabalho concentra-se na acessibilidade, partindo da ideia de que todas as pes-
soas devem ter as mesmas possibilidades de acesso às informações, especificamente, as
informações visuais. A ABNT relaciona o termo acessibilidade com a possibilidade de
qualquer pessoa, independente de condições físicas, perceptivas ou sociais, usufruir dos
benefícios da vida em sociedade, o que abrange atividades de entretenimento e informa-
tivas que apresentam conteúdos por meio visual.
O cinema, teatro, televisão, e ópera, entre outras, são tipos de entretenimento que
exemplificam essas atividades. Diante deste cenário, surge a necessidade de desenvolver
meios que promovam a acessibilidade desses conteúdos de forma atrativa e eficaz, levando
em consideração as diversas características e limitações que as pessoas possam possuir.
Pessoas que possuem deficiências visuais enfrentam, consequentemente, dificuldades
para participar de experiências que exijam a percepção de tal sentido. Considera-se de-
ficiência visual quando uma pessoa, de forma parcial ou total, não detém a capacidade
funcional da visão. De acordo com Flor (2009), o termo está referido a um problema
permanente, congênito ou adquirido, que não pode ser reparado por tratamentos clínicos
ou cirúrgicos. Essas pessoas apresentam os seguintes problemas: cegueira total, quando
objetos ou luminosidade são imperceptíveis; baixa visão, quando a acuidade visual é me-
nor que a de pessoas com visão normal; e daltonismo, quando não é possível distinguir
combinações ou pares de cores (Dias 2007, Quevedo & Ulbricht 2011).
Sendo assim, a audiodescrição (AD) apresenta-se como um recurso de acessibilidade
CAPÍTULO 2. EMBASAMENTO TEÓRICO 9
que proporciona às pessoas que possuem algum tipo de deficiência visual o acesso e
usufruto de conteúdos apresentados por meios audiovisuais.
De acordo com Motta (2019), a audiodescrição é um recurso que facilita o entendi-
mento de obras audiovisuais, transformando o que é visto, no que é ouvido. Em outras
palavras, é uma tradução que converte a informação visual em verbal, ou seja, audiodes-
creve o que é apresentado visualmente. Gagnon et al. (2009) apresentam a definição da
audiodescrição como sendo descrição narrativa dos principais elementos visuais de um
programa para que as pessoas com perda de visão sejam capazes de formar uma imagem
mental do que está ocorrendo na tela. Diferentemente de outras tecnologias que promo-
vem a acessibilidade, a audiodescrição não é um recurso a ser utilizado isoladamente,
deve ser vinculado ao produto visual (Nunes et al. 2011).
Em nível mundial, alguns modelos de criação da audiodescrição já foram elaborados
com a definição de critérios específicos para atender as necessidades das pessoas. O mo-
delo inglês, por exemplo, enfatiza a ambientação visual e características dos personagens,
resultando em uma descrição mais detalhada. Já no modelo espanhol, o foco da AD está
nas ações, com vocabulário mais simples e frases mais curtas (Alves et al. 2011). Em
nível nacional, o Brasil ainda não possui normas e modelos que definem as característi-
cas da audiodescrição. Pesquisas estão sendo feitas para propor um modelo baseado nos
modelos internacionais (Alves et al. 2011). Porém, ainda sem um consenso definido para
o contexto brasileiro.
houver silêncio. Esta etapa também envolve o consultor, que é uma pessoa cega
especializada em avaliar o roteiro e revisar a qualidade da AD;
• Gravação: a voz que reproduzirá a narração é escolhida. A escolha da voz deve se
basear na clareza, agradabilidade e em características específicas, como por exem-
plo o gênero adequado, para não ser confundida com outras vozes apresentadas no
filme. Após a escolha da voz, as falas da audiodescrição são gravadas, geralmente
em estúdio, com a presença de um diretor.
• Tratamento, Mixagem e Finalização: o áudio é tratado para eliminar qualquer
ruído que possa ter sido captado durante a gravação e é mixado com o som original
do filme. Por fim, o produto final é preparado no formato ideal ao solicitado.
Essas etapas do processo de produção manual da AD para vídeos serviram como base
na definição da solução apresentada neste trabalho. O sistema descrito neste trabalho trata
de todas as etapas supracitadas, partindo desde a decupagem até a entrega do conteúdo
com o áudio contendo as descrições. O sistema descrito no Capítulo 5 apresenta uma
solução para a geração automática de audiodescrição para vídeos.
e elementos textuais que fazem parte da história, como por exemplo, os nome de ruas e
créditos.
De acordo com Hurtado et al. (2010), alguns dos elementos visuais não-verbais que
são relevantes para a compreensão da narrativa e que devem ser levados em conta na
criação da audiodescrição são os seguintes:
Segundo Field (2001), um roteiro cinematográfico é uma história contada com ima-
gens, diálogos e descrições, localizada dentro de uma estrutura dramática. O roteiro pos-
sui elementos básicos dentro de sua estrutura como, por exemplo, pontos de viradas,
cenas, diálogos, personagens, ações, dentre outros. Todas as informações apresentadas
no roteiro servem como base para as filmagens. As informações podem variar no nível
de detalhe, mas geralmente são divididas em cenas que seguem uma ordem cronológica e
têm os seguintes elementos: A) Título da cena, nome da localização, localização espacial
(interna ou externa), localização temporal (dia ou noite) ; B) Nomes de personagens e diá-
logos; C) descrições de ações que ocorrem nas cenas, como mostra a Figura 2.2 (adaptada
de (Campos 2015)) .
A maioria das tarefas que consistem em mapear um vetor de entrada para um ve-
tor de saída e que são de fácil realização para uma pessoa, podem ser realizadas através
da aplicação de aprendizado profundado (Goodfellow et al. 2016). Os modelos de re-
des profundas são suficientemente robustos e, aliados aos grandes conjuntos de dados de
exemplos rotulados para treinamento, têm o seu potencial aumentado.
Nessa direção, as redes profundas surgem como uma forma de auxiliar a solucionar
esse problema de geração automática da AD, pois permitem lidar com grande quantidade
de dados e são capazes de representar dados bastante complexos. Como estamos tratando
de um problema que envolve visão computacional, reconhecimento de elementos de vídeo
e descrição de imagens e vídeo, a seguir serão apresentados os modelos mais utilizados
atualmente para esses tipos de tarefas.
convolução em vez da matriz geral, pelo menos em uma das suas camadas (Goodfellow
et al. 2016). Em processamento de imagens, a convolução é útil para detecção de bordas,
suavização de imagem, extração de características e etc, e esse é o procedimento utilizado
pelas redes para detectar características nas imagens.
Segundo Lecun et al. (2015), uma arquitetura típica de uma CNN é formada por uma
série de estágios que se repetem. Os estágios iniciais são formados pelas camadas de
convolução e de pooling.
A camada de convolução tem o objetivo de extrair características da entrada, preser-
vando a relação espacial entre pixels e aprendendo as características da imagem a partir
de pequenas áreas de dados da entrada. Cada camada busca na imagem algum tipo de
caraterística e, para isso, utiliza um filtro, representado por uma matriz, que desliza sobre
a imagem, gerando o mapa de características (feature map). A Figura 2.4 apresenta um
exemplo de matriz de convolução.
Além disso, após cada operação de convolução, a operação adicional chamada ReLUs
(Rectified Linear Units) é aplicada às saídas. ReLUs são apresentadas por neurônios com
função de ativação não-linear de acordo com a equação:
Portanto, uma CNN é formada por dois ou três estágios com as camadas de convo-
lução, de não-linearidade (RELU) e de pooling empilhadas, seguidas por camadas total-
mente conectadas para fazer a classificação (Lecun et al. 2015). A rede é treinada através
do algoritmo Backpropagation, o que permite que todos os pesos em todos os filtros das
camadas possam ser ajustados. A Figura 2.6, extraída de (Lecun et al. 1998), apresenta a
arquitetura de uma CNN, chamada LeNet-5, onde é possível identificar os tipos de cama-
das.
A Figura 2.7, retirada de (Lecun et al. 2015), mostra a estrutura de uma CNN utili-
zando uma imagem de um cão Samoyed como entrada (com os 3 canais RGB servindo
como entrada) e apresentando as saídas de cada camada. Cada imagem retangular é um
mapa de características (feature maps) correspondente à saída da camada e que repre-
senta uma das características aprendidas. Uma camada detecta a mesma característica em
cada uma das posições da imagem e cada camada busca por características diferentes. O
fluxo das informações dentro da rede ocorre, de acordo com a Figura 2.7, de baixo para
cima, com as características dos níveis mais baixos atuando como detectores de bordas
orientadas. Por fim, no topo da Figura 2.7, a saída da rede apresenta uma pontuação de
probabilidade que é calculada para cada classe de imagem.
Muitos trabalhos na literatura investigam a CNN no reconhecimento de elementos em
vídeo e é o modelo integrado à solução apresentada neste trabalho para fazer a extração
de informações diretamente do vídeo para a audiodescrição.
CAPÍTULO 2. EMBASAMENTO TEÓRICO 16
todos os artigos publicados até o ano de 2019. Com isso, a quantidade de artigos selecio-
nados passou a ser 46 no total. A Figura 3.1 apresenta a quantidade de artigos publicados
em cada ano.
Oliveira et al. (2016) propõem duas novas abordagens para a tradução audiovisual
voltadas para conteúdos de televisão: a audiodescrição colaborativa/espontânea e a lei-
tura automática de legendas. Em relação à audiodescrição colaborativa ou espontânea, é
utilizada uma abordagem co-participativa que aproveita as dinâmicas que frequentemente
ocorrem em domicílios, onde os deficientes se beneficiam com a tradução informal dos
conteúdos apresentados na TV feitas por parentes ou amigos. Seguindo esta prática, os
autores propõem a criação da AD a partir da gravação de áudio, em tempo real, das descri-
ções espontâneas geradas por algum colaborador não-profissional. Essas gravações irão
fazer parte de um repositório e outros deficientes poderiam acessá-las através de aplicativo
que fornece uma nova track de áudio contendo a AD. A segunda abordagem de criação é
a leitura automática de legendas, que tem o objetivo de deixar conteúdos de TV transmiti-
dos em línguas estrangeiras acessíveis às pessoas que não entendem um segundo idioma.
Neste caso, esta abordagem pode auxiliar os deficientes visuais a ter acesso ao conteúdo
da legenda, como também qualquer pessoa que não seja fluente no idioma estrangeiro
em questão. Para executar esta tarefa, a solução utiliza uma ferramenta TTS (text-to spe-
ech) ou técnicas de ORC (Optical Recognition Character). As duas abordagens foram
avaliadas por especialistas que consideraram a solução relevante, pois aborda conteúdos
no idioma nativo e estrangeiro. Já a abordagem colaborativa tem objetivo de aumentar a
oferta de audiodescrição para conteúdo de TV, porém necessita de um humano para criar
as descrições e, além disso, pode ocorrer problemas de sincronia entre os canais de áudio
da TV e da AD, uma vez que são gravações distintas. Já a abordagem automática, a partir
da legenda, contribui para o acesso a conteúdos estrangeiros, no entanto, se limita aos
diálogos do programa de TV, não fornecendo descrição das informações visuais.
Domingues et al. (2016) apresentam uma solução computacional para ser utilizada em
salas de cinema. A solução proposta é capaz de gerar automaticamente a audiodescrição
dos filmes e distribuir esses conteúdos, através de dispositivos móveis, para os usuários
cegos. Para isso, a solução propõe as etapas de comunicação com o player do cinema, de
geração automática da AD e de distribuição do conteúdo nos dispositivos. A comunicação
da solução com o player do cinema é feita através de um protocolo de troca de mensagens
e possui o objetivo de garantir a sincronia da AD com a exibição do filme. A solução
foi testada com usuários cegos para fazer um comparativo do nível de compreensão do
conteúdo em duas situações distintas: com e sem a solução durante a exibição do filme. Os
resultados mostraram que o sistema promoveu um aumento na compreensão dos eventos
do filmes quando comparado a usuários sem o recurso de acessibilidade. Desta forma,
o trabalho apresenta uma forma de tornar as salas de cinema acessíveis aos deficientes
visuais.
Calvo-Salamanca et al. (2016) apresentam um protótipo Web para acessar vídeos
com audiodescrição usando sintetizadores de voz. A solução tem uma arquitetura cliente-
servidor para a criação e acesso aos conteúdos acessíveis. A partir do cliente, é possível
informar o vídeo através de uma URL, editar, salvar e enviar as descrições, que serão
utilizadas para criar a AD através da ferramenta TTS. O servidor faz o controle e arma-
zenamento de todos os vídeos acessíveis e, através de uma requisição, o cliente poderá
ter acesso a URL para o vídeo original ou para a versão do vídeo com a AD embutida no
áudio original. O protótipo foi avaliado por um grupo de usuários em relação à usabili-
CAPÍTULO 3. REVISÃO SISTEMÁTICA DA LITERATURA 24
dade e acessibilidade. Os resultados mostraram que 60% dos usuários acharam a solução
fácil de ser utilizada e, dentro de uma escala SUS (System Usability Scale) de 1 a 35, a
pontuação da experiência foi de 23.47.
Uma outra plataforma que usa síntese de voz para adicionar audiodescrição à vídeos
on-line em qualquer site é proposta por Kobayashi et al. (2010). Através de ferramenta
text-to-speech – TTS, o roteiro de audiodescrição utilizado no formato de texto pode ser
convertido em áudio sem a necessidade de um audiodescritor-narrador. A arquitetura da
plataforma consiste de um editor de roteiro, um player de vídeo, um repositório de meta-
dados e um formato baseado em texto para comunicação entre os componentes. O editor
de roteiro fornece uma interface visual para editar as frases e especificar, na linha do
tempo, os instantes em que cada descrição deve ser lida. Além disso, permite modificar
os parâmetros da voz, tais como o gênero do narrador e a velocidade. Os roteiros de AD
criados são então armazenados e compartilhados em um repositório de metadados, que
é acessado pelo player do vídeo. Para avaliar a solução, experimentos com pessoas com
deficiências visuais foram realizados para verificar a aceitabilidade dos sintetizadores de
audiodescrição e, para isso, foram exibidos vídeos com audiodescrições em vários níveis
de qualidade da voz sintetizada, além de versão gravada por um narrador profissional
humano. Os resultados mostraram que sintetizadores de voz são aceitáveis e tem o poten-
cial de melhorar significativamente a experiência do usuário em relação a vídeos que não
apresentam AD.
Chapdelaine e Gagnon (2009) e Rocha Façanha et al. (2016) apresentam players de
vídeo adaptados para que pessoas com deficiência visual possam ter acesso à vídeos com
audiodescrição. O objetivo é facilitar a manipulação do vídeo e da AD com o uso de sin-
tetizadores de voz. Na solução proposta por Rocha Façanha et al. (2016), o ADVPlayer, o
roteiro de AD previamente elaborado de forma manual é passado ao software juntamente
com o vídeo. Em seguida, o sintetizador de voz é acionado e um sincronizador executa o
vídeo com a AD embutida. O usuário pode modificar parâmetros relacionados ao áudio
de acordo com a sua necessidade, como por exemplo a velocidade e o volume da AD. A
solução foi avaliada com 19 pessoas com deficiência visual, entre cegueira total e baixa
visão. Os resultados mostram que os participantes possuem uma alta satisfação e con-
fiança no uso da tecnologia de audiodescrição com síntese de voz, com altos níveis de
compreensão da informação. Já em Chapdelaine e Gagnon (2009), o player VDPlayer
fornece a audiodescrição em dois níveis de detalhes: 1) modo padrão, cujas descrições
são inseridas nas lacunas entre os diálogos; e 2) modo estendida, que utiliza toda a audio-
descrição produzida e que excede a duração das lacunas. A avaliação do software indicou
que 90% dos participantes consideraram que a seleção da opção entre vários tipos de
audiodescrição é uma funcionalidade muito relevante, tendo a versão estendida como a
preferencial.
O trabalho de Encelle, Beldame, e Prié (2013) aborda uma questão limitante da audi-
odescrição, que é o tempo disponível entre os diálogos para narrar as descrições. A so-
lução utiliza o uso de pausas artificiais em vídeos audiodescritos para aumentar o tempo
disponível para a narração e, consequentemente, disponibilizar mais informações na audi-
odescrição. A abordagem utilizada baseia-se em anotações de vídeo (video annotations)
para enriquecer o vídeo durante a reprodução. Os resultados da avaliação com usuários
CAPÍTULO 3. REVISÃO SISTEMÁTICA DA LITERATURA 25
como autora principal e é uma das publicações obtidas durante o período do doutorado.
Essa mesma solução de geração foi integrada em Domingues et al. (2016). A solução
apresentada por Domingues et al. (2016) realiza a geração do áudio e a distribuição da
audiodescrição, criada a partir do CineAD, em salas de cinemas, através de dispositivos
móveis
A camada intermediária (modelo textual) codifica o fluxo de features textuais gerado por
um determinado modelo de descrição de imagem. Por fim, a camada inferior codifica a
entrada de texto fornecida e a representação textual das imagens para gerar a descrição
final do vídeo. A solução foi avaliada com os datasets MSVD, MPII-MD e MSR-VTT,
todos consistindo de clips de vídeo curtos e com suas descrições. Em relação ao primeiro
dataset, a proposta obteve resultados parecidos com outras propostas mais clássicas. No
segundo dataset, os valores das métricas METEOR e ROUGE-L foram os melhores em
comparação com outras técnicas. Já no terceiro dataset, a proposta apresentou melhor
desempenho com os valores da métrica de 0.443, 0.321, 0.689 e 0.684, respectivamente.
Chen et al. (2017) apresentam uma solução para descrição de vídeos com a utiliza-
ção de modelos de deep learning, especificamente Recurrent Neural Network (RNN). O
modelo proposto faz a fusão das técnicas de Machine Translation, que inclui etapas de
codificação e decodificação para transformar a imagem em texto, com o mecanismo de
Soft Attention, para que o modelo neural foque em partes mais relevantes durante a ta-
refa de predição. Para isso, foi utilizado a detecção de objetos e de trajetórias de suas
coordenadas, sendo o próprio modelo quem toma a decisão de quais são as informações
necessárias para gerar a próxima palavra da frase, a partir das palavras anteriores e das
informações visuais codificadas. Para testar a solução, foi utilizado o dataset MSR-VTT,
que possui clips curtos de diversos gêneros e suas respectivas sentenças descritivas. A
solução foi avaliada a partir das métricas de comparação entre a descrição geradas e as
frases do dataset, além de métricas de avaliação humana relacionadas a coerência, rele-
vância e escala de ajuda aos cegos, com todos esses valores entre 1 a 5, sendo o maior
valor representando a melhor avaliação. As métricas BLEU4, METEOR, ROUGE-L, CI-
DER obtiveram os seguintes valores 0.344, 0.260, 0.584 e 0.367, respectivamente. Os
resultados das métricas mostram que a solução melhorou o desempenho em comparação
com os modelos RNN mais clássicos. Os profissionais avaliaram a coerência, relevância
e escala de ajuda com as respectivas notas 3.19, 2.75 e 2.8.
Bolaños et al. (2018) apresentam uma proposta de geração automática de descrição
de vídeos que possuem o ponto de vista de gravação de primeira pessoa, ou seja, quando
uma pessoa usa uma câmera para capturar seu quadro de visão. A metodologia utilizada
explora informações de eventos que ocorrem consecutivamente no tempo, pois considera
que os eventos de primeira pessoa, dentro do contexto de um dia, podem seguir uma rela-
ção temporalmente lógica em que ações anteriores podem influenciar nas seguintes. Para
isso, foi proposto um modelo capaz de capturar e aprender essa relação. Ao contrário das
abordagens tradicionais, o modelo consiste em pelo menos dois estágios de codificação:
um para a sequência do evento atual e outro (ou mais) para a sequência do evento anterior.
Além disso, possui um estágio de decodificação que combina as informações de todos os
estágios anteriores usando um LSTM de atenção de múltiplas entradas. Para avaliar a
proposta foi criado um dataset EDUB-SegDesc, contendo 1339 eventos e as respectivas
descrições, e calculada as métricas BLEU4, CIDEr e METEOR. Os valores obtidos foram
de 0.319, 0.221 e 0,107, respectivamente. Esses resultados apresentaram melhor desem-
penho quando comparado a outras técnicas que não consideram informações temporais
de eventos diferentes.
CAPÍTULO 3. REVISÃO SISTEMÁTICA DA LITERATURA 29
Foco na Acessibilidade
Essas soluções descritas acima propõem a geração de descrição comum de vídeos, no
entanto, não são voltadas para a audiodescrição especificamente. O objetivo dos trabalhos
é a descrição de vídeos, porém foram usados com vídeos com curta duração (segundos),
a geração do áudio é desconsiderada, não há verificação de sincronia, não há adequa-
ção da linguagem, nem geração da narração, que são aspectos esses relevantes para a
acessibilidade do conteúdo. Outros trabalhos propõem a criação do áudio e estão mais
inseridos no contexto de acessibilidade (Campos et al. 2017, Perera et al. 2017, Karkar
et al. 2018, Gagnon et al. 2009).
Campos et al. (2017) apresenta uma solução de geração de AD para vídeos de vi-
gilância, com o objetivo de narrar as informações visuais detectadas nesse tipo de vídeo
a usuários com deficiências visuais, como por exemplo a presença de objetos e pessoas.
A solução faz a detecção desses elementos diretamente dos frames do vídeo, através da
aplicação de técnicas de deep learning, especificamente o modelo CNN. Dentre todas as
detecções, são consideradas apenas aquelas que se repetem durante um intervalo de 60
segundos. Em seguida, a solução gera uma sentença do tipo “Imagem mostra. . . ”, com
complementação da lista de elementos detectados, por exemplo, “Imagem mostra 1 pes-
soa, 1 carro.”. Essas sentenças formadas são encaminhadas para uma ferramenta de TTS
para criação do áudio da AD. A avaliação da solução foi feita a partir da análise técnica
da taxa de acerto do reconhecimento dos elementos, o tamanho das descrições geradas, a
quantidade de objetos/pessoas detectadas e o tempo total da AD. Os resultados mostram
que a solução tem potencial para auxiliar pessoas com deficiência visual, no entanto a
versão apresentada não foi aplicada no contexto de tempo-real. Este artigo possui a can-
didata desta tese como autora principal e é uma das publicações obtidas durante o período
do doutorado.
O processo de reconhecimento de objetos em vídeo também é abordado em Karkar
et al. (2018). O trabalho apresenta uma solução para dispositivos móveis que reconhece
objetos presentes em uma cena, apresentada por imagem ou vídeo, e disponibiliza essa
informação em formato de áudio para o usuário. A solução consiste de um aplicativo bi-
língue para celular que faz a aplicação de um modelo de rede neural convolucional (CNN)
para reconhecer objetos em tempo real e apresentar as informações em dois idiomas dis-
tintos: inglês e árabe. Os autores informam que o aplicativo móvel pode ser estendido
para dar suporte adicional às tecnologias de e-Learning e aos jogos de entretenimento
educativo, no entanto, o artigo não apresenta avaliações da solução.
Já Perera et al. (2017) propõe um sistema de descrição de vídeo que faz a classifi-
cação de uma ação humana e fornece esta informação para o usuário através de áudio, a
partir de uma ferramenta Text-to-Speech. O sistema possui 3 camadas. A primeira é uma
interface com o usuário, onde ele pode selecionar o clip de vídeo e ter acesso ao áudio
correspondente ao resultado da classificação. A segunda camada é a camada de aplica-
ção, responsável pela classificação da ação humana presente no vídeo através de SVM
(Support Vector Machine) e da chamada do sintetizador de voz. Por fim, a última camada
armazena os dados de treinamento do classificador. Os experimentos consistiram da ava-
liação de classificação de 54 vídeos de testes, com uma ação por vídeo, de 6 atividades
humanas: agachar, pular, correr, andar, acenar e apertar mãos. O resultado do treinamento
CAPÍTULO 3. REVISÃO SISTEMÁTICA DA LITERATURA 30
Áudio,
Roteiro de AD
Vídeo,
Roteiro Cinematográfico, Canal Separado, Vídeo, Automática, Previamente gerada,
Solução Proposta Automático Áudio,
Vídeo Canal Original TV Com usuários Tempo-real
Roteiro de AD
32
Capítulo 4
Formalização do Modelo de
Audiodescrição
4.1 Definições
Um filme apresenta muitos elementos que são importantes para audiodescrição. Entre
esses elementos, os intervalos sem falas, os elementos não-verbais e as fontes de infor-
mações, roteiro cinematográfico e vídeo, são considerados essenciais para o problema de
geração automática. A seguir descreveremos cada um deles.
4.1.3 Roteiro
O roteiro cinematográfico comporta vários tipos de informações sobre a história, a
montagem e a gravação de um filme. De acordo com Field (2001), um roteiro é uma
história contada com imagens e que contém todas as informações sobre um filme, ser-
vindo como base para a filmagem. As informações podem variar no nível de detalhe, mas
geralmente são divididas em cenas que seguem uma ordem cronológica e têm os seguin-
tes elementos: A) Título da cena, nome da localização, localização espacial (interna ou
externa), localização temporal (dia ou noite) ; B) Nomes de personagens e diálogos; C)
descrições de ações que ocorrem nas cenas.
Essas informações do roteiro pode ser relacionados com os elementos da audiodes-
crição. A Tabela 4.1 apresenta o tipo de informação que pode ser obtida do roteiro para
formar a AD.
4.1.4 Vídeo
Um filme pode apresentar muitas informações visuais relevantes para a audiodescri-
ção. De acordo com Hurtado et al. (2010), os estudos de cinema definem um filme como
um produto audiovisual com a câmera construindo um espaço textual, ou seja, a câmera
age como uma linguagem. Assim como toda linguagem, que apresenta níveis sintáticos,
morfológicos e semânticos, a representação de um filme gerada pela câmera apresenta ca-
madas dentro desse processo de construção da comunicação, com os seguintes elementos:
Esses elementos que formam um contexto podem ser qualquer evento, item ou pes-
soa que possa ser detectada nos frames do filme. Desse modo, esse tipo de análise do
vídeo pode fornecer informações relacionadas aos três elementos não-verbais para a AD:
personagem, ambientação e ação.
O contexto poderá ser obtido a partir de uma análise dos elementos em relação a eles
próprios, nas seguintes questões: 1) recorrência de um mesmo elemento em instantes
sequenciais de tempo t do vídeo; 2) Co-ocorrência de elementos em um mesmo instante t
de tempo;
Para cada fala da legenda (subtitlen ), o gap =< ti ,t f > recebe os seguintes valores:
tipo de informação que será apresentada na audiodescrição. Como por exemplo, gerar um
roteiro apenas com ações; ou gerar um com mais informações sobre os cenários; ou até
mesmo se utiliza apenas o roteiro, roteiro/vídeo ou apenas o vídeo como base.
Em um segundo cenário, é considerada a utilização de informações de ambas fontes,
tendo o roteiro como base e o vídeo como agregador de informações para complementar
as descrições. Em outras palavras, temos as ações do roteiros como ak e as informações do
vídeo para complementar as informações sobre personagem pi , ambiente e j e até mesmo
da própria ação ak .
Por fim, no terceiro cenário, apenas o vídeo é analisado com o objetivo de obter in-
formações de contexto ou elementos detectados que estão relacionados a qualquer dos
elementos visuais não-verbais da AD: personagem pi , ambiente e j e ações ak .
Como resultado final dessa tarefa, temos uma lista de gaps e as informações de cada
intervalo de tempo. A Figura 4.3 mostra um exemplo de alguns gaps e as ações que
ocorrem na sua duração.
Implementação
De acordo com a Figura 5.1, a solução concentra toda informação sobre um vídeo em
uma base de dados, especificamente sobre detalhes de personagens, ambientes e ações,
CAPÍTULO 5. IMPLEMENTAÇÃO 40
5.2.1 Roteiro
Em relação ao roteiro, o componente realiza a leitura e extração dos elementos conti-
dos no texto, como títulos de cena, ações, diálogos e personagens. Essa extração é feita
através de um Parser, definido no trabalho anterior (Campos 2015), que verifica cada
texto com o seu respectivo rótulo identificador dentro do arquivo do roteiro.
Para que esta tarefa seja executada de forma automática, o roteiro deve estar em for-
mato digital para permitir a identificação e anotação de seus elementos constituintes.
Desta forma, as ações presentes no texto são rotuladas como <ação>, os diálogos como
<diálogo> e da mesma forma com os outros elementos. Existem no mercado softwares
CAPÍTULO 5. IMPLEMENTAÇÃO 41
específicos para edição de roteiros que possuem estas características, como por exemplo
o Final Draft 1 e Celtx 2 , sendo este último o software escolhido para ser utilizado neste
trabalho.
A saída desse processo de leitura e extração, como resultado final apresentado pelo
componente, é um grupo de elementos ordenados cronologicamente na sequência do ro-
teiro original e dentro do esquema de dados apresentados na Seção 4.1.3. A implementa-
ção deste componente foi feita na linguagem de programação Java e com a utilização do
framework para processamento de texto, o Apache Lucene 3 .
5.2.2 Vídeo
Em relação ao sistema proposto nesta pesquisa, a ideia é possibilitar a integração de
técnicas de aprendizado profundo para a detecção de elementos visuais, visando a adição
de novas informações sobre o vídeo que será descrito. Essas informações visuais automa-
ticamente detectadas podem tornar as descrições mais fáceis e fornecer mais opções de
detalhes para a criação da audiodescrição, mesmo quando o roteiro cinematográfico não
estiver disponível.
Para isso, o componente deve realizar duas etapas: 1) extração de features; 2) detecção
de elementos. O objetivo da extração de features é extrair informações relevantes para a
análise do vídeo e que facilite a etapa de detecção. Este módulo foi implementado na
solução proposta para fazer a extração dos quadros do vídeo, a partir de uma taxa de
quadros por segundo.
A segunda etapa é a detecção de elementos realizada através da aplicação de redes
de aprendizado profundo para reconhecer elementos visuais presentes nos quadros do
vídeo. A arquitetura da solução proposta permite a integração de múltiplas técnicas de
aprendizagem profunda para extrair vários tipos de informações diretamente do vídeo e,
consequentemente, alimentar a base de dados com o conteúdo extraído.
De acordo com as definições da Seção 4.2, o primeiro nível de análise do vídeo é a
detecção de elementos individuais. A solução proposta neste trabalho investiga os ele-
mentos que estão dispostos nesse primeiro nível, focando especificamente na detecção de
objetos e pessoas que estão presentes na cena. Essas detecções irão formar os contextos Ct
do filme no decorrer do tempo. Para isso, foi feita a escolha de integrar modelos de redes
CNN com o propósito de detecção desses elementos visuais. Além disso, como a arqui-
tetura da solução permite a integração de múltiplas técnicas de aprendizagem profunda,
dois modelos distintos de CNN foram integrados à solução para realizar a detecção de ob-
jetos nos quadros do vídeo em duas situações: 1) detecção de 1 único objeto por quadro;
2) detecção de múltiplos objetos por quadro.
No primeiro caso, detecção de 1 objeto por quadro, os objetos são classificados a
partir de um modelo de Rede Neural Convolucional já conhecido, chamado GoogLenet,
treinado com a base de imagens Imagenet 4 . A implementação do modelo foi feita através
1 https://www.finaldraft.com/
2 https://www.celtx.com/index.html
3 http://lucene.apache.org/core/
4 http://www.image-net.org/challenges/LSVRC/
CAPÍTULO 5. IMPLEMENTAÇÃO 42
do framework Caffe 5 , que fornece um modelo que trabalha com os seguintes valores
de acurácia: 0,687 para Top-1 ad 0,90 para Top-5. Basicamente, para fazer a detecção,
o vídeo é convertido em uma sequência de quadros e cada quadro é inserido na rede
GoogLenet para verificar a classificação do objeto contida na imagem de referência. Para
cada quadro é obtida uma classificação de objeto. Ao executar essa mesma tarefa em toda
a sequência de quadros, geramos uma lista de todos os objetos reconhecidos, sendo então
armazenados no banco de dados como elementos de descrição de um ambiente e j . Um
exemplo desta classificação com a GoogLenet gerado a partir do componente de extração
pode ser visto no Youtube em https://youtu.be/Xybhydi6oq0.
O segundo caso explorado foi a detecção de múltiplos objetos em cada quadro vídeo.
Para conseguir isso, foi utilizado um algoritmo de aprendizado profundo chamado YOLO
(Redmon & Farhadi 2016). A YOLO é uma rede profunda, variante do modelo clássico
da CNN, capaz de detectar eficientemente vários objetos nos quadros do vídeo. A rede
foi treinada com uma combinação de dois conjuntos de dados: o conjunto de dados de
detecção COCO e o ImageNet. Através desta rede, é possível detectar vários objetos que
compõem a cena apresentada em cada quadro do vídeo. Como resultado, temos para cada
quadro uma lista de objetos detectados e a taxa de confiança de detecção de cada um. Um
exemplo gerado pelo componente de extração com a detecção de múltiplos objetos nos
quadros de um vídeo pode ser visto no Youtube em https://youtu.be/DQVorKOqSGY.
de interesse que irão compor a AD. Isso é necessário porque essas escolhas vão impactar
diretamente na quantidade de informações determinadas, no tipo de frase que será apre-
sentada e no tempo de narração necessário. Desta forma, o componente deve assumir
comportamentos diferentes para essas tarefas com o objetivo de adequar a audiodescrição
ao que está sendo solicitado.
Com o objetivo de construir provas de conceito da solução proposta, foram implemen-
tadas duas metodologias para a geração automática de audiodescrição, de acordo com as
fontes de informações utilizadas: I) AD baseada nas informações do roteiro e do vídeo;
II) AD baseada apenas nas informações do vídeo. As duas metodologias desenvolvidas
serão apresentadas nas seções a seguir.
qteob jetos
score = (5.1)
numero_palavras_sentenca
onde qteob jetos representa o número de objetos citados na ação e numero_palavras_sentenca
representa o número de palavras na frase.
Assim, cada ação candidata terá uma pontuação de importância e só fará parte da
audiodescrição aquelas que possuírem os maiores valores de importância. Desta forma,
esse método aproveita a formação da sentença que representa a ação do roteiro, utilizando
as informações visuais detectadas como fator de decisão.
Com isso, as sentenças são criadas a partir das formações apresentadas acima. A
escolha da formação utilizada em cada frase é feita de forma aleatória entre as três opções
disponíveis, durante todo o decorrer do vídeo. No entanto, nem sempre é possível citar
todos os objetos detectados pela rede Yolo, devido à limitação de tempo, de modo que
apenas os objetos que são detectados com uma taxa de confiança acima de 60% e que são
repetidos em um intervalo de 2 segundos são adicionados nas frases.
Esse intervalo de 2 segundos é definido porque as cenas de filme geralmente não
mostram muitas mudanças em um curto espaço de tempo e a audiodescrição funciona
com tempo disponível limitado. A escolha do limiar de confiança no valor de 60% ocorreu
devido à observação durante os experimentos iniciais, em que ocorriam falsos positivos
em detecções com taxa de confiança mais baixa, portanto, foi definido o limite mínimo
de confiança.
CAPÍTULO 5. IMPLEMENTAÇÃO 46
Além disso, uma verificação é feita em frases vizinhas para conferir se elas citam os
mesmos objetos e quantidades. Caso isso aconteça, as frases são consideradas iguais,
ou seja, pertencem ao mesmo contexto do filme, então a segunda é excluída para evitar
sobrecarga no áudio. Por fim, o roteiro de AD contém várias frases padronizadas ao longo
do vídeo para descrever os elementos identificados nas cenas.
a partir de objetos detectados nos quadros do vídeo. No segundo caso, as descrições citam
múltiplos objetos detectados nas cenas do vídeo.
Essas metodologias foram elaboradas para exemplificar comportamentos distintos,
com base em fontes de informações diferentes, mostrando que a solução pode se adaptar
a diversos tipos de contextos.
A aplicação dessas metodologias é feita em dois cenários de usos distintos de vídeo
digital: filmes de ficção e vídeos de vigilância. O capítulo a seguir descreve os expe-
rimentos realizados para avaliar a solução, além de apresentar e discutir os resultados
obtidos.
Capítulo 6
Experimento e Resultados
compreensão geral do contexto do vídeo, uma vez que esses elementos detectados, apesar
de não apresentar amplas informações sobre o enredo, podem fornecer informações sobre
o contexto da história aos usuários. Cada uma das duas etapas de avaliação será descrita
nas seções a seguir.
Vídeo 1 Vídeo 2
Duração do Vídeo 05m29s 05m43s
No de ações no roteiro 35 83
% tempo com diálogos 23,8% 32,7%
Vídeo 1 Vídeo 2
Classificação correta de objetos no vídeo 22,05% 30%
No de objetos reconhecidos 89 60
No de objetos reconhecidos
14 13
que estão presentes no roteiro
CAPÍTULO 6. EXPERIMENTO E RESULTADOS 50
A GoogLenet reconheceu corretamente objetos que realmente estão presentes nas ima-
gens em 22,05% dos frames do Vídeo 1 e 30% dos frames do Vídeo 2. Com relação à
associação entre a classificação da rede neural e o roteiro, considerando um objeto para
cada frame do vídeo, a GoogLenet reconheceu 89 objetos diferentes para o Vídeo 1, onde
14 deles estão presentes em ações do roteiro. Isto implica que 15,7% dos objetos iden-
tificados estão explicitamente citados no roteiro. Para o Vídeo 2, 60 objetos diferentes
são classificados ao longo da sequência do vídeo, com 13 deles citados no roteiro, que
representa 21,6% dos objetos.
Todos os objetos citados nas ações do roteiro, 14 para o Vídeo 1 e 13 para o Vídeo 2,
são classificados corretamente no vídeo. No entanto, alguns objetos corretamente reco-
nhecidos não estão presentes nas ações, devido às inconsistências que o roteiro pode ter
em relação ao filme, uma vez que o vídeo é gravado depois da escrita do roteiro. Por outro
lado, se um objeto é reconhecido no vídeo e citado no roteiro, ele tem o grande potencial
de ser importante para eventos significativos na história. Assim, podemos excluir ações
que não contenham esses objetos proeminentes e que podem ser insignificantes.
Esse comportamento pode ser visto na análise do roteiro de AD resultante. A Tabela
6.3 apresenta esses resultados e uma comparação com a geração baseada apenas no ro-
teiro, que usa a extração de ações a partir das palavras mais frequentes (Campos 2015).
Um exemplo do roteiro de AD, em português brasileiro, gerado usando este protótipo
atual pode ser visto em <https://youtu.be/1gCa98fRnag>.
Tabela 6.3: Comparação entre os Tipos de Roteiros de AD
Vídeo 1 Vídeo 2
No de ações 20 45
AD-ações (apenas roteiro)
% Tempo 45,41 44,63
No de ações 14 36
AD-ações/objetos (roteiro e vídeo)
% Tempo 32,52 39,35
que o tempo livre total, a fim de evitar uma sobrecarga de informação sobre as pessoas e,
como consequência, não tornar a compreensão da história mais difícil.
Vídeo 1 Vídeo 2
No de detecções 17413 13362
No de objetos detectados 50 58
Taxa de acerto nas detecções 67% 44%
Durante todo o vídeo, a rede detectou 17.413 objetos no Vídeo 1 e 13.362 no Vídeo 2.
Muitos objetos foram detectados no mesmo quadro e muitas dessas detecções também se
repetem à medida que a sequência dos quadros continua. Todas as detecções no Vídeo 1
estão relacionadas a 50 objetos diferentes e no Vídeo 2 a 58 objetos diferentes.
A diferença entre o número de detecções e o número de tipos de objetos ocorre devido
ao fato de que um objeto é geralmente parte de algum cenário repetitivo ou algum perso-
nagem principal, aparecendo assim várias vezes durante a história. A taxa de detecção de
objetos correta foi 67% no Vídeo 1 e 44% no Vídeo 2.
Os roteiros de AD gerados usando os vários objetos detectados no vídeo têm as ca-
racterísticas apresentadas na Tabela 6.5. Um exemplo do script AD gerado usando esta
implementação pode ser visto em: <https://youtu.be/g9Llbyfqmu4>).
Tabela 6.5: Resultados dos Roteiros de AD Gerados com Base Apenas em Vídeo.
Vídeo 1 Vídeo 2
No de sentenças 72 64
No de objetos citados 12 22
%Time 43,7% 37,3%
Para o Vídeo 1, 72 frases são usadas destacando 12 objetos detectados e cada frase
cita de 1 a 5 objetos por vez. No Vídeo 2, 64 frases são usadas destacando 22 objetos e
as frases citam de 1 a 4 objetos de cada vez. A audiodescrição do primeiro filme ocupa
43,7% do vídeo e a do segundo filme ocupa 37,3%.
Em ambos filmes, a detecção de pessoas no vídeo é bastante recorrente e é um dos
elementos mais presentes nos roteiros de AD. Além disso, a diferença entre o número de
objetos citados na AD e o número de objetos detectados pela rede é alta devido à taxa
CAPÍTULO 6. EXPERIMENTO E RESULTADOS 52
audiodescrição que os usuários consomem durante uma semana, a grande maioria afirmou
que não consume vídeos com audiodescrição, correspondendo a 63,6%, 9,1% consome
menos de um hora, 18,2% entre 1 a 5 horas e 9,1% acima de 10 horas.
em 85,13 pontos percentuais a taxa total de acerto. Para verificar se a diferença entre as
médias dos grupos Sem AD e AD baseada no roteiro e vídeo é estatisticamente signifi-
cante, foi aplicado um t-test. Para isso, foi considerada a hipótese nula de que não há
diferença entre as médias e a hipótese alternativa de que as médias são estatisticamente
diferentes. O intervalo de confiança considerado foi de 95% e 14 graus de liberdade. Os
resultados do t-test são apresentado na Tabela 6.6.
Tabela 6.6: Resultado do t-test entre as Médias dos Grupos Sem AD e AD com Base em
Roteiro e Vídeo.
O p-valor obtido para o teste foi de 0,0000000141. Como o p-valor é menor do que
ou igual ao nível de significância (0,05), é possível concluir que a hipótese nula deve ser
rejeitada. Com esta conclusão, pode-se afirmar que a diferença entre as médias dos grupos
sem AD e AD com base em roteiro e vídeo é de fato estatisticamente significativa.
Já em comparação com o grupo com AD baseada apenas em roteiro cinematográfico,
a diferença foi mais discreta. Em relação ao Vídeo 1, a diferença foi de 1,8 ponto percen-
tual, enquanto que, para o Vídeo 2, foi um pouco maior com 5.13 pontos percentuais de
diferença. No total, a taxa de acerto aumentou em 3,47 pontos percentuais se comparar à
AD gerada a partir do roteiro e vídeo em relação à AD apenas pelo roteiro cinematográ-
fico.
Um t-test também foi aplicado para verificar se a diferença entre as médias dos grupos
AD baseada apenas em roteiro e AD baseada no roteiro e vídeo é estatisticamente signi-
CAPÍTULO 6. EXPERIMENTO E RESULTADOS 55
ficante. Da mesma forma que o teste anterior, foi considerada a hipótese nula de que não
há diferença entre as médias e a hipótese alternativa de que as médias são estatisticamente
diferentes. O intervalo de confiança considerado foi de 95%. Os resultados do t-test são
apresentado na Tabela 6.7.
Tabela 6.7: Resultado do t-test entre as Médias dos Grupos Sem AD e AD com Base em
Roteiro e Vídeo.
O p-valor obtido para o teste foi de 0,675433953. Como o p-valor é maior do que o
nível de significância (0,05), não é possível rejeitar a hipótese nula. Com esta conclusão,
não é possível afirmar que há diferença estatisticamente significante entre as duas médias.
A Figura 6.3 apresenta uma representação dos dados de resultados em um gráfico Box
Plot. De acordo com a Figura 6.3, os usuários que assistiram aos filmes com a AD ge-
rada apenas pelo roteiro e com a AD gerada pelo roteiro e vídeo apresentam desempenho
semelhante e superior ao grupo sem audiodescrição. Para o grupo com os filmes sem audi-
odescrição, os valores mínimo, primeiro e terceiro quartil foram de 10% e o valor máximo
de 30%. Para o grupo que assistiu os filmes com AD gerada apenas pelo roteiro, os va-
lores mínimo, do primeiro, terceiro quartil e o máximo foram, respectivamente, de 50%,
52.5%, 80% e 90%. Para o grupo que assistiu os filmes com AD gerada pelo roteiro e
vídeo, os valores mínimo, do primeiro, terceiro quartil e máximo foram, respectivamente,
de 50%, 60%, 80% e 90%.
Essa diferença das taxas de acertos entre ambas versões que utilizam o roteiro não
são estatisticamente relevantes, porém, esses resultados podem indicar que a abordagem
CAPÍTULO 6. EXPERIMENTO E RESULTADOS 56
De acordo com a Tabela 6.8, o Vídeo 3 contém 7 cenas, 39 diálogos e uma duração de
13 minutos e 52 segundos. Já o Vídeo 4 possui duração de 14 minutos e 34 segundos, 26
cenas e 55 diálogos.
A avaliação foi realizada da seguinte forma. Após a exibição de cada um dos vídeos
de teste (Vídeo 3 e Vídeo 4), os usuários foram convidados a responder a Parte 3 do ques-
tionário (Apêndice C), contendo questões relacionadas ao conteúdo visual apresentado
(AD automática baseada apenas no vídeo). O propósito das perguntas era avaliar se os
usuários com deficiência visual conseguiram compreender o contexto geral do vídeo, o
ambiente onde a história estava inserida, além de outras informações relevantes ao con-
texto como, por exemplo, informações relacionadas aos personagens e ao horário em que
a história acontecia.
Em relação ao Vídeo 3, todos os usuários apresentaram uma descrição geral adequada
sobre a história. Especificamente, cinco usuários apresentaram mais detalhes sobre a his-
tória, incluindo informações particulares sobre os personagens, enquanto cinco usuários
CAPÍTULO 6. EXPERIMENTO E RESULTADOS 57
apresentaram descrições mais resumidas. Apenas um usuário não apresentou uma descri-
ção geral da história. A Figura 6.4a apresenta a porcentagem para cada tipo de resposta
em relação à compreensão da história.
Com relação ao local em que a história acontece, seis usuários descreveram correta-
mente o ambiente, dois descreveram o ambiente incorretamente e três usuários respon-
deram que não conseguiram identificar o ambiente. Além disso, dos seis usuários que
descreveram o ambiente corretamente, dois deles reportaram que não tinham certeza se a
descrição do ambiente era realmente essa. A Figura 6.4b apresenta a porcentagem para
cada tipo de resposta em relação à localização espacial.
Com relação aos personagens, todos os usuários informaram corretamente a quanti-
dade total de personagens, identificando também o gênero. Por fim, em relação ao tempo
do dia em que a história acontece, nove usuários identificaram corretamente que a histó-
ria se passava durante o dia, enquanto que dois usuários reportaram que não conseguiram
identificar o horário em que a história se passava. A Figura 6.4c apresenta a porcentagem
para cada tipo de resposta em relação à localização temporal.
A Tabela 6.9 apresenta a taxa de acerto para cada categoria avaliada em relação ao
Vídeo 3.
Vídeo 3
Compreensão da História 90.9%
Identificação dos Personagens 100%
Compreensão da Localização Espacial 54%
Compreensão da Localização Temporal 81,81%
temporal.
A Tabela 6.10 apresenta a taxa de acerto para cada categoria avaliada em relação ao
Vídeo 4.
Os resultados obtidos com a avaliação mostram que a maior parte dos usuários foi
capaz de compreender corretamente os aspectos gerais da história. No entanto, alguns
usuários tiveram dificuldades com a identificação dos ambientes e dos horários.
CAPÍTULO 6. EXPERIMENTO E RESULTADOS 59
Vídeo 4
Compreensão da História 90.9%
Identificação dos Personagens 100%
Compreensão da Localização Espacial 90.9%
Compreensão da Localização Temporal 63.3%
direção certa, pois poderia ser uma opção para um deficiente visual ter acesso a mais al-
gumas informações. Esses resultados reforçam a tese apresentada neste trabalho de que
é possível gerar audiodescrição automática através da análise do vídeo e da aplicação de
técnicas de inteligência artificial. No entanto, várias lacunas de informação são reporta-
das pelos comentários indicando que a audiodescrição mais adequada deve ser composta
por mais informações sobre o vídeo. Devido a isso, uma das propostas de trabalhos futu-
ros é continuar investigando estratégias para melhorar a descrição dos cenários e prover
descrições mais detalhadas sobre os personagens e ações.
frames de vídeo. A Figura 6.7 apresenta exemplos de algumas sentenças das ADs geradas.
Um exemplo de vídeo com a AD gerada usando esta implementação pode ser visto no
Youtube: https://youtu.be/pARLYofUx2g .
A avaliação foi feita em relação a dois aspectos que são apresentados a seguir: análise
técnica da qualidade da geração e uma avaliação de desempenho da geração.
%
Detecção correta de objetos (approx) 85,1%
Detecção de Pessoa entre todos os objetos 77,66%
De todos os tipos de objetos nos quais a rede foi treinada, o mais frequente foi o
elemento "pessoa". Considerando todas as detecções, 77,66% dos elementos detectados
no vídeo foram classificados como "Pessoa". No contexto da vigilância, a detecção de
pessoas em um ambiente pode ser considerada uma tarefa de grande importância, uma
vez que uma pessoa pode ser um intruso, dependendo do contexto.
Em relação à geração de AD, foram geradas 44 audiodescrições, uma para cada clipe
no conjunto de dados. A Tabela 6.12 mostra os resultados obtidos.
Considerando todas as audiodescrições geradas, o tamanho médio da sentença foi de
5,58 palavras por sentença. Esta quantidade leva em conta a parte das sentenças que são
CAPÍTULO 6. EXPERIMENTO E RESULTADOS 62
Média
Tamanho da sentença da AD 5,58 palavras
Número de objetos/sentença 1,84
Tempo para narração 2,03 segundos
estáticas, como por exemplo o trecho "Imagem mostra ...", acrescentando os objetos e
suas quantidades detectadas no quadro.
O tamanho da frase depende diretamente do número de objetos que foram detectados.
No entanto, frases muito grandes devem ser evitadas para não sobrecarregar o usuário
com muita informação que pode não ser precisa. Por isso, foi definido o limiar da taxa
de precisão do reconhecimento em 60%, como uma maneira de controlar esse problema.
Usando esta forma de controle, o número médio de objetos por sentença foi de 1,84
objetos.
Em relação à narração gerada pelo sintetizador de voz, o tempo médio de áudio para
cada frase na AD foi 2,03 segundos. De acordo com Araujo (2006), a quantidade de
palavras que podem ser narradas dentro de um intervalo de tempo é de 3 palavras por
segundo. A solução proposta gera AD a cada 60 quadros, aproximadamente 2 segundos.
Usando o parâmetro 3 palavras/segundo, a frase AD deve ter um máximo de 6 palavras
a cada 2 segundos. O número médio de palavras obtidas nos experimentos foi de 5,58
palavras por sentença e o tempo médio de narração foi de 2,03 segundos. Apesar da
diferença de 0,03 entre o tempo de narração ideal e o obtido pelo sistema, nossa solução
gera a AD de forma satisfatória dentro dos limites dos parâmetros utilizados como base.
Conclusão
Este trabalho apresenta uma proposta para a geração automática de roteiro de audi-
odescrição para vídeos. O objetivo do trabalho é propor uma solução para diminuir as
barreiras de acessibilidade a conteúdos audiovisuais enfrentadas pelos deficientes visuais.
A solução contempla a extração de informação sobre a história do filme através da
análise de roteiro e do processamento de vídeo, armazenando tudo em uma base de dados
que pode ser verificada para a geração de AD adaptada à disponibilidade das fontes de
informação e do tipo de audiodescrição que se deseja obter.
Com relação às informações utilizadas para gerar a AD, o modelo de solução foi de-
senvolvido em duas perspectivas: I) Utilizando o roteiro e o vídeo; II) Utilizando apenas
o vídeo. A arquitetura da solução permite a integração de técnicas de processamento de
linguagem natural para extração de informações do texto do roteiro e modelos de apren-
dizado profundo para detecção e reconhecimento de elementos do vídeo. Como prova de
conceito da solução, foram desenvolvidas duas abordagens de geração: I) com base nas
ações do roteiro e objetos reconhecidos no vídeo; II) com base nos objetos que compõem
a cena reconhecidos automaticamente.
A solução foi aplicada em dois cenários de uso: 1) filmes de ficção, com a utilização
das duas abordagens de geração (roteiro/vídeo e apenas vídeo); 2) vídeos de vigilância,
apenas com a abordagem que utiliza unicamente o vídeo.
O sistema foi avaliado em relação à qualidade da audiodescrição gerada e ao desem-
penho no tempo de resposta. Para avaliação da qualidade das descrições, foi realizado
um conjunto de teste com um grupo de onze usuários cegos, cujo objetivo era avaliar se
os usuários eram capazes de compreender o contexto geral da história quando assistam
a vídeos com as ADs geradas pela solução proposta. Em relação ao desempenho, foi
calculado o tempo de atraso que cada componente tem ao ser executado.
Os resultados mostraram que a maioria dos usuários foi capaz de compreender cor-
retamente os aspectos gerais da história, mas alguns usuários tiveram dificuldades em
identificar a descrição dos ambientes e dos horários em que a história acontecia, espe-
cialmente quando o roteiro do vídeo não está disponível. Adicionalmente, os resultados
do teste de desempenho indicam que a solução possui o potencial para ser aplicada no
contexto de tempo-real.
As abordagens implementadas como prova de conceito possuem limitações nas descri-
ções, no entanto, apesar dessas deficiências, foi possível perceber a melhoria no entendi-
mento que os usuários tiveram ao ter contato com vídeos com audiodescrição automática.
CAPÍTULO 7. CONCLUSÃO 66
Alves, Soraya Ferreira, Varyanne Couto Teles & Tomás Verdi Pereira (2011), ‘Propostas
para um modelo brasileiro de audiodescrição para deficientes visuais’, Tradução
Comunicação: Revista rasileira de Tradutores (22), 9–29.
Araujo, V. L. S. (2006), ‘O processo de legendagem no brasil (the subtitling process in
brazil)’, Revista do GELNE (GELNE Magazine) , Fortaleza 1/2(1), 156–159.
Benecke, B. (2004), ‘Audio-description’, Meta: Translators’ Journal 49(1), 78–80.
Bojanowski, Piotr, Rémi Lajugie, Francis R. Bach, Ivan Laptev, Jean Ponce, Cordelia
Schmid & Josef Sivic (2014), ‘Weakly supervised action labeling in videos under
ordering constraints’, CoRR abs/1407.1208.
Bolaños, Marc, Álvaro Peris, Francisc oCasacuberta, Sergi Soler & Petia Radeva (2018),
‘Egocentric video description based on temporally-linked sequences’, Journal of
Visual Communication and Image Representation 50, 205–216.
Braga, K. B. (2011), Cinema acessível para pessoas com deficiência visual: a audiodescri-
ção de o grão de petrus cariry, Dissertação de mestrado, Programa de Pós-Graduação
em Linguística Aplicada do Centro de Humanidades - Universidade Federal do Ce-
ará, Fortaleza.
Calvo-Salamanca, S., A. F. Coca-Castro & J. A. Velandia-Vega (2016), Web prototype
for creating descriptions and playing videos with audio description using a speech
synthesizer, em ‘2016 8th Euro American Conference on Telematics and Informa-
tion Systems (EATIS)’, pp. 1–7.
Campos, V. P., L. M. G. Goncalves & T. M. U. de Araujo (2017), Applying audio des-
cription for context understanding of surveillance videos by people with visual im-
pairments, em ‘2017 14th IEEE International Conference on Advanced Video and
Signal Based Surveillance (AVSS)’, pp. 1–5.
Campos, Virginia (2015), Um Sistema de Geracao Automatica de Roteiros de Audiodes-
cricao, dissertacao, Universidade Federal da Paraíba.
URL: http://tede.biblioteca.ufpb.br:8080/handle/tede/7860
Campos, Virginia P., Tiago M. U. de Araújo, Guido L. de Souza Filho & Luiz M. G. Gon-
çalves (2018), ‘Cinead: a system for automated audio description script generation
for the visually impaired’, Universal Access in the Information Society .
URL: https://doi.org/10.1007/s10209-018-0634-4
67
REFERÊNCIAS BIBLIOGRÁFICAS 68
Chen, Tseng-Hung, Kuo-Hao Zeng, Wan-Ting Hsu & Min Sun (2017), Video captioning
via sentence augmentation and spatio-temporal attention, em C.-S.Chen, J.Lu & K.-
K.Ma, eds., ‘Computer Vision – ACCV 2016 Workshops’, Springer International
Publishing, Cham, pp. 269–286.
Chen, Xinlei & C. Lawrence Zitnick (2015), Mind’s eye: A recurrent visual representation
for image caption generation., em ‘CVPR’, IEEE Computer Society, pp. 2422–2431.
Choi, Wongun, Khuram Shahid & Silvio Savarese (2009), What are they doing? : Col-
lective activity classification using spatio-temporal relationship among people, em
‘Proc. of 9th International Workshop on Visual Surveillance (VSWS09) in conjuc-
tion with ICCV’.
Cour, Timothée, Benjamin Sapp, Chris Jordan & Benjamin Taskar (2009), Learning
from ambiguously labeled images, em ‘2009 IEEE Computer Society Conference
on Computer Vision and Pattern Recognition (CVPR 2009), 20-25 June 2009, Mi-
ami, Florida, USA’, pp. 919–926.
Dai, Jifeng, Yi Li, Kaiming He & Jian Sun (2016), ‘R-FCN: object detection via region-
based fully convolutional networks’, CoRR abs/1605.06409.
Dias, C. (2007), Usabilidade na web: Criando portais mais acessíveis, 2a edição, Alta
Books, São Paulo.
Domingues, Leonardo A., Virgínia P. Campos, Tiago M.U. Araújo & Guido L. de S. Filho
(2016), Accessibility in digital cinema: A proposal for generation and distribution
of audio description, em ‘Proceedings of the 22Nd Brazilian Symposium on Multi-
media and the Web’, Webmedia ’16, ACM, New York, NY, USA, pp. 119–126.
URL: http://doi.acm.org/10.1145/2976796.2976867
Donahue, Jeff, Lisa Anne Hendricks, Sergio Guadarrama, Marcus Rohrbach, Subhashini
Venugopalan, Kate Saenko & Trevor Darrell (2015), ‘Long-term recurrent convolu-
tional networks for visual recognition and description’, CoRR abs/1411.4389.
Duchenne, Olivier, Ivan Laptev, Josef Sivic, Francis R. Bach & Jean Ponce (2009), Au-
tomatic annotation of human actions in video, em ‘2009 IEEE 12th International
Conference on Computer Vision’.
REFERÊNCIAS BIBLIOGRÁFICAS 69
Encelle, Benoît, Magali Ollagnier Beldame & Yannick Prié (2013), Towards the usage of
pauses in audio-described videos, em ‘Proceedings of the 10th International Cross-
Disciplinary Conference on Web Accessibility’, W4A ’13, ACM, New York, NY,
USA, pp. 31:1–31:4.
Fang, Hao, Saurabh Gupta, Forrest N. Iandola, Rupesh Kumar Srivastava, Li Deng, Piotr
Dollár, Jianfeng Gao, Xiaodong He, Margaret Mitchell, John C. Platt, C. Lawrence
Zitnick & Geoffrey Zweig (2014), ‘From captions to visual concepts and back’,
CoRR abs/1411.4952.
Field, Syd (2001), Manual do Roteiro: os fundamentos do texto cinematográfico., 1a
edição, Objetiva, Rio de Janeiro.
Flor, C. S. (2009), Diagnóstico da acessibilidade dos principais museus virtuais disponí-
veis da internet, Dissertação de mestrado, Pós-graduação em Engenharia e Gestão
do Conhecimento, Universidade Federal de Santa Catarina, Florianópolis. An opti-
onal note.
Gagnon, Langis, Samuel Foucher, Maguelonne Heritier, Marc Lalonde, David Byrns,
Claude Chapdelaine, James Turner, Suzanne Mathieu, Denis Laurendeau, Nath Tan
Nguyen & Denis Ouellet (2009), ‘Towards computer-vision software tools to incre-
ase production and accessibility of video description for people with vision loss’,
Univers. Access Inf. Soc. 8(3), 199–218.
Goodfellow, Ian, Yoshua Bengio & Aaron Courville (2016), Deep Learning, MIT Press.
http://www.deeplearningbook.org.
Hurtado, C. J., A. Rodríguez & C. Seibel (2010), ‘Un corpus de cine. fundamentos teo-
ricos de la audiodescripcion (a corpus of cinema. theoretical foundations of audio
description)’, Universidad de Granada,Proyecto Tracce pp. 13–56.
Ichiki, Manon, Toshihiro Shimizu, Atsushi Imai, Tohru Takagi, Mamoru Iwabuchi,
Kiyoshi Kurihara, Taro Miyazaki, Tadashi Kumano, Hiroyuki Kaneko, Shoei
Sato, Nobumasa Seiyama, Yuko Yamanouchi & Hideki Sumiyoshi (2018), Study
on automated audio descriptions overlapping live television commentary, em
K.Miesenberger & G.Kouroupetroglou, eds., ‘Computers Helping People with Spe-
cial Needs’, Springer International Publishing, Cham, pp. 220–224.
Karkar, AbdelGhani, Mary Puthren & Somaya Al-ma’adeed (2018), A bilingual scene-
to-speech mobile based application, pp. 1–240.
Kilickaya, Mert, Aykut Erdem, Nazli Ikizler-Cinbis & Erkut Erdem (2016), ‘Re-
evaluating automatic metrics for image captioning’, CoRR abs/1612.07600.
URL: http://arxiv.org/abs/1612.07600
Kobayashi, Masatomo, Tohru Nagano, Kentarou Fukuda & Hironobu Takagi (2010), Des-
cribing online videos with text-to-speech narration, em ‘Proceedings of the 2010 In-
ternational Cross Disciplinary Conference on Web Accessibility (W4A)’, W4A ’10,
ACM, New York, NY, USA, pp. 29:1–29:2.
REFERÊNCIAS BIBLIOGRÁFICAS 70
Lakritz, J. & A. Salway (2002), ‘The semi-automatic generation of audio description from
screenplays’, Technical Report CS-06-05, Dept. Of Computing, University of Surrey
.
Laptev, Ivan, Marcin Marszałek, Cordelia Schmid & Benjamin Rozenfeld (2008), Lear-
ning realistic human actions from movies, em ‘IN: CVPR.’.
Lecun, Yann, Léon Bottou, Yoshua Bengio & Patrick Haffner (1998), Gradient-based
learning applied to document recognition, em ‘Proceedings of the IEEE’, pp. 2278–
2324.
Lecun, Yann, Yoshua Bengio & Geoffrey Hinton (2015), ‘Deep learning’, Nature
521(7553), 436–444.
Liu, An-An, Ning Xu, Yongkang Wong, Junnan Li, Yu-Ting Su & Mohan Kankanhalli
(2017), ‘Hierarchical & multimodal video captioning’, Comput. Vis. Image Underst.
163(C), 113–125.
URL: https://doi.org/10.1016/j.cviu.2017.04.013
Marszalek, Marcin, Ivan Laptev & Cordelia Schmid (2009), Actions in context., em
‘CVPR’, IEEE Computer Society, pp. 2929–2936.
Muniz, Raul C. (2014), ‘Uma Revisão Sistemática da Literatura sobre Técnicas de Gera-
ção Automática e Semiautomática de Audiodescrição.’. Monografia (Bacharelado
em Ciências da Computação), Universidade Federal da Paraíba, Brasil.
Nielsen, Michael (2017), Neural Networks and Deep Learning, Free Online Book:
http://neuralnetworksanddeeplearning.com/.
Nunes, E. V., F. O. Machado & T. Vanzin (2011), Audiodescricao como Tecnologia As-
sistiva para o Acesso ao Conhecimento por Pessoas Cegas. (Audio description as
Assistive Technology for Access to Knowledge for the Blind). Ambiente virtual de
aprendizagem inclusivo (Inclusive virtual learning environment), Vania Ribas Ul-
bricht,Tarcisio Vanzin e Vilma Villarouco. Ed. Pandion, 352 p., Florianopolis.
Oliveira, Rita, Jorge Ferraz de Abreu, Margarida Almeida & Bernardo Cardoso (2016),
Inclusive approaches for audiovisual translation production in interactive television
(itv), em ‘Proceedings of the 7th International Conference on Software Development
and Technologies for Enhancing Accessibility and Fighting Info-exclusion’, DSAI
2016, ACM, New York, NY, USA, pp. 146–153.
URL: http://doi.acm.org/10.1145/3019943.3019965
Pan, Yingwei, Tao Mei, Ting Yao, Houqiang Li & Yong Rui (2015), ‘Jointly modeling
embedding and translation to bridge video and language’, CoRR abs/1505.01861.
Perera, M., C. Farook & A. P. Madurapperuma (2017), Automatic video descriptor for
human action recognition, em ‘2017 National Information Technology Conference
(NITC)’, pp. 61–67.
REFERÊNCIAS BIBLIOGRÁFICAS 71
Redmon, Joseph & Ali Farhadi (2016), ‘YOLO9000: better, faster, stronger’, CoRR
abs/1612.08242.
Reisinger, Don (2012), ‘YouTube users uploading 72 hours of video each minute’, Dispo-
nível em: http://www.cnet.com/news/youtube-users-uploading-72-hours-of-video-
each-minute/. [Online; Acessado em 01-Jun-2016].
Ren, Shaoqing, Kaiming He, Ross B. Girshick & Jian Sun (2015), ‘Faster R-
CNN: towards real-time object detection with region proposal networks’, CoRR
abs/1506.01497.
Rohrbach, Anna, Atousa Torabi, Marcus Rohrbach, Niket Tandon, Christopher Pal, Hugo
Larochelle, Aaron Courville & Bernt Schiele (2017), ‘Movie description’, Interna-
tional Journal of Computer Vision 123(1), 94–120.
URL: https://doi.org/10.1007/s11263-016-0987-1
Rohrbach, Anna, Marcus Rohrbach & Bernt Schiele (2015), ‘The long-short story of
movie description’, CoRR abs/1506.01698.
Sutskever, Ilya, James Martens & Geoffrey Hinton (2011), Generating text with recurrent
neural networks, em L.Getoor & T.Scheffer, eds., ‘Proceedings of the 28th Interna-
tional Conference on Machine Learning (ICML-11)’, ICML ’11, ACM, New York,
NY, USA, pp. 1017–1024.
Trask, Andrew W. (2017), Grokking Deep Learning, MEAP Edition - Manning Early
Access Program.
Yang, Yuecong Xuand Jianfei & Kezhi Mao (2019), ‘Semantic-filtered soft-split-aware
video captioning with audio-augmented feature’, Neurocomputing 357, 24–35.
Yue, Wang, Wang Xiaojie & Mao Yuzhao (2016), ‘First-feed lstm model for video
description’, The Journal of China Universities of Posts and Telecommunications
23(3), 89–93.
Apêndice A
• IEEEXplore (http://ieeexplore.ieee.org)
• ACM Digital Library (http://dl.acm.org)
• ScienceDirect (http://www.sciencedirect.com/)
• Scopus (http://www.scopus.com/)
• ISI Web of Knowledge (http://isiwebofknowledge.com/)
Para realizar uma busca automática nesses sites, pode-se pesquisar de forma mais pre-
cisa considerando exclusivamente palavras chave, título e resumo dos artigos de modo
a montar uma “string de busca” com as palavras chave, evitando assim que as palavras
chave aparecem soltas nos corpos dos artigos pesquisados, reduzindo a probabilidade de
encontrar artigos irrelevantes. Dessa forma, para definir uma “string de busca” é ne-
cessário então identificar os “termos de pesquisa” que a comporão, ou seja, as palavras
APÊNDICE A. PROTOCOLO DE REVISÃO SISTEMÁTICA 74
2. Tipo de entrada: Entrada utilizada pelo sistema para gerar a audiodescrição. Con-
siderando esse critério, os artigos podem ser classificados da seguinte forma:
(a) Roteiro Cinematográfico: geração de audiodescrição a partir de roteiro;
APÊNDICE A. PROTOCOLO DE REVISÃO SISTEMÁTICA 75
3. Tipo de saída: Saída gerada pelo sistema de áudio descrição. Os tipos mais utiliza-
dos são:
(a) Texto: gera como saída do sistema, texto;
(b) Áudio: gera como saída do sistema, áudio;
(c) Impressão tátil: gera como saída do sistema, impressão tátil;
(d) Gráfico: gera como saída do sistema, gráfico;
(e) Vídeo: gera como saída do sistema, vídeo;
(f) Roteiro de AD: gera como saída do sistema, roteiro;
(g) Modelo 3D: gera como saída do sistema, modelo virtual 3D;
(h) Imagem: gera como saída do sistema, imagem;
(i) Não classificado: o artigo não especifica o tipo de saída.
4. Canal de geração do áudio: Qual canal é utilizado como meio de transporte dos
dados relativos à saída do sistema de áudio descrição. Os tipos mais utilizados são:
(a) Canal original: o áudio é embutido junto com a trilha sonora original (o narrador
descreve os eventos que ocorrem na tela entre pausas naturais);
(b) Canal separado: existe outro canal de áudio que produz o som produzido pelo
processo de áudio descrição;
(c) Não utiliza: não utiliza áudio como saída do sistema;
(d) Não classificado: utiliza áudio como saída do sistema, mas não exemplifica o
canal de geração.
1. OLIVEIRA, Rita et al. Inclusive approaches for audiovisual translation production in Inte-
ractive Television (iTV). In: Proceedings of the 7th International Conference on Software
Development and Technologies for Enhancing Accessibility and Fighting Info-exclusion.
ACM, 2016. p. 146-153.
4. CAMPOS, Virginia Pinto; GONCALVES, Luiz Marcos G.; DE ARAUJO, Tiago Maritan
U. Applying audio description for context understanding of surveillance videos by people
with visual impairments. In: 2017 14th IEEE International Conference on Advanced Video
and Signal Based Surveillance (AVSS). IEEE, 2017. p. 1-5.
5. CAMPOS, Virginia P.; DE ARAUJO, Tiago Maritan U.; SOUZA FILHO, Guido L. de
GONCALVES; Luiz Marcos G.; CineAD: a system for automated audio description script
generation for the visually impaired. Universal Access in the Information Society, p. 1-13,
2018.
7. CHEN, Tseng-Hung et al. Video Captioning via Sentence Augmentation and Spatio-Temporal
Attention. In: Asian Conference on Computer Vision. Springer, Cham, 2016. p. 269-286.
9. ENCELLE, B.; BELDAME, M. O.; PRIÉ, Y. Towards the usage of pauses in audio descri-
bed videos. 22nd International World Wide Web Conference, Rio de Janeiro, may 2013.
10. FAÇANHA, Agebson Rocha et al. Audio description of videos for people with visual disa-
bilities. In: International Conference on Universal Access in Human-Computer Interaction.
Springer, Cham, 2016. p. 505-515.
11. GAGNON, Langis et al. Towards computer-vision software tools to increase production
and accessibility of video description for people with vision loss. Springer-Verlag, p 199-
218, feb. 2009.
12. ICHIKI, Manon et al. Study on automated audio descriptions overlapping live television
commentary. In: International Conference on Computers Helping People with Special Ne-
eds. Springer, Cham, 2018. p. 220-224.
14. KOBAYASHI, M.; NAGANO, T.; FUKUDA, K.; TAKAGI, H. Describing Online Videos
with Text-to-Speech Narration. W4A2010, Raleigh, apr. 2010.
15. LAKRITZ, J.; SALWAY, A. “The Semi-Automatic Generation of Audio Description from
Screenplays”, Dept. Of Computing Technical Report CS-06-05, 2002, University of Surrey
16. LIU, An-An et al. Hierarchical & multimodal video captioning: Discovering and transfer-
ring multimodal knowledge for vision to language. Computer Vision and Image Unders-
tanding, v. 163, p. 113-125, 2017.
18. ROHRBACH, Anna et al. Movie description. International Journal of Computer Vision, v.
123, n. 1, p. 94-120, 2017.
19. XU, Yuecong; YANG, Jianfei; MAO, Kezhi. Semantic-filtered Soft-Split-Aware video cap-
tioning with audio-augmented feature. Neurocomputing, v. 357, p. 24-35, 2019.
20. YUE, Wang; XIAOJIE, Wang; YUZHAO, Mao. First-Feed LSTM model for video des-
cription. The Journal of China Universities of Posts and Telecommunications, v. 23, n. 3,
p. 89-93, 2016.
Apêndice C
( ) Não
1) O vídeo mostra um homem dirigindo um carro. Qual é o tipo de roupa que ele está
vestindo?
A) Roupas de praia.
B) Camisa social e paletó.
C) Camiseta e jeans.
D) Não sei responder
5) Ele deve trocar a roupa que está suja. Como ele volta para casa?
A) Ele pega um ônibus.
B) Ele chama um táxi.
C) Ele dirige o carro.
D) Não sei responder
Vídeo 2
2) Em cima do fogão ligado há uma panela. O que está ela está cozinhando?
A) Frango.
B) Sopa.
C) Ovo.
D) Não sei responder