Sistemageracaoautomatica Campos 2019

U NIVERSIDADE F EDERAL DO R IO G RANDE DO N ORTE
C ENTRO DE T ECNOLOGIA
P ROGRAMA DE P ÓS -G RADUAÇÃO EM E NGENHARIA E LÉTRICA E
UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE
DE C OMPUTAÇÃO
Sistema de Geração Automática de

Audiodescrição a Partir de Análise de Conteúdo
de Vídeo
Virginia Pinto Campos
Orientador: Prof. Dr. Luiz Marcos Garcia Gonçalves
Tese de Doutorado apresentada ao Pro-

grama de Pós-Graduação em Engenharia
Elétrica e de Computação da UFRN (área de
concentração: Engenharia de Computação)
como parte dos requisitos para obtenção do
título de Doutor em Ciências.
Número de ordem PPgEEC: D261

Natal, RN, Novembro de 2019
Universidade Federal do Rio Grande do Norte - UFRN
Sistema de Bibliotecas - SISBI
Catalogação de Publicação na Fonte. UFRN - Biblioteca Central Zila Mamede
Campos, Virginia Pinto.

Sistema de geração automática de audiodescrição a partir de
análise de conteúdo de vídeo / Virginia Pinto Campos. - 2019.
82 f.: il.
Tese (doutorado) - Universidade Federal do Rio Grande do

Norte, Centro de Tecnologia, Programa de Pós-Graduação em
Engenharia Elétrica e de Computação, Natal, RN, 2020.
Orientador: Prof. Dr. Luiz Marcos Garcia Gonçalves.
1. Acessibilidade - Tese. 2. Audiodescrição - Tese. 3.

Geração automática - Tese. 4. Descrição de vídeo - Tese. 5.
Aprendizado profundo - Tese. I. Gonçalves, Luiz Marcos Garcia.
II. Título.
RN/UF/BCZM CDU 376-056.262
Elaborado por Ana Cristina Cavalcanti Tinôco - CRB-15/262

Aos meus pais, por tudo.
Agradecimentos
Agradeço a Deus, causa primária de todas as coisas.
Aos meu pais, Walkíria e Valdemir, por tudo. A eles devo tudo o que sou e tudo que
conquistei.
A Augusto, meu companheiro de muitas vidas, por todo o amor, pelo carinho, pela paci-
ência e pelo apoio incondicional.
Ao meu irmão, Bito, por todo carinho, proteção e orientação.
A toda minha família, aqueles que estão em todos os planos, por todo o apoio.
Ao meu orientador, Prof. Luiz Marcos, por toda ajuda nesta jornada, pela confiança, pelo
aprendizado e todas as orientações e conselhos que sempre me incentivaram a alcançar o
meu melhor.
Aos colegas de doutorado do NATALNET, em especial, Luis Feliphe e Leonardo, por

todos os momentos partilhados e pelas contribuições.
Aos colegas do Lavid, em especial, Prof. Tiago Maritan, pelas valiosas discussões, orien-
tações e dicas.
A todos os meus amigos, professores e colegas de trabalho que participaram de alguma

forma de minha jornada, auxiliando na parte técnica ou até mesmo com uma palavra de
incentivo.
À CAPES, pelo apoio financeiro para realização deste trabalho.

Resumo
A audiodescrição é um recurso de acessibilidade projetado para tornar a informação

visual acessível a pessoas cegas ou com baixa visão. Para aumentar a oferta de faixas de
audiodescrição em aplicações de vídeo digital, propomos um sistema para a geração auto-
mática de audiodescrição para vídeos. O sistema pode utilizar como fonte de informação
sobre o filme o roteiro original e o próprio vídeo. Como prova de conceito, desenvolve-
mos um protótipo que gera roteiros de audiodescrição com base em ações extraídas do
roteiro e objetos reconhecidos no vídeo. Os experimentos contemplaram a aplicação da
solução em filmes de ficção e em vídeos de vigilância. Para os filmes de ficção, foi feita
uma avaliação com pessoas cegas. Os resultados indicaram que, através da audiodescrição
automática gerada pela solução, foi possível fornecer informações sobre o contexto e que
podem auxiliar o usuário no entendimento geral da história. Para os vídeos de vigilância,
foi feita uma avaliação de desempenho através da medição do tempo de atraso de cada
componente. Os resultados indicaram que a solução tem o potencial para ser utilizada em
contextos que exigem AD em tempo-real.
Palavras-chave: Acessibilidade, Audiodescrição, Descrição de Vídeo, Aprendizado
Profundo, Geração Automática.
Abstract
Audio description is an accessibility feature designed to make visual information ac-

cessible to blind or low vision people. To increase the range of audio description tracks
in digital video applications, we propose a system for automatic audio description gene-
ration of videos. The system can use as source of information about the film the original
script or the video itself. As a proof of concept, we developed a prototype that auto-
matically generates audio description based on actions taken from the script and objects
recognized in the video. The experiments contemplated the application of the solution in
fiction films and surveillance videos. For fiction films, an evaluation was made with blind
people. The results indicated that through the automatic audio description generated by
the solution, it was possible to provide contextual information that can help the user in
the general understanding of the story. For surveillance videos, a performance evaluation
was made using the delay time of each component. Results indicate that a solution has
the potential to be used in contexts that require real-time AD.
Keywords: Accessibility, Audio description, Deep Learning, Video Description, Au-
tomatic Generation.
Sumário
Sumário i
Lista de Figuras iv
Lista de Tabelas v
1 Introdução 1
1.1 Motivação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Tema, Problema e Hipótese de Pesquisa . . . . . . . . . . . . . . . . . . 4
1.2.1 Hipótese de Pesquisa . . . . . . . . . . . . . . . . . . . . . . . . 5
1.3 Contribuições . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.4 Escopo do Trabalho . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.5 Estrutura do Texto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2 Embasamento Teórico 8
2.1 Audiodescrição . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.2 Audiodescrição de Vídeos . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.2.1 Roteiro de Audiodescrição . . . . . . . . . . . . . . . . . . . . . 10
2.3 Roteiro Cinematográfico . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.4 Reconhecimento de Padrões em Vídeo . . . . . . . . . . . . . . . . . . . 12
2.4.1 Redes Neurais Convolucionais - CNN . . . . . . . . . . . . . . . 13
2.4.2 Redes Neurais Recorrentes - RNN . . . . . . . . . . . . . . . . . 16
2.5 Considerações Metodológicas . . . . . . . . . . . . . . . . . . . . . . . 17
3 Revisão Sistemática da Literatura 18

3.1 Busca, Seleção e Classificação dos Artigos . . . . . . . . . . . . . . . . . 18
3.2 Avaliação Qualitativa dos Trabalhos . . . . . . . . . . . . . . . . . . . . 22
3.2.1 Forma de Apresentação da Audiodescrição . . . . . . . . . . . . 22
3.2.2 Uso de Roteiros na Geração de Audiodescrição . . . . . . . . . . 25
3.2.3 Reconhecimento de Vídeo na Geração de Audiodescrição . . . . 26
3.3 Contextualização no Estado da Arte . . . . . . . . . . . . . . . . . . . . 30
4 Formalização do Modelo de Audiodescrição 33

4.1 Definições . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
4.1.1 Intervalos Sem Falas . . . . . . . . . . . . . . . . . . . . . . . . 33
4.1.2 Elementos Visuais Não-verbais da AD . . . . . . . . . . . . . . . 33
i
4.1.3 Roteiro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
4.1.4 Vídeo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
4.2 Etapas do Processo de Geração Automática de AD . . . . . . . . . . . . 36
4.2.1 Identificação dos Gaps . . . . . . . . . . . . . . . . . . . . . . . 36
4.2.2 Seleção das Informações de Interesse . . . . . . . . . . . . . . . 36
4.2.3 Formação das Sentenças . . . . . . . . . . . . . . . . . . . . . . 37
4.2.4 Alocação das Sentenças nos Gaps . . . . . . . . . . . . . . . . . 37
4.3 Considerações Sobre a Solução Adotada . . . . . . . . . . . . . . . . . . 38
5 Implementação 39
5.1 Solução Proposta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
5.2 Componente de Extração de Informações . . . . . . . . . . . . . . . . . 40
5.2.1 Roteiro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
5.2.2 Vídeo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
5.3 Componente Gerador de Roteiros de AD . . . . . . . . . . . . . . . . . . 42
5.4 Audiodescrição Baseada nas Ações do Roteiro e nos Objetos Reconheci-
dos no Vídeo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
5.4.2 Alocação dos Gaps . . . . . . . . . . . . . . . . . . . . . . . . . 44
5.5 Audiodescrição Baseada na Detecção de Múltiplos Objetos Reconhecidos
no Vídeo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
5.5.2 Alocação dos Gaps . . . . . . . . . . . . . . . . . . . . . . . . . 46
5.6 Cenários de Uso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
5.7 Resumo da Implementação . . . . . . . . . . . . . . . . . . . . . . . . . 46
6 Experimento e Resultados 48
6.1 Cenário de Uso 1: Aplicação em Filmes de Ficção . . . . . . . . . . . . . 48
6.1.1 Análise Técnica das Abordagens de Geração de AD . . . . . . . 49
6.1.2 Sessão de Avaliação com Usuários . . . . . . . . . . . . . . . . . 52
6.2 Cenário de Uso 2: Aplicação em Vídeos de Vigilância . . . . . . . . . . 60
6.2.1 Análise Técnica da Qualidade de Geração de AD . . . . . . . . . 61
6.2.2 Avaliação do Desempenho de Geração de Audiodescrição . . . . 62
6.3 Discussões Sobre o Experimento e Resultados . . . . . . . . . . . . . . . 64
7 Conclusão 65
7.1 Propostas para Trabalhos Futuros . . . . . . . . . . . . . . . . . . . . . . 66
Referências bibliográficas 67
A Protocolo de Revisão Sistemática 73
B Artigos da Revisão Sistemática 77

C Questionário de Avaliação da Sessão de Testes com Usuários 79
C.1 Parte 1 - Informação Geral do Usuário . . . . . . . . . . . . . . . . . . . 79
C.2 Parte 2: Compreensão dos Conteúdos - (AD Automática Baseada no Ro-
teiro e Vídeo) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
C.3 Parte 3: Avaliação do Contexto - AD Automática Gerada Apenas Pela
Análise do Vídeo (Apenas Objetos) . . . . . . . . . . . . . . . . . . . . 82
Lista de Figuras
2.1 Exemplo de Roteiro de AD. . . . . . . . . . . . . . . . . . . . . . . . . . 10

2.2 Exemplo de Trecho de Roteiro Cinematográfico. . . . . . . . . . . . . . . 12
2.3 Diferença entre os Modelos de Redes Neurais Convencional e Profunda. . 13
2.4 Exemplo de Matriz de Convolução. . . . . . . . . . . . . . . . . . . . . . 14
2.5 Exemplo de Max Pooling. . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.6 Arquitetura da Rede CNN, chamada LeNet-5. . . . . . . . . . . . . . . . 15
2.7 Estrutura Interna de uma CNN. . . . . . . . . . . . . . . . . . . . . . . . 16
2.8 Estrutura Interna de uma RNN Genérica. . . . . . . . . . . . . . . . . . . 17
3.1 Quantidade de Publicações por Ano . . . . . . . . . . . . . . . . . . . . 19

3.2 Quantidade de Artigos por Domínio Específico . . . . . . . . . . . . . . 22
4.1 Exemplo de Roteiro e a Representação Formal dos Elementos para a AD . 35

4.2 Identificação dos Gaps Realizada Através da Legenda . . . . . . . . . . . 36
4.3 Exemplos de Gaps após a Alocação das Sentenças . . . . . . . . . . . . . 38
5.1 Modelo da Solução Proposta . . . . . . . . . . . . . . . . . . . . . . . . 39

5.2 Exemplo de Identificação de Gaps . . . . . . . . . . . . . . . . . . . . . 43
6.1 Grau de Escolaridade do Grupo de Usuários da Primeira Sessão de Testes 52

6.2 Resultados do Teste de Compreensão dos Conteúdos . . . . . . . . . . . 54
6.3 Gráfico Box Plot do Teste de Compreensão dos Conteúdos . . . . . . . . 55
6.4 Gráficos Com as Porcentagens de Respostas para o Vídeo 3 . . . . . . . 58
6.5 Gráficos Com as Porcentagens de Respostas para o Vídeo 4 . . . . . . . 59
6.6 Procedimento da Solução . . . . . . . . . . . . . . . . . . . . . . . . . . 60
6.7 Exemplos de Frases Geradas para a AD Após a Detecção de Objetos. . . . 61
iv
Lista de Tabelas
3.1 Resultados do Processo de Busca e Seleção de Artigos . . . . . . . . . . 19

3.2 Classificação Total dos Artigos . . . . . . . . . . . . . . . . . . . . . . . 20
3.3 Classificação dos Artigos Diretamente Relacionados . . . . . . . . . . . 32
4.1 Relação entre as Informações do Roteiro e da AD. . . . . . . . . . . . . . 34
6.1 Características dos Vídeos de Teste . . . . . . . . . . . . . . . . . . . . . 49

6.2 Resultados da Classificação de Objetos . . . . . . . . . . . . . . . . . . . 49
6.3 Comparação entre os Tipos de Roteiros de AD . . . . . . . . . . . . . . . 50
6.4 Resultados da Detecção de Múltiplos Objetos . . . . . . . . . . . . . . . 51
6.5 Resultados dos Roteiros de AD Gerados com Base Apenas em Vídeo. . . 51
6.6 Resultado do t-test entre as Médias dos Grupos Sem AD e AD com Base
em Roteiro e Vídeo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
6.7 Resultado do t-test entre as Médias dos Grupos Sem AD e AD com Base
em Roteiro e Vídeo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
6.8 Características dos Vídeos da Etapa de Compreensão do Contexto Geral
do Vídeo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
6.9 Porcentagem de Acerto Para O Vídeo 3 . . . . . . . . . . . . . . . . . . 57
6.10 Porcentagem de Acerto Para O Vídeo 4 . . . . . . . . . . . . . . . . . . 60
6.11 Resultados da Detecção de Objetos . . . . . . . . . . . . . . . . . . . . . 61
6.12 Resultados da Geração de AD . . . . . . . . . . . . . . . . . . . . . . . 62
6.13 Medidas de Desempenho de Geração de AD Para os Componentes da
Solução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
v
Capítulo 1
Introdução
Pessoas com deficiência visual possuem alguma dificuldade para enxergar. Depen-
dendo do grau de severidade do problema, o indivíduo pode apresentar desde problemas
de limitação parcial da visão até a cegueira total, em que não consegue processar nenhuma
informação visual. Para pessoas com este problema, as experiências audiovisuais como o
cinema, o teatro, a televisão e a ópera, entre outras, são dificultadas principalmente pelas
barreiras encontradas na percepção de expressões gestuais, descrição de cenários e per-
sonagens, entre outros elementos que são essenciais na compreensão do conteúdo visual.
Para contornar ou suavizar este problema e a fim de melhorar a compreensão do conteúdo,
a audiodescrição surge como recurso de acessibilidade que foi desenvolvido para tornar a
informação visual acessível a pessoas com limitações no sentido da visão.
Neste contexto, o presente trabalho propõe uma solução para geração automática de
audiodescrição com base na detecção de eventos no vídeo, com o objetivo de melhorar o
acesso de pessoas com deficiência visual aos conteúdos essencialmente visuais, como os
filmes.
Este capítulo apresenta a motivação deste trabalho na Seção 1.1, define o tema, o
problema e a hipótese de pesquisa na Seção 1.2, as contribuições na Seção 1.3, a definição
do escopo do trabalho na Seção 1.4 e, por fim, na Seção 1.5 é apresentada a organização
deste documento.
1.1 Motivação
Grande parte das informações veiculadas atualmente utiliza um meio audiovisual para
transmiti-las. Em um cenário em que as pessoas dependem desse conteúdo audiovisual
como fonte de informação, deficientes visuais podem ser excluídos por causa das barreiras
que enfrentam ao acessar esse tipo de conteúdo.
De acordo com o censo demográfico do Instituto Brasileiro de Geografia e Estatística
(IBGE) de 2010 1 , no Brasil, cerca de 35,7 milhões de pessoas apresentam algum nível
de deficiência visual. Essa parcela representa cerca de 18,8% da população brasileira.
Além disso, o censo mostra que, dentre as deficiências investigadas em 2010, a deficiência
visual possui a maior incidência na população brasileira. Esses dados mostram que muitas
1 https://censo2010.ibge.gov.br/
CAPÍTULO 1. INTRODUÇÃO 2
pessoas podem estar enfrentando barreiras no acesso às informações visuais. Além do

impacto social causado pela falta de acessibilidade, este cenário também apresenta uma
lacuna de mercado que pode ser explorado pela indústria de conteúdos audiovisuais.
Um recurso de acessibilidade extremamente útil para reduzir essas barreiras de acesso
é a audiodescrição (AD). A audiodescrição foi desenvolvida para melhorar o acesso de
pessoas cegas, ou qualquer pessoa que por algum motivo não tem acesso a informações
visuais, que lhes permite participar de experiências intrinsecamente visuais, como cinema,
através de descrições de imagens e narração das ações.
No contexto dos filmes, a audiodescrição traduz imagens, enredo, cenário, ações, entre
outros elementos da história. Essa tradução é inserida nos intervalos entre os diálogos do
filme, através de uma narração, de maneira que evite a interferência nos efeitos sonoros
do áudio original (Benecke 2004).
O processo tradicional de geração de audiodescrição, que geralmente é realizado por
uma equipe especializada, é uma tarefa demorada, repetitiva, e, eventualmente, bastante
cara. Este recurso ainda não é amplamente utilizado no Brasil, e os altos custos e o tempo
necessário para criação de roteiros de audiodescrição podem estar entre as possíveis cau-
sas para isso. De acordo com Lakritz et al. (2002), um audiodescritor profissional precisa
de 60 horas de trabalho para realizar a AD de um filme de 2 horas. Além disso, o custo
necessário para uma elaboração do roteiro de AD é, em média, R$ 40,00 por minuto de ví-
deo, além das despesas com a gravação do áudio da narração em estúdio. Além do mais,
em plataformas que contêm conteúdo dinâmico e de grandes volumes de informação,
como por exemplo a Web, é difícil ou mesmo impraticável gerar faixas de audiodescrição
manualmente. No Youtube, por exemplo, uma média de 72 horas de vídeo são publicados
por minuto (Reisinger 2012). Este contexto motiva a busca de soluções que possam redu-
zir as barreiras de acesso à informação visual de pessoas cegas em plataformas de vídeo
digital, especialmente quando profissionais não estiverem disponíveis.
Desta forma, a geração automática surge como uma maneira de tornar possível a cri-
ação de audiodescrição para os conteúdos destas plataformas, além de poder auxiliar os
audiodescritores durante a produção manual do roteiro de AD, reduzindo o tempo e os
custos relacionados a este processo.
Na literatura científica, alguns estudos podem ser encontrados investigando a incor-
poração de técnicas computacionais dentro do processo de criação de audiodescrição.
Em relação ao processo de elaboração da audiodescrição, são basicamente utilizadas duas
abordagens principais: uma baseada na análise de roteiro cinematográfico e outra baseada
na detecção de informações visuais.
O roteiro cinematográfico é uma fonte de informação, que pode ser encontrada, por
exemplo, junto ao produtor do conteúdo ou com a própria mídia. Esses roteiros possuem
um alto potencial sobre as descrições dos eventos principais de um filme, especialmente
nos casos em que a AD não é fornecida. Os roteiros estão sendo usados nas tarefas de
anotações de cenas e de ações humanas através do alinhamento entre a informação no
roteiro e os vídeos (Duchenne et al. 2009, Laptev et al. 2008, Marszalek et al. 2009).
Além disso, vários bancos de dados estão sendo elaborados a partir do alinhamento entre
as informações do roteiro e os vídeos (Cour et al. 2009, Marszalek et al. 2009, Bojanowski
et al. 2014, Rohrbach et al. 2017).
A geração semiautomática de AD através do roteiro é destacada por Lakritz et al.(2002).

A solução apresentada pelos autores extrai informações importantes dentro do roteiro do
filme e as converte em uma linguagem mais adequada para a audiodescrição, no entanto,
sem marcações de tempo e sincronia.
Em nosso trabalho anterior, em pesquisa de mestrado, foi desenvolvido um sistema
de geração de roteiros de AD usando como base o roteiro cinematográfico para gerar as
descrições, com o diferencial de fornecer as marcações de tempo, obtidas pela análise
da legenda do filme, tornando a AD síncrona. Os experimentos realizados com usuários
mostraram que o sistema tem o potencial de descrever os pontos principais da história do
filme e, consequentemente, pode auxiliar a diminuir as barreiras de acesso enfrentadas
pelos deficientes visuais. No entanto, foi detectado que pode ocorrer algumas divergên-
cias entre o roteiro e o vídeo, uma vez que o roteiro é elaborado anteriormente à gravação
da mídia. Com isso, a AD gerada automaticamente pode conter alguns pontos de incoe-
rência. Além disso, a geração automática da AD é dependente da presença de um roteiro
cinematográfico, não sendo possível elaborar a AD quando este não estiver disponível.
Esta limitação levou à investigação da outra linha de pesquisa utilizada no processo de
geração da AD, a abordagem baseada na detecção e classificação da informação visual,
utilizando o próprio vídeo como uma fonte de informação.
Muitos estudos aplicam técnicas de aprendizado profundo para reconhecer elementos
em imagens. Variações do modelo de Redes Neurais Convolucionais (Convolutional Neu-
ral Networks - CNNs) estão sendo aplicadas para reconhecer objetos em imagens (Ren
et al. 2015, Redmon & Farhadi 2016, Dai et al. 2016). Trabalhos recentes utilizam Redes
Neurais Recorrentes (Recurrent Neural Networks - RNNs) para gerar descrições textuais
de imagens (Chen & Zitnick 2015, Donahue et al. 2015, Fang et al. 2014).
Em relação à descrição de vídeo, vários trabalhos usam combinações e variações dos
modelos CNNs e RNNs, especificamente LSTM (Long Short-Term Memory) para descre-
ver ações em vídeo (Rohrbach et al. 2015, Donahue et al. 2015, Pan et al. 2015, Venugo-
palan et al. 2014, Venugopalan et al. 2015).
No entanto, os trabalhos acima apresentam soluções para um domínio específico ou
não são gerais o suficiente para atingir a necessidade de criação da audiodescrição em
um contexto mais abrangente. Isso se deve principalmente à complexidade envolvida
na tarefa de elaboração da audiodescrição, considerando a diversidade de ações, objetos
de cena e traços de personagens. Além disso, tratam da descrição comum de vídeos e
não levam em considerações especificidades necessárias para a audiodescrição, como por
exemplo, tempo disponível para a descrição, geração de áudio, aceitabilidade dos usuários
cegos, entre outras. Desta forma, a descrição comum de vídeos gera um resultado que
não atinge as necessidades das pessoas com deficiência visual e, portanto, não pode ser
considerada uma substituta para a audiodescrição.
Diante das duas abordagens presentes na literatura científica (baseado no roteiro e ba-
seada no vídeo), um primeiro questionamento de pesquisa pode ser formulado como: é
possível reduzir as barreiras de acesso a vídeos enfrentadas pelas pessoas com deficiência
visual através de uma solução automática que incorpora ambas abordagens de geração de
audiodescrição? Esse questionamento levanta a possibilidade de integrar informações de
roteiro e de vídeo como forma de criação automática da AD. Além disso, considerando a
não disponibilidade do roteiro cinematográfico, a complexidade da tarefa e da limitação

que as técnicas de descrição comum de vídeos tem em relação às demandas específicas
de acessibilidade, um segundo questionamento de pesquisa surge: quando o roteiro não
estiver disponível, é possível gerar uma audiodescrição a partir do reconhecimento auto-
mático de elementos diretamente do vídeo?
Além dos aspectos citados acima, grande parte da literatura apresenta soluções de des-
crição que são elaboradas a partir da análise prévia do conteúdo audiovisual. Esta forma
de processamento é adequada para vídeos que são exibidos posteriormente à produção
do conteúdo. No entanto, existem os vídeos que são exibidos ao vivo, ao mesmo tempo
de produção. Para estes casos, a audiodescrição é criada e apresentada ao vivo, feita por
um profissional audiodescritor. Este cenário em tempo-real também deve ser levado em
consideração ao propor uma solução de geração automática de AD, como forma de pro-
mover o acesso às informações que são veiculadas também desta forma. Isso nos leva a
uma terceira questão de pesquisa: É possível desenvolver um gerador automático de AD
eficaz em cenários que exigem a descrição em tempo-real e que seja de domínio geral?
Assim, a principal motivação deste trabalho é diminuir as barreiras de acesso aos
vídeos enfrentadas pelas pessoas com deficiências visuais e, para isso, investigar os ques-
tionamentos de pesquisa levantados para propor soluções que ataquem estes problemas.
Diante deste contexto, a principal proposta deste estudo é a definição de um modelo de
sistema automatizado de geração de audiodescrição em aplicações de vídeo digital. A
proposta é criar a AD usando informações extraídas do roteiro cinematográfico e do pró-
prio vídeo, apresentando-as em formato de áudio para o usuário. Mais especificamente, o
modelo de solução é projetado para suportar a geração automática a partir das seguintes
fontes de informação: I) De roteiro e vídeo; II) Apenas vídeo. No primeiro caso, utilizar
o processamento de roteiro, para fazer a análise do texto e extrair informações relevantes
para a descrição da história, e reconhecimento de elementos de vídeo, como formas de ge-
rar uma nova abordagem de geração de audiodescrição do conteúdo do vídeo. No segundo
caso, explorar o próprio vídeo para detectar eventos e elementos considerados importan-
tes para a história e relevantes para o roteiro de AD e, com isso, gerar uma audiodescrição
do filme, mesmo quando o roteiro não estiver disponível.
1.2 Tema, Problema e Hipótese de Pesquisa

Em resumo, o tema abordado nesta tese trata da geração automática da audiodescri-
ção, para que possa ser utilizada como forma de diminuir as barreiras de acesso aos ví-
deos enfrentadas pelas pessoas com deficiências visuais. Diante da motivação do trabalho
acima destacada, visando definir melhor o problema a ser trabalhado, foram levantados
dois questionamentos de pesquisas relacionados a essa tarefa, que resumem o problema
aqui tratado. A primeira pergunta a ser respondida refere-se à possibilidade de criar a
audiodescrição através de uma solução automática, que incorpore ambas abordagens de
geração de audiodescrição, a partir do roteiro e a partir do vídeo. Para melhorar a com-
preensão do problema, pode-se acrescentar uma segunda pergunta a ser respondida: é
possível gerar uma audiodescrição a partir do reconhecimento automático de elementos
diretamente do vídeo? Finalmente, o que se pode dizer sobre a eficácia de um gerador
automático usando qualquer uma das abordagens, em cenários que exigem a descrição em
tempo-real?
Os dois primeiros questionamentos tratam da integração de técnicas de inteligência
artificial para reconhecer automaticamente os elementos do vídeo, quando roteiro cine-
matográfico estiver disponível ou não, como forma de obter informações para elaborar a
audiodescrição. Neste sentido, torna-se este o fator em comum entre os questionamentos
e que centraliza a hipótese definida neste trabalho. O terceiro questionamento trata do ce-
nário de uso em relação ao tempo de geração da AD, que se apresenta como uma questão
de pesquisa que deve ser trabalhada como um desdobramento do problema central.
Diante desses aspectos e visando solucionar o problema em questão, formulamos o
seguinte questionamento central: quando profissionais não estiverem disponíveis, é pos-
sível gerar AD automaticamente a partir de técnicas de IA e de visão computacional?
Sendo assim, este trabalho foca na resolução deste questionamento central.
1.2.1 Hipótese de Pesquisa

A hipótese que foi construída, e que demonstramos ao longo deste trabalho, tentando
responder os questionamentos de pesquisa apontados acima, pode ser elaborada com a
frase seguinte:
É possível gerar audiodescrição automaticamente a partir de técnicas de Inteligência
Artificial e de Visão Computacional, de forma que facilite ou melhore a compreensão
de conteúdos audiovisuais por parte de pessoas com deficiência visual, respeitado um
determinado grau de precisão?
A demonstração e validação da tese acima, proposta neste trabalho, envolve a defini-
ção de um sistema de geração automática através da aplicação de técnicas de inteligência
artificial, que possibilita a utilização de duas fontes de informação, o roteiro e o próprio
vídeo, e, adicionalmente, que tem a possibilidade de ser executado em tempo-real. Além
disso, visando uma demonstração empírica, foi necessário obter a avaliação do público-
alvo do sistema como forma de validar a tese proposta.
1.3 Contribuições
A principal contribuição deste trabalho é a proposta de uma solução para a geração
automática de audiodescrição para vídeos, com a possibilidade de usar informações ex-
traídas das seguintes fontes: I) roteiro e vídeo; e II) apenas vídeo, que possa ser utilizada
quando um profissional não estiver disponível ou como forma de otimizar o trabalho feito
por um humano. Assim, o produto do trabalho é um sistema para geração automática
de audiodescrição, visando diminuir as barreiras de acesso aos vídeos, sendo este um
problema enfrentado no dia a dia pelas pessoas com deficiência visual. Para que esta pro-
posta principal fosse completada, vários estudos foram desenvolvidos, que resultaram em
técnicas ou metodologias, ou em outras contribuições parciais, que também podem ser
consideradas como resultados da tese e foram implementadas ao longo do doutorado:
• Revisão sistemática da literatura sobre sistemas de geração automática de audiodes-

crição, tendo sido identificadas as principais estratégias relacionadas com a geração
automática da audiodescrição.
• Definição de um esquema de dados para armazenar informações relevantes para
a audiodescrição sobre o conteúdo do vídeo, com o projeto e desenvolvimento de
uma estratégia de geração automática da audiodescrição que utilize o roteiro e o
próprio vídeo como fonte de informação, e tendo como saída um áudio contendo
a narração das descrições e que possa ser executada em tempo-real ou de forma
não-simultânea.
• Definição e desenvolvimento de uma arquitetura de sistema de geração automá-
tica da audiodescrição que permite fontes de entrada distintas e que permite fácil
expansão, com a possibilidade de integração de múltiplas técnicas de inteligência
artificial com diversos propósitos, com a definição de um esquema de dados para
armazenar as informações sobre o conteúdo, a partir de diversas fontes e voltado
especificamente para audiodescrição.
• Desenvolvimento de duas abordagens de geração de AD com características dis-
tintas em relação ao conteúdo identificado no vídeo a partir do roteiro e vídeo ou
apenas do vídeo, com a implementação da solução proposta e integração em dois
cenários distintos de vídeo digital que exigem tempos de processamento diferentes:
filmes e vídeos de vigilância.
• Análise técnica das características da audiodescrição gerada de forma automática.
• Desenvolvimento de uma técnica de testes e sua aplicação a um processo de experi-
mentação com pessoas com deficiências visuais para obter a avaliação da proposta.
Além das contribuições técnicas e científicas acima, este trabalho deve contribuir tam-
bém no âmbito social com o desenvolvimento de uma solução tecnológica que pode re-
fletir na qualidade de vida e inclusão social das pessoas com deficiência visual, como
também, no incentivo e divulgação de pesquisas que promovam a acessibilidade.
1.4 Escopo do Trabalho

A solução proposta neste trabalho tem o propósito de auxiliar pessoas deficientes vi-
suais no entendimento de conteúdo de vídeos. Desta forma, espera-se tornar possível a
aplicação em vídeos de diversas plataformas como cinema, televisão, vídeos de vigilância,
Youtube, entre outros.
A solução tem o potencial de aplicações em qualquer situação em que não seja pos-
sível a percepção visual da informação e, além disso, a audiodescrição pode beneficiar
outros tipos de públicos, como deficientes cognitivos, pessoas com perda de visão tempo-
rária e etc.
O problema abordado neste trabalho possui caráter multidisciplinar e engloba diver-
sos aspectos relacionados à audiodescrição de vídeo. Considerando o contexto de domí-
nio geral, restringimos o problema a um escopo específico onde foram considerados os
seguintes pontos:
1. A solução proposta é específica para a audiodescrição de vídeos. A geração au-

tomática de AD para outros tipos de mídia não foram englobadas neste trabalho.
No entanto, a solução pode ser facilmente adaptada para gerar AD automática para
outros tipos de mídia;
2. Dada a complexidade natural da tarefa de elaboração da AD e da diversidade de
elementos visuais que podem ser apresentados em um vídeo, este trabalho foca
especificamente em elementos presentes predominantemente nas fontes de infor-
mação. Em relação ao roteiro, o processamento consistiu da análise das ações de
personagens, apresentados na forma textual. Em relação ao vídeo, foi utilizada
a detecção dos objetos presentes nas cenas. Para isto, são aplicados modelos de
aprendizado profundo para reconhecer elementos visuais diretamente no vídeo.
3. A solução apresentada neste trabalho não tem o propósito de substituir profissio-
nais humanos. De forma geral, as soluções computacionais ainda não conseguem
atingir todas as necessidades das pessoas cegas ou com deficiências visuais e a dis-
ponibilidade de conteúdos acessíveis, mesmo gerados por humanos, ainda é insu-
ficiente. Neste sentido, a solução surge como uma solução complementar eficiente
e de baixo custo para melhorar a experiência atual que o usuário tem ao acessar
um vídeo sem acessibilidade, onde não é viável contratar um profissional. Além
disso, pode ser utilizada por audiodescritores como uma ferramenta de otimização
do processo de criação da audiodescrição, reduzindo a carga de trabalho através da
descrição automática de elementos básicos do conteúdo.
1.5 Estrutura do Texto

Este documento está estruturado em 7 capítulos. O capítulo 2 apresenta a fundamen-
tação teórica sobre os conceitos relevantes para compreensão do trabalho, como, audio-
descrição, roteiro cinematográfico e modelos de aprendizado profundo.
O capítulo 3 apresenta um mapeamento e revisão sistemática dos trabalhos relacio-
nados à geração automática de audiodescrição. O capítulo 4 descreve a solução proposta
neste trabalho e os principais componentes. O capítulo 5 descreve as estratégias de im-
plementação adotadas no desenvolvimento dos componentes da solução.
O capítulo 6 apresenta os experimentos realizados e resultados obtidos. Por fim, o
capítulo 7 mostra as considerações finais do trabalho e propostas de trabalhos futuros.
Capítulo 2
Embasamento Teórico
Este capítulo apresenta os conceitos e definições das áreas que servem de base para
implementação deste trabalho. Inicialmente, na Seção 2.1, o conceito e as principais ca-
racterísticas da audiodescrição são apresentadas. A Seção 2.2 descreve as especificidades
da audiodescrição de vídeos. Em seguida, as Seções 2.3 e 2.4 apresentam definições
e descrições relevantes relacionadas às duas fontes de informações consideradas no sis-
tema: roteiro cinematográfico e o próprio vídeo. A Seção 2.3 apresenta os elementos
fundamentais que compõem o roteiro cinematográfico e o seu papel dentro da elabora-
ção da AD. Por fim, a Seção 2.4 apresenta os modelos de aprendizado profundo que são
aplicados para reconhecer elementos visuais diretamente no vídeo.
2.1 Audiodescrição
Este trabalho concentra-se na acessibilidade, partindo da ideia de que todas as pes-
soas devem ter as mesmas possibilidades de acesso às informações, especificamente, as
informações visuais. A ABNT relaciona o termo acessibilidade com a possibilidade de
qualquer pessoa, independente de condições físicas, perceptivas ou sociais, usufruir dos
benefícios da vida em sociedade, o que abrange atividades de entretenimento e informa-
tivas que apresentam conteúdos por meio visual.
O cinema, teatro, televisão, e ópera, entre outras, são tipos de entretenimento que
exemplificam essas atividades. Diante deste cenário, surge a necessidade de desenvolver
meios que promovam a acessibilidade desses conteúdos de forma atrativa e eficaz, levando
em consideração as diversas características e limitações que as pessoas possam possuir.
Pessoas que possuem deficiências visuais enfrentam, consequentemente, dificuldades
para participar de experiências que exijam a percepção de tal sentido. Considera-se de-
ficiência visual quando uma pessoa, de forma parcial ou total, não detém a capacidade
funcional da visão. De acordo com Flor (2009), o termo está referido a um problema
permanente, congênito ou adquirido, que não pode ser reparado por tratamentos clínicos
ou cirúrgicos. Essas pessoas apresentam os seguintes problemas: cegueira total, quando
objetos ou luminosidade são imperceptíveis; baixa visão, quando a acuidade visual é me-
nor que a de pessoas com visão normal; e daltonismo, quando não é possível distinguir
combinações ou pares de cores (Dias 2007, Quevedo & Ulbricht 2011).
Sendo assim, a audiodescrição (AD) apresenta-se como um recurso de acessibilidade
CAPÍTULO 2. EMBASAMENTO TEÓRICO 9
que proporciona às pessoas que possuem algum tipo de deficiência visual o acesso e
usufruto de conteúdos apresentados por meios audiovisuais.
De acordo com Motta (2019), a audiodescrição é um recurso que facilita o entendi-
mento de obras audiovisuais, transformando o que é visto, no que é ouvido. Em outras
palavras, é uma tradução que converte a informação visual em verbal, ou seja, audiodes-
creve o que é apresentado visualmente. Gagnon et al. (2009) apresentam a definição da
audiodescrição como sendo descrição narrativa dos principais elementos visuais de um
programa para que as pessoas com perda de visão sejam capazes de formar uma imagem
mental do que está ocorrendo na tela. Diferentemente de outras tecnologias que promo-
vem a acessibilidade, a audiodescrição não é um recurso a ser utilizado isoladamente,
deve ser vinculado ao produto visual (Nunes et al. 2011).
Em nível mundial, alguns modelos de criação da audiodescrição já foram elaborados
com a definição de critérios específicos para atender as necessidades das pessoas. O mo-
delo inglês, por exemplo, enfatiza a ambientação visual e características dos personagens,
resultando em uma descrição mais detalhada. Já no modelo espanhol, o foco da AD está
nas ações, com vocabulário mais simples e frases mais curtas (Alves et al. 2011). Em
nível nacional, o Brasil ainda não possui normas e modelos que definem as característi-
cas da audiodescrição. Pesquisas estão sendo feitas para propor um modelo baseado nos
modelos internacionais (Alves et al. 2011). Porém, ainda sem um consenso definido para
o contexto brasileiro.
2.2 Audiodescrição de Vídeos

Independente do modelo adotado, uma audiodescrição deve ser elaborada de acordo
com o conteúdo visual que se deseja descrever (Nunes et al. 2011). No contexto dos
filmes, a audiodescrição traduz imagens, enredo, cenário, ações, entre outros elementos
da história. Essa tradução é inserida nos intervalos entre os diálogos do filme, através de
uma narração, de maneira que evite a interferência nos efeitos sonoros do áudio original
(Benecke 2004).
O processo de produção manual da audiodescrição para filmes engloba um conjunto
de etapas em comum e aplicável a vídeos no geral. As etapas envolvidas no processo são
as seguintes (Santana 2010, Gagnon et al. 2009) :
• Decupagem: o audiodescritor assiste ao filme na íntegra e os principais elementos

visuais são detectados. Os personagens são elencados (nomes e características),
as informações sobre quando e onde acontece a história são detectadas e, por fim,
ocorre o mapeamento das informações que devem compor a audiodescrição. Os
eventos descritos são bastante diversificados e dependem do contexto da história,
do tempo disponível e da necessidade do filme;
• Marcação de Cena: os espaços entre os diálogos, silêncios e pontos importantes
para inserção de AD são identificados;
• Elaboração do Roteiro de AD: o texto das descrições é criado cena por cena, a
partir das informações coletadas nas etapas anteriores. O audiodescritor cuidadosa-
mente calcula o tempo da descrição para caber dentro de pausas no diálogo e onde
houver silêncio. Esta etapa também envolve o consultor, que é uma pessoa cega
especializada em avaliar o roteiro e revisar a qualidade da AD;
• Gravação: a voz que reproduzirá a narração é escolhida. A escolha da voz deve se
basear na clareza, agradabilidade e em características específicas, como por exem-
plo o gênero adequado, para não ser confundida com outras vozes apresentadas no
filme. Após a escolha da voz, as falas da audiodescrição são gravadas, geralmente
em estúdio, com a presença de um diretor.
• Tratamento, Mixagem e Finalização: o áudio é tratado para eliminar qualquer
ruído que possa ter sido captado durante a gravação e é mixado com o som original
do filme. Por fim, o produto final é preparado no formato ideal ao solicitado.
Essas etapas do processo de produção manual da AD para vídeos serviram como base
na definição da solução apresentada neste trabalho. O sistema descrito neste trabalho trata
de todas as etapas supracitadas, partindo desde a decupagem até a entrega do conteúdo
com o áudio contendo as descrições. O sistema descrito no Capítulo 5 apresenta uma
solução para a geração automática de audiodescrição para vídeos.
2.2.1 Roteiro de Audiodescrição

Dentro do fluxo de criação da audiodescrição, o roteiro de AD é um elemento central
e de grande importância, pois contém as informações identificadas nas etapas anteriores
e serve como orientação para as etapas seguintes. Os audiodescritores-roteiristas são res-
ponsáveis pela criação deste roteiro, que deve conter, precisamente, marcações de tempo
(TIME-CODE), descrições textuais, as deixas (CAPTIONS - os diálogos finais antes do
início da descrição) e as rubricas (CUES - observações para a narração). Além disso, des-
crições desnecessárias devem ser evitadas para que nenhuma sobrecarga de informações
seja criada. Assim, o roteiro de AD deve conter apenas as informações relevantes para
a compreensão do filme. A Figura 2.1 mostra um exemplo de um trecho de roteiro de
audiodescrição.
Figura 2.1: Exemplo de Roteiro de AD.
De forma geral, a audiodescrição deve descrever os elementos fundamentais para o

entendimento da obra audiovisual. Os elementos a serem descritos se dividem em: visuais
verbais e visuais não-verbais (Hurtado et al. 2010). Os visuais verbais são títulos, legendas
e elementos textuais que fazem parte da história, como por exemplo, os nome de ruas e
créditos.
De acordo com Hurtado et al. (2010), alguns dos elementos visuais não-verbais que
são relevantes para a compreensão da narrativa e que devem ser levados em conta na
criação da audiodescrição são os seguintes:
• Personagem: Apresentação, identificação, características físicas, idade, etnia, as-

pecto, vestuário, expressões faciais, linguagem corporal, estados emocionais;
• Ambiente: Localização espacial, localização temporal, descrições do ambiente;
• Ações: descrição do que está acontecendo no momento;
Os elementos não-verbais são fundamentais para a compreensão da história devido à

existência da seguinte relação básica: uma pessoa (personagem) faz algo (ação) em um
determinado lugar e tempo (ambiente) (Hurtado et al. 2010). Este trabalho irá conside-
rar apenas elementos visuais não-verbais, deixando os verbais para serem abordados em
trabalhos futuros.
Em relação à presença desses elementos na AD, Gagnon et al. (2009) fez um estudo
de algumas ADs com o propósito de entender melhor os componentes das descrições.
Segundo os resultados apresentados, a maioria das informações presentes na AD das
produções estudadas segue a dada distribuição, em ordem decrescente de ocorrências:
ação (35-45% dependendo da produção), movimento dos personagens (7–22% ), ocupa-
ção/papéis dos personagens (3-18%), decoração (4–12%), expressões faciais e corporais
(2–7%), informações textuais incluídas na imagem (1–2%) e informações sobre a atitude
dos personagens (1-4%).
Cada elemento fornece algum tipo de informação dentro do contexto da história e
portanto, seguindo essa ideia, propusemos uma modelagem de dados para a solução de
geração automática de AD inspirada na relação básica entre os elementos, descrita no
Capítulo 4. O propósito da solução proposta é trabalhar na descrição e reconhecimento
automático desses elementos para gerar a audiodescrição.
2.3 Roteiro Cinematográfico

Sendo uma das fontes de informações sobre o conteúdo de um vídeo, o roteiro cine-
matográfico pode contribuir para a elaboração da AD. Considerando que as descrições da
AD devem apresentar uma linguagem adequada e clara ao usuário, capaz de determinar
de forma concreta os objetos, personagens e cenários, o vocabulário utilizado para formar
o texto das descrições é importante, portanto, deve ser capaz de traduzir as características,
gestos e ações do filme de forma objetiva (Braga 2011).
Diante disso, o roteiro cinematográfico se torna um elemento importante, pois con-
tém palavras e termos apropriados a linguagem do filme, escritas especificamente para a
história em questão. Em relação à criação da audiodescrição, Payá (apud (Braga 2011))
afirma que o audiodescritor deve escolher as melhores palavras para descrever os eventos
da história e, para isso, tem o roteiro do filme como uma importante ferramenta auxiliar
da tradução.
Segundo Field (2001), um roteiro cinematográfico é uma história contada com ima-
gens, diálogos e descrições, localizada dentro de uma estrutura dramática. O roteiro pos-
sui elementos básicos dentro de sua estrutura como, por exemplo, pontos de viradas,
cenas, diálogos, personagens, ações, dentre outros. Todas as informações apresentadas
no roteiro servem como base para as filmagens. As informações podem variar no nível
de detalhe, mas geralmente são divididas em cenas que seguem uma ordem cronológica e
têm os seguintes elementos: A) Título da cena, nome da localização, localização espacial
(interna ou externa), localização temporal (dia ou noite) ; B) Nomes de personagens e diá-
logos; C) descrições de ações que ocorrem nas cenas, como mostra a Figura 2.2 (adaptada
de (Campos 2015)) .
Figura 2.2: Exemplo de Trecho de Roteiro Cinematográfico.
Em relação à audiodescrição, o roteiro cinematográfico contêm uma descrição mais

completa do filme, porém, como a AD está limitada aos espaços sem diálogos, não é pos-
sível comportar todas as descrições provenientes do roteiro. Por esta razão, é necessário
que se realize a seleção das informações mais relevantes para a audiodescrição.
2.4 Reconhecimento de Padrões em Vídeo

Outra forma de obter informações de conteúdo de um filme é analisar o próprio ví-
deo. Geralmente, um filme contém uma grande quantidade de informações visuais, que
podem estar relacionadas a vários tipos de elementos na história, tais como arranjo de
cena, características de personagens e eventos. Assim, muitas são as possibilidades de
extração, detecção e reconhecimento de informações relacionadas ao conteúdo de vídeo.
Considerando a complexidade em que a tarefa está envolvida, este problema precisa de
técnicas mais robustas capazes de reconhecer vários tipos de eventos em filmes.
Nos últimos anos, este tema tem sido relevante devido aos avanços de hardware, como
o uso de GPUs para fazer cálculos de forma mais eficiente e analisar dados com mais de-
talhes. Com isso, foi possível obter avanços no software também, sendo um bom exemplo
o surgimento das técnicas de aprendizado profundo (deep learning).
A Aprendizagem Profunda é um subconjunto da área de aprendizado de máquina,

usada para resolver tarefas práticas em uma variedade de campos, tais como a visão
computacional, processamento de linguagem natural e reconhecimento de voz. É um
subconjunto de métodos de aprendizado de máquina baseado nas Redes Neurais Artifici-
ais, que são uma classe de algoritmos inspirados no funcionamento do cérebro humano
(Trask 2017).
Uma rede profunda é uma rede neural que, ao adicionar mais camadas e mais unidades
dentro de uma camada, podem representar funções de crescente complexidade. A Figura
2.3, adaptada de (Nielsen 2017), apresenta a diferença entre uma rede neural convencio-
nal, à esquerda, e uma rede profunda, à direita.
Figura 2.3: Diferença entre os Modelos de Redes Neurais Convencional e Profunda.
A maioria das tarefas que consistem em mapear um vetor de entrada para um ve-
tor de saída e que são de fácil realização para uma pessoa, podem ser realizadas através
da aplicação de aprendizado profundado (Goodfellow et al. 2016). Os modelos de re-
des profundas são suficientemente robustos e, aliados aos grandes conjuntos de dados de
exemplos rotulados para treinamento, têm o seu potencial aumentado.
Nessa direção, as redes profundas surgem como uma forma de auxiliar a solucionar
esse problema de geração automática da AD, pois permitem lidar com grande quantidade
de dados e são capazes de representar dados bastante complexos. Como estamos tratando
de um problema que envolve visão computacional, reconhecimento de elementos de vídeo
e descrição de imagens e vídeo, a seguir serão apresentados os modelos mais utilizados
atualmente para esses tipos de tarefas.
2.4.1 Redes Neurais Convolucionais - CNN

As redes profundas, especialmente o modelo Convolucional Neural Network (CNN),
estão sendo aplicadas em visão computacional com vários tipos de efeitos, incluindo
desde o reconhecimento de objetos de cena, pessoas e ações humanas, até que a descrição
de imagens e vídeos, entre outras.
As CNNs são um tipo especializado de rede neural para processamento de dados que
tem uma topologia em grade. Um exemplo desse tipo de dado é a imagem, que pode ser
considerada uma grade de pixels.
O termo convolucional indica que a rede emprega uma operação matemática chamada
convolução, que é um tipo especializado de operação linear. Essas redes neurais usam a
convolução em vez da matriz geral, pelo menos em uma das suas camadas (Goodfellow
et al. 2016). Em processamento de imagens, a convolução é útil para detecção de bordas,
suavização de imagem, extração de características e etc, e esse é o procedimento utilizado
pelas redes para detectar características nas imagens.
Segundo Lecun et al. (2015), uma arquitetura típica de uma CNN é formada por uma
série de estágios que se repetem. Os estágios iniciais são formados pelas camadas de
convolução e de pooling.
A camada de convolução tem o objetivo de extrair características da entrada, preser-
vando a relação espacial entre pixels e aprendendo as características da imagem a partir
de pequenas áreas de dados da entrada. Cada camada busca na imagem algum tipo de
caraterística e, para isso, utiliza um filtro, representado por uma matriz, que desliza sobre
a imagem, gerando o mapa de características (feature map). A Figura 2.4 apresenta um
exemplo de matriz de convolução.
Figura 2.4: Exemplo de Matriz de Convolução.
Além disso, após cada operação de convolução, a operação adicional chamada ReLUs
(Rectified Linear Units) é aplicada às saídas. ReLUs são apresentadas por neurônios com
função de ativação não-linear de acordo com a equação:
f (x) = max(0, x) (2.1)

O objetivo da ReLU é introduzir não-linearidade à rede. Isso é necessário porque
grande parte dos dados reais é não-linear e, como a convolução é uma operação linear,
torna-se fundamental inserir a não-linearidade através de uma função de ativação não-
linear.
A camada de pooling (Subsampling) reduz a dimensionalidade de cada mapa de ca-
racterísticas, retendo as informações mais importantes. Com isso, a dimensão da repre-
sentação dos dados é reduzida e gera como consequência a diminuição do processamento
necessário nas camadas seguintes. A Figura 2.5, retirada de (CS231n n.d.) apresenta
um tipo de pooling, o Max Pooling, que utiliza apenas o elemento maior do mapa de
características dentro da janela.
Por fim, o outro estágio é formado pelas camadas totalmente conectadas que são inse-
ridas no final da CNN. Durante todos os estágios das camadas de convolução e pooling,
a rede é capaz de detectar muitas característica, no entanto, não consegue associar essas
informações com as classes que a rede está trabalho. Esse é o papel das camadas total-
mente conectadas, dão o significado para as características representadas pelas camadas
anteriores.
Figura 2.5: Exemplo de Max Pooling.
Portanto, uma CNN é formada por dois ou três estágios com as camadas de convo-
lução, de não-linearidade (RELU) e de pooling empilhadas, seguidas por camadas total-
mente conectadas para fazer a classificação (Lecun et al. 2015). A rede é treinada através
do algoritmo Backpropagation, o que permite que todos os pesos em todos os filtros das
camadas possam ser ajustados. A Figura 2.6, extraída de (Lecun et al. 1998), apresenta a
arquitetura de uma CNN, chamada LeNet-5, onde é possível identificar os tipos de cama-
das.
Figura 2.6: Arquitetura da Rede CNN, chamada LeNet-5.
A Figura 2.7, retirada de (Lecun et al. 2015), mostra a estrutura de uma CNN utili-
zando uma imagem de um cão Samoyed como entrada (com os 3 canais RGB servindo
como entrada) e apresentando as saídas de cada camada. Cada imagem retangular é um
mapa de características (feature maps) correspondente à saída da camada e que repre-
senta uma das características aprendidas. Uma camada detecta a mesma característica em
cada uma das posições da imagem e cada camada busca por características diferentes. O
fluxo das informações dentro da rede ocorre, de acordo com a Figura 2.7, de baixo para
cima, com as características dos níveis mais baixos atuando como detectores de bordas
orientadas. Por fim, no topo da Figura 2.7, a saída da rede apresenta uma pontuação de
probabilidade que é calculada para cada classe de imagem.
Muitos trabalhos na literatura investigam a CNN no reconhecimento de elementos em
vídeo e é o modelo integrado à solução apresentada neste trabalho para fazer a extração
de informações diretamente do vídeo para a audiodescrição.
Figura 2.7: Estrutura Interna de uma CNN.
2.4.2 Redes Neurais Recorrentes - RNN

O modelo CNN é o mais comum em tarefas de visão computacional e muitas pequisas
apresentam outros modelos variantes da CNN, de acordo com o tipo de aplicação. Assim
como variações do modelo, outros trabalhos utilizam mais de um modelo de rede profunda
para agregar informações e, com a união de diferentes modelos, obter benefícios que cada
tipo de processamento podem oferecer.
Em descrições de imagens e de vídeos, muitos trabalhos tem utilizado a junção da
CNN com outro modelo chamado Redes Neurais Recorrentes (Recurrents Neural Networks
- RNN). Esta rede é chamada de recorrente porque a sua própria saída é utilizada como
uma entrada e isso permite a memória do histórico das entradas. A sua arquitetura pos-
sui ciclos nas conexões, tornando o treinamento mais complexo, mas especializado para
certos tipos de aplicação, como os sistemas que são variantes no tempo. Na tarefa de des-
crição da imagens, por exemplo, a RNN recebe a saída da CNN como uma entrada extra
e pode ser treinada para traduzir as representações de alto nível da imagem para textos.
As RNNs são voltadas para dados sequenciais, como texto e voz, porque processam
uma sequencia de entrada, um elemento de cada vez, mantendo um "vetor de estado"em
seus nerônios escondidos, que contém implicitamente informações sobre o histórico dos
elementos de entrada (Lecun et al. 2015). A Figura 2.8 apresenta o mecanismo de uma
RNN, que compartilha seus pesos ao longo do tempo (Sutskever et al. 2011).
Esse modelo é bastante utilizado em geração de texto, tarefa utilizada na descrição de
imagem e de vídeo, porque parte do princípio que a linguagem consiste em sequências de
símbolos atômicos, ou seja, palavras que formam frases.
A solução proposta neste trabalho não utiliza especificamente este modelo, no entanto,
alguns trabalhos apresentados na revisão sistemática, no Capítulo 3, fazem a sua aplicação
dentro do contexto de descrição comum de vídeos, sendo relevante a sua breve descrição
dentro da teoria deste trabalho.
Figura 2.8: Estrutura Interna de uma RNN Genérica.
2.5 Considerações Metodológicas

A partir da visão geral sobre audiodescrição, como também entendendo suas caracte-
rísticas específicas quando aplicada à vídeos, pode-se considerar que a ela é um recurso
fundamental para tornar produtos audiovisuais acessíveis às pessoas deficientes visuais.
No processo de elaboração manual da audiodescrição, o audiodescritor precisa co-
nhecer bem a obra para descrever os eventos relevantes ao entendimento do conteúdo do
vídeo. Por esta razão, uma solução automática de geração deve simular este comporta-
mento extraindo as informações necessárias para compor o processo.
Com este propósito, consideramos, nesta tese, o roteiro cinematográfico e o próprio
vídeo como fontes de dados disponíveis para extração automática dessas informações.
Este capítulo apresentou elementos teóricos relevantes da metodologia a ser utilizada,
incluindo uso do roteiro cinematográfico e as técnicas mais utilizadas atualmente para
reconhecimento de padrões em vídeo, com utilização de redes neurais profundas.
Para validar a hipótese apresentada acima, a ideia é resolver o problema de gerar a
audiodescrição de forma automática, que pode ser abordado a partir de três metodologias.
A primeira é usar apenas o roteiro cinematográfico, se existir, solução que foi abordada
em contribuição anterior nossa(Campos 2015). A segunda forma, que visa melhorar a pri-
meira, é mesclar elementos do roteiro cinematográfico com o reconhecimento de padrões
em vídeo. A terceira é utilizar apenas elementos extraídos do vídeo, aplicada em casos
em que não exista o roteiro cinematográfico, como ocorre com a maioria dos vídeos do
Youtube.
Em relação ao roteiro, como explicado acima, o processamento é realizado baseado
na análise das ações de personagens, que pode ser apresentado por sintetização em voz,
processada a partir de sua forma textual. Para processar os elementos de vídeo apenas,
a ideia é proceder a detecção de objetos presentes nas cenas com utilização de redes
de aprendizado profundo, visando reconhecer elementos visuais diretamente no vídeo.
Ações podem ser inferidas desses elementos visuais, mas não é o foco aqui, uma vez que,
para validar nossa hipótese, tentamos demonstrar a viabilidade de tal sistema.
Capítulo 3
Revisão Sistemática da Literatura
O processo de criação de audiodescrição é feito, atualmente, de forma manual e por

isso, exige muito tempo de trabalho para passar por todas as etapas de produção. Sendo
assim, o uso de técnicas computacionais pode auxiliar e otimizar o processo. Na literatura
científica, alguns estudos investigam a incorporação dessas técnicas dentro das etapas de
criação da audiodescrição.
Este capítulo apresenta uma revisão de literatura sobre as técnicas de geração au-
tomática de audiodescrição. O protocolo de revisão sistemática que foi utilizado para
direcionar essa revisão é apresentado no Apêndice A. A Seção 3.1 apresenta o processo
de busca, seleção e classificação dos artigos. Na Seção 3.2, os trabalhos mais relevantes
são descritos e avaliados de forma qualitativa.
3.1 Busca, Seleção e Classificação dos Artigos

O protocolo utilizado nesta revisão melhora e atualiza a proposta do trabalho de Muniz
(2014), que apresenta uma revisão sistemática sobre as técnicas de geração automática de
audiodescrição, considerando artigos publicados até 2014. Portanto, a revisão sistemática
apresentada neste capítulo atualiza os artigos publicados desde 2014 à 2019, além de uma
reclassificação dos artigos selecionados até 2014 para adaptação às mudanças realizadas
no protocolo.
A etapa de busca consistiu da pesquisa através da string de busca nos portais de artigos
citados no protocolo. A consulta foi realizada nos dias 10 e 11 de Junho de 2019 e foram
retornados 126 artigos, no total.
Em seguida, foi aplicado um processo de seleção dos artigos de acordo com os cri-
térios de inclusão e exclusão. As etapas de seleção dos artigos foram realizadas por três
revisores em duas iterações. A primeira iteração considerou o título e resumo de cada
artigo e a segunda iteração foi feita a partir da leitura completa de todos os artigos con-
siderados indeterminados. Ao final da primeira iteração, foram selecionados 67 artigos
e, após a segunda interação, foram selecionados 32 artigos. A Tabela 3.1 apresenta a
quantidade de artigos em cada fase e de acordo com os portais de pesquisa.
A revisão sistemática retornou 32 artigos relacionados ao tema e que foram publicados
de 2014 à 2019. A revisão apresentada por Muniz (2014) retornou 14 artigos publicados
até 2014. Para o presente trabalho, os dois resultados foram considerados para representar
CAPÍTULO 3. REVISÃO SISTEMÁTICA DA LITERATURA 19
Tabela 3.1: Resultados do Processo de Busca e Seleção de Artigos
IEEE ACM Scopus ScienceDirect ISI TOTAL

Processo de Busca 20 2 28 8 68 126
Seleção (1a iteração) 11 2 20 5 29 67
Seleção (2a iteração) 4 2 12 4 10 32
todos os artigos publicados até o ano de 2019. Com isso, a quantidade de artigos selecio-
nados passou a ser 46 no total. A Figura 3.1 apresenta a quantidade de artigos publicados
em cada ano.
Figura 3.1: Quantidade de Publicações por Ano
Os 46 artigos selecionados passaram por um processo de classificação que consistiu

da leitura e da classificação de acordo com critérios definidos no protocolo de revisão.
Este processo foi realizado por dois revisores e, em caso de divergência ou dúvidas na
classificação, o terceiro faria a revisão dos critérios, emitindo a decisão final sobre a
classificação correta do trabalho. O resultado da classificação dos trabalhos é apresentado
na Tabela 3.2. É importante salientar que as categoria “Tipo de Entrada", "Tipo de Saída"e
"Método de Avaliação"admitiram mais de uma entrada para alguns artigos, apresentando
um número maior que a quantidade total de artigos selecionados.
Em relação ao tipo da geração, a estratégia automática está presente na maior parte dos
trabalhos, correspondendo a 65,2% dos trabalhos pesquisados (30 trabalhos, especifica-
mente). A geração semiautomática foi utilizada em 6 trabalhos (13,00%). Três trabalhos
Tabela 3.2: Classificação Total dos Artigos
Categoria Subcategoria Número de Artigos Percentual

Automático 30 65,2%
Manual 3 6,5%
Tipo de Geração
Semi-automático 6 13,0%
Não classificado 7 15,2%
Vídeo 14 25,9%
Imagem 5 9,3%
Mapa 3 5,6%
Página Web 6 11,1%
Roteiro Cinematográfico 4 7,4%
Função matemática 5 9,3%
Texto 4 7,4%
Tipo de Entrada Roteiro de AD 3 5,6%
Dados estatísticos 3 5,6%
Áudio e Legenda 1 1,9%
Localização 1 1,9%
Gráfico 1 1,9%
Modelo 3D 3 5,6%
Modelo 2D 1 1,9%
Áudio 30 40,0%
Texto 20 26,7%
Modelo 3D 1 1,3%
Roteiro de AD 4 5,3%
Tipo de Saída Imagem 1 1,3%
Impressão Tátil 3 4,0%
Gráfico 6 8,0%
Vídeo 2 2,7%
Canal Original 7 15,2%
Canal Separado 14 30,4%
Canal de Geração
Não utiliza 14 30,4%
Automática 12 28,6%
Com Usuários 24 57,1%
Método de Avaliação Especializada 3 7,1%
Híbrida 1 2,4%
Previamente Gerada 35 76,1%
Tempo de Geração de AD Tempo-real 5 10,9%
Domínio Específico 40 87,1%
Domínio da Audiodescrição Domínio Geral 2 4,2%
apresentam a geração manual da audiodescrição (6,5%), ou seja, realizada por profissi-

onais de audiodescrição. Por fim, 7 trabalhos (15,2%) não especificaram a estratégia de
geração da audiodescrição.
Considerando o tipo de entrada, a subcategoria Vídeo apresentou a maior quantidade
de trabalhos (14 trabalhos – 25,9%). A subcategoria Página Web teve 6 trabalhos (11,1%),
as subcategorias Imagem e Função Matemática tiveram 5 trabalhos (9,3%) e as subcatego-
rias Roteiro Cinematográfico e Imagem tiveram 4 trabalhos (7,4%). A demais categorias
obtiveram valores menores com a presença de 1 a até 3 trabalhos. Por fim, os trabalhos
que não especificaram o tipo de entrada foram considerados na subcategoria Não Classi-
ficado, com um total de 9 trabalhos (14,3%).
Sobre o tipo de saída, a subcategoria que apresentou maior número de artigos foi
a Áudio com 30 trabalhos, correspondendo a 40%. Em seguida, a subcategoria Texto
com 20 trabalhos (26,7%). As demais subcategorias estão relacionadas a saídas mais
específicas e portanto, apresentaram uma quantidade menor de trabalhos. Oito trabalhos
não especificaram o tipo de saída, portanto foram considerados como Não classificado.
Em relação ao canal de geração de áudio, 7 trabalhos (15,2%) apresentam a audiodes-
crição mixada no áudio original do conteúdo e 14 trabalhos utilizam um canal de áudio
separado para a AD (30,4%). Além disso, 14 trabalhos (30,4%) não utilizam áudio como
saída e outros 11 (23,9%) não especificaram o tipo de canal de áudio e foram considerados
como Não classificado.
Em relação ao método de avaliação, a mais utilizada nos trabalhos foi a avaliação
com usuários, aplicado em 24 trabalhos (57,1%). A avaliação automática foi utilizada
como método de avaliação em 12 trabalhos (28,6%). A avaliação especializada, com
ajuda de profissionais, foi utilizada em 3 trabalhos, correspondendo a 7,1%. Apenas
1 trabalho utilizou o método híbrido de avaliação. Os demais trabalhos (2 trabalhos –
4,8%) não especificaram como a avaliação foi feita e por isso, foram considerados como
Não classificado.
Em relação ao momento de geração da AD, 35 trabalhos fazem a geração da AD de
forma prévia à apresentação do conteúdo, correspondendo a 76,1%. No entanto, 5 traba-
lhos (10,9%) fazem a geração da AD em tempo-real, simultaneamente com a apresentação
do conteúdo. Os demais trabalhos (6 trabalhos – 13,00%) não especificaram o momento
de geração da AD e foram considerados como Não classificado.
Por fim, considerando o domínio da audiodescrição, a maior parte dos trabalhos (40
trabalhos – 87,1%) utiliza a audiodescrição em algum domínio específico, enquanto que 2
trabalhos (4,2%) apresentam uma abordagem de geração de audiodescrição para domínio
geral. Apenas quatro trabalhos (8,7%) não especificam o domínio da audiodescrição por
se tratar de trabalhos teóricos e, desta forma, foram considerados como Não classificado.
Segundo Nunes (2011), a audiodescrição deve ser vinculada ao produto visual, por-
tanto, a sua geração deve considerar o tipo de conteúdo que será audiodescrito. A solução
proposta neste trabalho foca na audiodescrição de vídeos digitais, portanto, os trabalhos
diretamente relacionados devem trabalhar com a mesma mídia. Diante disso, os artigos
também foram avaliados em relação ao domínio da audiodescrição para verificar qual o
tipo de mídia específica que cada um aborda. A Figura 3.2 apresenta a distribuição dos
artigos em relação ao tipo de mídia.
Figura 3.2: Quantidade de Artigos por Domínio Específico
Os dois artigos de domínio geral focam em estratégias de tradução de idioma e de ga-

mificação. Por não apresentarem uma solução/sistema de geração de audiodescrição, não
foram considerados. Os domínios específicos que estão relacionados à mídia-alvo deste
trabalho são Vídeo e TV. Ambas categorias apresentam características semelhantes na ela-
boração da AD e, portanto, estão diretamente relacionados ao tema deste trabalho. Desta
forma, serão considerados 20 artigos, 17 de Vídeo e 3 de TV, para realizar a avaliação
qualitativa dos trabalhos.
3.2 Avaliação Qualitativa dos Trabalhos

Diante dos 46 artigos selecionados na revisão sistemática da literatura, 20 estão re-
lacionados ao foco principal deste trabalho, que são os vídeos digitais. Por possuírem
características e etapas semelhantes na criação da AD, os trabalhos relacionados à vídeo
e TV são avaliados nesta seção. A Tabela 3.3 apresenta a classificação dos artigos em
relação a todos os critérios do protocolo. Para cada artigo, uma descrição e uma avaliação
qualitativa são apresentadas a seguir. Como forma de organizar a apresentação dos traba-
lhos, eles foram classificados de acordo com o papel executado dentro da audiodescrição.
3.2.1 Forma de Apresentação da Audiodescrição

Muitos trabalhos incorporam técnicas computacionais na forma de apresentar a audio-
descrição aos usuários, através de recursos de distribuição de áudio, uso de sintetizadores
de voz e players adaptados à manipulação das descrições. Os trabalhos a seguir não pro-
põem sistemas de geração automática da audiodescrição em seu objetivo principal, mas
apresentam soluções relacionadas ao consumo e acesso do recurso.
Oliveira et al. (2016) propõem duas novas abordagens para a tradução audiovisual
voltadas para conteúdos de televisão: a audiodescrição colaborativa/espontânea e a lei-
tura automática de legendas. Em relação à audiodescrição colaborativa ou espontânea, é
utilizada uma abordagem co-participativa que aproveita as dinâmicas que frequentemente
ocorrem em domicílios, onde os deficientes se beneficiam com a tradução informal dos
conteúdos apresentados na TV feitas por parentes ou amigos. Seguindo esta prática, os
autores propõem a criação da AD a partir da gravação de áudio, em tempo real, das descri-
ções espontâneas geradas por algum colaborador não-profissional. Essas gravações irão
fazer parte de um repositório e outros deficientes poderiam acessá-las através de aplicativo
que fornece uma nova track de áudio contendo a AD. A segunda abordagem de criação é
a leitura automática de legendas, que tem o objetivo de deixar conteúdos de TV transmiti-
dos em línguas estrangeiras acessíveis às pessoas que não entendem um segundo idioma.
Neste caso, esta abordagem pode auxiliar os deficientes visuais a ter acesso ao conteúdo
da legenda, como também qualquer pessoa que não seja fluente no idioma estrangeiro
em questão. Para executar esta tarefa, a solução utiliza uma ferramenta TTS (text-to spe-
ech) ou técnicas de ORC (Optical Recognition Character). As duas abordagens foram
avaliadas por especialistas que consideraram a solução relevante, pois aborda conteúdos
no idioma nativo e estrangeiro. Já a abordagem colaborativa tem objetivo de aumentar a
oferta de audiodescrição para conteúdo de TV, porém necessita de um humano para criar
as descrições e, além disso, pode ocorrer problemas de sincronia entre os canais de áudio
da TV e da AD, uma vez que são gravações distintas. Já a abordagem automática, a partir
da legenda, contribui para o acesso a conteúdos estrangeiros, no entanto, se limita aos
diálogos do programa de TV, não fornecendo descrição das informações visuais.
Domingues et al. (2016) apresentam uma solução computacional para ser utilizada em
salas de cinema. A solução proposta é capaz de gerar automaticamente a audiodescrição
dos filmes e distribuir esses conteúdos, através de dispositivos móveis, para os usuários
cegos. Para isso, a solução propõe as etapas de comunicação com o player do cinema, de
geração automática da AD e de distribuição do conteúdo nos dispositivos. A comunicação
da solução com o player do cinema é feita através de um protocolo de troca de mensagens
e possui o objetivo de garantir a sincronia da AD com a exibição do filme. A solução
foi testada com usuários cegos para fazer um comparativo do nível de compreensão do
conteúdo em duas situações distintas: com e sem a solução durante a exibição do filme. Os
resultados mostraram que o sistema promoveu um aumento na compreensão dos eventos
do filmes quando comparado a usuários sem o recurso de acessibilidade. Desta forma,
o trabalho apresenta uma forma de tornar as salas de cinema acessíveis aos deficientes
visuais.
Calvo-Salamanca et al. (2016) apresentam um protótipo Web para acessar vídeos
com audiodescrição usando sintetizadores de voz. A solução tem uma arquitetura cliente-
servidor para a criação e acesso aos conteúdos acessíveis. A partir do cliente, é possível
informar o vídeo através de uma URL, editar, salvar e enviar as descrições, que serão
utilizadas para criar a AD através da ferramenta TTS. O servidor faz o controle e arma-
zenamento de todos os vídeos acessíveis e, através de uma requisição, o cliente poderá
ter acesso a URL para o vídeo original ou para a versão do vídeo com a AD embutida no
áudio original. O protótipo foi avaliado por um grupo de usuários em relação à usabili-
dade e acessibilidade. Os resultados mostraram que 60% dos usuários acharam a solução
fácil de ser utilizada e, dentro de uma escala SUS (System Usability Scale) de 1 a 35, a
pontuação da experiência foi de 23.47.
Uma outra plataforma que usa síntese de voz para adicionar audiodescrição à vídeos
on-line em qualquer site é proposta por Kobayashi et al. (2010). Através de ferramenta
text-to-speech – TTS, o roteiro de audiodescrição utilizado no formato de texto pode ser
convertido em áudio sem a necessidade de um audiodescritor-narrador. A arquitetura da
plataforma consiste de um editor de roteiro, um player de vídeo, um repositório de meta-
dados e um formato baseado em texto para comunicação entre os componentes. O editor
de roteiro fornece uma interface visual para editar as frases e especificar, na linha do
tempo, os instantes em que cada descrição deve ser lida. Além disso, permite modificar
os parâmetros da voz, tais como o gênero do narrador e a velocidade. Os roteiros de AD
criados são então armazenados e compartilhados em um repositório de metadados, que
é acessado pelo player do vídeo. Para avaliar a solução, experimentos com pessoas com
deficiências visuais foram realizados para verificar a aceitabilidade dos sintetizadores de
audiodescrição e, para isso, foram exibidos vídeos com audiodescrições em vários níveis
de qualidade da voz sintetizada, além de versão gravada por um narrador profissional
humano. Os resultados mostraram que sintetizadores de voz são aceitáveis e tem o poten-
cial de melhorar significativamente a experiência do usuário em relação a vídeos que não
apresentam AD.
Chapdelaine e Gagnon (2009) e Rocha Façanha et al. (2016) apresentam players de
vídeo adaptados para que pessoas com deficiência visual possam ter acesso à vídeos com
audiodescrição. O objetivo é facilitar a manipulação do vídeo e da AD com o uso de sin-
tetizadores de voz. Na solução proposta por Rocha Façanha et al. (2016), o ADVPlayer, o
roteiro de AD previamente elaborado de forma manual é passado ao software juntamente
com o vídeo. Em seguida, o sintetizador de voz é acionado e um sincronizador executa o
vídeo com a AD embutida. O usuário pode modificar parâmetros relacionados ao áudio
de acordo com a sua necessidade, como por exemplo a velocidade e o volume da AD. A
solução foi avaliada com 19 pessoas com deficiência visual, entre cegueira total e baixa
visão. Os resultados mostram que os participantes possuem uma alta satisfação e con-
fiança no uso da tecnologia de audiodescrição com síntese de voz, com altos níveis de
compreensão da informação. Já em Chapdelaine e Gagnon (2009), o player VDPlayer
fornece a audiodescrição em dois níveis de detalhes: 1) modo padrão, cujas descrições
são inseridas nas lacunas entre os diálogos; e 2) modo estendida, que utiliza toda a audio-
descrição produzida e que excede a duração das lacunas. A avaliação do software indicou
que 90% dos participantes consideraram que a seleção da opção entre vários tipos de
audiodescrição é uma funcionalidade muito relevante, tendo a versão estendida como a
preferencial.
O trabalho de Encelle, Beldame, e Prié (2013) aborda uma questão limitante da audi-
odescrição, que é o tempo disponível entre os diálogos para narrar as descrições. A so-
lução utiliza o uso de pausas artificiais em vídeos audiodescritos para aumentar o tempo
disponível para a narração e, consequentemente, disponibilizar mais informações na audi-
odescrição. A abordagem utilizada baseia-se em anotações de vídeo (video annotations)
para enriquecer o vídeo durante a reprodução. Os resultados da avaliação com usuários
indicaram que as pausas artificiais apresentaram um bom nível de aceitabilidade e um

nível de desconforto baixo, sendo observado também que as pausas mais longas causam
mais desconforto. Além disso, a localização da pausa influencia diretamente o nível de
desconforto.
Por fim, Ichiki et al. (2018) apresentam um estudo sobre o problema de sobreposição
da audiodescrição em relação aos comentários da televisão ao vivo, situação que dificulta
o entendimento e discernimento de cada áudio. Segundo os autores, este estudo é parte de
uma pesquisa para desenvolvimento de um sistema de geração automática de audiodes-
crição para eventos esportivos transmitidos ao vivo. A revisão sistemática não apresentou
artigos que descrevam o sistema, apenas este estudo que investiga uma questão pontual
enfrentada durante o desenvolvimento. O trabalho mostra que a situação do jogo é trans-
mitida de forma eficaz quando as pessoas com deficiência visual ouvem a audiodescrição
sozinha, sem comentários ou narrações convencionais. Em seguida, apresentam os se-
guintes resultados relacionados aos problemas de sobreposição: existe uma diferença no
nível de volume ótimo entre comentários ao vivo e a AD; a facilidade de ouvir depende
da diferença nas características do sintetizador de voz; a reprodução de AD por meio de
um alto-falante dedicado e posicionado de forma diferente do alto-falante da TV torna os
dois áudios mais fáceis de serem entendidos.
3.2.2 Uso de Roteiros na Geração de Audiodescrição

Uma das abordagens para a elaboração automática de audiodescrição é extrair infor-
mações sobre um filme diretamente do seu roteiro cinematográfico. A criação da audio-
descrição usando roteiro é abordada por Lakritz et al. (2002) e Campos (2018).
Em Lakritz et al. (2002), um sistema semi-automático extrai informações pertinen-
tes do roteiro usando as palavras mais frequentes e converte-as para um formato de texto
mais apropriado para a audiodescrição. A solução faz a criação do roteiro de audiodes-
crição em formato textual e não utiliza canal de áudio. Os resultados mostram que essa
abordagem pode extrair 80% das informações importantes e converte 66% das frases em
audiodescrição. O sistema é avaliado por narradores profissionais, que indicam que a
solução tem potencial, no entanto, não melhora a eficiência do processo de criação de
roteiros de AD porque a saída não contém informações de temporização (ou pontos de
sincronização) que vinculam a audiodescrição ao vídeo. O principal problema é que a
identificação manual dos intervalos em que as descrições devem ser adicionadas e a busca
pela descrição correta para cada intervalo de tempo requer um esforço substancial.
Em Campos et al. (2018) é apresentada uma solução de geração automática de ro-
teiros de AD, chamada CineAD, que também utiliza o roteiro do filme como base para a
audiodescrição. A solução detecta os intervalos entre as falas do filme, através da legenda,
e gera as descrições a partir da extração das ações do roteiro cinematográfico original do
filme. Para avaliar a solução, foi desenvolvido um conjunto de experimentos com usuários
cegos e audiodescritores. Os resultados mostraram que a solução proposta tem potencial
para gerar as descrições dos eventos mais importantes do filme e conseguiu melhorar a
compreensão dos conteúdos em 48%. No entanto, a solução tem a dependência do roteiro
e só pode ser utilizada se este estiver disponível. Este artigo possui a candidata desta tese
como autora principal e é uma das publicações obtidas durante o período do doutorado.
Essa mesma solução de geração foi integrada em Domingues et al. (2016). A solução
apresentada por Domingues et al. (2016) realiza a geração do áudio e a distribuição da
audiodescrição, criada a partir do CineAD, em salas de cinemas, através de dispositivos
móveis
3.2.3 Reconhecimento de Vídeo na Geração de Audiodescrição

Um outro tipo de abordagem para a elaboração automática de audiodescrição é extrair
informações diretamente do vídeo, através da detecção e reconhecimento de elementos
presentes nos frames. Os trabalhos descritos nessa subseção se baseiam nesta abordagem.
Foco na Criação de Datatset

A criação de um novo dataset para descrição de vídeo é apresentado em Rohrbach
et al. (2017). Os autores propõem um novo conjunto de dados que contém trechos de
audiodescrição alinhados a filmes completos. A escolha pelo uso de audiodescrição como
exemplo de texto descritivo de vídeos consistiu de uma análise que os autores fizeram
e interpretaram que as descrições fornecidas pela AD eram mais precisas em relação
a outros tipos de descrições. Essa base de dados resultante contém um corpo paralelo
de 128.118 sentenças alinhadas a videoclipes de 200 filmes (cerca de 150 h de video no
total). O objetivo da base é gerar automaticamente as descrições dos clipes de filme, sendo
utilizada por soluções de propósito de descrição geral de vídeos. A criação do conjunto
de dados deu origem a um desafio de descrição de video chamado LSMDC (Large Scale
Movie Description Challenge).
Foco na Descrição Geral de Vídeo (Vídeo-para-Texto)

Alguns trabalhos apresentam soluções para descrição geral de vídeos, em que um
vídeo é recebido como entrada e é gerado um texto contendo um termo, elemento ou
descrição como saída (Yue et al. 2016, Yang & Mao 2019, Liu et al. 2017, Rohrbach
et al. 2017, Chen et al. 2017, Bolaños et al. 2018). O objetivo desses trabalhos é a descri-
ção comum do vídeo, não levando em conta aspectos específicos para a audiodescrição,
como por exemplo tamanho das sentenças, linguagem adequada, marcações de tempo e
geração de áudio. Todos esses artigos apresentam soluções com descrições geradas de
forma prévia à exibição do conteúdo. Em relação à avaliação, o método utilizado é a ava-
liação automática, não apresentando avaliações diretamente com usuários. A avaliação
automática consistiu do cálculo de métricas de comparação de texto, especificamente a
BLEU, METEOR, ROUGE e CIDEr, como forma de medir a performance das soluções,
comparando as frases geradas automaticamente com as referências das bases de dados.
Essas métricas são descritas e detalhadas em (Kilickaya et al. 2016).
Yue et al. (2016) apresenta um modelo de deep learning para fazer a geração de descri-
ção de vídeo. O modelo proposto se baseia no modelo de rede profunda RNN (Recurrent
Neural Network) muito utilizado na análise no processamento de textos, especificamente
a Long-Short Term Memory (LSTM). A proposta considera a descrição de vídeo com um
modelo First-Feed, ou seja, em que apenas a primeira unidade da LSTM é alimentada

com as informações extraídas do vídeo. A etapa de codificação tem o objetivo de extrair
as features dos frames do vídeo através da aplicação de Redes Neurais Convolucionais
(CNN) e gerar um único vetor de features para o vídeo específico que servirá de entrada
apenas para a primeira unidade LSTM da etapa de decodificação. Este sinal é propagado
e cada unidade da LSTM faz a predição da palavra corrente usando a palavra gerada pela
unidade anterior, até encerrar a geração da sentença. A solução foi testada com os datasets
MPII-MD e o Youtube2Text, ambos consistindo de vários clips de vídeos com segundos
de duração e com suas respectivas descrições textuais. A avaliação foi feita a partir do
cálculo de métricas de comparação entre as sentenças esperadas e as obtidas com a solu-
ção. A precisão média da métrica SVO, que verifica a precisão relacionada a estrutura da
frase Sujeito-Verbo-Objeto foi de 46.11%. Para o primeiro dataset, a métricas BLEU4 e
METEOR apresentaram o valor 0.385 e 0.2829, respectivamente. No segundo dataset, o
valor obtido para a métrica METEOR foi de 0.634.
Yang e Mao (2019) também propõem um modelo de descrição de vídeo com base nas
redes profundas CNN e LSTM. O diferencial do modelo está na utilização de informa-
ção multimodal de vídeos e na incorporação de conceitos semânticos. Além de utilizar
modelos CNN para extração de características dos vídeos, o modelo possui recursos para
extrair informações do áudio e do vídeo, para serem utilizadas também dentro do vetor
de características. A proposta de modelo de descrição consiste de um codificador LSTM
que incorpora conceitos semânticos presentes nos vídeo através de um filtro semântico
que integra features presentes nos frames. Esses filtros semânticos são gerados a partir
da detecção de elementos considerados importantes no vídeo, como por exemplo objetos,
pessoas, ações, etc. Além disso, inclui um codificador LSTM de multicamadas que de-
tecta os segmentos do vídeo através da comparação de conceitos semânticos das features
do vídeo de quadros-chave vizinhos. Com isso, o modelo pode incorporar as informa-
ções estruturais de cada segmento dentro da representação completa do vídeo, gerando
um descrição textual mais precisa do vídeo. A solução foi testada com os datasets MSR-
VT, Youtube2Text e M-VAD, que possuem clips de vídeos e suas respectivas sentenças
de descrição. Os resultados das métricas BLEU4, METEOR, CIDEr, ROUGE-L foram
respectivamente, 0.408, 0.287, 0.468 e 0.615 para o primeiro dataset. Para o segundo,
a BLEU4, METEOR e CIDEr foram 0.512, 0.354 e 0.749. Para o terceiro dataset, a
métrica METEOR apresentou valor de 0.083. Os resultados mostram uma melhoria de
desempenho em comparação com outros modelos variantes da LSTM.
Liu et al. (2017) apresentam um modelo de deep learning para geração de descrição
de vídeos chamado Hierarchical & Multimodal Video Caption (HMVC). O modelo pro-
posto integra o conhecimento intermediário, como por exemplo as cenas, objetos, ações e
etc, para obter o conhecimento semântico latente em cada quadro para compor as descri-
ções do vídeo. O modelo descobre o conhecimento interno do conteúdo do vídeo através
da conjunção do aprendizado do conhecimento visual e textual extraídos de unidades do
vídeo e, a partir dessas informações de entrada, utiliza um modelo de rede profunda para
gerar a descrição. Para isso, o modelo possui 3 camadas LSTM e cada camada é proje-
tada para as features visuais, as features textuais e para o vetor de palavras da descrição,
respectivamente. A primeira camada (modelo visual) codifica o fluxo de features visuais.
A camada intermediária (modelo textual) codifica o fluxo de features textuais gerado por
um determinado modelo de descrição de imagem. Por fim, a camada inferior codifica a
entrada de texto fornecida e a representação textual das imagens para gerar a descrição
final do vídeo. A solução foi avaliada com os datasets MSVD, MPII-MD e MSR-VTT,
todos consistindo de clips de vídeo curtos e com suas descrições. Em relação ao primeiro
dataset, a proposta obteve resultados parecidos com outras propostas mais clássicas. No
segundo dataset, os valores das métricas METEOR e ROUGE-L foram os melhores em
comparação com outras técnicas. Já no terceiro dataset, a proposta apresentou melhor
desempenho com os valores da métrica de 0.443, 0.321, 0.689 e 0.684, respectivamente.
Chen et al. (2017) apresentam uma solução para descrição de vídeos com a utiliza-
ção de modelos de deep learning, especificamente Recurrent Neural Network (RNN). O
modelo proposto faz a fusão das técnicas de Machine Translation, que inclui etapas de
codificação e decodificação para transformar a imagem em texto, com o mecanismo de
Soft Attention, para que o modelo neural foque em partes mais relevantes durante a ta-
refa de predição. Para isso, foi utilizado a detecção de objetos e de trajetórias de suas
coordenadas, sendo o próprio modelo quem toma a decisão de quais são as informações
necessárias para gerar a próxima palavra da frase, a partir das palavras anteriores e das
informações visuais codificadas. Para testar a solução, foi utilizado o dataset MSR-VTT,
que possui clips curtos de diversos gêneros e suas respectivas sentenças descritivas. A
solução foi avaliada a partir das métricas de comparação entre a descrição geradas e as
frases do dataset, além de métricas de avaliação humana relacionadas a coerência, rele-
vância e escala de ajuda aos cegos, com todos esses valores entre 1 a 5, sendo o maior
valor representando a melhor avaliação. As métricas BLEU4, METEOR, ROUGE-L, CI-
DER obtiveram os seguintes valores 0.344, 0.260, 0.584 e 0.367, respectivamente. Os
resultados das métricas mostram que a solução melhorou o desempenho em comparação
com os modelos RNN mais clássicos. Os profissionais avaliaram a coerência, relevância
e escala de ajuda com as respectivas notas 3.19, 2.75 e 2.8.
Bolaños et al. (2018) apresentam uma proposta de geração automática de descrição
de vídeos que possuem o ponto de vista de gravação de primeira pessoa, ou seja, quando
uma pessoa usa uma câmera para capturar seu quadro de visão. A metodologia utilizada
explora informações de eventos que ocorrem consecutivamente no tempo, pois considera
que os eventos de primeira pessoa, dentro do contexto de um dia, podem seguir uma rela-
ção temporalmente lógica em que ações anteriores podem influenciar nas seguintes. Para
isso, foi proposto um modelo capaz de capturar e aprender essa relação. Ao contrário das
abordagens tradicionais, o modelo consiste em pelo menos dois estágios de codificação:
um para a sequência do evento atual e outro (ou mais) para a sequência do evento anterior.
Além disso, possui um estágio de decodificação que combina as informações de todos os
estágios anteriores usando um LSTM de atenção de múltiplas entradas. Para avaliar a
proposta foi criado um dataset EDUB-SegDesc, contendo 1339 eventos e as respectivas
descrições, e calculada as métricas BLEU4, CIDEr e METEOR. Os valores obtidos foram
de 0.319, 0.221 e 0,107, respectivamente. Esses resultados apresentaram melhor desem-
penho quando comparado a outras técnicas que não consideram informações temporais
de eventos diferentes.
Foco na Acessibilidade
Essas soluções descritas acima propõem a geração de descrição comum de vídeos, no
entanto, não são voltadas para a audiodescrição especificamente. O objetivo dos trabalhos
é a descrição de vídeos, porém foram usados com vídeos com curta duração (segundos),
a geração do áudio é desconsiderada, não há verificação de sincronia, não há adequa-
ção da linguagem, nem geração da narração, que são aspectos esses relevantes para a
acessibilidade do conteúdo. Outros trabalhos propõem a criação do áudio e estão mais
inseridos no contexto de acessibilidade (Campos et al. 2017, Perera et al. 2017, Karkar
et al. 2018, Gagnon et al. 2009).
Campos et al. (2017) apresenta uma solução de geração de AD para vídeos de vi-
gilância, com o objetivo de narrar as informações visuais detectadas nesse tipo de vídeo
a usuários com deficiências visuais, como por exemplo a presença de objetos e pessoas.
A solução faz a detecção desses elementos diretamente dos frames do vídeo, através da
aplicação de técnicas de deep learning, especificamente o modelo CNN. Dentre todas as
detecções, são consideradas apenas aquelas que se repetem durante um intervalo de 60
segundos. Em seguida, a solução gera uma sentença do tipo “Imagem mostra. . . ”, com
complementação da lista de elementos detectados, por exemplo, “Imagem mostra 1 pes-
soa, 1 carro.”. Essas sentenças formadas são encaminhadas para uma ferramenta de TTS
para criação do áudio da AD. A avaliação da solução foi feita a partir da análise técnica
da taxa de acerto do reconhecimento dos elementos, o tamanho das descrições geradas, a
quantidade de objetos/pessoas detectadas e o tempo total da AD. Os resultados mostram
que a solução tem potencial para auxiliar pessoas com deficiência visual, no entanto a
versão apresentada não foi aplicada no contexto de tempo-real. Este artigo possui a can-
didata desta tese como autora principal e é uma das publicações obtidas durante o período
do doutorado.
O processo de reconhecimento de objetos em vídeo também é abordado em Karkar
et al. (2018). O trabalho apresenta uma solução para dispositivos móveis que reconhece
objetos presentes em uma cena, apresentada por imagem ou vídeo, e disponibiliza essa
informação em formato de áudio para o usuário. A solução consiste de um aplicativo bi-
língue para celular que faz a aplicação de um modelo de rede neural convolucional (CNN)
para reconhecer objetos em tempo real e apresentar as informações em dois idiomas dis-
tintos: inglês e árabe. Os autores informam que o aplicativo móvel pode ser estendido
para dar suporte adicional às tecnologias de e-Learning e aos jogos de entretenimento
educativo, no entanto, o artigo não apresenta avaliações da solução.
Já Perera et al. (2017) propõe um sistema de descrição de vídeo que faz a classifi-
cação de uma ação humana e fornece esta informação para o usuário através de áudio, a
partir de uma ferramenta Text-to-Speech. O sistema possui 3 camadas. A primeira é uma
interface com o usuário, onde ele pode selecionar o clip de vídeo e ter acesso ao áudio
correspondente ao resultado da classificação. A segunda camada é a camada de aplica-
ção, responsável pela classificação da ação humana presente no vídeo através de SVM
(Support Vector Machine) e da chamada do sintetizador de voz. Por fim, a última camada
armazena os dados de treinamento do classificador. Os experimentos consistiram da ava-
liação de classificação de 54 vídeos de testes, com uma ação por vídeo, de 6 atividades
humanas: agachar, pular, correr, andar, acenar e apertar mãos. O resultado do treinamento
de classificação foi de 81,5% de acurácia. Os experimentos não apresentaram avaliações

com usuários.
Por fim, Gagnon et al. (2009) apresentam um projeto de desenvolvimento de ferra-
mentas de software para auxiliar a produção de audiodescrição. O objetivo é fornecer
soluções computacionais que possam detectar automaticamente o conteúdo visual e aju-
dar o audiodescritor no processo de criação das descrições. Devido às limitações técnicas
e à complexidade das tarefas envolvidas, o objetivo do sistema é prover a sumarização
de alguns elementos do filme, a fim de diminuir o esforço empregado pelo audiodescritor
no processo de criação da AD, disponibilizando dois produtos finais: um arquivo com a
AD narrada por um sintetizador, ou um roteiro com os tempos e descrições que pode ser
editado através de um player. O sistema propõe a detecção de lugares importantes e re-
correntes, detecção de faces, reconhecimento de texto importante para a compreensão da
história (texto-chave) e ação de pessoas. Essas detecções automáticas do conteúdo visual
são feitas através de uma coleção de filtros especializados que extraem informações de
alto nível, afim de descrevê-los; algoritmos para formar agrupamentos de rostos similares
baseados na observação de características e semelhanças entre as faces; técnicas de seg-
mentação de imagens; acompanhamento de movimentos extraídos da sequencia do vídeo,
a partir de características selecionadas da imagem inicial. O artigo foi publicado no ano
de 2009 e apresenta a solução ainda em fase de desenvolvimento. Os resultados prelimi-
nares mostraram que a abordagem ainda não atende as necessidades dos usuários cegos de
forma satisfatória, no entanto, os autores mencionam que a técnica do processo é viável.
A revisão sistemática não retornou artigos mais recentes que relatam a continuidade da
pesquisa.
3.3 Contextualização no Estado da Arte

Este capítulo apresentou uma revisão sistemática da literatura sobre sistemas de gera-
ção automática de audiodescrição. No total, foram retornados 46 artigos, sendo 20 traba-
lhos relacionados diretamente à audiodescrição de vídeos digitais. A Tabela 3.3 apresenta
a classificação dos trabalhos relacionados e o posicionamento da solução proposta neste
trabalho em relação a todos os outros.
Dentre os trabalhos apresentados pela revisão, classificamos aqueles que atuam na
forma de apresentação da audiodescrição e aqueles que propõem um sistema de geração
automática usando como base duas fontes de informação: roteiros cinematográficos e o
próprio vídeo. A solução proposta neste trabalho se enquadra em um sistema de geração
automática da AD que utiliza ambas fontes de informações. Em relação à forma como a
AD é apresentada, o sistema tem o objetivo de apresentar como saída o roteiro de audio-
descrição em formato textual, o áudio contendo a narração da AD (canal separado) ou o
próprio vídeo com a AD embutida (canal original).
O principal aspecto relevante investigado foi que apenas 3 dos trabalhos relacionados
apresentam uma solução de AD gerada em tempo-real ao conteúdo, dentre deles, apenas
1 propondo um sistema automático de geração. Diante deste cenário, e em adição a esta
única contribuição encontrada, a proposta apresentada nesta tese considera duas situações
de uso em relação à audiodescrição: uma gerada de forma prévia à exibição do conteúdo,
como também outra em tempo-real, à apresentação do vídeo. O capítulo a seguir descreve

o problema e etapas envolvidas em uma solução de geração automática de AD com essas
características.
Tabela 3.3: Classificação dos Artigos Diretamente Relacionados
Ref Geração de AD Entrada Saída Canal de Geração de AD Domínio da AD Método de Avaliação Tempo de Geração da AD
Texto,
(Encelle et al. 2013) Manual Vídeo Não classificado Vídeo Com usuários Previamente gerada
Áudio
(Ichiki et al. 2018) Automático Não classificado Não classificado Não classificado TV Com usuários Tempo-real
(Chapdelaine & Gagnon 2009) Não classificado Não classificado Áudio Não classificado Vídeo Com usuários Previamente gerada
Áudio,
(Oliveira et al. 2016) Semi-automático Áudio Canal Separado TV Especializada Tempo-real
Legenda
(Kobayashi et al. 2010) Semi-automático Roteiro de AD Áudio Não classificado Vídeo Com usuários Previamente gerada
(Calvo-Salamanca et al. 2016) Semi-automático Roteiro de AD Vídeo Canal Original Vídeo Com Usuários Previamente gerada
(Rocha Façanha et al. 2016) Semi-automático Roteiro de AD Áudio Canal Original Vídeo Com usuários Previamente gerada
(Lakritz & Salway 2002) Semi-automático Roteiro Cinematográfico Roteiro de AD Não utiliza Vídeo Especializada Previamente gerada
(Domingues et al. 2016) Automático Roteiro Cinematográfico Áudio Canal Separado Vídeo Com Usuários Previamente gerada
Com Usuários,
(Campos et al. 2018) Automático Roteiro Cinematográfico Roteiro de AD Não utiliza Vídeo Previamente gerada
Especializada
(Campos et al. 2017) Automático Vídeo Áudio Canal Separado Vídeo Automática Previamente gerada
(Yue et al. 2016) Automático Vídeo Texto Não utiliza Vídeo Automática Previamente gerada
(Yang & Mao 2019) Automático Vídeo Texto Não utiliza Vídeo Automática Previamente gerada
(Bolaños et al. 2018) Automático Vídeo Texto Não utiliza Vídeo Automática Previamente gerada
(Liu et al. 2017) Automático Vídeo Texto Não utiliza Vídeo Automática Previamente gerada
(Rohrbach et al. 2017) Automático Vídeo Texto Não utiliza Vídeo Automática Previamente gerada
Automática,
(Chen et al. 2017) Automático Vídeo Texto Não utiliza Vídeo Previamente gerada
Especializada
(Perera et al. 2017) Automático Vídeo Áudio Canal Separado Vídeo Automática Previamente gerada
Vídeo,
(Karkar et al. 2018) Automático Áudio Canal Separado Vídeo Não classificado Tempo-real
Imagem
Vídeo,
(Gagnon et al. 2009) Automático Vídeo Canal Separado Vídeo Não classificado Previamente gerada
CAPÍTULO 3. REVISÃO SISTEMÁTICA DA LITERATURA
Áudio,
Roteiro de AD
Vídeo,
Roteiro Cinematográfico, Canal Separado, Vídeo, Automática, Previamente gerada,
Solução Proposta Automático Áudio,
Vídeo Canal Original TV Com usuários Tempo-real
Roteiro de AD
32
Capítulo 4
Formalização do Modelo de
Audiodescrição
Para propor uma solução de geração automática de audiodescrição, algumas defini-

ções e descrições de elementos envolvidos no processo devem ser analisadas. A seguir,
serão apresentadas as definições e descrições que envolvem o problema em questão. A
Seção 4.1 apresenta as definições dos elementos ligados diretamente à AD e a Seção 4.2
apresenta as tarefas envolvidas com esses elementos para gerar automaticamente a audio-
descrição.
4.1 Definições
Um filme apresenta muitos elementos que são importantes para audiodescrição. Entre
esses elementos, os intervalos sem falas, os elementos não-verbais e as fontes de infor-
mações, roteiro cinematográfico e vídeo, são considerados essenciais para o problema de
geração automática. A seguir descreveremos cada um deles.
4.1.1 Intervalos Sem Falas

Os intervalos sem falas, ou gaps, são os intervalos de tempo em que não ocorrem
diálogos dos personagens no áudio original e que podem ser usados para apresentar as
narrações das descrições da audiodescrição. A definição do intervalo (gap) é
gap =< ti ,t f > (4.1)

onde ti é o tempo inicial do gap e t f é o tempo final.
4.1.2 Elementos Visuais Não-verbais da AD

Segundo Hurtado et al. (2010), os elementos visuais não-verbais são relevantes para
a compreensão da história apresentada no filme. Isso se dá devido à relação que: um
personagem (PERSONAGEM) faz algo (AÇÃO) em um determinado lugar e hora (AM-
BIENTAÇÃO). A seguir serão apresentadas as definições desses 3 elementos:
CAPÍTULO 4. FORMALIZAÇÃO DO MODELO DE AUDIODESCRIÇÃO 34
• P = { p1 , p2 , ..., pi }, i 2 N, é o conjunto de todos os personagens e cada pi pode

possuir os seguintes componentes:
pi =< id, nome, idade, etnia, aspecto, emocional >; (4.2)
• E = { e1 , e2 , ..., e j }, j 2 N,é o conjunto de todos os ambientes e cada e j pode possuir

os seguintes elementos:
e j =< id, nome, localizacaoEspacial, localizacaoTemporal, descricoes >; (4.3)
• A = { a1 , a2 , ..., ak }, k 2 N, é o conjunto de todas as ações e cada ak pode ter os

seguintes componentes:
ak =< id, descricao, e j , P0 , deixa >; (4.4)
Os componentes de cada personagem pi , ambiente e j e ação ak são apresentados com

base na definição de Hurtado et al. (2010). Cada ação ak pode ser formada pelos seguintes
elementos: a) um identificador; b) uma descrição do que está acontecendo; c) um ambi-
ente e j onde a ação acontece; d) os personagens envolvidos na ação, representados por P0 ,
que é um subconjunto de P; e) uma deixa, ou seja, o último diálogo antes da ação iniciar.
As ações fazem a conexão entre os personagens e os ambientes devido à relação-base
entre esses elementos, que foi citada anteriormente.
4.1.3 Roteiro
O roteiro cinematográfico comporta vários tipos de informações sobre a história, a
montagem e a gravação de um filme. De acordo com Field (2001), um roteiro é uma
história contada com imagens e que contém todas as informações sobre um filme, ser-
vindo como base para a filmagem. As informações podem variar no nível de detalhe, mas
geralmente são divididas em cenas que seguem uma ordem cronológica e têm os seguin-
tes elementos: A) Título da cena, nome da localização, localização espacial (interna ou
externa), localização temporal (dia ou noite) ; B) Nomes de personagens e diálogos; C)
descrições de ações que ocorrem nas cenas.
Essas informações do roteiro pode ser relacionados com os elementos da audiodes-
crição. A Tabela 4.1 apresenta o tipo de informação que pode ser obtida do roteiro para
formar a AD.
Tabela 4.1: Relação entre as Informações do Roteiro e da AD.
nome da localização e j < nome >

A- Título de cena localização espacial (INT ou EXT) e j < localizacaoEspacial >
localização temporal (DIA ou NOITE) e j < localizacaoTemporal >
Nome de personagens pi < nome >
B - Diálogo
Texto do diálogo ak < deixa >
C - Ações Descrição ak < descricao >
A figura 4.1 mostra um exemplo de um roteiro com, respectivamente, o título da cena,

duas ações, uma caixa de diálogo e uma ação e seu ambiente dentro do esquema de dados
para a AD apresentado anteriormente.
Figura 4.1: Exemplo de Roteiro e a Representação Formal dos Elementos para a AD
4.1.4 Vídeo
Um filme pode apresentar muitas informações visuais relevantes para a audiodescri-
ção. De acordo com Hurtado et al. (2010), os estudos de cinema definem um filme como
um produto audiovisual com a câmera construindo um espaço textual, ou seja, a câmera
age como uma linguagem. Assim como toda linguagem, que apresenta níveis sintáticos,
morfológicos e semânticos, a representação de um filme gerada pela câmera apresenta ca-
madas dentro desse processo de construção da comunicação, com os seguintes elementos:
• Primeiro nível: composição dos elementos que aparecem em nível de conteúdo;

é uma definição da parte do mundo que se quer representar; Contém os cenários,
objetos que os compõem, personagens, figurino, iluminação, ação concreta e central
da encenação, etc;
• Segundo nível: modela e relaciona todos os elementos do primeiro nível; define o
contexto; é a forma de apresentação dos conteúdos;
• Terceiro nível: dá a ideia de continuidade do contexto; temporização da imagem;
relação do conteúdo em uma linha temporal;
No cenário de uma análise automática dos eventos de um filme, torna-se necessário

uma representação formal de como o vídeo é composto. Baseando-se nesta definição em
níveis da representação fílmica, foi criada para este trabalho a seguinte definição formal
e simplificada de um filme:
• Um filme é um conjunto de contextos que estão relacionados ao tempo;
F = {C1 ,C2 , ...,Ct },t 2 T (4.5)
• Cada contexto é formado por um conjunto de elementos;
Ct = { elemento1 , elemento2 , ..., elementon }, n 2 N (4.6)

Esses elementos que formam um contexto podem ser qualquer evento, item ou pes-
soa que possa ser detectada nos frames do filme. Desse modo, esse tipo de análise do
vídeo pode fornecer informações relacionadas aos três elementos não-verbais para a AD:
personagem, ambientação e ação.
O contexto poderá ser obtido a partir de uma análise dos elementos em relação a eles
próprios, nas seguintes questões: 1) recorrência de um mesmo elemento em instantes
sequenciais de tempo t do vídeo; 2) Co-ocorrência de elementos em um mesmo instante t
de tempo;
4.2 Etapas do Processo de Geração Automática de AD

A tarefa de gerar automaticamente a audiodescrição de um filme envolve as seguintes
tarefas: 1) Identificação dos gaps; 2) Seleção das informações de interesse que irão com-
por a audiodescrição; 3) Formação das sentenças; 4) Alocação das sentenças dentro dos
gaps.
4.2.1 Identificação dos Gaps

Para identificar os gaps, usamos a legenda do vídeo. A legenda é um arquivo que
apresenta todos os diálogos, com seus respectivos tempos específicos de início e de fim
de sua apresentação dentro do vídeo. Uma vez que o arquivo contém o texto dos diálogos
do filme e seus tempos específicos (inicial e final), a identificação dos gaps ocorre a partir
dos intervalos de tempo que não estão presentes na legenda, como mostrado na Figura
4.2.
Figura 4.2: Identificação dos Gaps Realizada Através da Legenda
Para cada fala da legenda (subtitlen ), o gap =< ti ,t f > recebe os seguintes valores:
ti = subtitlen (tempo_ f inal);t f = subtitlen+1 (tempo_inicial) (4.7)

considerando tempo_inicial e tempo_ f inal, respectivamente, como a marcação de tempo
inicial e final para a fala da legenda. O ti recebe o tempo final de uma legenda e o t f recebe
o tempo inicial da legenda seguinte. Além disso, são considerados os valores ti = 0 para
o primeiro gap e valor t f do último gap como a duração total do vídeo.
4.2.2 Seleção das Informações de Interesse

Nesta solução, estamos considerando 2 fontes de informações: roteiro cinematográ-
fico e vídeo. A criação de um roteiro de audiodescrição envolve a tarefa de selecionar o
tipo de informação que será apresentada na audiodescrição. Como por exemplo, gerar um
roteiro apenas com ações; ou gerar um com mais informações sobre os cenários; ou até
mesmo se utiliza apenas o roteiro, roteiro/vídeo ou apenas o vídeo como base.
Em um segundo cenário, é considerada a utilização de informações de ambas fontes,
tendo o roteiro como base e o vídeo como agregador de informações para complementar
as descrições. Em outras palavras, temos as ações do roteiros como ak e as informações do
vídeo para complementar as informações sobre personagem pi , ambiente e j e até mesmo
da própria ação ak .
Por fim, no terceiro cenário, apenas o vídeo é analisado com o objetivo de obter in-
formações de contexto ou elementos detectados que estão relacionados a qualquer dos
elementos visuais não-verbais da AD: personagem pi , ambiente e j e ações ak .
4.2.3 Formação das Sentenças

Depois de selecionar as informações, é preciso apresentá-las em sentenças que serão
narradas para formar a audiodescrição. No caso de utilizar roteiros, muitas ações já estão
em formato textual e essas sentenças podem servir de base para a AD.
Já no caso de análise apenas do vídeo, torna-se necessário a criação de sentenças que
apresentem os elementos e contextos identificados. A sugestão adotada por esta solução
proposta para tal formação é a: < SUJEIT O V ERBO OBJET O >.
4.2.4 Alocação das Sentenças nos Gaps

Como última etapa, as sentenças devem ser associadas aos gaps identificados como
disponíveis para receber a audiodescrição.
Em relação ao roteiro cinematográfico, marcações de tempo que ligam as ações ao
momento exato do vídeo não são especificadas no texto, ou seja, o roteiro não apresenta
marcações temporais relacionadas ao vídeo e os seus elementos. Para ter este tipo de
informação, é necessário fazer um pré-processamento para utilizar as informações con-
tidas na legenda como forma de fazer a associação entre o tempo das falas da legenda e
os diálogos do roteiro. Assim, podemos identificar o momento exato dos diálogos e as
ações presentes no roteiro que ocorrem entre esses diálogos, em outras palavras, ações
que ocorrem dentro de cada gap, seguindo a cronologia do roteiro.
Essas ações que ocorrem entre os mesmos diálogos podem ser identificadas através
do elemento ak < deixa >. Uma vez que a deixa é o ultimo diálogo que acontece antes de
uma ação, é preciso verificar quais ações possuem a mesma fala da legenda como deixa,
ou seja, para um gapn , o subconjunto de ações que ocorrem neste intervalo de tempo é
definido por A0 = { ak 2 A| ak < deixa >= subtitlen } .
Já para as informações obtidas pelo vídeo, é possível saber a localização no tempo do
vídeo em que elas se apresentam através da numeração dos frames em que são detectadas.
Se um determinado objeto foi detectado em certa sequência de frames, a partir do valor
da taxa de frames por segundo, é possível obter o tempo, minutos e segundos, em que ele
aparece no vídeo.
Como resultado final dessa tarefa, temos uma lista de gaps e as informações de cada
intervalo de tempo. A Figura 4.3 mostra um exemplo de alguns gaps e as ações que
ocorrem na sua duração.
Figura 4.3: Exemplos de Gaps após a Alocação das Sentenças
4.3 Considerações Sobre a Solução Adotada

Este capítulo apresentou a definição dos elementos fundamentais e as etapas envolvi-
das em uma proposta de solução do problema de geração automática de audiodescrição.
Os elementos definidos foram os intervalos sem falas, os elementos não-verbais e as duas
fontes de informações: roteiro cinematográfico e vídeo.
Uma proposta de geração automática de audiodescrição deve trabalhar com esses ele-
mentos através de tarefas que os integram e os relacionam de uma forma coerente para
a criação das descrições. Diante disso, foram planejadas as etapas de identificação dos
gaps, seleção das informações de interesse que irão compor a audiodescrição, formação
das sentenças e alocação das sentenças dentro dos respectivos gaps. O capítulo a seguir
descreve a implementação da solução, utilizando como base as definições descritas neste
capítulo.
Capítulo 5
Implementação
A solução do problema de geração automática da audiodescrição envolve quatro eta-

pas, como foi mostrado no Capítulo 4. Os detalhes de implementação da solução proposta
para o problema que foi definido, os seus componentes e suas funcionalidades são descri-
tos neste capítulo.
A Seção 5.1 apresenta a visão geral da solução proposta, o diagrama de componentes
e o seu funcionamento. A Seção 5.2 descreve o Componente de Extração de Informações,
que analisa o roteiro cinematográfico e o vídeo. A Seção 5.3 explica o papel do Compo-
nente Gerador de Roteiro de AD. As seções 5.4 e 5.5 apresentam duas versões de geração
de AD diferentes, uma utilizando o roteiro e vídeo como base e outra apenas a partir do
vídeo. Por fim, a Seção 5.6 apresenta os cenários de uso em que a solução foi planejada
para atuar.
5.1 Solução Proposta

O modelo de solução para o problema apresentado no capítulo anterior foi desenvol-
vido a partir do planejamento de componentes, cada qual com o seu funcionamento espe-
cífico dentro do processo de criação da AD. A Figura 5.1 apresenta a visão esquemática
da solução.
Figura 5.1: Modelo da Solução Proposta
De acordo com a Figura 5.1, a solução concentra toda informação sobre um vídeo em
uma base de dados, especificamente sobre detalhes de personagens, ambientes e ações,
CAPÍTULO 5. IMPLEMENTAÇÃO 40
conciliando com o esquema de dados apresentados no capítulo anterior. Estas informa-

ções podem ser obtidas a partir de duas fontes principais: roteiro cinematográfico e vídeo.
O componente responsável pela análise dessas fontes e extração das informações é o
Componente de Extração de Informações, que será detalhado na Seção 5.2.
A ideia central de funcionamento deste componente é associar técnicas de processa-
mento de linguagem natural e aprendizagem profunda em visão computacional para ex-
trair as informações sobre a história do filme a partir do roteiro e vídeo, respectivamente.
Ambas técnicas podem ser aplicadas quando as duas fontes de informação estiverem dis-
ponível ou então, apenas a utilização da técnica de processamento específica para o tipo
da fonte que estiver disponibilizada. Assim, seria possível gerar versões de roteiro de au-
diodescrição de acordo com a disponibilidade dessas fontes de informação. Além disso,
usando diferentes consultas à base, esse modelo abre a possibilidade de se criar uma AD
adaptada a cada necessidade, dando ênfase nas preferências e informações que são do
interesse do usuário.
O Componente Gerador de AD (veja a Figura 5.1) irá selecionar as informações ne-
cessárias para gerar os roteiros de audiodescrição. O planejamento deste componente
permite uma flexibilidade na criação da audiodescrição, pois foi desenvolvido para possi-
bilitar a escolha, dentre todas as informações coletadas, àquelas que se adéquam melhor à
necessidade da situação. Por exemplo, no caso do usuário que tem interesse em cenários
de filme, o roteiro de AD vai focar mais em descrições do ambiente. Outro exemplo é
a geração do roteiro com descrições mais sucintas ou detalhadas de acordo com a pre-
ferência do usuário, usando só o vídeo como base, como também o roteiro, se estiver
disponível. Este componente será mais detalhado na Seção 5.3.
Por fim, o Componente de Síntese de Voz (Text-to-Speech - TTS) recebe o roteiro de
AD, com as descrições textuais geradas pelo componente anterior, e as converte em áudio,
para a finalização da geração do recurso de audiodescrição. As Seções a seguir descrevem
os detalhes de cada componente da solução.
5.2 Componente de Extração de Informações

Este componente é o responsável por extrair as informações do roteiro cinematográ-
fico e do vídeo para inserir na base de dados. A seguir serão apresentadas as etapas de
acordo com a fonte de informação.
5.2.1 Roteiro
Em relação ao roteiro, o componente realiza a leitura e extração dos elementos conti-
dos no texto, como títulos de cena, ações, diálogos e personagens. Essa extração é feita
através de um Parser, definido no trabalho anterior (Campos 2015), que verifica cada
texto com o seu respectivo rótulo identificador dentro do arquivo do roteiro.
Para que esta tarefa seja executada de forma automática, o roteiro deve estar em for-
mato digital para permitir a identificação e anotação de seus elementos constituintes.
Desta forma, as ações presentes no texto são rotuladas como <ação>, os diálogos como
<diálogo> e da mesma forma com os outros elementos. Existem no mercado softwares
específicos para edição de roteiros que possuem estas características, como por exemplo
o Final Draft 1 e Celtx 2 , sendo este último o software escolhido para ser utilizado neste
trabalho.
A saída desse processo de leitura e extração, como resultado final apresentado pelo
componente, é um grupo de elementos ordenados cronologicamente na sequência do ro-
teiro original e dentro do esquema de dados apresentados na Seção 4.1.3. A implementa-
ção deste componente foi feita na linguagem de programação Java e com a utilização do
framework para processamento de texto, o Apache Lucene 3 .
5.2.2 Vídeo
Em relação ao sistema proposto nesta pesquisa, a ideia é possibilitar a integração de
técnicas de aprendizado profundo para a detecção de elementos visuais, visando a adição
de novas informações sobre o vídeo que será descrito. Essas informações visuais automa-
ticamente detectadas podem tornar as descrições mais fáceis e fornecer mais opções de
detalhes para a criação da audiodescrição, mesmo quando o roteiro cinematográfico não
estiver disponível.
Para isso, o componente deve realizar duas etapas: 1) extração de features; 2) detecção
de elementos. O objetivo da extração de features é extrair informações relevantes para a
análise do vídeo e que facilite a etapa de detecção. Este módulo foi implementado na
solução proposta para fazer a extração dos quadros do vídeo, a partir de uma taxa de
quadros por segundo.
A segunda etapa é a detecção de elementos realizada através da aplicação de redes
de aprendizado profundo para reconhecer elementos visuais presentes nos quadros do
vídeo. A arquitetura da solução proposta permite a integração de múltiplas técnicas de
aprendizagem profunda para extrair vários tipos de informações diretamente do vídeo e,
consequentemente, alimentar a base de dados com o conteúdo extraído.
De acordo com as definições da Seção 4.2, o primeiro nível de análise do vídeo é a
detecção de elementos individuais. A solução proposta neste trabalho investiga os ele-
mentos que estão dispostos nesse primeiro nível, focando especificamente na detecção de
objetos e pessoas que estão presentes na cena. Essas detecções irão formar os contextos Ct
do filme no decorrer do tempo. Para isso, foi feita a escolha de integrar modelos de redes
CNN com o propósito de detecção desses elementos visuais. Além disso, como a arqui-
tetura da solução permite a integração de múltiplas técnicas de aprendizagem profunda,
dois modelos distintos de CNN foram integrados à solução para realizar a detecção de ob-
jetos nos quadros do vídeo em duas situações: 1) detecção de 1 único objeto por quadro;
2) detecção de múltiplos objetos por quadro.
No primeiro caso, detecção de 1 objeto por quadro, os objetos são classificados a
partir de um modelo de Rede Neural Convolucional já conhecido, chamado GoogLenet,
treinado com a base de imagens Imagenet 4 . A implementação do modelo foi feita através
1 https://www.finaldraft.com/
2 https://www.celtx.com/index.html
3 http://lucene.apache.org/core/
4 http://www.image-net.org/challenges/LSVRC/
do framework Caffe 5 , que fornece um modelo que trabalha com os seguintes valores
de acurácia: 0,687 para Top-1 ad 0,90 para Top-5. Basicamente, para fazer a detecção,
o vídeo é convertido em uma sequência de quadros e cada quadro é inserido na rede
GoogLenet para verificar a classificação do objeto contida na imagem de referência. Para
cada quadro é obtida uma classificação de objeto. Ao executar essa mesma tarefa em toda
a sequência de quadros, geramos uma lista de todos os objetos reconhecidos, sendo então
armazenados no banco de dados como elementos de descrição de um ambiente e j . Um
exemplo desta classificação com a GoogLenet gerado a partir do componente de extração
pode ser visto no Youtube em https://youtu.be/Xybhydi6oq0.
O segundo caso explorado foi a detecção de múltiplos objetos em cada quadro vídeo.
Para conseguir isso, foi utilizado um algoritmo de aprendizado profundo chamado YOLO
(Redmon & Farhadi 2016). A YOLO é uma rede profunda, variante do modelo clássico
da CNN, capaz de detectar eficientemente vários objetos nos quadros do vídeo. A rede
foi treinada com uma combinação de dois conjuntos de dados: o conjunto de dados de
detecção COCO e o ImageNet. Através desta rede, é possível detectar vários objetos que
compõem a cena apresentada em cada quadro do vídeo. Como resultado, temos para cada
quadro uma lista de objetos detectados e a taxa de confiança de detecção de cada um. Um
exemplo gerado pelo componente de extração com a detecção de múltiplos objetos nos
quadros de um vídeo pode ser visto no Youtube em https://youtu.be/DQVorKOqSGY.
5.3 Componente Gerador de Roteiros de AD

O processo de geração automática da audiodescrição foi definido em 4 etapas: identifi-
cação dos gaps, seleção das informações de interesse que irão compor a AD, formação das
sentenças e alocação das sentenças dentro dos gaps. O componente Gerador de Roteiros é
o responsável por executar essas etapas, os dividindo em dois estágios: I) Identificação de
Gaps, que procura detectar os intervalos de tempo no vídeo que não contêm diálogo e que
pode conter as narrações das descrições; II) Seleção das informações que farão parte do
roteiro de audiodescrição, formação das sentenças e alocação dessas sentenças dentro dos
gaps identificados. Essa separação em dois estágios se dá pelo tipo de comportamento
que este componente pode apresentar.
O estágio de identificação de gaps ocorre sempre da mesma forma, através da legenda
do filme. O procedimento para fazer essa identificação dos intervalos sem falas é sempre
o mesmo, ou seja, independe do tipo de informação que irá compor a audiodescrição. A
solução para essa identificação foi descrita na Seção 4.2.1. A Figura 5.2 apresenta um
exemplo mais visual de como ocorre a identificação, utilizando os intervalos de tempo
entre as falas, especificamente o tempo final de uma legenda e o tempo inicial da legenda
seguinte para formar um gap.
O segundo estágio da geração automática realizada pelo componente envolve as se-
guintes tarefas: 1) Seleção das informações de interesse; 2) Formação das sentenças;
3) Alocação das sentenças nos gaps. O componente Gerador de AD apresenta comporta-
mentos diferentes de acordo com a fonte de informação selecionada e com as informações
5 http://caffe.berkeleyvision.org/
Figura 5.2: Exemplo de Identificação de Gaps
de interesse que irão compor a AD. Isso é necessário porque essas escolhas vão impactar
diretamente na quantidade de informações determinadas, no tipo de frase que será apre-
sentada e no tempo de narração necessário. Desta forma, o componente deve assumir
comportamentos diferentes para essas tarefas com o objetivo de adequar a audiodescrição
ao que está sendo solicitado.
Com o objetivo de construir provas de conceito da solução proposta, foram implemen-
tadas duas metodologias para a geração automática de audiodescrição, de acordo com as
fontes de informações utilizadas: I) AD baseada nas informações do roteiro e do vídeo;
II) AD baseada apenas nas informações do vídeo. As duas metodologias desenvolvidas
serão apresentadas nas seções a seguir.
5.4 Audiodescrição Baseada nas Ações do Roteiro e nos

Objetos Reconhecidos no Vídeo
Devido à complexidade experimentada para obter uma descrição dos eventos de um
filme a partir da análise de vídeo, uma combinação de informações com o roteiro aparece
como uma possibilidade de obter uma audiodescrição ajustada ao conteúdo do filme. Isto
pode ser obtido juntando as descrições dos eventos mais significativos do roteiro com o
reconhecimento de elementos de vídeo, que pode fornecer informações sobre o contexto
da história. Nesta seção, apresentaremos alguns detalhes sobre uma das metodologias
desenvolvidas para geração de roteiro de AD, que tem as ações do roteiro e o reconhe-
cimento de objetos de cena como informações de interesse, utilizando, portanto, as duas
fontes de informações (roteiro e vídeo). No reconhecimento de objetos para este caso, foi
utilizado o modelo GoogLenet.

Para desenvolver esta solução, foi utilizada como ponto de partida o conceito da ge-
ração automática da AD baseada apenas no roteiro, desenvolvida no trabalho anterior
(Campos 2015). A solução anterior faz a extração das frases completas do roteiro através
de uma análise da presença de palavras mais frequentes do roteiro, sendo extraídas as

ações com a maior quantidade de palavras frequentes citadas em seu texto.
Para esta solução atual, que se baseia no roteiro e no vídeo, as ações que estão presen-
tes no roteiro também são extraídas, no entanto, a seleção das ações mais relevantes são
realizadas usando os objetos reconhecidos a partir do vídeo, ao invés das palavras mais
frequentes.
O processo de extração das sentenças é feito, primeiramente, a partir da lista de objetos
detectados no vídeo. Através dessas informações, são selecionadas todas as ações do
roteiro que são candidatas a fazer parte da audiodescrição. Uma sentença é considerada
candidata se ela cita algum objeto da lista dos identificados. Com isso, temos um conjunto
de sentenças que referenciam diretamente todos objetos detectados no vídeo. No entanto,
nem todas elas poderão fazer parte da AD, pois o tempo de narração é limitado. Para
isso, torna-se necessário fazer uma sumarização das ações, para priorizar apenas as mais
relevantes.
A sumarização das ações também é feita a partir da lista de objetos reconhecidos no
vídeo, que foi definida a partir do resultado de classificação da GoogLenet nos quadros
do vídeo. O componente resume as ações da seguinte forma: para cada ação do roteiro
do filme, uma pontuação de importância foi calculada a partir da quantidade de citações
para os objetos identificados, presentes em cada frase, de acordo com o seguinte cálculo:
qteob jetos
score = (5.1)
numero_palavras_sentenca
onde qteob jetos representa o número de objetos citados na ação e numero_palavras_sentenca
representa o número de palavras na frase.
Assim, cada ação candidata terá uma pontuação de importância e só fará parte da
audiodescrição aquelas que possuírem os maiores valores de importância. Desta forma,
esse método aproveita a formação da sentença que representa a ação do roteiro, utilizando
as informações visuais detectadas como fator de decisão.
5.4.2 Alocação dos Gaps

Depois de calcular o score de importância das sentenças, as ações menos importantes
ou que exigem muito tempo para narração são removidas do gap, ou seja, do sub-conjunto
A0 . Para executar esta tarefa, o componente Gerador de AD calcula o número máximo de
palavras suportadas em cada gap e seleciona apenas as ações com maior pontuação de
importância e que em conjunto não excedem a capacidade total do intervalo. Para isso,
usamos a quantidade de palavras que podem ser narradas dentro de um intervalo de tempo,
usando um parâmetro de 3 palavras por segundo(Araujo 2006). Por exemplo, se um gap
tem uma duração de 4.4 segundos, 13.2 palavras podem ser narradas dentro dele. Assim,
todas as frases de descrição narradas nesse intervalo devem ter acumuladas entre si um
total de 13.2 palavras no máximo.
Por fim, o arquivo do roteiro de AD contendo as descrições das ações selecionadas e
seus intervalos de tempo são gerados pelo sistema. Com isso, podemos disponibilizar o
roteiro em formato de texto para um audiodescritor ou utilizar o componente TTS para

criar a trilha de áudio através da sintetização de voz.
5.5 Audiodescrição Baseada na Detecção de Múltiplos Ob-

jetos Reconhecidos no Vídeo
Quando o roteiro de um filme não estiver disponível, a audiodescrição deve ser gerada
utilizando apenas o próprio vídeo como fonte de informação, através da análise visual
de seu conteúdo. Para exemplificar esse comportamento da solução, os elementos reco-
nhecidos são os objetos que compõem as cenas. Nesta seção, apresentaremos uma outra
metodologia desenvolvida para geração de roteiro de AD, tendo o reconhecimento de múl-
tiplos objetos de cena, a partir do modelo Yolo, como informação de interesse e utilizando
apenas o vídeo como fonte de informações. Essas detecções simples podem fornecer uma
descrição dos detalhes dos cenários, bem como informações sobre o contexto da história.

A geração do texto usada neste tipo de roteiro é baseada na formação padrão da frase
SUJEITO-VERBO-OBJETO, com elementos de texto estáticos, como por exemplo "Cena
mostra ..." ("Scene shows ..."), e elementos dinâmicos, como OBJETO completado com
os objetos detectados nos quadros do vídeo. Como forma de evitar o cansaço ao repetir
a mesma frase diversas vezes, sentenças variantes com significados semelhantes foram
sugeridas por um audiodescritor para compor o texto. As sentenças utilizadas pela solução
são essas:
• Cena mostra <objetos>.

Exemplo: Cena mostra 1 carro.
• Há <objetos> na cena.
Exemplo: Há 1 carro na cena.
• É exibido / São exibidos <objetos> na cena.
Exemplo: É exibido 1 carro na cena. São exibidos 2 carros na cena.
Com isso, as sentenças são criadas a partir das formações apresentadas acima. A
escolha da formação utilizada em cada frase é feita de forma aleatória entre as três opções
disponíveis, durante todo o decorrer do vídeo. No entanto, nem sempre é possível citar
todos os objetos detectados pela rede Yolo, devido à limitação de tempo, de modo que
apenas os objetos que são detectados com uma taxa de confiança acima de 60% e que são
repetidos em um intervalo de 2 segundos são adicionados nas frases.
Esse intervalo de 2 segundos é definido porque as cenas de filme geralmente não
mostram muitas mudanças em um curto espaço de tempo e a audiodescrição funciona
com tempo disponível limitado. A escolha do limiar de confiança no valor de 60% ocorreu
devido à observação durante os experimentos iniciais, em que ocorriam falsos positivos
em detecções com taxa de confiança mais baixa, portanto, foi definido o limite mínimo
de confiança.
Além disso, uma verificação é feita em frases vizinhas para conferir se elas citam os
mesmos objetos e quantidades. Caso isso aconteça, as frases são consideradas iguais,
ou seja, pertencem ao mesmo contexto do filme, então a segunda é excluída para evitar
sobrecarga no áudio. Por fim, o roteiro de AD contém várias frases padronizadas ao longo
do vídeo para descrever os elementos identificados nas cenas.
5.5.2 Alocação dos Gaps

A detecção dos objetos é feita a partir dos quadros do vídeo, portanto, é possível saber
a localização temporal exata em que os objetos aparecem no vídeo através da taxa de
quadros por segundo (frames por segundo - fps).
Usando essas informações, as sentenças são alocadas nos intervalos em que os objetos
aparecem e que fazem parte de espaços de tempo sem fala previamente identificados a
partir da legenda. Cada sentença recebe um tempo de 2 segundos dentro do gap para a
sua narração.
5.6 Cenários de Uso

A aplicação da solução proposta, como prova de conceito, é feita em dois tipos de
vídeo digital: filmes de ficção e vídeos de vigilância. A seleção desses tipos de vídeo
foi feita com o objetivo de verificar o comportamento da geração de audiodescrição em
vídeos com contextos e características diferentes.
Para o primeiro tipo de vídeo, os filmes de ficção, temos a situação comum da elabora-
ção de AD, em que o limite de tempo disponível para a AD deve ser respeitado, o roteiro
cinematográfico também é disponibilizado e que a geração do recurso pode ser feito de
forma prévia à exibição do conteúdo.
Já para o segundo tipo de vídeo, os vídeos de vigilância, o contexto difere em relação
ao tempo disponível para a audiodescrição, uma vez que esse tipo de vídeo, geralmente,
não possui áudio, sendo toda a informação passada de forma visual. No entanto, segue
como fator crítico a geração da audiodescrição em tempo-real, para que a informação seja
passada de forma simultânea ao vídeo. Estes dois cenários são abordados nos experimen-
tos de avaliação da solução proposta.
5.7 Resumo da Implementação

Este capítulo apresentou a arquitetura da solução proposta e o seus componentes, além
de detalhes da implementação do sistema. O modelo foi definido em componentes que
executam função específica dentro do processo de geração automática de audiodescrição,
desde a extração das informações sobre o conteúdo do vídeo até a geração do áudio final.
Como forma de criar uma prova de conceito da solução, foram implementadas 2 me-
todologias de geração: AD baseada nas informações do roteiro e do vídeo e AD baseada
apenas nas informações do vídeo. No primeiro caso, as ações do roteiro são selecionadas
a partir de objetos detectados nos quadros do vídeo. No segundo caso, as descrições citam
múltiplos objetos detectados nas cenas do vídeo.
Essas metodologias foram elaboradas para exemplificar comportamentos distintos,
com base em fontes de informações diferentes, mostrando que a solução pode se adaptar
a diversos tipos de contextos.
A aplicação dessas metodologias é feita em dois cenários de usos distintos de vídeo
digital: filmes de ficção e vídeos de vigilância. O capítulo a seguir descreve os expe-
rimentos realizados para avaliar a solução, além de apresentar e discutir os resultados
obtidos.
Capítulo 6
Experimento e Resultados
Este capítulo descreve o experimento realizado para avaliar a solução proposta. O

experimento foi feito com a aplicação do sistema em dois cenários de uso relacionados ao
tipo de vídeo, com o objetivo de avaliar o comportamento da geração de audiodescrição
nos diferentes contextos: filmes de ficção e vídeos de vigilância.
O ambiente de teste usado nos experimentos consistiu de um computador com pro-
cessador Intel Core i7-9700 3.40GHz x 8, 16GB de RAM, placa de vídeo GeForce GTX
745 e sistema operacional Linux Ubuntu 16.04. As seções 6.1 e 6.2 a seguir apresentam
os experimentos e os resultados obtidos com a aplicação em filmes de ficção e em vídeos
de vigilância, respectivamente.
6.1 Cenário de Uso 1: Aplicação em Filmes de Ficção

A solução proposta foi aplicada em filmes de ficção em relação as duas metodologias
desenvolvidas: 1) AD baseada no roteiro e no vídeo, de acordo com a Seção 5.4; 2) AD
baseada apenas no vídeo, de acordo com a Seção 5.5.
A avaliação da solução dentro desse cenário de uso foi divida em duas etapas: uma
análise técnica da AD gerada automaticamente e uma avaliação com usuários. O obje-
tivo da primeira etapa de avaliação é a identificação das características dos roteiros de
AD gerados automaticamente pelas duas metodologias e as diferenças entre os roteiros
resultantes das abordagens. A segunda etapa, que consistiu da avaliação com usuários,
teve o propósito de avaliar os seguintes pontos: 1) Compreensão dos conteúdos (quando
utilizada a AD automática baseada no roteiro e vídeo) e a compreensão geral do contexto
do vídeo (quando utilizada a AD automática baseada apenas no vídeo).
A sessão de avaliação com os usuários teve o objetivo de avaliar a qualidade das ADs
geradas, levando em conta as diferenças presentes em cada tipo de metodologia de gera-
ção. No primeiro caso, o roteiro de AD gerado utiliza as ações do roteiro cinematográfico
do vídeo e objetos reconhecidos nos quadros, portanto, é uma AD mais completa, pois
incorpora a descrição de elementos mais gerais. Sendo assim torna-se possível verificar
o desempenho dos usuários em relação à compreensão do conteúdo. O segundo caso,
AD baseada em objetos reconhecidos em cena, contém descrições mais sucintas e rela-
cionadas diretamente ao cenário do vídeo, portanto, essa limitação torna a avaliação de
compreensão do conteúdo inadequada. Diante disso, a avaliação foi feita em relação à
CAPÍTULO 6. EXPERIMENTO E RESULTADOS 49
compreensão geral do contexto do vídeo, uma vez que esses elementos detectados, apesar
de não apresentar amplas informações sobre o enredo, podem fornecer informações sobre
o contexto da história aos usuários. Cada uma das duas etapas de avaliação será descrita
nas seções a seguir.
6.1.1 Análise Técnica das Abordagens de Geração de AD

A primeira etapa de avaliação foi a análise técnica dos roteiros de AD gerado por cada
uma das abordagens desenvolvidas para a solução proposta: AD baseada no roteiro e no
vídeo e AD baseada apenas no vídeo. Os filmes aplicados nesta etapa consistiram de dois
curtas-metragens brasileiros. A tabela 6.1 mostra as características dos vídeos e roteiros
cinematográficos utilizados.
Tabela 6.1: Características dos Vídeos de Teste
Vídeo 1 Vídeo 2
Duração do Vídeo 05m29s 05m43s
No de ações no roteiro 35 83
% tempo com diálogos 23,8% 32,7%
O Vídeo 1 contém, em seu roteiro, 35 frases de ação, e o tempo de vídeo preenchido

com diálogos corresponde a 23,8%, o que significa que 76,2% do filme não apresenta
falas. Este intervalo de tempo sem falas é usado para inserção de audiodescrição. O
Vídeo 2 contém 83 frases de ação e a duração dos diálogos corresponde a 32,7% do
tempo de vídeo, com 67,3% do tempo restante para a AD. Ambos filmes apresentam
mais informações visuais do que diálogos. A análise dos roteiros resultantes de cada
abordagem será descrita.
Geração de Roteiros de AD Usando Roteiro e Vídeo

Inicialmente, para avaliar esse tipo de roteiro, o desempenho do reconhecimento de
objetos foi analisado. O uso da GoogLenet para reconhecer objetos nos quadros do vídeo
(um objeto para cada quadro) produziu os resultados apresentados na Tabela 6.2.
Tabela 6.2: Resultados da Classificação de Objetos
Vídeo 1 Vídeo 2
Classificação correta de objetos no vídeo 22,05% 30%
No de objetos reconhecidos 89 60
No de objetos reconhecidos
14 13
que estão presentes no roteiro
A GoogLenet reconheceu corretamente objetos que realmente estão presentes nas ima-
gens em 22,05% dos frames do Vídeo 1 e 30% dos frames do Vídeo 2. Com relação à
associação entre a classificação da rede neural e o roteiro, considerando um objeto para
cada frame do vídeo, a GoogLenet reconheceu 89 objetos diferentes para o Vídeo 1, onde
14 deles estão presentes em ações do roteiro. Isto implica que 15,7% dos objetos iden-
tificados estão explicitamente citados no roteiro. Para o Vídeo 2, 60 objetos diferentes
são classificados ao longo da sequência do vídeo, com 13 deles citados no roteiro, que
representa 21,6% dos objetos.
Todos os objetos citados nas ações do roteiro, 14 para o Vídeo 1 e 13 para o Vídeo 2,
são classificados corretamente no vídeo. No entanto, alguns objetos corretamente reco-
nhecidos não estão presentes nas ações, devido às inconsistências que o roteiro pode ter
em relação ao filme, uma vez que o vídeo é gravado depois da escrita do roteiro. Por outro
lado, se um objeto é reconhecido no vídeo e citado no roteiro, ele tem o grande potencial
de ser importante para eventos significativos na história. Assim, podemos excluir ações
que não contenham esses objetos proeminentes e que podem ser insignificantes.
Esse comportamento pode ser visto na análise do roteiro de AD resultante. A Tabela
6.3 apresenta esses resultados e uma comparação com a geração baseada apenas no ro-
teiro, que usa a extração de ações a partir das palavras mais frequentes (Campos 2015).
Um exemplo do roteiro de AD, em português brasileiro, gerado usando este protótipo
atual pode ser visto em <https://youtu.be/1gCa98fRnag>.
Tabela 6.3: Comparação entre os Tipos de Roteiros de AD
Vídeo 1 Vídeo 2
No de ações 20 45
AD-ações (apenas roteiro)
% Tempo 45,41 44,63
No de ações 14 36
AD-ações/objetos (roteiro e vídeo)
% Tempo 32,52 39,35
Para os roteiros de AD gerados automaticamente usando ações e objetos, 14 ações são

selecionadas a partir do roteiro original do Vídeo 1 e 36 do Vídeo 2. As ações selecionadas
para o roteiro de AD são escolhidas com base no score de importância definido pela
estratégia de sumarização que usa objetos reconhecidos no vídeo. A AD gerada ocupa
32,52% do tempo no Vídeo 1 e 39,35% no Vídeo 2.
A comparação com o roteiro gerado com o sistema anterior (Campos 2015), usando
apenas o roteiro cinematográfico como base, mostrou que a AD baseada em ações e ob-
jetos, usando roteiro e vídeo, é mais objetiva. A AD resultante usa menos ações, exclui
todas aquelas que não estão relacionadas a nenhum objeto reconhecido pela rede Goo-
gLenet e, portanto, ocupa menos tempo total no vídeo com a narração das descrições.
Esta característica pode ser útil quando não se deseja sobrecarregar o usuário com muitas
informações que podem não ser de interesse e é uma boa solução para um roteiro mais
sucinto e objetivo.
Embora aparentemente houvesse tempo disponível para a inserção de mais descrições
em ambos os filmes, em certos casos é aconselhável que a duração da AD seja menor do
que o tempo livre total, a fim de evitar uma sobrecarga de informação sobre as pessoas e,
como consequência, não tornar a compreensão da história mais difícil.
Geração de Roteiros de AD Usando Apenas o Vídeo

A análise desta abordagem também é iniciada com a avaliação do reconhecimento
dos objetos. Usando os mesmos vídeos de teste apresentados na Tabela 6.1, os resultados
obtidos na detecção de múltiplos objetos nos quadros do vídeo, através da rede Yolo, são
mostrados na Tabela 6.4.
Tabela 6.4: Resultados da Detecção de Múltiplos Objetos
Vídeo 1 Vídeo 2
No de detecções 17413 13362
No de objetos detectados 50 58
Taxa de acerto nas detecções 67% 44%
Durante todo o vídeo, a rede detectou 17.413 objetos no Vídeo 1 e 13.362 no Vídeo 2.
Muitos objetos foram detectados no mesmo quadro e muitas dessas detecções também se
repetem à medida que a sequência dos quadros continua. Todas as detecções no Vídeo 1
estão relacionadas a 50 objetos diferentes e no Vídeo 2 a 58 objetos diferentes.
A diferença entre o número de detecções e o número de tipos de objetos ocorre devido
ao fato de que um objeto é geralmente parte de algum cenário repetitivo ou algum perso-
nagem principal, aparecendo assim várias vezes durante a história. A taxa de detecção de
objetos correta foi 67% no Vídeo 1 e 44% no Vídeo 2.
Os roteiros de AD gerados usando os vários objetos detectados no vídeo têm as ca-
racterísticas apresentadas na Tabela 6.5. Um exemplo do script AD gerado usando esta
implementação pode ser visto em: <https://youtu.be/g9Llbyfqmu4>).
Tabela 6.5: Resultados dos Roteiros de AD Gerados com Base Apenas em Vídeo.
Vídeo 1 Vídeo 2
No de sentenças 72 64
No de objetos citados 12 22
%Time 43,7% 37,3%
Para o Vídeo 1, 72 frases são usadas destacando 12 objetos detectados e cada frase
cita de 1 a 5 objetos por vez. No Vídeo 2, 64 frases são usadas destacando 22 objetos e
as frases citam de 1 a 4 objetos de cada vez. A audiodescrição do primeiro filme ocupa
43,7% do vídeo e a do segundo filme ocupa 37,3%.
Em ambos filmes, a detecção de pessoas no vídeo é bastante recorrente e é um dos
elementos mais presentes nos roteiros de AD. Além disso, a diferença entre o número de
objetos citados na AD e o número de objetos detectados pela rede é alta devido à taxa
de confiança de detecção. O valor padrão para a taxa de confiança da rede é de 25%, no

entanto, apenas objetos com pelo menos 60% de confiança fazem parte do roteiro. Esse
requisito foi adicionado para evitar a sobrecarga de citações de objetos com detecções
incorretas.
6.1.2 Sessão de Avaliação com Usuários

A segunda etapa de avaliação consistiu da sessão de testes com usuários, cujo objetivo
era investigar a qualidade das audiodescrições geradas automaticamente. Nesta subseção,
a sessão de testes será descrita através da análise dos seguinte aspectos: 1) Compreensão
dos conteúdos (quando utilizada a AD automática baseada no roteiro e vídeo); 2) Com-
preensão geral do contexto do vídeo (quando utilizada a AD automática baseada apenas
no vídeo).
A sessão de testes contou com a participação de um grupo de avaliadores composto
por onze pessoas com deficiência visual da Universidade Federal da Paraíba. Os testes
foram realizados entre os meses de Setembro e Novembro de 2017 através de formulário
on line, onde eram apresentados vídeos e perguntas relacionadas ao conteúdo exibido. O
questionário utilizado na avaliação é apresentado no Apêndice C. O questionário contém
3 partes: informação geral sobre o usuário, compreensão dos conteúdos e avaliação do
contexto. A elaboração do questionário foi feita sob supervisão de uma audiodescritora
profissional.
O grupo de usuários era formado por sete homens e quatro mulheres na faixa etária
entre 21 a 60 anos, com a média de idade de 34.4 anos. Em relação ao grau de deficiência
visual, todos os usuários possuíam cegueira total, sendo sete usuários com deficiência
congênita e quatro com deficiência adquirida ao longo da vida. O grau de escolaridade
dos usuários é apresentado na Figura 6.1.
Figura 6.1: Grau de Escolaridade do Grupo de Usuários da Primeira Sessão de Testes
Em relação ao consumo de filmes, 81,8% afirmaram ter o costume de assistir a filmes

e 45,5% vão ao cinema. Foi investigado também a quantidade de horas de conteúdo com
audiodescrição que os usuários consomem durante uma semana, a grande maioria afirmou
que não consume vídeos com audiodescrição, correspondendo a 63,6%, 9,1% consome
menos de um hora, 18,2% entre 1 a 5 horas e 9,1% acima de 10 horas.
Compreensão dos Conteúdos - AD Automática Baseada no Roteiro e Vídeo

Em Campos (2015), a avaliação da AD baseada apenas em roteiro cinematográfico foi
avaliada com usuários em relação à compreensão do conteúdo. Para isso, foram criados 2
grupos de usuários, um para avaliar os vídeos com a AD gerada automaticamente a partir
do roteiro e outro para avaliar os vídeos sem AD, situação mais comum enfrentada pelas
pessoas com deficiência visual.
Diante disso, a avaliação realizada com a abordagem desenvolvida neste trabalho
atual, que propõe AD automática baseada no roteiro e no vídeo, foi feita com base na
avaliação do trabalho anterior (Campos 2015), para facilitar a comparação entre os dois
métodos que utilizam o roteiro cinematográfico como base de informações, além de pos-
sibilitar um comparativo com a situação enfrentada pelos cegos diariamente, que é a baixa
oferta de audiodescrição. Desta forma, foi aplicado o mesmo questionário de avaliação
e vídeos de teste (Vídeo 1 e Vídeo 2) de Campos (2015) para avaliar a nova metodologia
de geração de AD automática baseada no roteiro e no vídeo e, em seguida, foi feita uma
comparação deste novo grupo, com os grupos anteriores que avaliaram os vídeos com a
AD automática baseada em roteiro e os vídeos sem AD. A ferramenta TTS utilizada para
gerar o áudio da audiodescrição nesta etapa do experimento foi a IVONA1 .
Primeiramente, cada vídeo foi apresentado aos usuários e, em seguida, eles foram
convidados a responder a Parte 2 do questionário (Apêndice C) contendo questões relaci-
onadas ao conteúdo visual apresentado (AD automática baseada no roteiro e vídeo) para
avaliar seu nível de entendimento. Nessas perguntas, os usuários tiveram que selecionar
qual das quatro alternativas (A, B, C ou D) está relacionada ao conteúdo apresentado,
onde apenas uma das alternativas está correta. Para todas as perguntas, a quarta alter-
nativa (D) representou uma opção “eu não sei responder”, que foi incluída para impedir
que os usuários escolhessem aleatoriamente uma das alternativas quando não sabiam a
resposta correta. Essas perguntas foram elaboradas a partir de intervalos selecionados
aleatoriamente do filme e que abordavam aspectos da história que só podiam ser acessa-
dos visualmente.
A Figura 6.2 mostra a porcentagem de respostas corretas que o grupo obteve em com-
paração com os dois grupos de avaliação de experimento anterior.
Para o Vídeo 1, o grupo com a AD baseada em roteiro e vídeo alcançou 61,8% das
perguntas com respostas corretas, com um desvio padrão de 14,01. Para o Vídeo 2, o
grupo obteve 81,8% de respostas corretas para as perguntas, com um desvio padrão de
16,06. Em ambos casos, foi obtida uma melhora na taxa de respostas corretas. Levando
em consideração os dois filmes, a taxa média de respostas corretas para o grupo foi de
71,8% e um desvio padrão de 18,16.
Em comparação com o grupo sem audiodescrição, a média de acerto da solução atual
foi maior, com grande diferença entre as taxas de acertos nos dois vídeos e aumentando
1 https://nextup.com/ivona/
Figura 6.2: Resultados do Teste de Compreensão dos Conteúdos
em 85,13 pontos percentuais a taxa total de acerto. Para verificar se a diferença entre as
médias dos grupos Sem AD e AD baseada no roteiro e vídeo é estatisticamente signifi-
cante, foi aplicado um t-test. Para isso, foi considerada a hipótese nula de que não há
diferença entre as médias e a hipótese alternativa de que as médias são estatisticamente
diferentes. O intervalo de confiança considerado foi de 95% e 14 graus de liberdade. Os
resultados do t-test são apresentado na Tabela 6.6.
Tabela 6.6: Resultado do t-test entre as Médias dos Grupos Sem AD e AD com Base em
Roteiro e Vídeo.
Grau de Confiança 0,95

p-valor 0,0000000141
t crítico 2,1448
O p-valor obtido para o teste foi de 0,0000000141. Como o p-valor é menor do que
ou igual ao nível de significância (0,05), é possível concluir que a hipótese nula deve ser
rejeitada. Com esta conclusão, pode-se afirmar que a diferença entre as médias dos grupos
sem AD e AD com base em roteiro e vídeo é de fato estatisticamente significativa.
Já em comparação com o grupo com AD baseada apenas em roteiro cinematográfico,
a diferença foi mais discreta. Em relação ao Vídeo 1, a diferença foi de 1,8 ponto percen-
tual, enquanto que, para o Vídeo 2, foi um pouco maior com 5.13 pontos percentuais de
diferença. No total, a taxa de acerto aumentou em 3,47 pontos percentuais se comparar à
AD gerada a partir do roteiro e vídeo em relação à AD apenas pelo roteiro cinematográ-
fico.
Um t-test também foi aplicado para verificar se a diferença entre as médias dos grupos
AD baseada apenas em roteiro e AD baseada no roteiro e vídeo é estatisticamente signi-
ficante. Da mesma forma que o teste anterior, foi considerada a hipótese nula de que não
há diferença entre as médias e a hipótese alternativa de que as médias são estatisticamente
diferentes. O intervalo de confiança considerado foi de 95%. Os resultados do t-test são
apresentado na Tabela 6.7.
Tabela 6.7: Resultado do t-test entre as Médias dos Grupos Sem AD e AD com Base em
Roteiro e Vídeo.
Grau de Confiança 0,95

p-valor 0,675433953
t crítico 2,364624
O p-valor obtido para o teste foi de 0,675433953. Como o p-valor é maior do que o
nível de significância (0,05), não é possível rejeitar a hipótese nula. Com esta conclusão,
não é possível afirmar que há diferença estatisticamente significante entre as duas médias.
A Figura 6.3 apresenta uma representação dos dados de resultados em um gráfico Box
Plot. De acordo com a Figura 6.3, os usuários que assistiram aos filmes com a AD ge-
rada apenas pelo roteiro e com a AD gerada pelo roteiro e vídeo apresentam desempenho
semelhante e superior ao grupo sem audiodescrição. Para o grupo com os filmes sem audi-
odescrição, os valores mínimo, primeiro e terceiro quartil foram de 10% e o valor máximo
de 30%. Para o grupo que assistiu os filmes com AD gerada apenas pelo roteiro, os va-
lores mínimo, do primeiro, terceiro quartil e o máximo foram, respectivamente, de 50%,
52.5%, 80% e 90%. Para o grupo que assistiu os filmes com AD gerada pelo roteiro e
vídeo, os valores mínimo, do primeiro, terceiro quartil e máximo foram, respectivamente,
de 50%, 60%, 80% e 90%.
Figura 6.3: Gráfico Box Plot do Teste de Compreensão dos Conteúdos
Essa diferença das taxas de acertos entre ambas versões que utilizam o roteiro não
são estatisticamente relevantes, porém, esses resultados podem indicar que a abordagem
de vincular informações de roteiro e detecção de vídeo, especificamente ações e objetos,

fornece uma AD de qualidade semelhante, mas com outras características. Considerando
a descrição do tipo de roteiro gerado quando utilizamos as ações e os objetos reconheci-
dos automaticamente, é gerada uma AD mais sucinta e com a capacidade de fornecer as
informações mais relevantes, sem sobrecarregar o usuário com detalhes de menor impor-
tância. Desta forma, mesmo sendo mais reduzido, o roteiro gerado é capaz de contribuir
no nível de compreensão do usuário da mesma forma, porém ocupando menos espaço no
áudio. Avaliações mais aprofundadas são necessárias para dimensionar outros impactos
na qualidade da AD gerada por esta junção de informações de roteiro e vídeo, entretanto,
devido ao tempo de pesquisa, farão parte do planejamento de trabalhos futuros.
Compreensão do Contexto Geral do Vídeo - AD Baseada Apenas no Vídeo

Na segunda parte dos testes, o objetivo era avaliar se os usuários cegos eram capazes
de compreender o contexto geral da história quando assistiam a filmes com AD baseada
apenas no vídeo. Como prova de conceito da solução proposta neste trabalho, a AD gerada
com base no vídeo apresenta os objetos detectados na cena. Para realizar a avaliação,
foram selecionados dois novos vídeos, como forma de garantir que o grupo de usuários
não tivesse conhecimento prévio do conteúdo dos vídeos. A Tabela 6.8 apresenta as
características dos vídeos utilizados.
Tabela 6.8: Características dos Vídeos da Etapa de Compreensão do Contexto Geral do

Vídeo
Características Vídeo 3 Vídeo 4

Duração 13m52s 14m34s
Número de Cena 7 26
Número de Diálogos 39 55
De acordo com a Tabela 6.8, o Vídeo 3 contém 7 cenas, 39 diálogos e uma duração de
13 minutos e 52 segundos. Já o Vídeo 4 possui duração de 14 minutos e 34 segundos, 26
cenas e 55 diálogos.
A avaliação foi realizada da seguinte forma. Após a exibição de cada um dos vídeos
de teste (Vídeo 3 e Vídeo 4), os usuários foram convidados a responder a Parte 3 do ques-
tionário (Apêndice C), contendo questões relacionadas ao conteúdo visual apresentado
(AD automática baseada apenas no vídeo). O propósito das perguntas era avaliar se os
usuários com deficiência visual conseguiram compreender o contexto geral do vídeo, o
ambiente onde a história estava inserida, além de outras informações relevantes ao con-
texto como, por exemplo, informações relacionadas aos personagens e ao horário em que
a história acontecia.
Em relação ao Vídeo 3, todos os usuários apresentaram uma descrição geral adequada
sobre a história. Especificamente, cinco usuários apresentaram mais detalhes sobre a his-
tória, incluindo informações particulares sobre os personagens, enquanto cinco usuários
apresentaram descrições mais resumidas. Apenas um usuário não apresentou uma descri-
ção geral da história. A Figura 6.4a apresenta a porcentagem para cada tipo de resposta
em relação à compreensão da história.
Com relação ao local em que a história acontece, seis usuários descreveram correta-
mente o ambiente, dois descreveram o ambiente incorretamente e três usuários respon-
deram que não conseguiram identificar o ambiente. Além disso, dos seis usuários que
descreveram o ambiente corretamente, dois deles reportaram que não tinham certeza se a
descrição do ambiente era realmente essa. A Figura 6.4b apresenta a porcentagem para
cada tipo de resposta em relação à localização espacial.
Com relação aos personagens, todos os usuários informaram corretamente a quanti-
dade total de personagens, identificando também o gênero. Por fim, em relação ao tempo
do dia em que a história acontece, nove usuários identificaram corretamente que a histó-
ria se passava durante o dia, enquanto que dois usuários reportaram que não conseguiram
identificar o horário em que a história se passava. A Figura 6.4c apresenta a porcentagem
para cada tipo de resposta em relação à localização temporal.
A Tabela 6.9 apresenta a taxa de acerto para cada categoria avaliada em relação ao
Vídeo 3.
Tabela 6.9: Porcentagem de Acerto Para O Vídeo 3
Vídeo 3
Compreensão da História 90.9%
Identificação dos Personagens 100%
Compreensão da Localização Espacial 54%
Compreensão da Localização Temporal 81,81%
Em relação ao Vídeo 4, dez usuários apresentaram uma descrição detalhada e correta

sobre a história, enquanto que um usuário informou que conseguiu compreender a história
apenas pela narrativa, pois não gostou da audiodescrição gerada. A Figura 6.5a apresenta
a porcentagem para cada tipo de resposta em relação à compreensão da história.
Sobre o ambiente da história, dez usuários descreveram o local corretamente, en-
quanto um usuário informou que não conseguiu identificar onde aconteceu a história pois
a audiodescrição não era clara. A Figura 6.5b apresenta a porcentagem para cada tipo de
resposta em relação à localização espacial.
Em relação à personagem, todos os usuários conseguiram apresentar uma boa descri-
ção dos personagens, a quantidade total e o gênero de cada um.
Por fim, sobre o tempo em que a história acontece, é importante ressaltar que o filme
continha cenas que ocorriam durante o dia, intercaladas com cenas que ocorriam durante a
noite. Em relação às respostas dos usuários, sete descreveram o horário corretamente, dois
responderam que a história acontecia apenas durante o dia e dois responderam que não
conseguiram identificar o horário. Dentre os usuários que responderam corretamente o
horário, um deles também informou que não conseguiu identificar o horário com precisão.
A Figura 6.5c apresenta a porcentagem para cada tipo de resposta em relação à localização
(a) Taxas em Relação à Compreensão da História
(b) Taxas em Relação à Localização Espacial
(c) Taxas em Relação à Localização Temporal
Figura 6.4: Gráficos Com as Porcentagens de Respostas para o Vídeo 3
temporal.
A Tabela 6.10 apresenta a taxa de acerto para cada categoria avaliada em relação ao
Vídeo 4.
Os resultados obtidos com a avaliação mostram que a maior parte dos usuários foi
capaz de compreender corretamente os aspectos gerais da história. No entanto, alguns
usuários tiveram dificuldades com a identificação dos ambientes e dos horários.
(a) Taxas em Relação à Compreensão da História
(b) Taxas em Relação à Localização Espacial
(c) Taxas em Relação à Localização Temporal
Figura 6.5: Gráficos Com as Porcentagens de Respostas para o Vídeo 4
Considerando o contexto de uso da audiodescrição no Brasil, a situação mais comum

para os deficientes visuais é o acesso a filmes sem audiodescrição. Essa informação pode
ser reforçada pelos dados que foram obtidos com o grupo de usuários da avaliação, onde
63,3% não consomem audiodescrição. Dado isto, observe que a simples detecção de
objetos e o uso de frases para citá-los podem ajudar na compreensão do contexto da
história.
Em nossa análise, o roteiro de AD baseado apenas no vídeo indica que estamos na
Tabela 6.10: Porcentagem de Acerto Para O Vídeo 4
Vídeo 4
Compreensão da História 90.9%
Identificação dos Personagens 100%
Compreensão da Localização Espacial 90.9%
Compreensão da Localização Temporal 63.3%
direção certa, pois poderia ser uma opção para um deficiente visual ter acesso a mais al-
gumas informações. Esses resultados reforçam a tese apresentada neste trabalho de que
é possível gerar audiodescrição automática através da análise do vídeo e da aplicação de
técnicas de inteligência artificial. No entanto, várias lacunas de informação são reporta-
das pelos comentários indicando que a audiodescrição mais adequada deve ser composta
por mais informações sobre o vídeo. Devido a isso, uma das propostas de trabalhos futu-
ros é continuar investigando estratégias para melhorar a descrição dos cenários e prover
descrições mais detalhadas sobre os personagens e ações.
6.2 Cenário de Uso 2: Aplicação em Vídeos de Vigilância

O segundo cenário de uso de aplicação do sistema foi o de vídeos de vigilância. Este
tipo de vídeo não possui roteiros e, devido a essa característica, foi aplicada apenas a
geração automática da AD baseada em vídeo. As diferenças para o experimento apresen-
tado na seção 6.1.1 são as seguintes: 1) o fato de não haver a preocupação com os gaps,
pois geralmente são vídeos sem áudio; 2) possui a característica de ser utilizado, geral-
mente, no contexto de tempo-real. O processo completo pode ser visto na Figura 6.6. A
ferramenta TTS utilizada foi a eSpeak 2 , que é um sintetizador de voz open source e que
suporta muitos idiomas.
Figura 6.6: Procedimento da Solução
Para verificar os resultados dentro do contexto de vigilância, a solução proposta foi

aplicada a uma base de dados apresentada por Choi et al (Choi et al. 2009), que consiste
em 44 videoclipes de atividade coletiva. A geração da audiodescrição foi feita com todos
os videoclipes, uma AD para cada clipe, exibindo os objetos detectados pela Yolo nos
2 http://espeak.sourceforge.net/
frames de vídeo. A Figura 6.7 apresenta exemplos de algumas sentenças das ADs geradas.
Um exemplo de vídeo com a AD gerada usando esta implementação pode ser visto no
Youtube: https://youtu.be/pARLYofUx2g .
Figura 6.7: Exemplos de Frases Geradas para a AD Após a Detecção de Objetos.
A avaliação foi feita em relação a dois aspectos que são apresentados a seguir: análise
técnica da qualidade da geração e uma avaliação de desempenho da geração.
6.2.1 Análise Técnica da Qualidade de Geração de AD

Primeiramente, foi avaliado o desempenho da etapa de reconhecimento de objetos. Os
principais resultados obtidos com o reconhecimento de objetos são mostrados na Tabela
6.11. Considerando amostragens do conjunto de dados, a rede profunda foi capaz de
detectar corretamente aproximadamente 85,1% dos objetos. Essa taxa foi calculada por
amostragem devido à grande quantidade de detecções no conjunto de dados (mais de 179
mil de detecções), o que requer verificação manual para calcular a precisão das detecções.
Tabela 6.11: Resultados da Detecção de Objetos
%
Detecção correta de objetos (approx) 85,1%
Detecção de Pessoa entre todos os objetos 77,66%
De todos os tipos de objetos nos quais a rede foi treinada, o mais frequente foi o
elemento "pessoa". Considerando todas as detecções, 77,66% dos elementos detectados
no vídeo foram classificados como "Pessoa". No contexto da vigilância, a detecção de
pessoas em um ambiente pode ser considerada uma tarefa de grande importância, uma
vez que uma pessoa pode ser um intruso, dependendo do contexto.
Em relação à geração de AD, foram geradas 44 audiodescrições, uma para cada clipe
no conjunto de dados. A Tabela 6.12 mostra os resultados obtidos.
Considerando todas as audiodescrições geradas, o tamanho médio da sentença foi de
5,58 palavras por sentença. Esta quantidade leva em conta a parte das sentenças que são
Tabela 6.12: Resultados da Geração de AD
Média
Tamanho da sentença da AD 5,58 palavras
Número de objetos/sentença 1,84
Tempo para narração 2,03 segundos
estáticas, como por exemplo o trecho "Imagem mostra ...", acrescentando os objetos e
suas quantidades detectadas no quadro.
O tamanho da frase depende diretamente do número de objetos que foram detectados.
No entanto, frases muito grandes devem ser evitadas para não sobrecarregar o usuário
com muita informação que pode não ser precisa. Por isso, foi definido o limiar da taxa
de precisão do reconhecimento em 60%, como uma maneira de controlar esse problema.
Usando esta forma de controle, o número médio de objetos por sentença foi de 1,84
objetos.
Em relação à narração gerada pelo sintetizador de voz, o tempo médio de áudio para
cada frase na AD foi 2,03 segundos. De acordo com Araujo (2006), a quantidade de
palavras que podem ser narradas dentro de um intervalo de tempo é de 3 palavras por
segundo. A solução proposta gera AD a cada 60 quadros, aproximadamente 2 segundos.
Usando o parâmetro 3 palavras/segundo, a frase AD deve ter um máximo de 6 palavras
a cada 2 segundos. O número médio de palavras obtidas nos experimentos foi de 5,58
palavras por sentença e o tempo médio de narração foi de 2,03 segundos. Apesar da
diferença de 0,03 entre o tempo de narração ideal e o obtido pelo sistema, nossa solução
gera a AD de forma satisfatória dentro dos limites dos parâmetros utilizados como base.
6.2.2 Avaliação do Desempenho de Geração de Audiodescrição

Esta parte do experimento tem o objetivo de analisar o desempenho da solução pro-
posta em um cenário que requer a geração da AD no contexto de tempo real. Para isso, é
analisado o tempo médio para gerar a AD, para os mesmos vídeos do dataset selecionado.
Durante a execução de cada vídeo do conjunto de dados, o desempenho da geração
da solução proposta foi calculado e armazenado. Assim que a execução do vídeo era
iniciada, o processo de geração do AD era executado também, de forma simultânea, e
os atrasos de cada componente responsável pelo roteiro de audiodescrição (Extrator de
Informações e Gerador de Roteiro de AD) da arquitetura eram medidos e registrados.
O atraso médio, desvio padrão, valores máximo e mínimo de atraso medidos durante
o experimento para cada um dos componentes são mostrados na Tabela 6.13. De acordo
com a Tabela 6.13, o atraso médio para executar todos os componentes da solução foi
menor que 44.4 milissegundos, com um desvio padrão de 10.8 milissegundos. O atraso
máximo obtido (considerando o atraso máximo de cada componente) foi de 610.1 milis-
segundos, enquanto o atraso mínimo obtido foi de 41.55 milissegundos.
Ao analisar o desempenho individual de cada componente, é possível verificar o im-
pacto que cada um causa no tempo médio de atraso total da solução. O Extrator de
Tabela 6.13: Medidas de Desempenho de Geração de AD Para os Componentes da Solu-

ção
Valor Médio Desvio Padrão Max Min

Componente
(ms) (ms) (ms) (ms)
Extrator de Informações 44.410 10.857 610.145 41.540
Gerador de Roteiro AD 0.0275 0.0115 0.077 0.01
TOTAL 44.4375 10.8685 610.145 41.55
Informações, que analisa o vídeo, teve um atraso médio de 44 milissegundos, um atraso

máximo de 610 milissegundos e um atraso mínimo de 41 milissegundos. O Gerador de
Roteiro AD, que cria as sentenças, apresentou um atraso médio de 0,02 milissegundos,
um atraso máximo de 0,07 milissegundos e um atraso mínimo de 0,01 milissegundos,
sendo este o componente com o menor tempo de atraso.
Em relação ao componente TTS, a sua função é a criação e execução do áudio que
contém a narração da descrição, portanto, o tempo de execução fica condicionado ao soft-
ware sintetizador de voz escolhido e às definições de valores dos parâmetros, que podem
mudar de indivíduo para indivíduo, como por exemplo, velocidade da voz sintetizada.
Devido a isso, o tempo de atraso desse componente não foi considerado. Além disso,
pode-se ponderar que o tempo de narração humana também está sujeito a variações de
acordo com as modulações da voz humana de cada profissional, o que de certa forma dá
a mesma caraterística variável no tempo de narração. Sendo assim, a variação no tempo
de execução pode se tornar presente em diferentes tipos de geração, não sendo um valor
adequado para ser comparado.
Os valores apresentados na Tabela 6.13 nos levam à questão de pesquisa que trata so-
bre a possibilidade de desenvolver um gerador automático de AD eficaz em cenários que
exigem a descrição em tempo-real. Partindo do tempo médio de atraso total de aproxima-
damente 0.04 segundos, no contexto da reprodução de vídeo em tempo real, consideramos
que a solução tem o potencial de ser aplicada neste cenário. As diretrizes mundiais de au-
diodescrição não têm definições exatas de tempo de atraso aceitável para o narração de
um evento ao vivo. No entanto, considerando a forma como a geração manual de AD é
feita atualmente em contexto de tempo real (televisão, shows ao vivo, etc.), o audiodes-
critor precisa observar o evento para formular a descrição. Desta forma, algum tempo de
atraso está presente, mesmo quando a AD é criada por um profissional. Portanto, levando
em conta o tempo gasto por uma descrição feita pelo homem, consideramos que o tempo
de atraso da solução proposta é satisfatório, embora a qualidade da audiodescrição gerada
seja menor que a de uma geração humana.
Esse tipo de solução pode fornecer informações de contexto para pessoas cegas que
gostariam de usar câmeras de vigilância para monitorar ambientes e pode ajudar na veri-
ficação, por exemplo, da presença de alguma pessoa em uma sala, na percepção de algum
objeto diferente em um ambiente, entre outras aplicações em outros tipos de vídeo que
exijam um tempo de resposta mais curto.
6.3 Discussões Sobre o Experimento e Resultados

Este capítulo apresentou o experimento de avaliação do sistema proposto neste traba-
lho. A avaliação envolveu a aplicação do sistema em dois contextos distintos: filmes de
ficção e vídeos de vigilância. O primeiro cenário consiste em vídeos roteirizados, onde foi
possível avaliar as duas abordagens de geração automática de audiodescrição propostas
neste trabalho como prova de conceito da solução: a AD baseada no roteiro e no vídeo e
a AD baseada apenas no vídeo. Ambas abordagens foram analisadas sobre o aspecto téc-
nico, para destacar as características e diferenças entre as ADs geradas automaticamente.
Além disso, foi realizada uma avaliação com usuários deficientes visuais.
Em relação à primeira abordagem, com a AD baseada nas ações do roteiro e objetos
reconhecidos no vídeo, foi feita uma comparação do nível de compreensão dos usuários
com a situação mais comum enfrentada pelos cegos, que é a ausência de audiodescrição,
e com a abordagem de geração de AD baseada apenas no roteiro. Essa avaliação tratou
a primeira questão de pesquisa apresentada na motivação do trabalho (Capítulo 1), sobre
a possibilidade de reduzir as barreiras de acesso a vídeos enfrentadas pelas pessoas com
deficiência visual através de uma solução automática que incorpora ambas abordagens de
geração de audiodescrição. Em relação à ausência de audiodescrição, a proposta atual
obteve um desempenho muito superior. Em relação à abordagem baseada apenas no ro-
teiro, o desempenho da solução atual foi semelhante, no entanto, apresenta características
distintas que podem ser úteis em situações que exigem audiodescrições mais sucintas. Os
resultados apresentam que a solução tem o potencial para reduzir as barreiras de acesso a
vídeos enfrentadas pelas pessoas com deficiência visual.
A avaliação com usuários da segunda abordagem, AD baseada apenas em vídeo, nos
leva a segunda questão de pesquisa apresentada na motivação (Capítulo 1), sobre a possi-
bilidade de gerar uma audiodescrição a partir do reconhecimento automático de elementos
diretamente do vídeo. A avaliação apresentou resultados que indicam o potencial da ge-
ração automática da AD através da aplicação de técnicas de inteligência artificial para
análise de vídeo. Mesmo sendo um roteiro que descreve apenas objetos, foi possível for-
necer informações sobre o contexto e que podem auxiliar o usuário no entendimento geral
da história.
O segundo cenário de aplicação foi o de vídeos de vigilância, cujo requisito central
é a viabilidade da execução em tempo-real, considerando a terceira questão de pesquisa
(Capítulo 1), que trata a possibilidade de desenvolver um gerador automático de AD efi-
caz em cenários que exigem a descrição em tempo-real. Para avaliar o desempenho, foi
feita uma medição do tempo de atraso de cada componente da arquitetura, como forma
de calcular o tempo necessário para a execução da solução. Os resultados indicaram a
possibilidade de aplicação da solução proposta em tempo-real, sem maiores prejuízos ao
tempo disponível para a descrição do ambiente. Além disso, a arquitetura proposta neste
trabalho se apresentou adequada para a criação do recurso de acessibilidade.
O capítulo a seguir apresenta as conclusões sobre o presente trabalho, como também
as propostas de trabalhos futuros.
Capítulo 7
Conclusão
Este trabalho apresenta uma proposta para a geração automática de roteiro de audi-
odescrição para vídeos. O objetivo do trabalho é propor uma solução para diminuir as
barreiras de acessibilidade a conteúdos audiovisuais enfrentadas pelos deficientes visuais.
A solução contempla a extração de informação sobre a história do filme através da
análise de roteiro e do processamento de vídeo, armazenando tudo em uma base de dados
que pode ser verificada para a geração de AD adaptada à disponibilidade das fontes de
informação e do tipo de audiodescrição que se deseja obter.
Com relação às informações utilizadas para gerar a AD, o modelo de solução foi de-
senvolvido em duas perspectivas: I) Utilizando o roteiro e o vídeo; II) Utilizando apenas
o vídeo. A arquitetura da solução permite a integração de técnicas de processamento de
linguagem natural para extração de informações do texto do roteiro e modelos de apren-
dizado profundo para detecção e reconhecimento de elementos do vídeo. Como prova de
conceito da solução, foram desenvolvidas duas abordagens de geração: I) com base nas
ações do roteiro e objetos reconhecidos no vídeo; II) com base nos objetos que compõem
a cena reconhecidos automaticamente.
A solução foi aplicada em dois cenários de uso: 1) filmes de ficção, com a utilização
das duas abordagens de geração (roteiro/vídeo e apenas vídeo); 2) vídeos de vigilância,
apenas com a abordagem que utiliza unicamente o vídeo.
O sistema foi avaliado em relação à qualidade da audiodescrição gerada e ao desem-
penho no tempo de resposta. Para avaliação da qualidade das descrições, foi realizado
um conjunto de teste com um grupo de onze usuários cegos, cujo objetivo era avaliar se
os usuários eram capazes de compreender o contexto geral da história quando assistam
a vídeos com as ADs geradas pela solução proposta. Em relação ao desempenho, foi
calculado o tempo de atraso que cada componente tem ao ser executado.
Os resultados mostraram que a maioria dos usuários foi capaz de compreender cor-
retamente os aspectos gerais da história, mas alguns usuários tiveram dificuldades em
identificar a descrição dos ambientes e dos horários em que a história acontecia, espe-
cialmente quando o roteiro do vídeo não está disponível. Adicionalmente, os resultados
do teste de desempenho indicam que a solução possui o potencial para ser aplicada no
contexto de tempo-real.
As abordagens implementadas como prova de conceito possuem limitações nas descri-
ções, no entanto, apesar dessas deficiências, foi possível perceber a melhoria no entendi-
mento que os usuários tiveram ao ter contato com vídeos com audiodescrição automática.
CAPÍTULO 7. CONCLUSÃO 66
Além disso, a etapa de desenvolvimento e experimento indicou que a arquitetura proposta

é robusta o suficiente para integrar outras técnicas de processamento de texto e de visão
computacional para se extrair mais tipos de informações, com o objetivo de melhorar a
qualidade da audiodescrição e preencher as lacunas que a solução atual possui, como por
exemplo, a descrição de personagens e ações. Desta forma, considero o presente trabalho
como um ponto de partida para uma solução automatizada de acessibilidade para vídeos
digitais voltadas para pessoas com deficiências visuais.
7.1 Propostas para Trabalhos Futuros

Como propostas para estudos futuros, é considerada a incorporação da técnica de
detecção de silêncio em áudio para dispensar o uso da legenda na etapa de identificação
de gaps.
Além disso, a integração de técnicas para a detecção de elementos importantes no
vídeo, visando extrair mais informações sobre a história, bem como novas formas de cri-
ação de roteiros de AD adaptadas a outros tipos de informação, por exemplo, mais focado
no ambiente ou em personagens. Para isso, utilizar outros modelos de redes profundas
CNN e integrar modelos RNN, assim como suas variantes, com o objetivo de obter mais
informações sobre o vídeo e facilitar a descrição dos eventos.
Adicionalmente, será investigado também formas de como obter informações de con-
texto a partir da análise de recorrência e co-ocorrência dos elementos detectados durante
a sequencia temporal do vídeo.
Referências Bibliográficas
Alves, Soraya Ferreira, Varyanne Couto Teles & Tomás Verdi Pereira (2011), ‘Propostas
para um modelo brasileiro de audiodescrição para deficientes visuais’, Tradução
Comunicação: Revista rasileira de Tradutores (22), 9–29.
Araujo, V. L. S. (2006), ‘O processo de legendagem no brasil (the subtitling process in
brazil)’, Revista do GELNE (GELNE Magazine) , Fortaleza 1/2(1), 156–159.
Benecke, B. (2004), ‘Audio-description’, Meta: Translators’ Journal 49(1), 78–80.
Bojanowski, Piotr, Rémi Lajugie, Francis R. Bach, Ivan Laptev, Jean Ponce, Cordelia
Schmid & Josef Sivic (2014), ‘Weakly supervised action labeling in videos under
ordering constraints’, CoRR abs/1407.1208.
Bolaños, Marc, Álvaro Peris, Francisc oCasacuberta, Sergi Soler & Petia Radeva (2018),
‘Egocentric video description based on temporally-linked sequences’, Journal of
Visual Communication and Image Representation 50, 205–216.
Braga, K. B. (2011), Cinema acessível para pessoas com deficiência visual: a audiodescri-
ção de o grão de petrus cariry, Dissertação de mestrado, Programa de Pós-Graduação
em Linguística Aplicada do Centro de Humanidades - Universidade Federal do Ce-
ará, Fortaleza.
Calvo-Salamanca, S., A. F. Coca-Castro & J. A. Velandia-Vega (2016), Web prototype
for creating descriptions and playing videos with audio description using a speech
synthesizer, em ‘2016 8th Euro American Conference on Telematics and Informa-
tion Systems (EATIS)’, pp. 1–7.
Campos, V. P., L. M. G. Goncalves & T. M. U. de Araujo (2017), Applying audio des-
cription for context understanding of surveillance videos by people with visual im-
pairments, em ‘2017 14th IEEE International Conference on Advanced Video and
Signal Based Surveillance (AVSS)’, pp. 1–5.
Campos, Virginia (2015), Um Sistema de Geracao Automatica de Roteiros de Audiodes-
cricao, dissertacao, Universidade Federal da Paraíba.
URL: http://tede.biblioteca.ufpb.br:8080/handle/tede/7860
Campos, Virginia P., Tiago M. U. de Araújo, Guido L. de Souza Filho & Luiz M. G. Gon-
çalves (2018), ‘Cinead: a system for automated audio description script generation
for the visually impaired’, Universal Access in the Information Society .
URL: https://doi.org/10.1007/s10209-018-0634-4
67
REFERÊNCIAS BIBLIOGRÁFICAS 68
Chapdelaine, Claude & Langis Gagnon (2009), Accessible videodescription on-demand,

em ‘Proceedings of the 11th International ACM SIGACCESS Conference on Com-
puters and Accessibility’, Assets ’09, ACM, New York, NY, USA, pp. 221–222.
URL: http://doi.acm.org/10.1145/1639642.1639685
Chen, Tseng-Hung, Kuo-Hao Zeng, Wan-Ting Hsu & Min Sun (2017), Video captioning
via sentence augmentation and spatio-temporal attention, em C.-S.Chen, J.Lu & K.-
K.Ma, eds., ‘Computer Vision – ACCV 2016 Workshops’, Springer International
Publishing, Cham, pp. 269–286.
Chen, Xinlei & C. Lawrence Zitnick (2015), Mind’s eye: A recurrent visual representation
for image caption generation., em ‘CVPR’, IEEE Computer Society, pp. 2422–2431.
Choi, Wongun, Khuram Shahid & Silvio Savarese (2009), What are they doing? : Col-
lective activity classification using spatio-temporal relationship among people, em
‘Proc. of 9th International Workshop on Visual Surveillance (VSWS09) in conjuc-
tion with ICCV’.
Cour, Timothée, Benjamin Sapp, Chris Jordan & Benjamin Taskar (2009), Learning
from ambiguously labeled images, em ‘2009 IEEE Computer Society Conference
on Computer Vision and Pattern Recognition (CVPR 2009), 20-25 June 2009, Mi-
ami, Florida, USA’, pp. 919–926.
CS231n (n.d.), ‘Cs231n: Convolutional neural networks for visual recognition.’.
Dai, Jifeng, Yi Li, Kaiming He & Jian Sun (2016), ‘R-FCN: object detection via region-
based fully convolutional networks’, CoRR abs/1605.06409.
de Mello Motta, Lívia Maria Villela (2019), ‘Audiodescrição: recurso de acessibilidade

para a inclusão cultural.’.
URL: http://acervo.plannetaeducacao.com.br/portal/artigo.asp?artigo=1210
Dias, C. (2007), Usabilidade na web: Criando portais mais acessíveis, 2a edição, Alta
Books, São Paulo.
Domingues, Leonardo A., Virgínia P. Campos, Tiago M.U. Araújo & Guido L. de S. Filho
(2016), Accessibility in digital cinema: A proposal for generation and distribution
of audio description, em ‘Proceedings of the 22Nd Brazilian Symposium on Multi-
media and the Web’, Webmedia ’16, ACM, New York, NY, USA, pp. 119–126.
Donahue, Jeff, Lisa Anne Hendricks, Sergio Guadarrama, Marcus Rohrbach, Subhashini
Venugopalan, Kate Saenko & Trevor Darrell (2015), ‘Long-term recurrent convolu-
tional networks for visual recognition and description’, CoRR abs/1411.4389.
Duchenne, Olivier, Ivan Laptev, Josef Sivic, Francis R. Bach & Jean Ponce (2009), Au-
tomatic annotation of human actions in video, em ‘2009 IEEE 12th International
Conference on Computer Vision’.
Encelle, Benoît, Magali Ollagnier Beldame & Yannick Prié (2013), Towards the usage of
pauses in audio-described videos, em ‘Proceedings of the 10th International Cross-
Disciplinary Conference on Web Accessibility’, W4A ’13, ACM, New York, NY,
USA, pp. 31:1–31:4.
Fang, Hao, Saurabh Gupta, Forrest N. Iandola, Rupesh Kumar Srivastava, Li Deng, Piotr
Dollár, Jianfeng Gao, Xiaodong He, Margaret Mitchell, John C. Platt, C. Lawrence
Zitnick & Geoffrey Zweig (2014), ‘From captions to visual concepts and back’,
CoRR abs/1411.4952.
Field, Syd (2001), Manual do Roteiro: os fundamentos do texto cinematográfico., 1a
edição, Objetiva, Rio de Janeiro.
Flor, C. S. (2009), Diagnóstico da acessibilidade dos principais museus virtuais disponí-
veis da internet, Dissertação de mestrado, Pós-graduação em Engenharia e Gestão
do Conhecimento, Universidade Federal de Santa Catarina, Florianópolis. An opti-
onal note.
Gagnon, Langis, Samuel Foucher, Maguelonne Heritier, Marc Lalonde, David Byrns,
Claude Chapdelaine, James Turner, Suzanne Mathieu, Denis Laurendeau, Nath Tan
Nguyen & Denis Ouellet (2009), ‘Towards computer-vision software tools to incre-
ase production and accessibility of video description for people with vision loss’,
Univers. Access Inf. Soc. 8(3), 199–218.
Goodfellow, Ian, Yoshua Bengio & Aaron Courville (2016), Deep Learning, MIT Press.
http://www.deeplearningbook.org.
Hurtado, C. J., A. Rodríguez & C. Seibel (2010), ‘Un corpus de cine. fundamentos teo-
ricos de la audiodescripcion (a corpus of cinema. theoretical foundations of audio
description)’, Universidad de Granada,Proyecto Tracce pp. 13–56.
Ichiki, Manon, Toshihiro Shimizu, Atsushi Imai, Tohru Takagi, Mamoru Iwabuchi,
Kiyoshi Kurihara, Taro Miyazaki, Tadashi Kumano, Hiroyuki Kaneko, Shoei
Sato, Nobumasa Seiyama, Yuko Yamanouchi & Hideki Sumiyoshi (2018), Study
on automated audio descriptions overlapping live television commentary, em
K.Miesenberger & G.Kouroupetroglou, eds., ‘Computers Helping People with Spe-
cial Needs’, Springer International Publishing, Cham, pp. 220–224.
Karkar, AbdelGhani, Mary Puthren & Somaya Al-ma’adeed (2018), A bilingual scene-
to-speech mobile based application, pp. 1–240.
Kilickaya, Mert, Aykut Erdem, Nazli Ikizler-Cinbis & Erkut Erdem (2016), ‘Re-
evaluating automatic metrics for image captioning’, CoRR abs/1612.07600.
URL: http://arxiv.org/abs/1612.07600
Kobayashi, Masatomo, Tohru Nagano, Kentarou Fukuda & Hironobu Takagi (2010), Des-
cribing online videos with text-to-speech narration, em ‘Proceedings of the 2010 In-
ternational Cross Disciplinary Conference on Web Accessibility (W4A)’, W4A ’10,
ACM, New York, NY, USA, pp. 29:1–29:2.
Lakritz, J. & A. Salway (2002), ‘The semi-automatic generation of audio description from
screenplays’, Technical Report CS-06-05, Dept. Of Computing, University of Surrey
.
Laptev, Ivan, Marcin Marszałek, Cordelia Schmid & Benjamin Rozenfeld (2008), Lear-
ning realistic human actions from movies, em ‘IN: CVPR.’.
Lecun, Yann, Léon Bottou, Yoshua Bengio & Patrick Haffner (1998), Gradient-based
learning applied to document recognition, em ‘Proceedings of the IEEE’, pp. 2278–
2324.
Lecun, Yann, Yoshua Bengio & Geoffrey Hinton (2015), ‘Deep learning’, Nature
521(7553), 436–444.
Liu, An-An, Ning Xu, Yongkang Wong, Junnan Li, Yu-Ting Su & Mohan Kankanhalli
(2017), ‘Hierarchical & multimodal video captioning’, Comput. Vis. Image Underst.
163(C), 113–125.
URL: https://doi.org/10.1016/j.cviu.2017.04.013
Marszalek, Marcin, Ivan Laptev & Cordelia Schmid (2009), Actions in context., em
‘CVPR’, IEEE Computer Society, pp. 2929–2936.
Muniz, Raul C. (2014), ‘Uma Revisão Sistemática da Literatura sobre Técnicas de Gera-
ção Automática e Semiautomática de Audiodescrição.’. Monografia (Bacharelado
em Ciências da Computação), Universidade Federal da Paraíba, Brasil.
Nielsen, Michael (2017), Neural Networks and Deep Learning, Free Online Book:
http://neuralnetworksanddeeplearning.com/.
Nunes, E. V., F. O. Machado & T. Vanzin (2011), Audiodescricao como Tecnologia As-
sistiva para o Acesso ao Conhecimento por Pessoas Cegas. (Audio description as
Assistive Technology for Access to Knowledge for the Blind). Ambiente virtual de
aprendizagem inclusivo (Inclusive virtual learning environment), Vania Ribas Ul-
bricht,Tarcisio Vanzin e Vilma Villarouco. Ed. Pandion, 352 p., Florianopolis.
Oliveira, Rita, Jorge Ferraz de Abreu, Margarida Almeida & Bernardo Cardoso (2016),
Inclusive approaches for audiovisual translation production in interactive television
(itv), em ‘Proceedings of the 7th International Conference on Software Development
and Technologies for Enhancing Accessibility and Fighting Info-exclusion’, DSAI
2016, ACM, New York, NY, USA, pp. 146–153.
Pan, Yingwei, Tao Mei, Ting Yao, Houqiang Li & Yong Rui (2015), ‘Jointly modeling
embedding and translation to bridge video and language’, CoRR abs/1505.01861.
Perera, M., C. Farook & A. P. Madurapperuma (2017), Automatic video descriptor for
human action recognition, em ‘2017 National Information Technology Conference
(NITC)’, pp. 61–67.
Quevedo, S. R. P. & V. R. Ulbricht (2011), Como os cegos aprendem: Comunicação,

tecnologia e cultura de rede., Pandion Editoria, São Paulo.
Redmon, Joseph & Ali Farhadi (2016), ‘YOLO9000: better, faster, stronger’, CoRR
abs/1612.08242.
Reisinger, Don (2012), ‘YouTube users uploading 72 hours of video each minute’, Dispo-
nível em: http://www.cnet.com/news/youtube-users-uploading-72-hours-of-video-
each-minute/. [Online; Acessado em 01-Jun-2016].
Ren, Shaoqing, Kaiming He, Ross B. Girshick & Jian Sun (2015), ‘Faster R-
CNN: towards real-time object detection with region proposal networks’, CoRR
abs/1506.01497.
Rocha Façanha, Agebson, Adonias Caetano de Oliveira, Marcos Vinicius de An-

drade Lima, Windson Viana & Jaime Sánchez (2016), Audio description of videos
for people with visual disabilities, em M.Antona & C.Stephanidis, eds., ‘Univer-
sal Access in Human-Computer Interaction. Users and Context Diversity’, Springer
International Publishing, Cham, pp. 505–515.
Rohrbach, Anna, Atousa Torabi, Marcus Rohrbach, Niket Tandon, Christopher Pal, Hugo
Larochelle, Aaron Courville & Bernt Schiele (2017), ‘Movie description’, Interna-
tional Journal of Computer Vision 123(1), 94–120.
URL: https://doi.org/10.1007/s11263-016-0987-1
Rohrbach, Anna, Marcus Rohrbach & Bernt Schiele (2015), ‘The long-short story of
movie description’, CoRR abs/1506.01698.
Santana, M. (2010), ‘A primeira audiodescrição na propaganda da tv brasileira: Natura

naturé um banho de acessibilidade’, Audiodescrição: Transformando Imagens em
Palavras. - Secretaria de Estado dos Direitos da Pessoa com Deficiência .
Sutskever, Ilya, James Martens & Geoffrey Hinton (2011), Generating text with recurrent
neural networks, em L.Getoor & T.Scheffer, eds., ‘Proceedings of the 28th Interna-
tional Conference on Machine Learning (ICML-11)’, ICML ’11, ACM, New York,
NY, USA, pp. 1017–1024.
Trask, Andrew W. (2017), Grokking Deep Learning, MEAP Edition - Manning Early
Access Program.
Venugopalan, Subhashini, Huijuan Xu, Jeff Donahue, Marcus Rohrbach, Raymond J.

Mooney & Kate Saenko (2014), ‘Translating videos to natural language using deep
recurrent neural networks’, CoRR abs/1412.4729.
Venugopalan, Subhashini, Marcus Rohrbach, Jeff Donahue, Raymond J. Mooney, Tre-

vor Darrell & Kate Saenko (2015), ‘Sequence to sequence - video to text’, CoRR
abs/1505.00487.
Yang, Yuecong Xuand Jianfei & Kezhi Mao (2019), ‘Semantic-filtered soft-split-aware
video captioning with audio-augmented feature’, Neurocomputing 357, 24–35.
Yue, Wang, Wang Xiaojie & Mao Yuzhao (2016), ‘First-feed lstm model for video
description’, The Journal of China Universities of Posts and Telecommunications
23(3), 89–93.
Apêndice A
Protocolo de Revisão Sistemática
A definição do protocolo de revisão sistemática é a primeira etapa necessária para

se realizar uma revisão sistemática. Este protocolo é uma adaptação do protocolo apre-
sentado em (Muniz 2014), que consiste em um plano para conduzir a revisão de modo
a fornecer uma visão geral de uma área de pesquisa e permiti identificar, quantificar e
analisar os tipos de pesquisas e os resultados obtidos.
Primeiramente, faz-se necessário definir quais são as “questões de pesquisa” desse
estudo. Considerando que o tema dessa revisão sistemática são os sistemas de geração
automática e semi-automática de audiodescrição, as questões de pesquisa formuladas fo-
ram as seguintes:
• QP 1: Como estão distribuídas as publicações envolvendo geração automática e

semi-automática de audiodescrição em Tecnologias da Informação e Comunicação
(TIC)?
• QP 2: Quais os métodos de pesquisa utilizados nestes trabalhos e quais as principais
estratégias utilizadas para abordar esse problema?
• QP 3: Quais são as formas de avaliação comumente utilizadas para analisar a qua-
lidade de técnicas de geração automática e semi-automática de audiodescrição?
A pesquisa sobre trabalhos relacionados foi realizada através de um processo de busca

automática sobre os principais portais (bibliotecas digitais) de artigos científicos, listados
abaixo:
• IEEEXplore (http://ieeexplore.ieee.org)
• ACM Digital Library (http://dl.acm.org)
• ScienceDirect (http://www.sciencedirect.com/)
• Scopus (http://www.scopus.com/)
• ISI Web of Knowledge (http://isiwebofknowledge.com/)
Para realizar uma busca automática nesses sites, pode-se pesquisar de forma mais pre-
cisa considerando exclusivamente palavras chave, título e resumo dos artigos de modo
a montar uma “string de busca” com as palavras chave, evitando assim que as palavras
chave aparecem soltas nos corpos dos artigos pesquisados, reduzindo a probabilidade de
encontrar artigos irrelevantes. Dessa forma, para definir uma “string de busca” é ne-
cessário então identificar os “termos de pesquisa” que a comporão, ou seja, as palavras
APÊNDICE A. PROTOCOLO DE REVISÃO SISTEMÁTICA 74
chaves, seus sinônimos e termos relacionados. Os termos de pesquisa, juntamente com

seus sinônimos são então combinados utilizando operadores lógicos aceitos pelos portais
(por exemplo, os operadores OR (ou), AND (e) e NOT (não)) para formar a string de
busca. As palavras chave, sinônimos e termos utilizados para a composição da string
de busca definida nesse trabalho são apresentados são esses: Audio description, Visual
description, video description, Automatic, Semi automatic, Accessibility, Assistive tech-
nology, Generation Synthesys. Definida a lista de palavras chaves, termos relacionados e
sinônimos, foi definida então a seguinte “string de busca”:
• String de busca: (synth* OR generat* OR autom* OR semi automat*) AND (audio
description OR audiodescription OR video description OR visual description) AND
(accessibility OR assistive technology)
Além da busca automática realizada nos portais listados, foi realizada uma busca ma-
nual com objetivo de encontrar um maior número de trabalhos a serem analisados. Essa
busca foi realizada levando em consideração a análise de artigos referenciados em outros
trabalhos filtrados na primeira interação, ou seja, que haviam sido analisados e estavam de
acordo com o tema proposto para este trabalho. O resultado dessa etapa de busca manual
foi a pré-seleção de três artigos que foram incluídos no processo de filtragem. Depois
de realizado o processo de busca, os documentos recuperados são filtrados com base nos
seguintes critérios de inclusão e exclusão dos trabalhos:
• I1: Incluir todos os artigos completos relacionados ao contexto da revisão (através

da leitura do título e do resumo e, em caso de informações insuficientes, da leitura
completa do artigo);
• E1: Excluir todos os documentos que não são artigos científicos;
• E2: Excluir documentos com conteúdos irrelevantes para a pesquisa;
• E3: Excluir os trabalhos repetidos. Caso existam trabalhos repetidos, incluir apenas
o trabalho mais recente;
• E4: Excluir trabalhos em que o acesso ao artigo seja incompleto, apresentando
apenas o resumo (abstract), por exemplo.
Após esse processo de inclusão e exclusão, os artigos selecionados são classificados

com base nos seguintes critérios:
1. Tipo de geração de áudio descrição: Classificação enquanto a automatização do

processo de geração de audiodescrição. Considerando esse critério, os artigos po-
dem ser classificados da seguinte forma:
(a) Automático: geração automática de audiodescrição;
(b) Manual: geração manual de audiodescrição;
(c) Semi-automático: geração semi-automática de audiodescrição;
(d) Não classificado: o artigo não especifica o tipo de geração de audiodescrição.
2. Tipo de entrada: Entrada utilizada pelo sistema para gerar a audiodescrição. Con-
siderando esse critério, os artigos podem ser classificados da seguinte forma:
(a) Roteiro Cinematográfico: geração de audiodescrição a partir de roteiro;
(b) Texto: geração de audiodescrição a partir de texto;

(c) Página Web: geração de audiodescrição a partir de código HTML;
(d) Dados estatísticos: geração de audiodescrição a partir de dados estatísticos.
(e) Vídeo: geração de audiodescrição a partir de vídeo;
(f) Roteiro de AD: geração de audiodescrição a partir de roteiros ou scripts;
(g) Função matemática: geração de áudio descrição a partir de dados matemáticos;
(h) Imagem: geração de áudio descrição a partir de imagens;
(i) Mapa: geração de áudio descrição a partir de mapas;
(j) Dados Estatísticos: geração de áudio descrição a partir de dados estatísticos e
tabelas;
(k) Legenda: geração de áudio descrição a partir de legendas;
(l) Localização: geração de áudio descrição a partir de localização geográfica;
(m) Gráficos: geração de áudio descrição a partir de gráficos;
(n) Modelo 3D: geração de áudio descrição a partir de modelos virtuais 3D;
(o) Modelo 2D: geração de áudio descrição a partir de modelos virtuais 2D;
(p) Não classificado: o artigo não especifica o tipo de entrada.
3. Tipo de saída: Saída gerada pelo sistema de áudio descrição. Os tipos mais utiliza-
dos são:
(a) Texto: gera como saída do sistema, texto;
(b) Áudio: gera como saída do sistema, áudio;
(c) Impressão tátil: gera como saída do sistema, impressão tátil;
(d) Gráfico: gera como saída do sistema, gráfico;
(e) Vídeo: gera como saída do sistema, vídeo;
(f) Roteiro de AD: gera como saída do sistema, roteiro;
(g) Modelo 3D: gera como saída do sistema, modelo virtual 3D;
(h) Imagem: gera como saída do sistema, imagem;
(i) Não classificado: o artigo não especifica o tipo de saída.
4. Canal de geração do áudio: Qual canal é utilizado como meio de transporte dos
dados relativos à saída do sistema de áudio descrição. Os tipos mais utilizados são:
(a) Canal original: o áudio é embutido junto com a trilha sonora original (o narrador
descreve os eventos que ocorrem na tela entre pausas naturais);
(b) Canal separado: existe outro canal de áudio que produz o som produzido pelo
processo de áudio descrição;
(c) Não utiliza: não utiliza áudio como saída do sistema;
(d) Não classificado: utiliza áudio como saída do sistema, mas não exemplifica o
canal de geração.
5. Domínio da audiodescrição: Identifica se o sistema de audiodescrição foi projetado

para qualquer tipo mídia (teatro, filmes, cinema, televisão, museu, etc) ou se foi
projetado para uma aplicação em um domínio específico. Com base no que foi dito
os artigos podem ser classificados como:
(a) Domínio geral: audiodescrição para qualquer tipo de mídia;
(b) Domínio específico: audiodescrição para um domínio específico;

(c) Não classificado: O domínio da áudio descrição não é identificado ou definido
pelo artigo.
6. Método de avaliação: Identifica qual o método de avaliação utilizado no processo

de áudio descrição para avaliar seu desempenho, viabilidade e qualidade do áudio
gerado pelo processo. Nesse contexto, a avaliação pode ser:
(a) Automática: somente utiliza medidas objetivas obtidas a partir de testes compu-
tacionais;
(b) Com usuários: avaliação somente subjetiva através de testes realizados com
usuários do sistema;
(c) Híbrida: avaliação tanto automática quanto com avaliação com usuários;
(d) Especializada: avaliação feita por especialistas em audiodescrição;
(e) Não classificado: o tipo de avaliação não é definido pelo artigo.
7. Tempo de geração da AD: Identifica em qual etapa a geração da audiodescrição foi

feita em relação à exibição do conteúdo. A geração pode ser das seguintes formas:
(a) Previamente gerada: o conteúdo completo é processado para, posteriormente,
gerar a AD;
(b) Tempo-real: a geração da AD é feita simultaneamente à exibição do conteúdo;
(c) Não classificado: o tempo de geração não é definido pelo artigo.
Os resultados obtidos a partir da execução deste protocolo de revisão sistemática são

apresentados no Capítulo 3.
Apêndice B
Artigos da Revisão Sistemática
1. OLIVEIRA, Rita et al. Inclusive approaches for audiovisual translation production in Inte-
ractive Television (iTV). In: Proceedings of the 7th International Conference on Software
Development and Technologies for Enhancing Accessibility and Fighting Info-exclusion.
ACM, 2016. p. 146-153.
2. BOLAÑOS, Marc et al. Egocentric video description based on temporally-linked sequen-

ces. Journal of Visual Communication and Image Representation, v. 50, p. 205-216, 2018.
3. CALVO-SALAMANCA, Sebastian; COCA-CASTRO, Andrés Felipe; VELANDIA-VEGA,

John Alexander. Web prototype for creating descriptions and playing videos with audio des-
cription using a speech synthesizer. In: 2016 8th Euro American Conference on Telematics
and Information Systems (EATIS). IEEE, 2016. p. 1-7.
4. CAMPOS, Virginia Pinto; GONCALVES, Luiz Marcos G.; DE ARAUJO, Tiago Maritan
U. Applying audio description for context understanding of surveillance videos by people
with visual impairments. In: 2017 14th IEEE International Conference on Advanced Video
and Signal Based Surveillance (AVSS). IEEE, 2017. p. 1-5.
5. CAMPOS, Virginia P.; DE ARAUJO, Tiago Maritan U.; SOUZA FILHO, Guido L. de
GONCALVES; Luiz Marcos G.; CineAD: a system for automated audio description script
generation for the visually impaired. Universal Access in the Information Society, p. 1-13,
2018.
6. CHAPDELAINE, C.; GAGNON, L. Accessible Videodescription On-Demand. Interna-

tional ACM SIGACCESS Conference on Computers and Accessibility - ASSETS ’09,
Pennsylvania, p 221-222, oct. 2009.
7. CHEN, Tseng-Hung et al. Video Captioning via Sentence Augmentation and Spatio-Temporal
Attention. In: Asian Conference on Computer Vision. Springer, Cham, 2016. p. 269-286.
8. DOMINGUES, Leonardo A. Domingues; CAMPOS, Virgínia P.; ARAÚJO, Tiago M.U.;

and SOUZA FILHO, Guido L. de. 2016. Accessibility in Digital Cinema: A Proposal for
Generation and Distribution of Audio Description. In Proceedings of the 22nd Brazilian
Symposium on Multimedia and the Web (Webmedia ’16). ACM, New York, NY, USA,
119-126.
APÊNDICE B. ARTIGOS DA REVISÃO SISTEMÁTICA 78
9. ENCELLE, B.; BELDAME, M. O.; PRIÉ, Y. Towards the usage of pauses in audio descri-
bed videos. 22nd International World Wide Web Conference, Rio de Janeiro, may 2013.
10. FAÇANHA, Agebson Rocha et al. Audio description of videos for people with visual disa-
bilities. In: International Conference on Universal Access in Human-Computer Interaction.
Springer, Cham, 2016. p. 505-515.
11. GAGNON, Langis et al. Towards computer-vision software tools to increase production
and accessibility of video description for people with vision loss. Springer-Verlag, p 199-
218, feb. 2009.
12. ICHIKI, Manon et al. Study on automated audio descriptions overlapping live television
commentary. In: International Conference on Computers Helping People with Special Ne-
eds. Springer, Cham, 2018. p. 220-224.
13. KARKAR, AbdelGhani; PUTHREN, Mary; AL-MAADEED, Somaya. A Bilingual Scene-

to-Speech Mobile Based Application. In: 2018 International Conference on Computer and
Applications (ICCA). IEEE, 2018. p. 1-240.
14. KOBAYASHI, M.; NAGANO, T.; FUKUDA, K.; TAKAGI, H. Describing Online Videos
with Text-to-Speech Narration. W4A2010, Raleigh, apr. 2010.
15. LAKRITZ, J.; SALWAY, A. “The Semi-Automatic Generation of Audio Description from
Screenplays”, Dept. Of Computing Technical Report CS-06-05, 2002, University of Surrey
16. LIU, An-An et al. Hierarchical & multimodal video captioning: Discovering and transfer-
ring multimodal knowledge for vision to language. Computer Vision and Image Unders-
tanding, v. 163, p. 113-125, 2017.
17. PERERA, Minoli; FAROOK, Cassim; MADURAPPERUMA, A. P. Automatic video des-

criptor for human action recognition. In: 2017 National Information Technology Confe-
rence (NITC). IEEE, 2017. p. 61-67.
18. ROHRBACH, Anna et al. Movie description. International Journal of Computer Vision, v.
123, n. 1, p. 94-120, 2017.
19. XU, Yuecong; YANG, Jianfei; MAO, Kezhi. Semantic-filtered Soft-Split-Aware video cap-
tioning with audio-augmented feature. Neurocomputing, v. 357, p. 24-35, 2019.
20. YUE, Wang; XIAOJIE, Wang; YUZHAO, Mao. First-Feed LSTM model for video des-
cription. The Journal of China Universities of Posts and Telecommunications, v. 23, n. 3,
p. 89-93, 2016.
Apêndice C
Questionário de Avaliação da Sessão de

Testes com Usuários
C.1 Parte 1 - Informação Geral do Usuário

Sexo: ( ) Masculino ( ) Feminino
Qual a sua faixa etária?

( ) Abaixo de 18 anos
( ) Entre 18 e 30 anos
( ) Entre 31 e 40 anos
( ) Acima de 40 anos
Qual o seu grau de deficiência visual?

( ) Total
( ) Parcial
Qual a natureza da deficiência visual?

( ) Congênita
( ) Adquirida
Qual é o seu grau de escolaridade?

( ) Nunca estudei
( ) Ensino Fundamental Incompleto
( ) Ensino Fundamental Completo
( ) Ensino Médio Incompleto
( ) Ensino Médio Completo
( ) Ensino Superior Incompleto
( ) Ensino Superior Completo
( ) Pós-graduação
( ) Outro. Qual?
Você costuma a assistir filmes?

( ) Sim
APÊNDICE C. QUESTIONÁRIO DE AVALIAÇÃO DA SESSÃO DE TESTES COM USUÁRIOS80
( ) Não
Você costuma ir ao cinema?

( ) Sim
( ) Não
Quanto tempo de vídeos com audiodescrição você consome por semana?

( ) Nenhum.
( ) Menos de 1 hora.
( ) Entre 1 e 5 horas.
( ) Entre 5 e 10 horas.
( ) Acima de 10 horas.
C.2 Parte 2: Compreensão dos Conteúdos - (AD Auto-

mática Baseada no Roteiro e Vídeo)
Vídeo 1
1) O vídeo mostra um homem dirigindo um carro. Qual é o tipo de roupa que ele está
vestindo?
A) Roupas de praia.
B) Camisa social e paletó.
C) Camiseta e jeans.
D) Não sei responder
2) Uma discussão acontece entre o personagem e os passageiros de um ônibus. Qual

o motivo dessa discussão?
A) Porque ele estacionou na faixa de pedestre.
B) Porque ele tem uma atitude arrogante.
C) Porque ele fez elogios à namorada de alguém.
3) Como o homem suja a sua roupa?

A) Alguém cospe nele.
B) Alguém joga comida nele.
C) Alguém atira uma pedra nele.
4) O homem estacionou o carro no seu local de trabalho. Onde fica?

A) Em um ministério.
B) Na câmara legislativa.
C) Em uma loja.
5) Ele deve trocar a roupa que está suja. Como ele volta para casa?
A) Ele pega um ônibus.
B) Ele chama um táxi.
C) Ele dirige o carro.
Vídeo 2
1) Onde a personagem mora?

A) Trailer.
B) Cabana.
C) Circo.
2) Em cima do fogão ligado há uma panela. O que está ela está cozinhando?
A) Frango.
B) Sopa.
C) Ovo.
3) Qual o programa que está passando na televisão?

A) Novela.
B) Corrida de atletismo.
C) Corrida de carros.
4) De onde a personagem principal faz a ligação telefônica?

A) do orelhão público.
B) do telefone de casa.
C) do celular.
5) O que acontece com a personagem no final do filme?

A) Vai embora para a casa da mãe.
B) Foge com o circo.
C) Volta para a casa.
C.3 Parte 3: Avaliação do Contexto - AD Automática Ge-

rada Apenas Pela Análise do Vídeo (Apenas Objetos)
Vídeo 4 - “Dona Cristina Perdeu a Memória”
1. O que acontece na história?

2. Onde você acha que a história acontece? Consegue identificar o ambiente?
3. Qual elemento você acha importante para a história?
4. Quantos personagens participam da história? Qual o gênero dos personagens?
5. A história se passa de dia, de noite, de madrugada? Por quê?
Vídeo 5 - “O Velho do Saco”
1. O que acontece na história?

2. Onde você acha que a história acontece? Consegue identificar o ambiente?
3. Qual elemento você acha importante para a história?
4. Quantos personagens participam da história? Qual o gênero dos personagens?
5. A história se passa de dia, de noite, de madrugada? Por quê?

Sistemageracaoautomatica Campos 2019

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Sistemageracaoautomatica Campos 2019

Enviado por

Direitos autorais:

Formatos disponíveis

U NIVERSIDADE F EDERAL DO R IO G RANDE DO N ORTE

Sistema de Geração Automática de

Virginia Pinto Campos

Orientador: Prof. Dr. Luiz Marcos Garcia Gonçalves

Tese de Doutorado apresentada ao Pro-

Número de ordem PPgEEC: D261

Campos, Virginia Pinto.

Tese (doutorado) - Universidade Federal do Rio Grande do

1. Acessibilidade - Tese. 2. Audiodescrição - Tese. 3.

RN/UF/BCZM CDU 376-056.262

Elaborado por Ana Cristina Cavalcanti Tinôco - CRB-15/262

Agradeço a Deus, causa primária de todas as coisas.

Ao meu irmão, Bito, por todo carinho, proteção e orientação.

Aos colegas de doutorado do NATALNET, em especial, Luis Feliphe e Leonardo, por

A todos os meus amigos, professores e colegas de trabalho que participaram de alguma

À CAPES, pelo apoio financeiro para realização deste trabalho.

A audiodescrição é um recurso de acessibilidade projetado para tornar a informação

Audio description is an accessibility feature designed to make visual information ac-

3 Revisão Sistemática da Literatura 18

4 Formalização do Modelo de Audiodescrição 33

A Protocolo de Revisão Sistemática 73

B Artigos da Revisão Sistemática 77

2.1 Exemplo de Roteiro de AD. . . . . . . . . . . . . . . . . . . . . . . . . . 10

3.1 Quantidade de Publicações por Ano . . . . . . . . . . . . . . . . . . . . 19

4.1 Exemplo de Roteiro e a Representação Formal dos Elementos para a AD . 35

5.1 Modelo da Solução Proposta . . . . . . . . . . . . . . . . . . . . . . . . 39

6.1 Grau de Escolaridade do Grupo de Usuários da Primeira Sessão de Testes 52

3.1 Resultados do Processo de Busca e Seleção de Artigos . . . . . . . . . . 19

4.1 Relação entre as Informações do Roteiro e da AD. . . . . . . . . . . . . . 34

6.1 Características dos Vídeos de Teste . . . . . . . . . . . . . . . . . . . . . 49

pessoas podem estar enfrentando barreiras no acesso às informações visuais. Além do

A geração semiautomática de AD através do roteiro é destacada por Lakritz et al.(2002).

não disponibilidade do roteiro cinematográfico, a complexidade da tarefa e da limitação

1.2 Tema, Problema e Hipótese de Pesquisa

1.2.1 Hipótese de Pesquisa

• Revisão sistemática da literatura sobre sistemas de geração automática de audiodes-

1.4 Escopo do Trabalho

1. A solução proposta é específica para a audiodescrição de vídeos. A geração au-

1.5 Estrutura do Texto

2.2 Audiodescrição de Vídeos

• Decupagem: o audiodescritor assiste ao filme na íntegra e os principais elementos

2.2.1 Roteiro de Audiodescrição

Figura 2.1: Exemplo de Roteiro de AD.

De forma geral, a audiodescrição deve descrever os elementos fundamentais para o

• Personagem: Apresentação, identificação, características físicas, idade, etnia, as-

Os elementos não-verbais são fundamentais para a compreensão da história devido à

2.3 Roteiro Cinematográfico

Figura 2.2: Exemplo de Trecho de Roteiro Cinematográfico.

Em relação à audiodescrição, o roteiro cinematográfico contêm uma descrição mais

2.4 Reconhecimento de Padrões em Vídeo

A Aprendizagem Profunda é um subconjunto da área de aprendizado de máquina,

Figura 2.3: Diferença entre os Modelos de Redes Neurais Convencional e Profunda.

2.4.1 Redes Neurais Convolucionais - CNN

Figura 2.4: Exemplo de Matriz de Convolução.

f (x) = max(0, x) (2.1)

Figura 2.5: Exemplo de Max Pooling.

Figura 2.6: Arquitetura da Rede CNN, chamada LeNet-5.

Figura 2.7: Estrutura Interna de uma CNN.

2.4.2 Redes Neurais Recorrentes - RNN

Figura 2.8: Estrutura Interna de uma RNN Genérica.

2.5 Considerações Metodológicas

Revisão Sistemática da Literatura

O processo de criação de audiodescrição é feito, atualmente, de forma manual e por

3.1 Busca, Seleção e Classificação dos Artigos