Survey of The State of The Art in Natural

Machine Translated by Google
Levantamento do Estado da Arte em Natural

Geração de linguagem: tarefas principais, aplicações e
avaliação
Instituto Albert
Gatt de Linguística, Universidade de Malta, Tal-Qroqq,
Msida MSD2080, Malta albert.gatt@um.edu.mt
Centro Emiel
Krahmer de Tilburg para Cognição e Comunicação (TiCC), Universidade de
Tilburg, POBox 90153, NL-5000 LE, Tilburg, Holanda
ejkrahmer@tilburguniversity.edu
30 de março de 2017
Abstrato
Este artigo examina o estado atual da arte em Geração de Linguagem

arXiv:1703.09902v1
Natural (nlg), definida como a tarefa de gerar texto ou fala a partir de dados não
linguísticos. Uma pesquisa sobre GNL é oportuna, tendo em vista as mudanças
que o campo sofreu ao longo da última década, especialmente em relação a
novos métodos (geralmente baseados em dados), bem como novas aplicações
da tecnologia GNL. Este inquérito visa, portanto, (a) fornecer uma síntese
atualizada da investigação sobre as tarefas centrais da NGL e as arquiteturas
[cs.CL]
adotadas nas quais essas tarefas são organizadas; (b) destacar uma série de
março
2017
tópicos de investigação relativamente recentes que surgiram, em parte, como

resultado de sinergias crescentes entre a GNL e outras áreas da inteligência
de
29
artificial; (c) chamar a atenção para os desafios da avaliação da GNL,

relacionando-os com desafios semelhantes enfrentados noutras áreas da PNL,
com ênfase nos diferentes métodos de avaliação e nas relações entre eles.
1
Conteúdo
1. Introdução 4
1.1 O que é geração de linguagem natural? . . . . . . . . . . . . . . 6
1.2 Por que uma pesquisa sobre Geração de Linguagem Natural? . . . . . . . . . 7
1.3 Objetivos desta pesquisa. . ... . . . . . . . . . . . . . . . . . . . . 8
2 Tarefas NLG 2.1 9

Determinação de conteúdo . .... . . . . . . . . . . . . . . . . . . . 10
2.2 Estruturação do texto. . . . .... . . . . . . . . . . . . . . . . . . . 11
2.3 Agregação de frases. . .... . . . . . . . . . . . . . . . . . . . 12
2.4 Lexicalização . . ... . .... . . . . . . . . . . . . . . . . . . . 14
2.5 Geração de expressão de referência. . . . . . . . . . . . . . . . . . . 15
2.6 Realização linguística. . . . . . . . . . . . . . . . . . . . . . . . . 18
2.6.1 Modelos . . . . ... . ... . . . . . . . . . . . . . . . . 19
2.6.2 Sistemas baseados em gramática codificados manualmente. . . . . . . . . . . . 19
2.6.3 Abordagens estatísticas . ... . . . . . . . . . . . . . . . . 20
2.7 Discussão . . . . ... . ... . . . . . . . . . . . . . . . . . . . . 21
3 Arquiteturas e Abordagens NLG 3.1 Abordagens 21

Modulares Baseadas em Regras . . . . . . . . . . . . . . . . . . 22
3.2 Abordagens baseadas no planeamento . . . . . . . . . . . . . . . . . . . . . 25
3.2.1 Planejamento através da gramática . . . . . . . . . . . . . . . 26
3.2.2 Planejamento estocástico sob incerteza usando Aprendizado por
Reforço. . . . . ... . . . . . . . . . . . . . . . . 28
3.3 Abordagens baseadas em dados . . . . . . . . . . . . . . . . . . . . . . . 29
3.3.1 Aquisição de dados . . . . . . . . . . . . . . . . . . . . . . . . 30
3.3.2 NLG baseada em modelos de linguagem. . . . . . . . . . . . . . . 31
3.3.3 NLG como classificação e otimização. . . . . . . . . . . 33
3.3.4 NLG como 'análise' . . . . . . . . . . . . . . . . . . . . . . . 35
3.3.5 Métodos de aprendizagem profunda. . . . . . . . . . . . . . . . . . . . 37
3.4 Discussão . . . . ... . ... . . . . . . . . . . . . . . . . . . . . 39
4 A interface da linguagem de visão: Legendagem de imagens e mais de 40

4.1 Dados . . . . . . . . . . . ... . . . . . . . . . . . . . . . . . . . . 41
4.2 As tarefas principais . . . . . ... . . . . . . . . . . . . . . . . . . . . 42
4.2.1 Análise de imagens. . . . . ... . . . . . . . . . . . . . . . . 42
4.2.2 Geração ou recuperação de texto. . . . . . . . . . . . . . . . . 43
4.3 Como a linguagem é baseada em dados visuais? . . . . . . . . . . . . . 45
4.4 Visão e linguagem: direções atuais e futuras para NLG. . . 46
5 Variação: Gerando texto com estilo, personalidade e afeto 47

5.1 Gerando com estilo: variação textual e personalidade. . 48 . . .
5.2 Gerar com sentimento: afeto e polidez. . 50 . . . . . . . . .
5.3 Estilo e afeto: considerações finais. . 52 . . . . . . . . . . . . . .
2
6 Gerando texto criativo e divertido 6.1 Gerando trocadilhos 53

e piadas . . . . . . . . . . . . . . . . . . . . . . 54
6.2 Gerando metáforas e símiles . . . . . . . . . . . . . . . . . 55
6.3 Gerando narrativas . . . . . . . . . . . . . . . . . . . . . . . . 57
6.4 Gerando linguagem criativa: Observações finais . . . . . . . . 61
7 Avaliação 7.1 61
Métodos intrínsecos . . . . ... . . . . . . . . . . . . . . . . . . . . 63
7.1.1 Julgamentos subjetivos (humanos) . . . . . . . . . . . . . . . 63
7.1.2 Medidas objetivas de semelhança humana usando corpora. . . . . 65
7.1.3 Avaliando a compatibilidade de gênero . . . . . . . . . . . . . . . 67
7.2 Métodos de avaliação extrínseca. . . . . . . . . . . . . . . . . . . . 68
7.3 Avaliação de caixa preta versus caixa de vidro. . . . . . . . . . . . . . . . . . 69
7.4 Sobre a relação entre métodos de avaliação. . . . . . . . . 70
7.4.1 Métricas versus julgamentos humanos. . . . . . . . . . . . . 70
7.4.2 Usando experimentos controlados. . . . . . . . . . . . . . . . 73
7.5 Avaliação: Considerações finais . . . . . . . . . . . . . . . . . . 73
8 Discussão e direções futuras 74

8.1 Por que (e como) o NLG deve ser usado? . . . . . . . . . . . . . . . 75
8.2 NLG não trata de texto para texto. . . ou é? . . . . . . . . . . . . . . 75
8.3 Teorias e modelos em busca de aplicações? . . . . . . . . . . 76
8.4 Para onde vamos a partir daqui? . . ... . . . . . . . . . . . . . . . . 77
9 Conclusão 79
Referências 79
3
1. Introdução
Em sua intrigante história A Biblioteca de Babel (La biblioteca de Babel, 1941), Jorge Luis Borges
descreve uma biblioteca na qual todos os livros concebíveis podem ser encontrados. Provavelmente
é a pergunta errada a ser feita, mas os leitores não podem deixar de se perguntar: quem escreveu
todos esses livros? Certamente, este não poderia ser o trabalho de autores humanos?
O surgimento de técnicas de geração automática de texto nos últimos anos proporciona uma
reviravolta interessante nesta questão. Considere Philip M. Parker, que ofereceu mais de 100.000
livros para venda via Amazon.com, incluindo, por exemplo, seu The 2007-2012 Outlook for Tufted
Washable Scatter Rugs, Bathmats, and Sets That Measure 6-Feet por 9-Feet ou Menor em Índia
Obviamente, Parker não escreveu esses 100 mil livros à mão. Em vez disso, ele usou um programa
de computador que coleta informações publicamente disponíveis, possivelmente embaladas em
textos escritos por humanos, e as compila em um livro. Assim como a biblioteca de Babel contém
muitos livros que provavelmente não atrairão um público amplo, os livros de Parker não precisam
encontrar muitos leitores. Na verdade, mesmo que apenas uma pequena percentagem dos seus
livros fosse vendida algumas vezes, isso ainda lhe traria um lucro considerável.
O algoritmo de Parker pode ser visto como pertencente a uma tradição de pesquisa dos
chamados métodos de geração de texto para texto, aplicações que tomam textos existentes como
entrada e produzem automaticamente um texto novo e coerente como saída. Outros exemplos de
aplicativos que geram novos textos a partir de textos existentes (geralmente escritos por humanos)
incluem:
• fusão e resumo de frases ou textos relacionados para torná-los mais

conciso (por exemplo, Clarke & Lapata, 2010);
• simplificação de textos complexos, por exemplo, para torná-los mais acessíveis para leitores
com baixo nível de alfabetização (por exemplo, Siddharthan, 2014) ou para crianças
(Macdon-ald & Siddharthan, 2016);
• correção automática de ortografia, gramática e texto (por exemplo, Kukich, 1992; Dale
e outros, 2012);
• geração automática de revisões por pares para artigos científicos (Bartoli et al.,
2016);
• geração de paráfrases de sentenças de entrada (por exemplo, Bannard & Callison-Burch,

2005; Kauchak & Barzilay, 2006); e
• geração automática de perguntas, para fins educacionais e outros

(por exemplo, Brown et al., 2005; Rus et al., 2010).
Muitas vezes, porém, é necessário gerar textos que não se baseiam em textos já existentes.
Consideremos, como exemplo, o pequeno terremoto que ocorreu perto de Beverly Hills, Califórnia,
em 17 de março de 2014. O Los Angeles Times foi o primeiro jornal a noticiá-lo, três minutos após
o evento, fornecendo detalhes sobre o horário. , localização e força do terremoto. Este relatório foi
gerado automaticamente por um 'jornalista robótico', que converteu o
4
a entrada de dados de terremotos registrados automaticamente em um texto, preenchendo lacunas

em um modelo de texto predefinido.1
O robojornalismo e práticas associadas, como o jornalismo de dados, são exemplos simples do
que geralmente é chamado de geração de dados para texto. Eles tiveram um impacto considerável
nos campos do jornalismo e dos estudos de mídia (van Dalen, 2012; Clerwall, 2014; Hermida, 2015).
A técnica utilizada pelo Los Angeles Times não era nova; muitas aplicações foram desenvolvidas ao
longo dos anos que geram texto automaticamente a partir de dados não linguísticos, incluindo, mas
não se limitando a, sistemas que produzem:
• reportagens sobre futebol (por exemplo, Theune et al., 2001; Chen & Mooney, 2008);
• 'jornais' virtuais a partir de dados de sensores (Molina et al., 2011);
• descrições textuais do dia-a-dia das aves com base em dados de satélite

(Siddharthan et al., 2013);
• relatórios meteorológicos e financeiros (Goldberg et al., 1994; Reiter et al., 2005; Turner et al.,
2008; Ramos-Soto et al., 2015; Wanner et al., 2015; Pla-chouras et al., 2016);
• resumos de informações de pacientes em contextos clínicos (Hüske-Kraus, 2003; Harris, 2008;

Portet et al., 2009; Gatt et al., 2009; Banaee et al., 2013);
• informação interactiva sobre artefactos culturais, por exemplo num contexto de museu (por
exemplo, O'Donnell, 2001; Stock et al., 2007); e
• texto destinado a persuadir (Carenini & Moore, 2006) ou motivar modificação de comportamento
(Reiter et al., 2003).
Estes sistemas podem diferir consideravelmente na qualidade e variedade dos textos que
produzem, na sua viabilidade comercial e na sofisticação dos métodos subjacentes, mas todos são
exemplos de geração de dados para texto. Muitos dos sistemas mencionados acima concentram-se
na transmissão de informações ao usuário. Por outro lado, como mostram os exemplos citados acima
de sistemas centrados na persuasão ou na mudança de comportamento, informar não precisa ser o
objetivo exclusivo da GNL. Nem é um objectivo trivial em si, uma vez que para transmitir informação
com sucesso, um sistema precisa de seleccionar o que dizer, distinguindo-o do que pode ser
facilmente inferido (possivelmente também dependendo do utilizador-alvo), antes de exprimi-lo de
forma coerente.
Os textos gerados não precisam ter um grande público. Não há necessidade de gerar
automaticamente uma reportagem sobre, por exemplo, a final do futebol europeu da Liga dos
Campeões, que, de qualquer forma, é coberta por muitos dos melhores jornalistas da área. Contudo,
existem muitos outros jogos, menos importantes para o público em geral (mas presumivelmente
muito importantes para as partes envolvidas). Normalmente, todas as estatísticas esportivas (quem
jogou?, quem marcou? etc.) desses jogos são armazenadas, mas essas estatísticas não são armazenadas.
1Veja http://www.slate.com/blogs/future_tense/2014/03/17/quakebot_los_angeles_
times_robot_journalist_writes_article_on_la_earthquake.html.
5
via de regra, examinado por repórteres esportivos. Empresas como a Narrative Science2 preenchem
esse nicho gerando automaticamente relatórios esportivos para esses jogos. O Automated Insights3
gera até mesmo relatórios baseados em dados de “futebol de fantasia” fornecidos pelos usuários.
Na mesma linha, a geração automática de previsões meteorológicas para plataformas petrolíferas
offshore (Sripada et al., 2003), ou a partir de sensores que monitoram o desempenho de turbinas a
gás (Yu et al., 2006), provou ser uma aplicação frutífera de técnicas de dados para texto. Estas
aplicações personalizadas são agora a base de empresas como a Arria-NLG.4 Levando esta ideia
um passo adiante, a
geração de dados em texto abre caminho para a adaptação de textos a públicos específicos.
Por exemplo, os dados de bebés em cuidados neonatais podem ser convertidos em texto de forma
diferente, com diferentes níveis de detalhe técnico e linguagem explicativa, dependendo se o leitor
pretendido é um médico, um enfermeiro ou um pai (Mahamood & Reiter, 2011). Também se poderia
facilmente imaginar que diferentes reportagens desportivas são geradas para os adeptos das
respectivas equipas; o golo da vitória de uma equipa será provavelmente considerado um golo de
sorte do ponto de vista da equipa perdedora, independentemente das suas qualidades “objectivas”.
Um jornalista humano não sonharia em escrever reportagens separadas sobre um jogo desportivo
(mesmo que apenas por falta de tempo), mas para um computador isto não é um problema e é
provável que seja apreciado por um leitor que receba uma reportagem mais pessoalmente
apropriada.
1.1 O que é geração de linguagem natural?

Tanto a geração de texto para texto quanto a geração de dados para texto são instâncias de
Geração de Linguagem Natural (nlg). Na pesquisa mais amplamente citada sobre métodos de GNL
até o momento (Reiter & Dale, 1997, 2000), a GNL é caracterizada como “o subcampo da
inteligência artificial e da linguística computacional que se preocupa com a construção de sistemas
de computador que podem produzir dados compreensíveis”. textos em inglês ou outras línguas
humanas a partir de alguma representação não linguística subjacente de informação” (Reiter &
Dale, 1997, p.1). É evidente que esta definição se adapta melhor à geração de dados para texto do
que à geração de texto para texto e, de facto, Reiter e Dale (2000) concentram-se exclusivamente
na primeira, descrevendo de forma útil e clara as abordagens baseadas em regras que dominavam
o campo na altura.
Foi apontado que definir com precisão nlg é bastante difícil (por exemplo, Evans et al., 2002):
todos parecem concordar sobre qual deveria ser a saída de um sistema nlg (texto), mas qual é a
entrada exata pode variar substancialmente (McDonald, 1993). Uma complicação adicional é que
as fronteiras entre as diferentes abordagens são confusas. Por exemplo, o resumo de texto foi
caracterizado acima como uma aplicação de texto para texto; isto é claro para os chamados
resumidores “extrativos” (que produzem resumos usando frases de documentos de origem). No
entanto, os resumidores «abstrativos» (que geram frases que não estão presentes em nenhum dos
documentos de origem) baseiam-se cada vez mais em técnicas que também são utilizadas na
conversão de dados em texto, como quando as opiniões são extraídas de revisões e
2https://www.narrativescience.com
3https://automatedinsights.com 4
http://www.arria.com
6
expresso em frases completamente novas (por exemplo, Labbé & Portet, 2012). Por outro
lado, um sistema de geração de dados para texto poderia contar com técnicas de geração
de texto para texto para aprender como expressar pedaços de dados de maneiras diferentes
ou criativas (McIntyre & Lapata, 2009; Gatt et al., 2009; Kondadadi et al., 2013).
A consideração de outras aplicações de nlg destaca de forma semelhante como os
limites podem ficar confusos. Por exemplo, a geração de enunciados falados em sistemas
de diálogo (por exemplo, Walker et al., 2007a; Rieser & Lemon, 2009; Dethlefs, 2014) é
outra aplicação da NGL, mas normalmente está intimamente relacionada à gestão do
diálogo, portanto que as políticas de gestão e realização são por vezes aprendidas em
conjunto (por exemplo, Rieser & Lemon, 2011b). Mesmo o que constitui “uma representação
não linguística de informação” no contexto da conversão de dados em texto está sujeito a
alterações: tradicionalmente, isto era considerado uma base de dados ou informação
logicamente estruturada, mas nos últimos tempos tem havido um interesse crescente em
usando dados visuais como entrada, resultando nos chamados sistemas de visão para
texto que produzem automaticamente descrições de imagens estáticas ou em movimento
com base em entradas de visão computacional (por exemplo, Mitchell et al., 2012; Kulkarni
et al., 2013; Thomason et al., 2014, entre muitos outros).
1.2 Por que uma pesquisa sobre Geração de Linguagem Natural?

Indiscutivelmente Reiter e Dale (2000) ainda é a pesquisa mais completa disponível sobre nlg e a mais
citada. No entanto, o campo da GNL mudou drasticamente nos últimos 15 anos, com o surgimento de
aplicações de sucesso que geram relatórios personalizados para públicos específicos, e com o
surgimento de aplicações de geração de texto para texto, bem como de visão para texto, que também
tendem a confiar mais em métodos estatísticos do que na conversão tradicional de dados em texto.
Nenhum destes é abordado em Reiter e Dale (2000). Também estão notavelmente ausentes as
discussões sobre aplicações que vão além da geração de texto “factual” padrão, como aquelas que dão
conta da personalidade e do afeto, ou de textos criativos, como metáforas e narrativas.
Finalmente, uma omissão marcante de Reiter e Dale (2000) é a falta de discussão da

metodologia de avaliação. Na verdade, a avaliação dos resultados da GNL só recentemente
começou a receber atenção sistemática, em parte devido a uma série de tarefas partilhadas
que foram realizadas no seio da comunidade GNL.
Desde Reiter e Dale (2000), vários outros textos de visão geral da NGL também
apareceram. Bateman e Zock (2005) cobrem as dimensões cognitivas, sociais e
computacionais da nlg. McDonald (2010) oferece uma caracterização geral da NGL como “o
processo pelo qual o pensamento é traduzido em linguagem” (p. 121).
Wanner (2010) concentra-se na geração automática de relatórios, enquanto Di Eugenio e
Green (2010) analisam aplicações específicas, especialmente na educação e na saúde.
Várias coleções especializadas de artigos também foram publicadas, incluindo Krahmer e
Theune (2010), que visa abordagens baseadas em dados; e Bangalore e Stent (2014) que
se concentra em sistemas interativos. A web oferece vários relatórios técnicos inéditos,
como Theune (2003), que pesquisa sistemas de diálogo, e Piwek (2003) e Belz (2003) sobre
NGL afetiva.
Embora úteis, estes recursos não discutem desenvolvimentos recentes nem oferecem uma
revisão abrangente. Isto indica que uma nova pesquisa de última geração é altamente
7
oportuno.
1.3 Objetivos desta pesquisa

O objetivo do presente artigo é apresentar uma visão abrangente dos desenvolvimentos da GNL desde 2000,
tanto para fornecer aos pesquisadores da GNL uma síntese e indicadores para pesquisas relevantes, quanto
para apresentar o campo a pesquisadores menos familiarizados com a GNL. Embora a GNL tenha feito parte
da IA e da PNL desde os primórdios (ver, por exemplo, Winograd, 1972; Appelt, 1985), como campo, pode-se
argumentar que não foi totalmente abraçado por essas comunidades mais amplas, e só recentemente começou
a assumir plena responsabilidade. vantagem dos avanços recentes em abordagens de aprendizado de máquina
e aprendizagem profunda orientadas por dados.
Tal como em Reiter e Dale (2000), o nosso foco principal, especialmente na primeira parte do inquérito,
será a geração de dados para texto. De qualquer forma, fazer plena justiça aos desenvolvimentos recentes nas
diversas aplicações de geração de texto para texto está além do escopo de uma única pesquisa, e muitos deles
são abordados em outras pesquisas individuais, incluindo Mani (2001) e Nenkova e McKeown ( 2011) para
resumo; Androutsopoulos e Malakasiotis (2010) pela paráfrase; e Piwek e Boyer (2012) para geração automática
de perguntas. No entanto, discutiremos em vários lugares as conexões entre a geração de dados para texto e
de texto para texto, tanto porque – como observado acima – as fronteiras são confusas, mas também, e talvez
mais importante, porque os sistemas de texto para texto há muito que foram formulados em estruturas baseadas
em dados que estão a tornar-se cada vez mais populares na geração de dados para texto, dando também
origem a alguns sistemas híbridos que combinam técnicas estatísticas e baseadas em regras (por exemplo,
Kondadadi et al., 2013).
Nossa revisão começará com uma visão geral atualizada das principais tarefas da NGL que foram
introduzidas em Reiter e Dale (2000), seguida por uma discussão de arquiteturas e abordagens, onde
prestamos atenção especial àquelas não abordadas no Reiter e Dale (2000). 2000) pesquisa. Estas duas
secções constituem a parte “central” do inquérito. Além destes, destacamos vários novos desenvolvimentos,
incluindo abordagens onde os dados de entrada são visuais; e pesquisas destinadas a gerar textos mais
variados, envolventes ou criativos e divertidos, levando a NGL além dos textos factuais e repetitivos que às
vezes é acusada de produzir. Acreditamos que esses aplicativos não são apenas interessantes em si mesmos,
mas também podem informar aplicativos de geração de texto mais orientados a 'utilidades'. Por exemplo, ao
incluir insights provenientes da geração de narrativas, poderemos ser capazes de gerar relatórios mais
envolventes e, ao incluir insights provenientes da geração de metáforas, poderemos ser capazes de formular
informações nestes relatórios de uma forma mais original. Finalmente, discutiremos os desenvolvimentos
recentes na avaliação de aplicações de geração de linguagem natural.
Em suma, os objetivos desta pesquisa são:
• Apresentar uma síntese actualizada da investigação sobre as principais tarefas da GNL, bem como das
arquitecturas adoptadas no terreno, especialmente tendo em conta os desenvolvimentos recentes que
exploram técnicas baseadas em dados (Secções 2 e 3);
• Destacar uma série de questões de pesquisa relativamente recentes que surgiram em parte como
resultado de sinergias crescentes entre a nlg e outras áreas de
8
inteligência artificial, como visão computacional, estilística e criatividade computacional

(Seções 4, 5 e 6);
• Chamar a atenção para os desafios da avaliação da GNL, relacionando-os com

desafios semelhantes enfrentados noutras áreas da PNL, com ênfase nos diferentes
métodos de avaliação e nas relações entre eles (Secção 7).
2 Tarefas NLG
Tradicionalmente, o problema nlg de converter dados de entrada em texto de saída era
resolvido dividindo-o em vários subproblemas. Os seis seguintes são frequentemente
encontrados em muitos sistemas NGL (Reiter & Dale, 1997, 2000); seu papel é ilustrado na
Figura 1:
1. Determinação do conteúdo: decidir quais informações incluir no texto

em construção,
2. Estruturação do texto: Determinar em qual pedido as informações serão pré-

enviado no texto,
3. Agregação de frases: decidir quais informações apresentar individualmente

frases,
4. Lexicalização: Encontrar as palavras e frases certas para expressar informações

ção,
5. Geração de expressões de referência: seleção de palavras e frases para identificar

objetos de domínio,
6. Realização linguística: Combinar todas as palavras e frases em formas bem formadas

frases.
Estas tarefas podem ser pensadas em termos de processos de decisão iniciais (que
informações transmitir ao leitor?) até processos tardios (que palavras usar numa frase
específica e como colocá-las na ordem correta?). Esta caracterização reflete uma distinção
de longa data na GNL entre estratégia e tática (uma distinção que remonta pelo menos a
Thompson, 1977). Esta distinção também sugere uma ordem temporal na qual as tarefas
são executadas, pelo menos em sistemas com uma arquitetura modular de pipeline
(discutida na Seção 3.1): por exemplo, o sistema primeiro precisa decidir quais dados de
entrada expressar no texto, antes pode solicitar informações para apresentação. No entanto,
tal ordenação de módulos é hoje cada vez mais questionada nas arquiteturas orientadas a
dados discutidas abaixo (Seção 3). Aqui, referimo-nos a tarefas “iniciais” e “tardias” para
distinguir entre escolhas que são mais orientadas para os dados (como o que dizer) e
escolhas que são de natureza cada vez mais linguística (por exemplo, lexicalização ou
realização). .
Nesta secção, descrevemos brevemente estas seis tarefas, ilustrando-as com exemplos,
e destacamos os desenvolvimentos recentes em cada caso. Como veremos,
9
Evento
ÿ tipo existencial ÿ
ÿ ÿ
ÿ antes ser ÿ
ÿ ÿ
ÿ tenso passado ÿ
ÿ ÿ
tema {b1, b2, b3}

argumentos
ÿ escolha mínima 69 ÿ
(a) (b) (c) (d)
Figura 1: Tarefas em nlg, ilustradas com um exemplo simplificado da área neonatal

domínio de cuidados intensivos. Primeiro, o sistema tem que decidir quais eventos importantes
estão nos dados (a, determinação de conteúdo), neste caso, ocorrências de baixa frequência cardíaca
frequência (bradicardia). Depois tem que decidir em que ordem quer apresentar
dados ao leitor (b, estruturação do texto) e como expressá-los de forma individual
planos de frases (c, agregação, lexicalização, referência). Finalmente, o resultante
sentenças são geradas (d, realização linguística).
embora as tarefas “iniciais” sejam cruciais para o desenvolvimento de sistemas NGL, elas são
muitas vezes intimamente ligado à aplicação específica. Em contrapartida, as tarefas «tardias»
são mais frequentemente investigados independentemente de uma aplicação e, portanto, têm
resultou em abordagens que podem ser compartilhadas entre aplicativos.
2.1 Determinação de conteúdo
Como primeiro passo no processo de geração, o sistema nlg precisa decidir quais
informações devem constar no texto em construção, e que devem
não. Normalmente, há mais informações contidas nos dados do que queremos transmitir
através de texto, ou os dados são mais detalhados do que gostaríamos de expressar em texto. Isso é
claro na Figura 1a, onde o sinal de entrada – a frequência cardíaca de um paciente – contém apenas
alguns padrões de interesse. A seleção também pode depender do público-alvo
(por exemplo, se é composto por especialistas ou novatos, por exemplo) e no geral
intenção comunicativa (por exemplo, o texto deve informar o leitor ou convencer
ele faça alguma coisa).
A determinação do conteúdo envolve escolha. Numa reportagem sobre futebol, podemos não querer
verbalizar cada passe e falta cometida, mesmo que os dados possam conter esta informação. No caso
dos cuidados neonatais, os dados podem ser recolhidos
continuamente a partir de sensores que medem frequência cardíaca, pressão arterial e outros parâmetros
fisiológicos. Os dados, portanto, precisam ser filtrados e abstraídos em um conjunto
de mensagens pré-verbais, representações semânticas de informações que muitas vezes são
expresso em uma linguagem de representação formal, como linguagens lógicas ou de banco de dados,
matrizes de atributos-valores ou estruturas gráficas. Eles podem expressar, entre
outras coisas, quais relações existem entre quais entidades de domínio, por exemplo,
expressando que o jogador X marcou o primeiro gol para a equipe Y no tempo T.
Embora a determinação de conteúdo esteja presente na maioria dos sistemas nlg (cf. Mellish
et al., 2006), as abordagens normalmente estão intimamente relacionadas ao domínio de aplicação.
10
ção. Uma exceção notável é Guhe (2007), um relato incremental da determinação de conteúdo
baseado em estudos de descrições de eventos dinâmicos feitos por falantes à medida que
eles se desenrolam. Este trabalho pertence a uma vertente de pesquisa que considera a NGL,
antes de tudo, como uma metodologia eminentemente adequada para a compreensão da
produção da linguagem humana.
Nos últimos anos, os pesquisadores começaram a explorar técnicas baseadas em dados
para determinação de conteúdo ((ver, por exemplo, Barzilay & Lee, 2004; Bouayad-Agha et
al., 2013; Kutlak et al., 2013; Venigalla & Di Eugenio, 2013). Barzilay e Lee (2004), por
exemplo, utilizaram modelos de Markov ocultos para modelar mudanças de tópicos num
domínio particular do discurso (digamos, relatórios de terramotos), onde os estados ocultos
representavam “tópicos”, modelados como frases agrupadas por similaridade. Uma abordagem
de agrupamento também foi utilizada por Duboue e McKeown (2003) no domínio da biografia,
utilizando textos emparelhados com uma base de conhecimento, a partir da qual os dados
semânticos foram agrupados e pontuados de acordo com sua ocorrência no texto. Na mesma
linha, Barzilay e Lapata (2005) utilizam uma base de dados de registros de futebol americano
e textos correspondentes. Seu objetivo não era apenas identificar informações que deveriam
ser mencionadas, mas também dependências entre elas, já que mencionar um determinado
evento (digamos, um gol de um quarterback ) pode justificar a menção de outro (digamos,
outro evento de pontuação de um segundo quarterback). A solução proposta por Barzilay e
Lapata foi calcular pontuações de preferência individual para eventos e uma pontuação de
preferência de link.
Mais recentemente, vários pesquisadores abordaram a questão de como aprender
automaticamente os alinhamentos entre dados e texto, também no contexto mais amplo da
aquisição fundamentada da linguagem, ou seja, modelando como aprendemos a linguagem
observando as correspondências entre objetos e eventos em o mundo e a forma como nos
referimos a eles na linguagem (Roy, 2002; Yu & Ballard, 2004; Yu & Siskind, 2013).
Por exemplo, Liang et al. (2009) estenderam o trabalho de Barzilay e Lapata (2005) a múltiplos
domínios (futebol e meteorologia), apoiando-se em técnicas pouco supervisionadas; na mesma
linha, Koncel-Kedziorski et al. (2014) apresentaram uma abordagem multinível fracamente
supervisionada, para lidar com o facto de não haver correspondência um-para-um entre, por
exemplo, eventos de futebol em dados e frases em relatórios de futebol associados.
Voltaremos a esses métodos como parte de uma discussão mais ampla sobre abordagens
baseadas em dados abaixo (Seção 3.3).
2.2 Estruturação do texto

Tendo determinado quais mensagens transmitir, o sistema NGL precisa decidir a ordem de
apresentação ao leitor. Por exemplo, a Figura 1b mostra três eventos do mesmo tipo (todos
eventos de bradicardia, isto é, breves quedas na frequência cardíaca), selecionados (após
abstração) do sinal de entrada e ordenados como uma sequência temporal.
Esta fase é muitas vezes referida como estruturação do texto (ou discurso ou documento).
No caso do domínio do futebol, por exemplo, parece razoável começar com informações
gerais (onde e quando o jogo foi disputado, quantas pessoas compareceram, etc.), antes de
os golos serem descritos, normalmente em ordem temporal. No domínio dos cuidados
neonatais, uma ordem temporal pode ser imposta entre
11
eventos, como na Figura 1b, mas extensões maiores de texto podem refletir a ordenação
com base na importância e o agrupamento de informações com base na relação (por
exemplo, todos os eventos relacionados à respiração de um paciente) (Portet et al., 2009).
Naturalmente, podem existir relações discursivas alternativas entre mensagens separadas,
tais como contrastes ou elaborações. O resultado desta etapa é um plano de discurso, texto
ou documento, que é uma representação estruturada e ordenada de mensagens.
Estes exemplos implicam novamente que o domínio da aplicação impõe restrições às
preferências de ordenação. As primeiras abordagens, como McKeown (1985), muitas vezes
dependiam de regras de estruturação dependentes de domínio e feitas à mão (que McKeown
chamou de esquemas). Para explicar as relações discursivas entre mensagens, os
pesquisadores têm se baseado alternativamente na Teoria da Estrutura Retórica (primeiro;
por exemplo, Mann & Thompson, 1988; Scott & Sieckenius de Souza, 1990; Hovy, 1993),
que também normalmente envolvia regras específicas de domínio. . Por exemplo, Williams e
Reiter (2008) utilizaram as primeiras relações para identificar a ordem entre as mensagens
que maximizariam a clareza para leitores pouco qualificados.
Vários investigadores exploraram as possibilidades de utilização de técnicas de
aprendizagem automática para a estruturação de documentos (por exemplo, Dimitromanolaki
& Androutsopou-los, 2003), por vezes fazendo-o em conjunto com a selecção de conteúdo
(Duboue & McKeown, 2003). Foram propostas abordagens gerais para a ordenação da
informação (Barzilay & Lee, 2004; Lapata, 2006), que tentam automaticamente encontrar
uma ordenação óptima dos “itens que contêm informação”. Essas abordagens podem ser
aplicadas à estruturação de textos, onde os itens a serem ordenados são tipicamente
mensagens pré-verbais; no entanto, também podem ser aplicados na sumarização
(multidocumentos), onde os itens a serem ordenados são frases dos documentos de entrada
que são consideradas suficientemente dignas de resumo para serem incluídas (por exemplo,
Barzilay et al., 2002; Bollegala et al. , 2010).
2.3 Agregação de frases

Nem todas as mensagens no plano de texto precisam ser expressas em uma frase
separada; ao combinar múltiplas mensagens numa única frase, o texto gerado torna-se
potencialmente mais fluido e legível (por exemplo, Dalianis, 1999; Cheng & Mellish, 2000),
embora também existam situações em que se tenha argumentado que a agregação deveria
ser evitada (discutida em Seção 5.2). Por exemplo, os três eventos selecionados na Figura
1b são mostrados como “mesclados” em uma única representação pré-linguística, que será
mapeada em uma única sentença. O processo pelo qual mensagens relacionadas são
agrupadas em sentenças é conhecido como agregação de sentenças.
Para dar outro exemplo, do domínio do futebol, uma forma (não agregada)
para descrever o hat-trick mais rápido da Premier League inglesa seria:
(1) Sadio Mane marcou para o Southampton aos 12 minutos e 22 segundos.
12
Claramente, isto é bastante redundante, não muito conciso ou coerente e geralmente

desagradável de ler. Uma alternativa agregada, como a seguinte, seria, portanto,
preferida:
(4) Sadio Mane marcou três vezes pelo Southampton em menos de três
minutos.
Em geral, a agregação é difícil de definir e tem sido interpretada de diversas

maneiras, desde a eliminação de redundância até a combinação de estruturas
linguísticas. Reape e Mellish (1999) oferecem uma pesquisa inicial, distinguindo entre
agregação ao nível semântico (conforme ilustrado na Figura 1c) e ao nível da sintaxe,
ilustrada na transição de (2.3) para (4) acima.
Provavelmente é justo dizer que muitos dos primeiros trabalhos sobre agregação
dependiam fortemente do domínio. Este trabalho centrou-se em regras específicas de
domínio e aplicação (por exemplo, 'se um jogador marcar dois golos consecutivos,
descreva-os na mesma frase'), que eram tipicamente elaboradas à mão (por exemplo,
Hovy, 1988; Dalianis, 1999; Shaw, 1998). Mais uma vez, trabalhos mais recentes
evidenciaram uma viragem para abordagens baseadas em dados, onde as regras de
agregação são adquiridas a partir de dados corpus (por exemplo, Walker et al., 2001;
Cheng & Mellish, 2000). Barzilay e Lapata (2006) apresentam um sistema que aprende
como agregar com base em um corpus paralelo de sentenças e entradas
correspondentes no banco de dados, procurando semelhanças entre as entradas. Tal
como foi o caso do método de seleção de conteúdo de Barzilay e Lapata (2005), Barzilay
e Lapata (2006) vêem o problema em termos de otimização global: é feita uma
classificação inicial sobre pares de entradas de base de dados que determina se devem
ser agregados ou não com base na sua semelhança entre pares. Posteriormente, um
conjunto globalmente ótimo de entradas vinculadas é selecionado com base em
ek) e restriçõesrestrições de transitividade (se ei , ej e ej , ek estão vinculados, então ,
globais, como quantas sentenças devem e ei devem ser agregadas em um documento.
A otimização global é moldada em termos de Programação Linear Inteira, uma técnica
de otimização matemática bem conhecida (por exemplo, Nemhauser & Wolsey, 1988).
Com a agregação sintática, é indiscutivelmente mais viável definir regras
independentes de domínio para eliminar a redundância (Harbusch & Kempen, 2009;
Kem-pen, 2009). Por exemplo, convertendo o primeiro exemplo no segundo abaixo
(5) Sadio Mane marcou aos 12 minutos e voltou a marcar aos 13

minuto.
(6) Sadio Mane marcou aos 12 minutos e novamente aos 13.
poderia ser alcançado identificando as frases verbais paralelas nas duas sentenças
conjuntas e eliminando o sujeito e o verbo na segunda. Trabalhos recentes exploraram
a possibilidade de adquirir tais regras de corpora automaticamente.
Por exemplo, Stent e Molina (2009) descrevem uma abordagem para a aquisição de
regras de combinação de frases a partir de um banco de árvores de discurso, que são
então incorporadas no planejador de frases animado descrito por Walker et al. (2007b).
Uma abordagem mais geral para o mesmo problema é discutida por White e Howcroft
(2015).
13
Indiscutivelmente, a agregação ao nível sintático só pode ser responsável por reduções

relativamente pequenas, em comparação com a agregação ao nível das mensagens.
Além disso, a agregação sintática pressupõe que o processo de planeamento das frases
(que inclui a lexicalização) está completo. Assim, embora as abordagens tradicionais da
NGL vejam a agregação como parte do planeamento das frases, que ocorre antes da
realização sintática, a validade desta afirmação depende do tipo de agregação que está a
ser realizada (ver também Theune et al., 2006).
2.4 Lexicalização
Uma vez finalizado o conteúdo da frase, possivelmente também como resultado da

agregação ao nível da mensagem, o sistema pode começar a convertê-la para linguagem
natural. No nosso exemplo (Figura 1c), o resultado da agregação e da lexicalização são
mostrados em conjunto: aqui, os três eventos foram agrupados e mapeados para uma
representação que inclui um verbo (ser) e os seus argumentos, embora os próprios
argumentos ainda tenham de ser traduzido em uma expressão de referência (veja abaixo).
Isto reflecte uma decisão importante, nomeadamente, quais palavras ou frases usar para
expressar os blocos de construção das mensagens. Uma complicação é que muitas vezes
um único evento pode ser expresso em linguagem natural de muitas maneiras diferentes.
Um evento de pontuação em uma partida de futebol, por exemplo, pode ser expresso como
'marcar um gol', 'ter um gol anotado', 'colocar a bola na rede', entre muitos outros.
A complexidade deste processo de lexicalização depende criticamente do número de
alternativas que o sistema nlg pode considerar. Muitas vezes, as restrições contextuais
também desempenham aqui um papel importante: se o objectivo é gerar textos com uma
certa quantidade de variação (por exemplo, Theune et al., 2001), o sistema pode decidir
seleccionar aleatoriamente uma opção de lexicalização de uma lista. conjunto de
alternativas (talvez até mesmo de um conjunto de alternativas não utilizadas anteriormente
no texto). No entanto, entram em jogo restrições estilísticas: “marcar um golo” é uma forma
infeliz de expressar um autogolo, por exemplo. Em outras aplicações, a escolha lexical
pode até ser informada por outras considerações, tais como a atitude ou postura afetiva
em relação ao evento em questão (por exemplo, Fleischman & Hovy, 2002, e a discussão
na Seção 5). Se os sistemas nlg visam ou não a variação em sua produção, depende do
domínio. Por exemplo, a variação nos boletins de futebol é presumivelmente mais apreciada
pelos leitores do que a variação nos boletins meteorológicos (sobre os quais ver Reiter et
al., 2005); também pode depender de onde a variação ocorre no texto (por exemplo, a
variação na expressão dos carimbos temporais pode ser menos apreciada do que a
variação nas formas referenciais, ver, por exemplo, Ferreira et al. (2016)).
Um modelo simples de lexicalização – o assumido na Figura 1 – consiste em operar
sobre mensagens pré-verbais, convertendo conceitos de domínio diretamente em itens
lexicais. Isso pode ser viável em domínios bem definidos. Mais frequentemente, a
lexicalização é mais difícil, por pelo menos duas razões (cf. Bangalore & Rambow, 2000):
Primeiro, pode envolver a selecção entre palavras semanticamente semelhantes, quase
sinónimas ou taxonomicamente relacionadas (por exemplo, animal vs cão; Stede, 2000 ;
Edmonds & Hirst, 2002). Em segundo lugar, nem sempre é simples modelar a lexicalização
em termos de um mapeamento nítido do conceito para a palavra. Uma fonte de dificuldade
é a imprecisão, que surge, por exemplo, com termos que denotam propriedades que podem ser graduadas.
14
Por exemplo, selecionar os adjetivos “largo” ou “alto” com base nas dimensões de uma entidade exige
que o sistema raciocine sobre a largura ou a altura de objetos semelhantes, talvez usando algum padrão
de comparação (uma vez que um “copo alto” é mais baixo que um 'homem baixo'; cf. Kennedy & McNally,
2005; van Deemter, 2012).
Uma questão semelhante foi observada no contexto da apresentação de informações numéricas, como
carimbos de data e hora e quantidades (Reiter et al., 2005; Power & Williams, 2012). Por exemplo, Reiter
et al. (2005) discutiram expressões de tempo no contexto da geração de previsões meteorológicas,
apontando que um carimbo de data/hora 00:00 poderia ser expresso como tarde da noite, meia-noite ou
simplesmente noite (Reiter et al., 2005, p. 143). Não é de surpreender que os seres humanos (incluindo
os previsores profissionais que contribuíram para a avaliação de Reiter et al.) apresentem variações
consideráveis nas suas escolhas lexicais.
É interessante notar que muitas questões relacionadas com a lexicalização também foram discutidas
na literatura psicolinguística sobre acesso lexical (Levelt, 1989; Levelt et al., 1999). Entre elas está a
questão de como os falantes se concentram na palavra certa e em que condições estão sujeitos a cometer
erros, dado que o léxico mental é uma rede densamente conectada na qual os itens lexicais estão
conectados em múltiplos níveis (semântico, fonológico, etc.). ). Este também tem sido um tópico frutífero
para modelagem computacional (por exemplo, Levelt et al., 1999). Em contraste com as abordagens de
modelagem cognitiva, no entanto, a pesquisa em NGL vê cada vez mais a lexicalização como parte da
realização superficial (discutida abaixo) (uma observação semelhante é feita por Mellish & Dale, 1998,
p.351). Uma contribuição fundamental neste contexto é de Elhadad et al. (1997), que descrevem uma
abordagem baseada na unificação, unificando representações conceituais (ou seja, mensagens pré-
verbais) com regras gramaticais que codificam escolhas lexicais e sintáticas.
2.5 Geração de expressão de referência

Referring Expression Generation (reg) é caracterizada por Reiter e Dale (1997, p.11) como 'a tarefa de
selecionar palavras ou frases para identificar entidades de domínio'. Esta caracterização sugere uma
grande semelhança com a lexicalização, mas Reiter e Dale (2000) salientam que a diferença essencial é
que a geração de expressões referentes é uma 'tarefa de discriminação, onde o sistema precisa comunicar
informação suficiente para distinguir uma entidade de domínio de outra. entidades de domínio'. reg está
entre as tarefas no campo da geração automatizada de texto que tem recebido mais atenção nos últimos
anos (Mellish et al., 2006; Siddharthan et al., 2011). Uma vez que pode ser separado com relativa
facilidade de um domínio de aplicação específico e estudado por si só, existem várias soluções
“autônomas” para o problema de registro.
Em nosso exemplo em execução, os três eventos de bradicardia mostrados na Figura 1b são

posteriormente representados como um conjunto de três entidades sob o argumento temático be, após a
lexicalização (Figura 1c). A forma como o sistema se refere a eles dependerá, entre outras coisas, de já
terem sido mencionados (nesse caso, um pronome ou uma descrição definida pode funcionar) e, em caso
afirmativo, se precisam ser distinguidos de quaisquer outras entidades semelhantes ( nesse caso, talvez
seja necessário distingui-los por algumas propriedades, como o momento em que ocorreram).
15
Objetos de domínio
Atributos d1 d2 d3
Cor azul cubo azul
Forma bola verde bola
Tamanho pequeno grande grande
Relação antes (d2) atrás (d1) próximo a (d2)
(a) Domínio visual do
gre3d corpus (Viethen & (b) Representação tabular do domínio visual
Dal, 2008)
Figura 2: Domínio visual e representação tabular
A primeira escolha está portanto relacionada com a forma referencial: se as entidades

são referidos usando um pronome, um nome próprio ou uma descrição (in)definida,
por exemplo. Isto depende em parte da medida em que a entidade está “em foco” ou “saliente”
(ver, por exemplo, Poesio et al., 2004) e, de facto, tais noções estão subjacentes
muitos relatos computacionais de geração de pronomes (por exemplo, McCoy & Strube,
1999; Callaway e Lester, 2002; Ração e Poder, 2004). Escolhendo referencial
formulários foi recentemente tema de uma série de tarefas compartilhadas sobre a Geração de
Expressões de Referência em Contexto (grec; Belz et al., 2010), usando dados
de artigos da Wikipedia, que incluíam opções como pronomes reflexivos e
nomes próprios. Muitos sistemas que participaram neste desafio enquadraram o problema em
termos de classificação entre estas muitas opções. Ainda assim, é provavelmente
é justo dizer que muito trabalho sobre forma referencial se concentrou em quando usar
pronomes. Formas como nomes próprios permanecem pouco estudadas, embora recentemente
vários pesquisadores destacaram os problemas de geração de nomes próprios
(Siddharthan et al., 2011; van Deemter, 2016; Ferreira et al., 2017).
A determinação do conteúdo referencial geralmente entra em jogo quando o escolhido
formulário é uma descrição. Normalmente, existem várias entidades que têm o mesmo
categoria ou tipo referencial em um domínio (mais de um player, por exemplo, ou
várias bradicardias). Como resultado, outras propriedades da entidade precisarão ser
mencionado se for para ser identificado pelo leitor ou ouvinte. Pesquisa de registro anterior
frequentemente trabalhado com domínios visuais simples, como a Figura 2a ou seu correspondente
representação tabular, retirada do corpus gre3d (Viethen & Dale, 2008).
Neste exemplo, o problema de seleção de conteúdo reg é encontrar um conjunto de propriedades
para um alvo (digamos d1) que o destaca de seus dois distratores (d2 e d3).
algoritmos de determinação de conteúdo reg podem ser considerados como realizando um
pesquise nas propriedades conhecidas do referente a combinação 'certa'
que irá distingui-lo no contexto. O que constitui a combinação “certa”
depende da teoria subjacente. Muita informação na descrição (como
na pequena bola azul antes do grande copo verde) pode ser enganoso ou até mesmo
tedioso; muito pouco (a bola) pode dificultar a identificação. Muito trabalho no reg tem
16
apelou para a máxima griceana que afirma que os oradores devem certificar-se de que as
suas contribuições são suficientemente informativas para os fins do intercâmbio, mas não
mais (Grice, 1975). A forma como isso é interpretado tem sido objeto de uma série de
interpretações algorítmicas, incluindo:
• Realizar uma busca exaustiva no espaço de descrições possíveis e escolher o menor

conjunto de propriedades que identificará o referente alvo, estratégia incorporada
pelo procedimento Full Brevity (Dale, 1989). Em nosso domínio de exemplo, isso
selecionaria o tamanho.
• Selecionar propriedades de forma incremental, mas escolhendo aquela que exclui a

maioria dos distratores em cada etapa, minimizando assim a possibilidade de
inclusão de informações que não são diretamente relevantes para a tarefa de identificação.
Esta é a ideia subjacente ao algoritmo Greedy Heuristic (Dale, 1989, 1992), e foi
mais recentemente revivida em modelos estocásticos baseados em utilidade, como
Frank et al. (2009). Em nossa cena de exemplo, tal algoritmo consideraria mais uma
vez o tamanho primeiro.
• Seleção de propriedades de forma incremental, mas com base na preferência

específica do domínio ou na relevância cognitiva. Esta é a estratégia incorporada no
Algoritmo Incremental (Dale & Reiter, 1995), que preveria que a cor deveria ser
preferida ao tamanho no nosso exemplo.
Embora estas heurísticas se concentrem exclusivamente no requisito de que um

referente seja identificado de forma inequívoca, a investigação sobre referência no diálogo
(por exemplo, Jordan & Walker, 2005) mostrou que, sob certas condições, as expressões
referentes também podem incluir propriedades 'redundantes', a fim de alcançar outros
objetivos comunicativos, como a confirmação de um enunciado anterior de um interlocutor.
Da mesma forma, White et al. (2010) apresentam um sistema que gera descrições
personalizadas para o utilizador em diálogo falado, argumentando que, por exemplo, um
passageiro frequente preferiria descrições de voos diferentes do que um aluno que voa apenas ocasionalmente.
Esses vários algoritmos computam descrições distintivas (possivelmente diferentes)
para referentes alvo (mais precisamente: eles selecionam conjuntos de propriedades que
distinguem o alvo, mas que ainda precisam ser expressas em palavras; veja a Seção 2.6
abaixo). Podem ser distinguidas várias vertentes de trabalhos mais recentes (pesquisados
em Krahmer & van Deemter, 2012). Alguns investigadores concentraram-se em estender a
expressividade dos algoritmos 'clássicos', para incluir plurais (as duas bolas) e relações (a
bola na frente de um cubo) (por exemplo, Horacek, 1997; Stone, 2000; Gardent, 2002;
Kelleher & Kruijff, 2006; Viethen & Dale, 2008, entre muitos outros). Outros trabalhos
lançaram o problema em termos probabilísticos; por exemplo, FitzGerald et al. (2013)
enquadram reg como um problema de estimativa de uma distribuição log-linear sobre um
espaço de formas lógicas que representam expressões para conjuntos de objetos.
Outros trabalhos concentraram-se na avaliação do desempenho de diferentes algoritmos
de registro, coletando referências humanas controladas e comparando-as com as referências
previstas por vários algoritmos (por exemplo, Belz, 2008; Gatt & Belz, 2010; Jordan &
Walker, 2005, novamente entre muitos outros). Na mesma linha,
17
os pesquisadores também começaram a explorar a relevância dos algoritmos reg como modelos
psicolinguísticos de produção da linguagem humana (por exemplo, van Deemter et al., 2012b).
Uma outra linha de trabalho afastou-se da separação entre seleção de conteúdo e forma, realizando
essas tarefas em conjunto. Por exemplo, Engonopou-los e Koller (2014) usam uma gramática síncrona que
relaciona diretamente strings de superfície com referentes alvo, usando um gráfico para calcular as
expressões possíveis para um determinado alvo. Este trabalho tem alguma relação com abordagens
baseadas em planejamento que discutimos na Seção 3.2 abaixo, que exploram formalismos gramaticais
como operadores de planejamento (por exemplo, Stone & Webber, 1998; Koller & Stone, 2007), resolvendo
problemas de realização e determinação de conteúdo em tandem (incluindo reg como um caso especial).
Finalmente, em trabalhos anteriores, a informação visual era normalmente “simplificada” numa tabela
(como fizemos acima), mas houve um progresso substancial no registo em cenários mais complexos. Por
exemplo, o desafio dar (Koller et al., 2010) deu impulso à exploração de referências situadas a objetos num
ambiente virtual (ver também Stoia & Shockley, 2006; Garoufi & Koller, 2013). Trabalhos mais recentes
começaram a explorar a interface entre visão computacional e registro para produzir descrições de objetos
em cenas visuais complexas e realistas, incluindo fotografias (por exemplo, Mitchell et al., 2013; Kazemzadeh
et al., 2014; Mao et al., 2013; Kazemzadeh et al., 2014; Mao et al. , 2016). Isto faz parte de um conjunto
mais amplo de desenvolvimentos centrados na relação entre visão e linguagem, que abordaremos na Secção
4.
2.6 Realização linguística

Finalmente, quando todas as palavras e frases relevantes tiverem sido decididas, estas precisam ser
combinadas para formar uma frase bem formada. O exemplo simples da Figura 1d mostra a estrutura
subjacente à frase: houve três bradicardias sucessivas até 69, correspondendo a mensagem linguística à
porção selecionada do sinal original na Figura 1a.
Normalmente referida como realização linguística, esta tarefa envolve ordenar os constituintes de uma
frase, bem como gerar as formas morfológicas corretas (incluindo conjugações verbais e concordância, nas
línguas onde isto é relevante). Muitas vezes, os realizadores também precisam inserir palavras funcionais
(como verbos auxiliares e preposições) e sinais de pontuação. Uma complicação importante nesta fase é
que o resultado precisa de incluir vários componentes linguísticos que podem não estar presentes no input
(um exemplo do “conflito entre gerações” discutido na Secção 3.1 abaixo); assim, esta tarefa de geração
pode ser pensada em termos de projeção entre estruturas não isomórficas (cf. Ballesteros et al., 2015).
Muitas abordagens diferentes foram propostas, das quais discutiremos
1. Modelos criados por humanos;
2. Sistemas baseados em gramática criados por humanos;
3. abordagens estatísticas.
18
2.6.1 Modelos
Quando os domínios de aplicação são pequenos e se espera que a variação seja mínima, a
realização é uma tarefa relativamente fácil e os resultados podem ser especificados usando
modelos (por exemplo, Reiter et al., 1995; McRoy et al., 2003), como o seguinte.
(7) $jogador marcou para $team no minuto $minuto.
Este modelo possui três variáveis, que podem ser preenchidas com o nome de um jogador,
de um time e o minuto em que esse jogador marcou um gol. Pode assim servir para gerar
frases como:
(8) Ivan Rakitic marcou para o Barcelona aos 4 minutos.
Uma vantagem dos modelos é que eles permitem controle total sobre a qualidade da
saída e evitam a geração de estruturas não gramaticais. Variantes modernas do método
baseado em modelos incluem informações sintáticas nos modelos, bem como regras
sofisticadas para preencher as lacunas (Theune et al., 2001), tornando difícil distinguir
modelos de métodos mais sofisticados (van Deemter et al., 2001). ., 2005). A desvantagem
dos modelos é que eles exigem muito trabalho se construídos à mão (embora os modelos
tenham sido recentemente aprendidos automaticamente a partir de dados do corpus, ver,
por exemplo, Angeli et al., 2012; Kondadadi et al., 2013, e a discussão na Seção 3.3 abaixo).
Eles também não se adaptam bem a aplicações que exigem variação linguística considerável.
2.6.2 Sistemas baseados em gramática codificados manualmente
Uma alternativa aos modelos é fornecida por sistemas de realização de uso geral e
independentes de domínio. A maioria desses sistemas é baseada na gramática, ou seja, eles
fazem algumas ou todas as suas escolhas com base na gramática da língua em consideração.
Esta gramática pode ser escrita manualmente, como em muitos realizadores clássicos
disponíveis no mercado, como fuf/surge (Elhadad & Robin, 1996), mumble (Meteer et al.,
1987), kpml (Bateman, 1997), nigel (Mann & Matthiessen, 1983) e RealPro (Lavoie &
Rambow, 1997). Realizadores baseados em gramática codificados manualmente tendem a
exigir informações muito detalhadas. Por exemplo, kpml (Bateman, 1997) é baseado na
Gramática Sistêmico-Funcional (sfg; Halliday & Matthiessen, 2004), e a realização é
modelada como uma travessia de uma rede na qual as escolhas dependem de informações
gramaticais e semântico-pragmáticas. Este nível de detalhe torna estes sistemas difíceis de
usar como módulos simples 'plug-and-play' ou 'prontos para uso' (por exemplo, Kasper,
1989), algo que motivou o desenvolvimento de mecanismos de realização simples que
fornecem APIs de sintaxe e morfologia , mas deixa a escolha para o desenvolvedor (Gatt et
al., 2009; Vaudry & Lapalme, 2013; Bollmann, 2011; de Oliveira & Sripada, 2014).
Uma dificuldade para os sistemas baseados em gramática é como fazer escolhas entre
opções relacionadas, como as seguintes, onde regras elaboradas à mão com a sensibilidade
correta ao contexto e à entrada são difíceis de projetar:
(9) Ivan Rakitic marcou para o Barcelona aos 4 minutos.
19
(10) Pelo Barcelona, Ivan Rakitic marcou aos quatro minutos.
(11) O jogador do Barcelona, Ivan Rakitic, marcou aos quatro minutos.
2.6.3 Abordagens estatísticas
Abordagens recentes têm procurado adquirir gramáticas probabilísticas de grandes corpora, reduzindo
a quantidade de trabalho manual necessário, ao mesmo tempo que aumentam a cobertura.
Essencialmente, duas abordagens foram adotadas para incluir informações estatísticas no processo de
realização. Uma abordagem, introduzida pelo trabalho seminal de Langkilde e Knight (Langkilde-Geary,
2000; Langkilde-Geary & Knight, 2002) sobre os sistemas halogênio/nitrogênio, baseia-se em uma
abordagem de dois níveis, na qual um pequeno , a gramática artesanal é usada para gerar realizações
alternativas representadas como uma floresta, a partir da qual um reclassificador estocástico seleciona
o candidato ideal. Langkilde e Knight confiam no conhecimento estatístico baseado em corpus na forma
de n-gramas, enquanto outros experimentaram modelos estatísticos mais sofisticados para realizar a
reclassificação (por exemplo, Bangalore & Ram-bow, 2000; Ratnaparkhi, 2000; Cahill et al., 2007). A
segunda abordagem não depende de uma abordagem de geração e filtragem computacionalmente
dispendiosa, mas utiliza informações estatísticas diretamente no nível das decisões de geração. Um
exemplo dessa abordagem é o sistema pcru desenvolvido por Belz (2008), que gera a derivação mais
provável de uma sentença, dado um corpus, utilizando uma gramática livre de contexto. Neste caso, as
estatísticas são exploradas para controlar o comportamento de tomada de decisão do gerador à medida
que procura a solução óptima.
Em ambas as abordagens, o gerador base é feito à mão, enquanto a informação estatística é usada
para filtrar os resultados. Uma alternativa óbvia seria também confiar em informações estatísticas para
o sistema de geração de base. Abordagens gramaticais totalmente orientadas por dados foram
desenvolvidas através da aquisição de regras gramaticais de bancos de árvores. Por exemplo, o
framework Openccg (Espinosa et al., 2008; White & Rajkumar, 2009, 2012) apresenta um realizador de
superfície inglês de ampla cobertura, baseado na Gramática Categorial Combinatória (ccg; Steedman,
2000), contando com um corpus de representações ccg derivadas do Penn Treebank (Hockenmaier &
Steedman, 2007) e usando modelos de linguagem estatística para reclassificação. Existem várias outras
abordagens de realização que adotam um raciocínio semelhante, baseado em uma variedade de
formalismos gramaticais, incluindo Gramática de Estrutura de Frase Orientada à Cabeça (hpsg;
Nakanishi et al., 2005; Carroll & Oepen, 2005), Gramática Lexical-Funcional ( lfg; Cahill & Josef, 2006) e
Tree Ad-joining Grammar (tag; Gardent & Narayan, 2015). Em muitos desses sistemas, o gerador de
base usa alguma variante do algoritmo de geração de gráficos (Kay, 1996) para realizar iterativamente
partes de uma especificação de entrada e fundi-las em uma ou mais estruturas finais, que podem então
ser classificadas (ver Rajkumar & White, 2014, para discussão mais aprofundada). A existência de
realizadores estocásticos com gramáticas de ampla cobertura motivou um maior foco em escolhas sutis,
tais como como evitar ambiguidade estrutural, ou como lidar com escolhas como a inserção explícita de
complementadores em inglês (ver, por exemplo, Rajkumar & White, 2011).
Outras abordagens de realização também dependem de um ou mais classificadores para melhorar
20
provar resultados. Por exemplo, Filippova e Strube descrevem uma abordagem para linearização de
constituintes usando uma abordagem em duas etapas com classificadores de Entropia Máxima, primeiro
determinando qual constituinte deve ocupar a posição inicial da frase e depois ordenando os constituintes
no restante da frase (Fil-ippova & Strube, 2007, 2009). Bohnet et al. (2010) descrevem um realizador
usando estruturas de dependência subespecificadas como entrada, em um framework baseado em Sup-
port Vector Machines, onde os classificadores são organizados em cascata. Um classificador inicial
decodifica a entrada semântica nos recursos sintáticos correspondentes, enquanto dois classificadores
subsequentes primeiro linearizam a sintaxe e depois renderizam a realização morfológica correta para os
lexemas componentes. Esta abordagem de “geração profunda” foi aplicada a quatro línguas – chinês,
inglês, alemão e espanhol – e descobriu-se que supera a abordagem de Filippova e Strube (2009) em
inglês quando comparada com um corpus usando a métrica bleu (Papineni et al. ., 2002), embora fique
um pouco aquém do realizador alemão de Filippova e Strube (2007), onde a abordagem de classificação
em duas etapas tem melhor desempenho.
As escolhas de modelagem usando cascatas de classificadores não se restringem à realização; na

verdade, em alguns casos, foi adotado como modelo para o processo NGL como um todo, tópico ao qual
retornaremos na Seção 3.3.3. Um resultado desta visão da nlg é que a natureza da representação de
input também muda: quanto mais decisões são tomadas dentro do sistema de geração estatística, menos
linguística e mais abstrata se torna a representação de input, abrindo caminho para uma representação
integrada e de ponta a ponta. sistemas de geração estocástica de ponta, como Konstas e Lapata (2013),
que também discutiremos na próxima seção.
2.7 Discussão
Esta seção forneceu uma visão geral de algumas tarefas clássicas encontradas na maioria dos sistemas
nlg. Uma das tendências comuns que podem ser identificadas em cada caso é a mudança constante das
primeiras abordagens artesanais baseadas em regras para as abordagens estocásticas mais recentes
que dependem de dados corpus, com um movimento concomitante em direcção a abordagens mais
independentes de domínio. Historicamente, este já era o caso de tarefas como a geração ou realização
de expressões referenciais, que se tornaram tópicos de investigação intensiva por direito próprio. Contudo,
à medida que cada vez mais abordagens a todas as tarefas da NGL começam a assumir um rumo
estatístico, há uma ênfase crescente nas técnicas de aprendizagem; o aspecto específico do domínio é,
por assim dizer, incidental, uma propriedade dos próprios dados de treinamento. Como veremos na
próxima seção, esta tendência também influenciou a forma como as diferentes tarefas de NGL são
organizadas, ou seja, a arquitetura dos sistemas de geração de texto a partir de dados.
3 Arquiteturas e Abordagens NLG

Tendo dado uma visão geral das subtarefas mais comuns que os sistemas NGL incorporam, passamos
agora à forma como tais tarefas podem ser organizadas. Em termos gerais, podemos distinguir entre três
abordagens dominantes para arquiteturas nlg:
21
Texto Frase frase

plano de texto Entender texto
Planejador Planejador plano
Figura 3: Arquitetura NLG clássica de três estágios, segundo Reiter e Dale (2000).
Segmentos mais escuros ilustram os três módulos principais; segmentos mais claros mostram as
saídas.
1. Arquiteturas modulares: muitas vezes são típicas de sistemas com raízes no paradigma
clássico de processamento de símbolos que dominou as primeiras pesquisas em IA.
Por definição, tais arquiteturas envolvem divisões bastante nítidas entre subtarefas,
embora com variações significativas entre elas;
2. Perspectivas de planeamento: Novamente com raízes profundas na tradição da IA, ver a

geração de texto como planeamento proporciona um design mais integrado e menos modular;
3. Abordagens integradas e orientadas por dados: Actualmente a tendência dominante na GNL

(tal como o é na PNL de forma mais geral), tais abordagens colocam uma forte dependência
na aprendizagem estatística de correspondências entre entradas e saídas (não linguísticas).
Tais correspondências muitas vezes atravessam divisões de tarefas, resultando mais uma
vez em abordagens mais integradas para o problema da GNL.
Destes três, o primeiro, o design modular, é o mais antigo e durante muito tempo, seguindo
Reiter (1994), foi referido como o 'consenso'. Embora o revisemos com alguma profundidade
abaixo, enfatizamos que o seu estatuto consensual tem sido repetidamente questionado. Na
verdade, a investigação mais recente baseada no planeamento e/ou orientada por dados desafiou
fortemente a visão modular. Por esta razão, no que se segue, iremos muitas vezes contrastar
explicitamente o design encapsulado do modelo mais antigo com estas abordagens mais “globais”,
com vista a destacar soluções computacionais destinadas a abordar conjuntamente subtarefas de
NGL.
3.1 Abordagens modulares e baseadas em regras

Pesquisas existentes sobre NGL, incluindo Reiter e Dale (Reiter & Dale, 1997, 2000) e Reiter
(2010) normalmente se referem a alguma versão da arquitetura de pipeline exibida na Figura 3
como a arquitetura de “consenso” no campo. Originalmente introduzido por (Reiter, 1994), o
pipeline era uma generalização baseada na prática real e alcançou o status de um “padrão de
facto”.
Diferentes módulos no pipeline incorporam diferentes subconjuntos das tarefas descritas na
Seção 2. O primeiro módulo, o Text Planner (ou Document Planner, ou Macroplanner), combina
seleção de conteúdo e estruturação de texto (ou planejamento de documentos). Assim, preocupa-
se principalmente com a geração estratégica (McDonald,
22
1993), a escolha do “o que dizer”. O plano de texto resultante, uma representação estruturada
de mensagens, é a entrada para o Planejador de Sentenças (ou microplanejador), que
normalmente combina agregação de frases, lexicalização e geração de expressões referentes
(Reiter & Dale, 2000). Se o planejamento do texto equivale a decidir o que dizer, o planejamento
das frases pode ser entendido como a decisão de como dizê-lo.
Resta então dizê-lo de fato, ou seja, gerar as sentenças finais de forma gramaticalmente correta,
aplicando regras sintáticas e morfológicas.
Esta tarefa é executada pelo Realizador Linguístico. Juntos, o planejamento e a realização de
frases abrangem o conjunto de tarefas tradicionalmente chamadas de geração tática.
Curiosamente, quando Reiter (1994) propôs esta arquitetura de três estágios como a
arquitetura de consenso emergente na NGL, ele traçou um paralelo com a produção da fala
humana, onde o modelo psicolinguístico mais influente de produção da linguagem, proposto por
Levelt (1989, 1999) , faz uma distinção semelhante entre decidir o que dizer e determinar como
dizê-lo. O modelo de Levelt permite um grau limitado de automonitoramento através de ciclos de
feedback, um recurso que está ausente no pipeline NGL de Reiter, mas continua a desempenhar
um papel importante na psicolinguística (cf. Pickering & Garrod, 2013), embora aqui também
tenha havido ênfase crescente em modelos mais integrados.
O pipeline de consenso também compartilha uma série de características com uma

arquitetura amplamente utilizada na sumarização de textos (Mani, 2001; Nenkova & McKeown,
2011). Tal como o programa utilizado por Parker para gerar livros (ver Secção 1), os sistemas de
sumarização tomam como entrada um ou mais textos, procurando produzir um resumo para o
leitor. Tradicionalmente (conforme discutido por Mani, 2001, entre outros), a sumarização pode
ser dividida nas seguintes etapas:
1. Análise do(s) texto(s) fonte(s), por meio da qual as informações – na forma de frases ou
sentenças – são selecionadas para inclusão no eventual resumo. Como esta etapa envolve
seleção, ela compartilha algumas características com a etapa de planejamento de texto de
um sistema de conversão de dados em texto, onde a determinação do conteúdo é uma
das tarefas;
2. Transformação da entrada selecionada, onde frases ou sentenças selecionadas podem

passar por processos como agregação, fusão ou paráfrase para reduzir a redundância e
tornar o texto fluente. Esta fase, que é especialmente importante na sumarização abstrativa,
partilha algumas características com a fase de planeamento de frases na Figura 3;
3. Síntese, ou seja, processo de geração do resumo, com base nas informações selecionadas.
Neste caso, os sistemas normalmente lidam com entrada de texto, mas quanto maior o
nível de abstração no resumo, mais esta etapa desempenhará um papel na regeneração
do texto que pode parecer bastante diferente em seus aspectos essenciais da entrada
original. Texto:% s). Portanto, esta tarefa pode compartilhar alguns recursos com o estágio
de realização da Figura 3.
Uma marca registrada da arquitetura na Figura 3 é que ela representa divisões claras entre
tarefas que são tradicionalmente consideradas pertencentes ao “o quê”
23
(estratégico) e o 'como' (tático). Contudo, isto não implica que esta divisão seja
universalmente aceite na prática. Em pesquisa realizada há aproximadamente uma década,
Mellish et al. (2006) já concluíram que, embora vários sistemas NGL incorporem muitas
das tarefas principais descritas na Secção 2, a sua organização varia consideravelmente
de sistema para sistema. Na verdade, algumas tarefas podem ser divididas em módulos.
Por exemplo, a parte de determinação do conteúdo da geração de expressões referenciais
pode ser colocada no planejador de frase, mas as decisões sobre a forma (como usar um
SN anafórico e, em caso afirmativo, que tipo de NP produzir) podem ter que esperar até
que pelo menos algumas decisões relacionadas com a realização foram tomadas. Com
base nessas observações, Mellish et al. propuseram um formalismo alternativo, a estrutura
de 'objetos e setas', dentro da qual diferentes tipos de fluxo de informações entre
subtarefas da NGL podem ser acomodados.
Em vez de oferecer uma arquitetura específica, esta estrutura foi concebida como um
formalismo dentro do qual podem ser especificadas descrições de alto nível de diferentes
arquiteturas. No entanto, mantém o princípio de que as tarefas, independentemente da
sua organização, são bem definidas e distintas.
Um desenvolvimento mais recente em relação à arquitetura de pipeline na Figura 3 é
uma proposta de Reiter (2007) para acomodar sistemas nos quais a entrada consiste em
dados brutos (muitas vezes numéricos) que requerem algum pré-processamento antes de
poderem passar pelo tipo de seleção e planejamento que o Planejador de Texto foi
projetado para executar. A principal característica desses sistemas é que a entrada não é
estruturada, em contraste com sistemas que operam sobre formas lógicas, ou entradas
de banco de dados. Exemplos de domínios de aplicação onde este é o caso incluem
relatórios meteorológicos (por exemplo, Goldberg et al., 1994; Busemann & Horacek, 1997;
Coch, 1998; Turner et al., 2008; Sripada et al., 2003; Ramos- Soto et al., 2015), onde os
dados muitas vezes assumem a forma de previsões meteorológicas numéricas; e geração
de resumos a partir de dados de pacientes (por exemplo, Hueske-Kraus, 2003; Harris,
2008; Gatt et al., 2009; Banaee et al., 2013). Nesses casos, os sistemas NGL muitas vezes
precisam realizar alguma forma de abstração de dados (por exemplo, identificando
tendências amplas nos dados), seguida pela interpretação dos dados. As técnicas utilizadas
para realizar estas tarefas vão desde extensões de técnicas de processamento de sinais
(e.g., Portet et al., 2009) até à aplicação de formalismos de raciocínio baseados na teoria
dos conjuntos fuzzy (e.g., Ramos-Soto et al., 2015). A proposta de Reiter (2007) acomoda
essas etapas estendendo o pipeline “para trás”, incorporando etapas anteriores ao Planejamento do Texto.
Apesar da sua elegância e simplicidade, existem desafios associados a uma arquitetura
pipeline nlg, dos quais dois merecem particular destaque:
• O fosso entre gerações (Meteer, 1991) refere-se a incompatibilidades entre

componentes estratégicos e tácticos, de modo que as primeiras decisões em curso
têm consequências imprevistas mais a jusante. Para tomar um exemplo de Inui et
al. (1992), um sistema de geração pode determinar uma ordenação específica das
frases durante a fase de planeamento das frases, mas isto pode revelar-se ambíguo
uma vez que as frases tenham sido realmente realizadas e a ortografia tenha sido
inserida;
• Geração sob restrições: ela própria talvez seja uma instância da geração
24
lacuna, esse problema pode ocorrer quando a saída de um sistema precisa atender a
determinados requisitos, por exemplo, não pode exceder um determinado comprimento (ver
Reiter, 2000, para discussão). A formalização desta restrição pode parecer possível na fase de
realização – estipulando a restrição de comprimento em termos de número de palavras ou
caracteres, por exemplo – mas é muito mais difícil nas fases iniciais, onde as representações
são pré-linguísticas e o seu mapeamento para o texto final são potencialmente imprevisíveis.
Estes e problemas relacionados motivaram o desenvolvimento de arquiteturas alternativas. Por

exemplo, alguns dos primeiros sistemas NGL baseavam-se num design interactivo, no qual o resultado
inicialmente incompleto de um módulo podia ser concretizado com base no feedback de um módulo
posterior (o sistema paulino é um exemplo disto; Hovy, 1988). Uma postura ainda mais flexível é adotada
nas arquiteturas de quadro-negro, nas quais os procedimentos específicos de tarefas não são
rigidamente pré-organizados, mas executam suas tarefas de forma reativa à medida que o resultado,
representado em uma estrutura de dados compartilhada entre tarefas, evolui (por exemplo, Nirenburg
et al., 1989). Finalmente, as arquiteturas baseadas em revisão permitem uma forma limitada de
feedback entre os módulos sob monitoramento, com a possibilidade de alterar escolhas que se revelem
insatisfatórias (por exemplo, Mann & Moore, 1981; Inui et al., 1992). Isto tem a vantagem de não exigir
que os módulos “iniciais” estejam cientes das consequências das suas escolhas para os módulos
subsequentes, uma vez que algo que corre mal pode sempre ser revisto (Inui et al., 1992). A revisão
não precisa ser realizada exclusivamente para corrigir deficiências.
Por exemplo, Robin (1993) utilizou a revisão no contexto de resumos desportivos; um rascunho inicial
foi revisado para adicionar informações históricas que se tornaram relevantes pelos eventos relatados
no rascunho, tomando também decisões sobre onde colocá-las em relação ao texto principal. O preço
que todas estas alternativas potencialmente incorrem é, obviamente, uma redução na eficiência, como
observado por De Smedt et al. (1996).
Alternativas aos pipelines muitas vezes acabam confundindo as fronteiras entre os módulos no sistema NGL. Esta é
uma característica ainda mais evidente em algumas abordagens baseadas no planeamento e orientadas por dados propostas
nos últimos anos. É para estes que nos voltamos agora.
3.2 Abordagens baseadas no planejamento
Em ai, o problema de planejamento pode ser descrito como o processo de identificação de uma
sequência de uma ou mais ações para satisfazer um objetivo específico. Um objectivo inicial pode ser
decomposto em sub-objectivos, satisfeitos por acções, cada uma das quais com as suas pré-condições
e efeitos. No paradigma de planejamento clássico (strips; Fikes & Nilsson, 1971), as ações são
representadas como tuplas de tais pré-condições e efeitos.
A conexão entre planejamento e NGL reside no fato de que a geração de texto pode ser vista como
a execução de um comportamento planejado para atingir um objetivo comunicativo, onde cada ação
leva a um novo estado, ou seja, uma mudança em um contexto que inclui tanto a interação linguística
ou história do discurso até o momento, mas também o contexto físico ou situado e as crenças e ações
do usuário (ver
25
Limão, 2008; Rieser e Limão, 2009; Dethlefs, 2014; Garoufi & Koller, 2013; Garoufi, 2014, para
algumas perspectivas recentes sobre este tema). Esta perspectiva sobre a NGL está, portanto,
relacionada com a visão da “linguagem como acção” (Clark, 1996), ela própria enraizada numa
tradição filosófica inaugurada pelo trabalho de Austin (1962) e Searle (1969). Na verdade, alguns
dos primeiros trabalhos de IA nesta tradição (especialmente Cohen & Perrault, 1979; Cohen &
Levesque, 1985) procuraram uma formulação explícita de pré-condições (semelhantes às condições
de felicidade de Searle) para actos de fala e suas consequências.
Dado que não há, em princípio, nenhuma restrição sobre os tipos de ações que podem ser
incorporadas num plano, é possível que as abordagens baseadas em planos para a GNL
ultrapassem os limites de muitas das tarefas que normalmente são encapsuladas na arquitetura de
pipeline clássica, combinar elementos táticos e estratégicos, vendo os problemas do que dizer e
como dizer como parte integrante do mesmo conjunto de operações. Na verdade, existem
precedentes importantes nos primeiros trabalhos para uma visão unificada da NGL como uma
hierarquia de objetivos, estando o sistema kamp (Appelt, 1985) entre os exemplos mais conhecidos.
Por exemplo, para gerar expressões de referência em kamp, o ponto de partida foi o raciocínio
sobre as crenças e o conhecimento mútuo dos interlocutores, após o que o sistema gerou
subobjetivos que se infiltraram até a escolha e realização da propriedade, produzindo finalmente
um referencial. np cujo efeito previsto foi alterar o estado de crença do ouvinte sobre o referente
(ver Heeman & Hirst, 1995, para uma abordagem semelhante à geração de expressões referentes
no diálogo).
Um problema com estas perspectivas, contudo, é que o raciocínio profundo sobre crenças,
desejos e intenções (ou bdi, como é frequentemente chamado seguindo o trabalho de Bratman,
1987) requer formalismos altamente expressivos e incorre em despesas computacionais
consideráveis. Uma solução é evitar formalismos de raciocínio de propósito geral e, em vez disso,
adaptar uma estrutura linguística ao paradigma de planejamento para
ngl.
3.2.1 Planejando através da gramática
A ideia de interpretar formalismos linguísticos em termos de planejamento é novamente prefigurada

nos primeiros trabalhos da NGL. Por exemplo, alguns sistemas iniciais (por exemplo, kpml, que
discutimos brevemente no contexto de realização na Seção 2.6; Bateman, 1997) foram baseados
na Gramática Sistêmico-Funcional (sfg; Halliday & Matthiessen, 2004), que pode ser vista como
uma precursor das abordagens contemporâneas baseadas no planejamento, uma vez que o SFG
modela as construções linguísticas como o resultado de uma travessia através de uma rede de
decisão que se estende para trás, até intenções pragmáticas. Na mesma linha, tanto Hovy (1991)
quanto Moore e Paris (1993) interpretaram as relações da Teoria da Estrutura Retórica (Mann &
Thompson, 1988) como operadores para o planejamento de texto.
Algumas abordagens recentes integram grande parte da maquinaria de planeamento na

própria gramática, vendo as estruturas linguísticas como operadores de planeamento. Isto requer
formalismos gramaticais que integrem múltiplos níveis de análise linguística, desde a pragmática
até à morfossintaxe. É comum que as abordagens contemporâneas baseadas no planejamento
da GNL sejam formuladas no formalismo da Árvore Lexicalizada.
26
Gramática Adjacente (ltag; Joshi & Schabes, 1997), embora outros formalismos, como Gramática
Categorial Combinatória (Steedman, 2000) também tenham se mostrado adequados para a tarefa (ver
especialmente Nakatsu & White, 2010, para uma abordagem de geração usando Gramática Categorial
Combinatória Discursiva).
Numa ltag, pedaços de estrutura linguística (as chamadas árvores elementares num léxico) podem
ser acoplados a informações semânticas e pragmáticas que especificam (a) quais pré-condições
semânticas precisam ser obtidas para que o item seja usado corretamente; e (b) quais objetivos
pragmáticos o uso daquele item específico alcançará (ver Stone & Webber, 1998; Garoufi & Koller,
2013; Koller & Striegnitz, 2002, para trabalho baseado em planejamento usando ltag). Como exemplo
de como tal formalismo poderia ser implementado num quadro de planeamento, concentremo-nos na
tarefa de nos referirmos a uma entidade-alvo. Koller e Stone (2007) formularam a tarefa de uma forma
que evita a necessidade de distinguir entre as fases de determinação e realização do conteúdo (uma
abordagem já adotada por Stone & Webber, 1998). Além disso, eles não separam planejamento,
registro e realização de frases, como é feito no pipeline tradicional. Considere a frase Maria gosta do
coelho branco. Simplificando o formalismo para facilitar a apresentação, podemos representar o item
lexical likes da seguinte forma (este exemplo é baseado em Garoufi, 2014, embora com algumas
simplificações):
(12) ação likes(u, x, y):

pré-condições:
• A proposição de que x gosta de y faz parte da base de conhecimento (ou seja, a

afirmação é suportada);
• x é animado;
• O enunciado atual u pode ser substituído na derivação S em construção;
efeitos:
• u agora faz parte de S •
Novos nós np para x na posição do agente e y na posição do paciente foram

foi configurado (e precisa ser preenchido).
Como nas tiras, um operador consiste em pré-condições e efeitos. Observe que as pré-condições
associadas ao item lexical requerem suporte na base de conhecimento (fazendo referência à entrada
kb, que normalmente não seria acessível ao realizador) e incluem informações semânticas (como que
o agente precisa ser animar). Tendo inserido likes como verbo principal da frase, temos dois sintagmas
nominais que precisam ser preenchidos gerando nps para os argumentos x e y. Em vez de adiar esta
tarefa para um módulo reg separado, Koller e Stone constroem expressões referentes associando
outras pré-condições pragmáticas aos operadores linguísticos (árvores elementares) que serão
incorporadas no np referencial. Primeiro, a entidade deve fazer parte do estado de conhecimento do
ouvinte, uma vez que uma descrição identificadora (digamos, para x) pressupõe que
27
o ouvinte está familiarizado com isso. Em segundo lugar, um efeito da adição de palavras ao np
(como os predicados coelho ou branco) é que a frase exclui distratores, ou seja, entidades cujas
propriedades não são verdadeiras. Num cenário com um ser humano e dois coelhos, dos quais
apenas um (o y no nosso exemplo) é branco, a derivação procederia atualizando primeiro o np
correspondente a y com coelho, excluindo assim o humano do conjunto distrator , mas deixando
o objetivo de distinguir y insatisfeito (já que y não é o único coelho). A adição de outro predicado
ao np (branco) resolve.
Uma vantagem prática das abordagens baseadas no planejamento é a disponibilidade de um

número significativo de planejadores prontos para uso. Uma vez que a tarefa NGL é formulada em
uma linguagem de descrição de plano apropriada, como a Planning Domain Definition Language
(pddl; McDermott, 2000), torna-se possível, em princípio, usar qualquer planejador para gerar texto.
Contudo, os planejadores continuam assolados por problemas de eficiência. Num conjunto de
experiências sobre tarefas de GNL de diferentes complexidades, Koller e Petrick (2011) observaram
que os planeadores tendem a gastar quantidades significativas de tempo no pré-processamento,
embora muitas vezes as soluções possam ser encontradas de forma eficiente uma vez concluído
o pré-processamento.
3.2.2 Planejamento estocástico sob incerteza usando Reforço

Aprendizado
As abordagens ao planeamento que discutimos até agora são em grande parte baseadas em
regras e tendem a ver a relação entre uma acção planeada e as suas consequências (ou seja, o
seu impacto no contexto), como fixas (embora existam excepções, como nas situações de
contingência). planejamento, que gera múltiplos planos para abordar diferentes resultados
possíveis; Steedman & Petrick, 2007).
Como observam Rieser e Lemon (2009), esta visão não é realista. Considere um sistema que
gera uma recomendação de restaurante. As consequências do seu resultado (isto é, o novo estado
que dá origem) estão sujeitas a ruído proveniente de diversas fontes de incerteza. Em parte, isto
deve-se a compromissos, por exemplo, entre a necessidade de incluir a quantidade certa de
informação e ao mesmo tempo evitar a prolixidade excessiva. Outra fonte de incerteza é o usuário,
cujas ações podem não ser as previstas pelo sistema. Um exemplo do conflito de gerações de
Meteer (1991) pode surgir, por exemplo, se um realizador estocástico traduz o conteúdo de uma
mensagem numa expressão ambígua ou excessivamente longa (Rieser & Lemon, 2009), um
problema que poderia ser resolvido permitindo diferentes subtarefas para compartilhar fontes de
conhecimento e ser guiado por restrições sobrepostas (Dethlefs & Cuayáhuitl, 2015, discutido
abaixo).
Em suma, planear uma boa solução para atingir um objectivo comunicativo poderia ser visto
como um problema de optimização estocástica (um tema que revisitaremos na Secção 3.3.3
abaixo). Esta visão é partilhada por muitas abordagens recentes baseadas na Aprendizagem por
Reforço (rl; Lemon, 2008; Rieser & Lemon, 2009, 2011a), especialmente aquelas que abordam
NGL num contexto de diálogo. Nesta estrutura, a geração pode ser modelada como um processo
de decisão de Markov onde os estados estão associados a ações possíveis e cada par estado-
ação está associado a uma probabilidade de passar de um estado no tempo t para um novo estado
em t + 1 através da ação a. . Crucialmente para o
28
algoritmo de aprendizagem, as transições são associadas a um sinal de reforço, por meio de uma função
de recompensa que quantifica a otimização da saída gerada. A aprendizagem geralmente envolve
simulações nas quais diferentes estratégias de geração ou “políticas” – essencialmente, planos
correspondentes a caminhos possíveis através do espaço de estados – passam a ser associadas a
diferentes recompensas. Tem sido argumentado que a estrutura RL é melhor para lidar com a incerteza
em ambientes dinâmicos do que a aprendizagem supervisionada ou a classificação, uma vez que estas
não permitem a adaptação num contexto em mudança (Rieser & Lemon, 2009). Rieser et al. (2011)
mostraram que esta abordagem é eficaz na otimização da apresentação de informações ao gerar
recomendações de restaurantes. Janarthanam e Lemon (2014) utilizaram-no para otimizar a escolha da
informação a selecionar numa expressão referencial, dado o conhecimento do utilizador.
O sistema aprende a adaptar seu modelo de usuário à medida que o usuário adquire novos conhecimentos
no decorrer de um diálogo.
Uma contribuição importante deste trabalho tem sido a exploração da optimização conjunta, onde a
política aprendida satisfaz múltiplas restrições decorrentes de diferentes subtarefas do processo de
geração, através da partilha de conhecimento entre as subtarefas. Lemon (2011) mostrou que a otimização
conjunta pode aprender uma política que determina quando gerar declarações informativas ou consultas
para buscar mais informações de um usuário. Da mesma forma, Cuayáhuitl e Dethlefs (2011) usaram RL
hierárquica para otimizar conjuntamente o problema de encontrar e descrever uma descrição curta de
rota, ao mesmo tempo que se adapta ao conhecimento prévio do usuário, dando origem a uma estratégia
pela qual o usuário é guiado por pontos de referência que com os quais estão familiarizados, evitando
junções potencialmente confusas. Também num cenário de determinação de rotas, Dethlefs e Cuayáhuitl
(2015) desenvolvem um modelo hierárquico que compreende um conjunto de agentes de aprendizagem
cujas tarefas vão desde a seleção de conteúdos até à realização.
Eles mostram que uma estrutura conjunta na qual os agentes compartilham conhecimento supera uma
estrutura de aprendizagem isolada na qual cada tarefa é modelada separadamente.
Por exemplo, a política conjunta aprende a fornecer instruções de navegação de alto nível, mas muda
para instruções de baixo nível se o utilizador se desviar do rumo. Além disso, as declarações produzidas
pela política conjunta são menos prolixas e levam a interações mais curtas em geral.
Em resumo, a pesquisa NGL dentro do paradigma de planejamento destacou a conveniência de

desenvolver formalismos unificados para representar restrições no processo de geração em vários níveis,
seja isso feito usando formalismos de planejamento baseados em IA (Koller & Petrick, 2011), ou
estocasticamente. via Aprendizagem por Reforço. Entre as suas contribuições, esta última linha de
trabalho esclareceu o valor de (a) relações hierárquicas entre subproblemas; e (b) otimização conjunta de
diferentes subtarefas. Na verdade, este trabalho pertence a uma gama muito mais ampla de pesquisas
sobre GNL baseada em dados, para a qual voltaremos nossa atenção imediatamente abaixo.
3.3 Abordagens baseadas em dados

Embora a mudança para métodos baseados em dados na PNL tenha começado um pouco mais tarde do
que em outras áreas da PNL, há poucas dúvidas de que esta é agora a tendência dominante. No restante
desta seção, começaremos com uma visão geral dos métodos
29
usado para adquirir dados de treinamento para NGL – em particular, pares de entradas (dados) e saídas
(texto) – antes de passar para uma visão geral de técnicas e estruturas. Um dos temas que emergirão desta
visão geral é que, tal como no caso do planeamento, os métodos estatísticos adoptam frequentemente uma
visão unificada ou “global”, em vez de uma visão modularizada, do processo NGL.
3.3.1 Aquisição de dados
Conforme observado na Seção 2, algumas tarefas de NGL suportam a transição para uma abordagem
estocástica com bastante facilidade. Por exemplo, a investigação sobre a realização explora frequentemente
a existência de bancos de árvores a partir dos quais as correspondências de entrada-saída podem ser aprendidas.
Da mesma forma, o surgimento de corpora de expressões referentes representando tanto domínios de
entrada quanto descrições de saída (por exemplo, Gatt et al., 2007; Viethen & Dale, 2011; Kazemzadeh et
al., 2014; Gkatzia et al., 2015) facilitou o desenvolvimento -opção de algoritmos de registro probabilísticos.
As tarefas partilhadas também contribuíram para o desenvolvimento de fontes e métodos de dados (ver
Secção 7). Como mostramos na Secção 4 abaixo, trabalhos recentes sobre geração de imagem para texto
também beneficiaram da disponibilidade de grandes conjuntos de dados. Para a geração estatística, de
ponta a ponta, em outros domínios, há menos constrangimento com a riqueza. No entanto, esta situação
está a melhorar à medida que são desenvolvidos métodos para alinhar automaticamente os dados de
entrada com o texto de saída. Ainda assim, vale a pena enfatizar que muitas dessas abordagens de
alinhamento utilizam dados semiestruturados, em vez da entrada numérica bruta (por exemplo, sinais) usada
pelos sistemas de dados para texto que Reiter (2007), entre outros, desenhou. atenção a.
Atualmente, há uma série de corpora de texto de dados em domínios específicos, principalmente

previsão do tempo (Reiter et al., 2005; Belz, 2008; Liang et al., 2009) e resumos esportivos (Barzilay &
Lapata, 2005; Chen & Mooney, 2008). Geralmente consistem em registros de banco de dados combinados
com texto livre. Uma tendência recente promissora é a introdução de técnicas estatísticas que procuram
segmentar e alinhar automaticamente tais dados e textos (por exemplo, Barzilay & Lapata, 2005; Liang et al.,
2009; Konstas & Lapata, 2013). Em um artigo influente, Liang et al. (2009) descreveram esta estrutura em
termos de um modelo generativo que define uma distribuição p(ws), para sequências de palavras w e estados
de entrada s, com variáveis latentes especificando a correspondência entre w e s em termos de três
componentes principais: (i ) a probabilidade de os registros do banco de dados serem selecionados, dados
s; (ii) a probabilidade de determinados campos serem escolhidos para algum registro; (iii) a probabilidade de
uma string de determinado comprimento ser gerada dados os registros, campos e estados.
Os parâmetros do modelo podem ser encontrados usando o algoritmo Expectation Maximization (em). Um
exemplo de alinhamento é mostrado na Figura 4.
Esses modelos realizam o alinhamento identificando coocorrências regulares de segmentos de dados e
texto. Koncel-Kedziorski e Hajishirzi (2014) vão além disso ao propor um modelo que explora a estrutura
linguística para alinhar em resoluções variadas. Por exemplo, (13) abaixo está relacionado a duas
observações em um registro de jogo de futebol (um passe aéreo e uma falha), mas pode ser posteriormente
analisado em duas subpartes (indicadas pelos índices 1 e 2 em nosso exemplo), que individualmente
mapear para esses dois subeventos.
30
Figura 4: Registros do banco de dados alinhados ao texto com supervisão mínima. Depois
de Liang et al. (2009).
(13) (Chamakh sobe mais alto)1 e (mira uma cabeçada em direção ao gol que está ao
lado)2.
Uma abordagem diferente para aquisição de dados é descrita por Mairesse e Young
(2014), que usam técnicas de crowdsourcing para obter realizações para entradas semânticas/
pragmáticas que descrevem atos de diálogo no domínio do restaurante (ver Novikova &
Rieser, 2016b, para outra abordagem recente para crowdsourcing em um domínio diferente).
A chave para o sucesso desta técnica é o desenvolvimento de uma semântica que seja
suficientemente transparente para uso com não especialistas. Em artigo anterior, Mairesse
et al. (2010) descrevem um método para reduzir a quantidade de dados de treinamento
necessários para geração usando amostragem de incerteza (Lewis & Catlett, 1994), por meio
do qual um sistema pode ser treinado em uma quantidade relativamente pequena de dados
de entrada; posteriormente, o modelo aprendido é aplicado a novos dados, a partir dos quais
o sistema amostra os casos dos quais é menos certo, encaminhando-os para um oráculo
(possivelmente humano) para feedback, o que potencialmente leva a um novo ciclo de
treinamento.
Embora muitos dos sistemas estocásticos ponta a ponta que discutimos abaixo dependam
de formalismos bem definidos e normalmente precisem de alinhamentos bastante precisos
entre entradas e porções da saída, modelos de aprendizagem profunda mais recentes (Seção
3.3.5) foram baseados em parcialmente dados alinhados (por exemplo, Wen et al., 2015;
Lebret et al., 2016; Mei et al., 2016).
3.3.2 NLG baseado em modelos de linguagem
Dado um alinhamento entre dados e texto, uma forma de modelar o processo de PNL é
permanecer fiel à divisão entre escolhas estratégicas e táticas, usando o alinhamento
estatístico para informar a seleção de conteúdo, enquanto implementa técnicas de PNL para
adquirir regras, modelos ou esquemas. (á laMcKeown, 1985) para impulsionar o planejamento
e a realização de frases.
Lembre-se que o modelo generativo de Liang et al. (2009) emparelha dados com texto
com base em um processo Markov sequencial, combinando escolhas estratégicas (de
registros e campos de banco de dados) com escolhas táticas (de sequências de palavras)
em um único modelo probabilístico. Na verdade, as abordagens de modelagem de linguagem
baseadas em Markov continuam a ter destaque na GNL baseada em dados. Um dos
primeiros exemplos é Oh e Rudnicky (2002) no contexto de um sistema de diálogo no domínio das viagens,
31
onde a entrada assume a forma de um ato de diálogo (por exemplo, uma consulta que o
sistema precisa fazer para obter informações sobre os planos de viagem do usuário) com os
atributos a incluir (por exemplo, a cidade de partida). Ah, e a abordagem de Rudnicky abrange
tanto o planejamento quanto a realização de conteúdo. Baseia-se em corpora de diálogo
anotados com classes de enunciado, ou seja, o tipo de ato de diálogo que cada enunciado
pretende cumprir. Com base nisso, eles constroem modelos de linguagem n-gram separados
para cada classe de enunciado, bem como para classes de palavras que podem aparecer na
entrada (por exemplo, palavras correspondentes à cidade de partida).
O planejamento de conteúdo é feito por um modelo que prevê quais atributos devem ser
incluídos em um enunciado com base no histórico recente do diálogo. A realização é feita
usando uma combinação de modelos e modelos de n-gramas. Assim, a geração é concebida
como um processo de duas etapas (planejamento seguido de realização).
A dependência de modelos linguísticos padrão tem uma desvantagem potencial, na
medida em que tais modelos se baseiam numa suposição de história local, limitando a medida
em que as seleções anteriores podem influenciar as escolhas atuais. Um modelo alternativo e
discriminativo (conhecido pela comunidade da PNL pelo menos desde Ratnaparkhi, 1996) é a
regressão logística (Entropia Máxima). As bases para esta abordagem em NGL podem ser
encontradas em Ratnaparkhi (2000), que se concentrou principalmente na realização (embora
combinada com elementos de planeamento de frases). Ele comparou dois sistemas nlg
estocásticos baseados em uma estrutura de aprendizagem de entropia máxima com um
sistema nlg básico. O primeiro deles (nlg2 no artigo de Ratnaparkhi) usa um modelo de
linguagem condicional que gera sentenças de forma incremental, da esquerda para a direita,
prevendo a melhor palavra dada a história anterior (como nos modelos padrão de n-gramas).
e os atributos semânticos que ainda precisam ser expressos. O segundo (nlg3) aumenta o
modelo com relações de dependência sintática, realizando a geração prevendo recursivamente
os filhos esquerdo e direito de um determinado constituinte. Numa avaliação baseada em
julgamentos de correção, Ratnaparkhi descobriu que o sistema aumentado com dependências
era geralmente preferido.
Em trabalhos posteriores, Angeli et al. (2010) descrevem uma abordagem para nlg ponta
a ponta que mantém uma separação entre seleção de conteúdo, planejamento de frases e
realização, modelando cada processo como uma sequência de decisões em uma estrutura
log-linear, onde as escolhas podem ser condicionadas a histórias arbitrariamente longas. de
decisões anteriores. Isto permite-lhes lidar com dependências de longo alcance, tais como
relações de coerência, de forma mais flexível (por exemplo, um modelo pode incorporar a
informação de que um relatório meteorológico que descreve a velocidade do vento deve fazê-
lo depois de mencionar a direção do vento; ver Barzilay & Lapata, 2005 , para obter insights
semelhantes com base na otimização global). A separação de tarefas é mantida na medida
em que um conjunto diferente de recursos pode ser utilizado para informar decisões em cada
etapa do processo. As decisões de planejamento e realização de frases são baseadas em
modelos adquiridos de textos corpus: um modelo é selecionado com base em sua
probabilidade, dados os campos do banco de dados selecionados durante a seleção do conteúdo.
Mairesse e Young (2014) descrevem uma abordagem diferente, que também se baseia
em alinhamentos entre registros de banco de dados e texto, e busca uma solução global para
geração, sem uma distinção nítida entre componentes estratégicos e táticos. Neste caso, a
estrutura representacional básica é uma árvore do tipo
32
Figura 5: Estrutura em árvore para um ato de diálogo, segundo Mairesse e Young (2014).
As folhas correspondem a sequências de palavras. Nós não terminais são atributos
semânticos, mostrados na parte inferior como pilhas semânticas. As pilhas em negrito
representam conteúdo obrigatório.
mostrado na Figura 5. A raiz indica um tipo de ato de diálogo (no exemplo, o ato de diálogo
busca informar). As folhas da árvore correspondem a palavras ou sequências de palavras,
enquanto os não-terminais são pilhas semânticas, ou seja, as peças de entrada às quais as
palavras correspondem. Nesta estrutura, a seleção e a realização de conteúdo podem ser
resolvidas em conjunto, procurando a sequência de pilha ideal para um determinado ato de
diálogo e a sequência de palavras ideal correspondente a essa sequência de pilha. Mairesse
e Young usam um modelo de linguagem fatorada (flm), que estende modelos de n-gramas
condicionando probabilidades em diferentes contextos de enunciados, em vez de
simplesmente em histórias de palavras. Dado um ato de diálogo de entrada, a geração
funciona aplicando uma busca de Viterbi através do filme em cada uma das seguintes
etapas: (a) pilhas semânticas obrigatórias são identificadas para o ato de diálogo; (b) estas
são enriquecidas com possíveis pilhas não obrigatórias (aquelas que não estão em negrito
na Figura 5), geralmente correspondendo a palavras funcionais; (c) são encontradas
realizações para a sequência da pilha. A abordagem também é estendida para lidar com n-
melhores realizações, bem como para lidar com variações, na forma de paráfrases para a
mesma entrada.
3.3.3 NLG como classificação e otimização
Uma forma alternativa de pensar sobre decisões de GNL em diferentes níveis é em termos
de classificação, já encontrada no contexto de tarefas específicas, como determinação de
conteúdo (por exemplo, Duboue & McKeown, 2003) e realização (por exemplo, Filippova &
Strube, 2007). . Como a geração é, em última análise, uma questão de tomada de escolha
em múltiplos níveis, uma maneira de modelar o processo é usar uma cascata de
classificadores, onde a saída é construída de forma incremental, de modo que qualquer
classificador Ci use como (parte de) sua entrada a saída. de um classificador anterior Ciÿi .
Dentro deste quadro, ainda é possível conceber o GNL em termos de pipeline. Como
observam Marciniak e Strube (2005), uma forma alternativa de pensar sobre isso é
33
em termos de uma rede ponderada e multicamadas, onde a geração equivale a uma travessia do
melhor primeiro: em qualquer estágio i, o classificador Ci produz a saída mais provável, o que leva
ao próximo estágio Ci+1 ao longo do caminho mais provável . Esta generalização está conceitualmente
relacionada à visão do nlg em termos de políticas na estrutura de Aprendizagem por Reforço (ver
Seção 3.2.2 acima), que definem uma travessia através de sequências de estados que podem ser
organizados hierarquicamente (como no trabalho de Dethlefs & Cuay áhuitl, 2015, por exemplo).
Marciniak e Strube (2004) partem de um pequeno corpus de textos anotados manualmente de

descrições de rotas, dividindo a geração em uma série de oito problemas de classificação, desde a
determinação da precedência linear das unidades de discurso, até a determinação da forma lexical
dos verbos e o tipo de seus argumentos. As decisões de geração são tomadas usando o algoritmo
KStar baseado em instância, que demonstra superar uma linha de base majoritária em todas as
decisões de classificação.5
Uma estrutura semelhante foi recentemente adotada por Zarrieß e Kuhn (2013), tomando mais
uma vez como ponto de partida dados textuais anotados com uma representação de dependência,
conforme mostrado em (3.3.3) abaixo, onde os referentes são marcados v e p e o cabeçalho implícito
da dependência está sublinhado.
(14) Junge Familiev:0 dem Heimwegposs:v

sobre família Jovem a dia roubado:p
caminho
de casa 'Uma jovem família foi roubada a caminho
sobre roubado
de casa.'
Esses autores utilizam uma sequência de classificadores para realizar a geração e realização de
expressões referentes. Eles usam um modelo de classificação baseado em Support Vector Machines
que, dada uma representação de dependência de entrada extraída de um texto notado como (3.3.3),
executa duas tarefas em qualquer ordem: (a) mapear a entrada para uma árvore sintática superficial
para linearização; e (b) inserção de expressões referentes. Curiosamente, Zarrieß e Kuhn (2013)
observam que o desempenho de qualquer uma das tarefas depende da ordem, na medida em que
ambas as tarefas de classificação têm pior desempenho quando estão em segundo lugar na
sequência. Eles observam uma melhoria marginal quando as tarefas são executadas em paralelo,
mas alcançam o melhor desempenho em uma arquitetura baseada em revisão, onde o mapeamento
sintático é seguido pela inserção de expressões referenciais, seguida por uma revisão da sintaxe.
As cascatas de classificação para nlg mantêm uma separação clara entre tarefas, mas a
investigação nesta área ecoou preocupações anteriores sobre pipelines em geral (ver Secção 3.1),
sendo o principal problema a propagação de erros. É claro que escolhas infelizes terão impacto na
classificação mais a jusante, uma situação análoga ao problema do conflito de gerações. A conclusão
de Zarrieß e Kuhn (2013) a favor de uma arquitetura baseada em revisão fecha o círculo do nosso
relato, na medida em que é demonstrado que uma solução bem conhecida produz melhorias em uma
nova estrutura.
Nossa discussão até agora destacou repetidamente o fato de que uma organização sequencial
de tarefas nlg é suscetível à propagação de erros, seja na forma de erros de classificador ou de
decisões em um módulo baseado em regras que possui um
5 Abordagens baseadas em instâncias para nlg também são discutidas por Varges e Mellish (2010), embora
em uma abordagem overgenerate-and-rank, onde as regras geram excessivamente candidatos, que são então
classificados por comparação com a base de instâncias.
34
impacto negativo nos componentes a jusante. Uma solução potencial é ver a geração como
um problema de otimização, onde a melhor combinação de decisões é buscada em um
espaço exponencialmente grande de combinações possíveis. Encontramos o uso de
técnicas de otimização, como Programação Linear Inteira (ilp) no contexto de agregação e
determinação de conteúdo (Seção 2.3). Por exemplo, Barzilay e Lapata (2006) agrupam
unidades de conteúdo com base na sua similaridade entre pares, com uma etapa de
otimização para identificar um conjunto de pares que sejam maximamente semelhantes. O
ILP também foi explorado por Marciniak e Strube (2005), como um meio de neutralizar o
problema de propagação de erros em sua abordagem original baseada em classificação
(Marciniak & Strube, 2004). Conceitualmente, a estrutura de otimização é simples:
1. Cada tarefa nlg é mais uma vez modelada como classificação ou atribuição de rótulo,
mas desta vez, os rótulos são modelados como escolhas binárias (um rótulo é
atribuído ou não), associados a uma função de custo, definida em termos da
probabilidade de um rótulo nos dados de treinamento;
2. Pares de tarefas fortemente interdependentes (por exemplo, escolhas sintáticas e

realizações de registos, no exemplo de Zarrieß & Kuhn, 2013) têm um custo baseado
na probabilidade conjunta dos seus rótulos;
3. Um modelo ILP busca a solução de rotulagem global que minimize o custo geral, com
a restrição adicional de que se um de um par de rótulos correlacionados li , lj for
selecionado, o outro também deverá ser.
Esta solução de otimização demonstrou superar diferentes versões do pipeline de

classificação originalmente proposto por Marciniak e Strube (2004), assim como os
resultados de Dethlefs e Cuayáhuitl (2015), discutidos acima, mostraram que a
aprendizagem por reforço de uma política conjunta produz melhores interações de diálogo
do que aprender políticas isoladas para tarefas separadas de GNL. Outra vantagem deste
quadro é que, para abordagens baseadas no planeamento, ele depende de um formalismo
para o qual estão disponíveis ferramentas prontas a utilizar. Contudo, tal como acontece
com o planeamento, a eficiência pode ser um desafio, dado o grande espaço de
possibilidades para um problema de otimização.
3.3.4 NLG como 'análise'
Nos últimos anos, tem havido um ressurgimento do interesse em ver a geração em termos
de formalismos probabilísticos de gramática livre de contexto (sc cfg), ou mesmo como o
'inverso' da análise semântica. Por exemplo, Belz (2008) formaliza o problema nlg
inteiramente em termos de cfgs: um gerador de base expande as entradas (bits de dados
meteorológicos, neste caso) aplicando regras cfg; as probabilidades derivadas do corpus
são então usadas para controlar a escolha de quais regras expandir em cada estágio do
processo. O gerador base deste trabalho é feito à mão. No entanto, é possível extrair regras
ou modelos de corpora, como foi feito para regras de agregação (Stent & Molina, 2009;
White & Howcroft, 2015, e Secção 2.3), e também para abordagens estatísticas mais gerais
ao planeamento e realização de frases.
35
em uma estrutura de texto para texto (por exemplo, Kondadadi et al., 2013). Da mesma forma, abordagens para
nlg a partir de bases de conhecimento estruturadas, expressas em formalismos como rdf, descreveram técnicas
para extrair gramáticas ou modelos lexicalizados de tais entradas emparelhadas com descrições textuais (Ell &
Harth, 2014; Duma & Klein, 2013; Gyawali & Gardent, 2014).
O trabalho de Mooney e colegas (Wong & Mooney, 2007; Chen & Mooney, 2008; Kim & Mooney, 2010)
comparou uma série de diferentes estratégias de geração inspiradas no analisador semântico wasp (Wong &
Mooney, 2007), que utiliza dados probabilísticos. regras síncronas de cfg aprendidas a partir de pares de
enunciados e suas representações semânticas usando técnicas estatísticas de tradução automática.
Chen e Mooney (2008) usam esta estrutura para geração tanto adaptando o wasp em uma estrutura de geração,
quanto adaptando-o ainda mais para produzir um novo sistema, o wasper-gen. Enquanto o wasp procura
maximizar a probabilidade de uma representação de significado (mr) dada uma sentença, o wasper-gen faz o
oposto, buscando a sentença maximamente provável dada uma entrada mr, por assim dizer, aprendendo um
modelo de tradução do significado para o texto. Quando treinado em um conjunto de dados de transmissões
esportivas (o conjunto de dados robocup), o wasper-gen supera o wasp em métricas de avaliação baseadas em
corpus e demonstra atingir um nível de fluência e correção semântica que se aproxima do texto humano, com
base em julgamentos subjetivos pelos participantes experimentais. Observe, entretanto, que esta estrutura se
concentra principalmente na geração tática. A determinação do conteúdo é realizada separadamente, utilizando
uma variante do algoritmo para convergir para um modelo probabilístico que prevê quais eventos ou predicados
devem ser mencionados.
Por outro lado, o trabalho de Konstas e Lapata (Konstas & Lapata, 2012, 2013), que também se baseia em
cfgs, utiliza uma estrutura unificada por toda parte. O ponto de partida é um alinhamento do texto com os registros
da base de dados, ampliando a proposta de Liang et al. (2009). O processo de conversão de dados de entrada
em texto de saída é modelado em termos de regras que incorporam implicitamente diferentes tipos de decisões.
Por exemplo, dada uma base de dados de registos meteorológicos, as regras podem assumir a forma simplificada
mostrada abaixo,
(15) R(velocidade do vento) ÿ FS(temperatura), R(chuva)
(16) FS (velocidade do vento, min) ÿ FS (velocidade do vento, máx) FS (velocidade do vento, máx)
(17) FS (velocidade do vento, min) ÿ W (velocidade do vento, min)
onde R representa um registro de banco de dados, FS é um conjunto de campos, W é uma sequência de

palavras e todas as regras têm probabilidades associadas que condicionam o rhs no lhs, semelhante aos pcfgs
usados na análise. Estas regras especificam que uma descrição de windSpeed (15) deve ser seguida no texto
por um relatório de temperatura e chuva. De acordo com a regra (16), a velocidade mínima do vento deve ser
seguida pela velocidade máxima do vento com uma certa probabilidade, enquanto a regra (17) expande a regra
da velocidade mínima do vento para uma sequência de palavras de acordo com um modelo de linguagem
bigrama (Konstas & Lapata, 2012). Konstas e Lapata (2012) empacotam o conjunto de regras adquiridas no
estágio de alinhamento em um hipergrafo e tratam a geração como decodificação para encontrar a sequência de
palavras com maior probabilidade.
36
Sob essa visão, a geração é semelhante à análise invertida. A decodificação prossegue usando uma
adaptação do algoritmo cyk. Como o modelo que define o mapeamento da entrada para a saída não
incorpora heurística de fluência, o decodificador é intercalado com duas outras fontes de conhecimento
linguístico por Konstas e Lapata (2013): (a) um autômato ponderado de estado finito (representando um
n-grama modelo de linguagem); e (b) um modelo de dependência (cf. Ratnaparkhi, 2000, , também
discutido acima).
3.3.5 Métodos de aprendizagem profunda
Concluímos nossa discussão sobre métodos estatísticos com uma visão geral das aplicações de
arquiteturas de redes neurais profundas (nn) para geração e tarefas relacionadas.
A decisão de dedicar uma seção separada é justificada pelo interesse recente e renovado por esses
modelos, bem como pelo número comparativamente pequeno de estudos que adotaram essa estrutura
na nlg até o momento (com exceção da geração de legendas a partir de imagens, que revisamos na
Seção 4). No entanto, esta é sem dúvida uma das áreas de maior crescimento na pesquisa atual em PNL,
como na PNL em geral (ver Goldberg, 2016, para uma visão geral focada em PNL).
O recente ressurgimento do interesse em nns deve-se, em parte, aos avanços no hardware que
pode suportar problemas de aprendizagem com uso intensivo de recursos (Goodfellow et al., 2016). Mais
importante ainda, os nns são projetados para aprender representações em níveis crescentes de
abstração, explorando a retropropagação (LeCun et al., 2015; Goodfellow et al., 2016). Tais representações
são densas, de baixa dimensão e distribuídas, tornando-as especialmente adequadas para capturar
generalizações gramaticais e semânticas (ver Mikolov et al., 2013; Luong et al., 2013; Penning-ton et al.,
2014, inter alia). nns também obtiveram sucessos notáveis na modelagem sequencial usando redes
feedforward (Bengio et al., 2003; Schwenk & Gauvain, 2005), modelos log-bilineares (Mnih & Hinton,
2007) e redes neurais recorrentes (rnns Mikolov et al., 2010 ), incluindo rnns com unidades de memória
de longo prazo (Zaremba et al., 2015). Sua principal vantagem sobre os modelos padrão de n-gramas é
que eles representam sequências de comprimentos variados, evitando ao mesmo tempo a escassez de
dados e uma explosão no número de parâmetros através da projeção de histórias em um espaço de baixa
dimensão, de modo que histórias semelhantes tenham representações conjuntas.
As arquiteturas de memória de longo e curto prazo (lstm) são um desenvolvimento adicional de rnns
equipadas com células de memória e portas multiplicativas que controlam como as informações são
retidas ou esquecidas. Isso também lhes permite lidar com dependências de longo alcance. Em última
análise, o objetivo de tais modelos é aprender uma probabilidade condicional p(Y |T) entre uma sequência
de saída Y e uma sequência de entrada T cujo comprimento pode diferir daquele de Y (Sutskever et al.,
2014; LeCun et al., 2015). Sua capacidade de mapear desde entradas de comprimento variável até
representações vetoriais de dimensão fixa, condicionando a probabilidade do próximo elemento em uma
sequência de saída no vetor de dimensão fixa e nos tokens da sequência emitidos anteriormente, os torna
adequados para tarefas como como tradução automática (mt; por exemplo, Kalchbrenner & Blunsom,
2013; Bahdanau et al., 2015), que pode ser vista como instâncias de sequência a sequência mais geral
(também conhecida como seq2seq)
37
tarefas. Sutskever et al. (2014) mostraram que as arquiteturas lstm podem ser adaptadas
a diferentes problemas seq2seq, desacoplando-as em um codificador lstm inicial para a
entrada e um decodificador subsequente. Isto deu impulso à investigação sobre
aprendizagem multitarefa, onde diferentes tarefas partilham partes de uma arquitetura de
rede e as representações correspondentes (Dong et al., 2015; Luong et al., 2016). Por
exemplo, Luong et al. (2016) mostraram que melhorias podem ser obtidas em mt com uma
arquitetura seq2seq cujo codificador é co-treinado em um conjunto de dados de análise;
da mesma forma, a decodificação melhorou quando o decodificador (para o idioma de
destino inglês) foi compartilhado com um gerador de legenda.
Na verdade, as aplicações de nns em nlg remontam pelo menos a Kukich (1987),
embora o seu trabalho fosse experimental e restrito a exemplos de pequena escala.
Desde o início da década de 1990, quando o interesse pelas abordagens neurais diminuiu
nas comunidades de PNL e IA, a pesquisa em ciências cognitivas continuou a explorar
sua aplicação à sintaxe e à produção de linguagem (por exemplo, Elman, 1990, 1993;
Chang et al., 2006).
Nos últimos anos, a pesquisa sobre modelos neurais para geração começou a decolar.
Um ponto de partida pode ser encontrado no trabalho de Sutskever et al. (2011), que
mostraram que um lstm rnn em nível de caractere poderia ser usado para gerar sentenças
gramaticais em inglês. Desde então, vários aplicativos nlg surgiram. Por exemplo, Zhang
e Lapata (2014a) concentram-se na geração de poesia em chinês usando rnns, onde os
versos são gerados pela previsão de caracteres com base (a) nos versos anteriores do
poema, representados por um modelo de frase convolucional (Kalchbrenner & Blunsom,
2013) ; e (b) os caracteres anteriores no versículo atual. Em diálogo, tanto Wen et al.
(2015) e Serban et al. (2016) usam rnns para prever o próximo enunciado em um contexto
de diálogo, enquanto (Goyal et al., 2016) mostram que a geração de atos de diálogo
melhora quando modelados usando um rnn baseado em caracteres, em vez de um rnn
baseado em palavras.
Também houve alguns trabalhos aplicando nns à geração de dados para texto (Mei et
al., 2016; Lebret et al., 2016). A arquitetura baseada em lstm proposta por Mei et al. (2016)
baseia-se na estrutura codificador-decodificador, com um design que reflete amplamente
uma divisão na seleção e realização de conteúdo. O domínio de aplicação são os dados
meteorológicos (Angeli et al., 2010). O ponto de partida é um codificador lstm rnn
bidirecional que mapeia os registros de entrada para um estado oculto, seguido por um
alinhador que modela a seleção de conteúdo. O alinhador, inspirado no trabalho mt de
Bahdanau et al. (2015) e o trabalho de legendagem de imagens com base na atenção de
Xu et al. (2015), determina quais registros mencionar em função de sua probabilidade
anterior e da probabilidade de seu alinhamento com palavras do vocabulário; uma etapa
adicional de refinamento pondera os resultados do alinhamento com os anteriores,
tornando mais provável que registros mais importantes sejam verbalizados. Finalmente,
um decodificador rnn gera uma sequência palavra por palavra, calculando a cada passo
de tempo uma distribuição de probabilidade sobre as palavras, dado o contexto gerado
anteriormente e os registros. Os lstms permitem o tratamento de dependências de longo
alcance entre registros e descritores, que o modelo log-linear de Angeli et al. (2010) foram
considerados explicitamente (ver Seção 3.3.2 acima).
O trabalho de Lebret et al. (2016), por outro lado, restringe a geração à frase inicial
das biografias da Wikipédia a partir da tabela de fatos wiki correspondente
38
e modela a seleção e realização de conteúdo em conjunto em um feedforward nn (Bengio et al., 2003),

condicionando as probabilidades das palavras de saída tanto no contexto local quanto nas características
globais obtidas da tabela de entrada. Isto inclina o modelo para a cobertura total do conteúdo de um
campo. Por exemplo, um campo na tabela que contém o nome de uma pessoa normalmente consiste em
mais de uma palavra e o modelo deve concatenar as palavras que compõem o nome inteiro. Este modelo
mais simples pode, portanto, também ser caracterizado como incorporando um mecanismo de atenção.
3.4 Discussão
Um tema importante que emergiu de trabalhos recentes é a indefinição dos limites entre as tarefas
encapsuladas nas arquiteturas tradicionais. Isto é evidente nas abordagens baseadas no planeamento,
mas talvez a ruptura mais radical desta perspectiva surja nos sistemas estocásticos de conversão de
dados em texto, que capitalizam os alinhamentos entre os dados de entrada e o texto de saída,
combinando escolhas linguísticas e orientadas para o conteúdo num quadro unificado. Entre as questões
em aberto levantadas pela investigação sobre GNL estocástica está até que ponto as subtarefas precisam
de ser optimizadas conjuntamente e, em caso afirmativo, quais as fontes de conhecimento que devem
ser partilhadas entre elas.
Uma questão pendente é o equilíbrio entre alcançar resultados textuais adequados e fazê-lo de forma
eficiente e robusta. As primeiras abordagens que partiam de uma arquitetura de pipeline tendiam a
sacrificar a última em favor da primeira; esse foi o caso nas arquiteturas baseadas em revisão e no quadro-
negro. O mesmo se aplica, até certo ponto, às abordagens baseadas no planeamento que estão
enraizadas em paradigmas com uma longa história em IA: como o trabalho empírico recente demonstrou
(Koller & Petrick, 2011), estas também são suscetíveis a custos computacionais consideráveis, embora
isso aconteça com a vantagem de uma visão unificada da geração de línguas que também é compatível
com formalismos linguísticos bem compreendidos, como o ltag. As abordagens estocásticas apresentam
um problema diferente, nomeadamente, o de adquirir os dados certos para construir os modelos
estatísticos necessários. Embora esses dados sejam ou possam ser disponibilizados para tarefas como
recomendações, breves boletins meteorológicos ou resumos esportivos, resta saber se as técnicas
existentes para alinhamento de dados e texto podem ser ampliadas para domínios onde grandes volumes
de dados heterogêneos ( números, símbolos, etc.) são a norma e onde textos mais longos precisam ser
gerados.
Em qualquer caso, um resultado importante de muitas pesquisas recentes baseadas em dados em

GNL é a ênfase em formalismos unificados – de cfgs a processos markov – que fundamentam o processo
de geração de texto em todos os níveis. Outro desenvolvimento interessante é o uso de técnicas de
crowdsourcing para produzir dados que alinham representações de entrada não linguísticas com texto
(Mairesse & Young, 2014; Novikova & Rieser, 2016b).
À medida que as abordagens de aprendizagem profunda se tornam mais populares – e, como

veremos na próxima secção, são agora a abordagem dominante em certas tarefas, como a geração de
legendas de imagens – a necessidade de um alinhamento preciso pode tornar-se menos aguda, à medida
que a entrada-saída é mais flexível. acoplamentos podem constituir dados de treinamento adequados (por
exemplo, Wen et al., 2015). À medida que essas técnicas se tornam mais bem compreendidas, elas
39
provavelmente aparecerão mais fortemente em uma gama mais ampla de tarefas de GNL, bem como em
sistemas de GNL de ponta a ponta. Como afirmou um artigo de opinião recente (Manning, 2015), talvez a
sua atracção pela PNL, para além das vantagens de utilizar representações distribuídas, resida no facto
de encorajarem o profissional a concentrar-se no design, ou seja, em como uma arquitectura pode lidar
com o diferentes subpartes de um problema complexo, talvez nos moldes detalhados na Seção 2 acima.
Poderá isto implicar uma ênfase renovada em abordagens modulares e multiníveis para a GNL, com
arquitecturas complexas cujos componentes lidam com tarefas diferentes? Por outro lado, a pesquisa
sobre aprendizagem multitarefa no paradigma seq2seq também pode abrir novas possibilidades para
aprender como resolver múltiplas subtarefas de nlg dentro de uma única estrutura, como muitas
abordagens discutidas nas subseções anteriores procuram fazer.
Nas secções seguintes, desviamos a nossa atenção das tarefas padrão e da forma como são
organizadas, concentrando-nos em três grandes tópicos – geração de imagem para texto, variação
estilística e criatividade computacional – nos quais a investigação em GNL também se cruzou com a
investigação noutras áreas. áreas.
4 A interface da linguagem de visão: legendagem de

imagens e muito mais
Nos últimos anos, tem havido uma explosão de interesse na tarefa de gerar automaticamente legendas
para imagens, como parte de um esforço mais amplo para investigar a interface entre visão e linguagem
(Barnard, 2016). A legendagem de imagens é indiscutivelmente um caso paradigmático de geração de
dados para texto, onde a entrada vem na forma de uma imagem. A tarefa tornou-se um foco de
investigação não só na comunidade nlg, mas também na comunidade de visão computacional,
aumentando a possibilidade de sinergias mais eficazes entre os dois grupos de investigadores.
Além de suas aplicações práticas, o fundamento da linguagem em dados perceptivos tem sido há muito
tempo uma questão de interesse científico em IA (ver Winograd, 1972; Harnad, 1990; Roy & Reiter, 2005,
para uma variedade de visões teóricas sobre os desafios computacionais de a interface percepção-
linguagem).
A Figura 6 mostra alguns exemplos de geração de legendas, amostrados de publicações de
aproximadamente 6 anos. A pesquisa atual sobre geração de legendas concentra-se principalmente no
que Hodosh et al. (2013) referem-se a descrições de imagens conceituais concretas de elementos
retratados diretamente em uma cena. Como Donahue et al. (2015), a legendagem de imagens é uma
tarefa cuja entrada é estática e não sequencial (uma imagem, em vez de, digamos, um vídeo), enquanto
a saída é sequencial (um texto com várias palavras), em contraste com não- saídas sequenciais, como
rótulos de objetos (por exemplo
Duygulu et al., 2002; Ordonez et al., 2016, entre outros).
Nossa discussão será breve, uma vez que a legendagem de imagens foi recentemente objeto de
extensa revisão por Bernardi et al. (2016), e também foi discutido no contexto de questões mais amplas
na pesquisa sobre a interface visão-linguagem de Barnard (2016). Embora a presente seção se baseie
nessas fontes, ela está organizada de uma maneira um pouco diferente, trazendo também à tona
40
(b) Esta imagem mostra

uma pessoa, uma grama, uma
cadeira e um vaso (a) O homem no
morcego lê a planta. A pessoa está perto de balançar a grama verde no
campo, e enquanto isso o árbitro olha para a cadeira. A grama verde em
(cap de autoria humana-(c) Uma pessoa está tocando está perto da cadeira,
e perto do ms-coco o vaso de planta (Kulka-um saxofone (Elliott & dataset Lin et al., 2014) rni e outros, 2011)
De Vries, 2015)
(e) Um ônibus está descendo (d)

Um ônibus na estrada, a rua em frente (f) Uma lagartixa está parada em um prédio com um céu azul claro
(Mao et al., um galho de uma árvore (Hen- (Mitchell et al., 2012) 2015a) dricks et al., 2016b)
Figura 6: Alguns exemplos de geração de legendas
as conexões com nlg de forma mais explícita.
4.1 Dados
Uma visão geral detalhada dos conjuntos de dados é fornecida por Bernardi et al. (2016),
enquanto Ferraro et al. (2015) oferecem uma comparação sistemática de conjuntos de
dados para geração de legendas e respostas visuais a perguntas com um recurso online
que o acompanha6 .
Os conjuntos de dados normalmente consistem em imagens combinadas com uma ou
mais legendas de autoria humana (principalmente em inglês) e variam de cenas criadas
artificialmente (Zitnick et al., 2013) a fotografias reais. Entre estes últimos, os mais utilizados
são o Flickr8k (Hodosh et al., 2013), o Flickr30k (Young et al., 2014) e o ms-coco (Lin
6http://visionandlinguagem.net
41
e outros, 2014). Conjuntos de dados como o sbu1m Captioned Photo Dataset (Ordonez et al., 2011)
incluem legendas que ocorrem naturalmente de fotografias compartilhadas por usuários em sites como o
Flickr; portanto, as legendas nele incluídas não se restringem ao conceitual concreto. Há também uma
série de conjuntos de dados especializados e específicos de domínio, como o datast Caltech ucsd Birds
(cub; Wah et al., 2011).
Também houve uma série de tarefas compartilhadas nesta área, incluindo o Coco ('Common Objects
in Context') Captioning Challenge7 , organizado como parte do Large-Scale Scene Understanding
8
Challenge (lsun) e a Multimodal Machine Translation Task (Elliott et al., 2016). Adiamos a discussão da
avaliação de sistemas de legendagem de imagens para a Seção 7 deste artigo, onde ela é discutida no
contexto da avaliação de nlg como um todo.
4.2 As tarefas principais
Existem duas subtarefas logicamente distinguíveis em um sistema de legendagem de imagens, a saber,

análise de imagens e geração de texto. Isto não quer dizer que eles precisem ser organizados
separadamente ou sequencialmente. Entretanto, antes de discutir arquiteturas como tais, vale a pena
dar brevemente uma visão geral dos métodos usados para lidar com essas duas tarefas.
4.2.1 Análise de imagens
Existem três grupos principais de abordagens para tratar informações visuais para fins de legendagem.
Detecção Alguns sistemas baseiam-se em métodos de visão computacional para a detecção e rotulagem
de objetos, atributos, 'coisas' (normalmente mapeadas para substantivos massivos, como grama),
relações espaciais e, possivelmente, também informações de ação e pose.
Isso geralmente é seguido por uma etapa de mapeamento desses resultados para estruturas linguísticas
('planos de frases' do tipo discutido nas Seções 2 e 3), como árvores ou modelos (por exemplo, Kulkarni
et al., 2011; Yang et al., 2011; Mitchell et al., 2012; Elliott & De Vries, 2015; Yatskar et al., 2014;
Kuznetsova et al., 2014). Como o desempenho depende da cobertura e precisão dos detectores
(Kuznetsova et al., 2014; Bernardi et al., 2016), alguns trabalhos também exploraram a geração a partir
de anotações de imagem padrão ouro (Elliott & Keller, 2013; Wang & Gaizauskas, 2015; Muscat & Belz,
2015) ou cenas criadas artificialmente em que os componentes são conhecidos antecipadamente (Ortiz
et al., 2015).
Análise holística da cena Aqui, é utilizada uma caracterização mais holística de uma cena, contando com
características que normalmente não identificam objetos, atributos e similares. Tais recursos incluem
histogramas RGB, transformações de recursos invariantes em escala (sift; Lowe, 2004) ou representações
de baixa dimensão da estrutura espacial (como em Gist; Oliva & Torralba, 2001), entre outros. Este tipo
de processamento de imagem
7http://mscoco.org/dataset/#captions-challenge2015 8 http://
lsun.cs.princeton.edu/2016/
42
é frequentemente usado por sistemas que enquadram a tarefa em termos de recuperação, em vez
de geração de legenda propriamente dita. Tais sistemas usam um espaço unimodal para comparar
uma imagem de consulta com imagens de treinamento antes da recuperação da legenda (por
exemplo, Ordonez et al., 2011; Gupta et al., 2012) ou exploram um espaço multimodal que representa
a proximidade entre imagens e legendas (por exemplo, Hodosh et al., 2012). al., 2013; Socher et al., 2014).
Vetores de características de imagem densas Dado o sucesso das redes neurais convolucionais (cnn)
para tarefas de visão computacional (cf. por exemplo, LeCun et al., 2015), muitas abordagens de
aprendizagem profunda usam recursos de uma cnn pré-treinada, como AlexNet (Krizhevsky et al. .,
2012), vgg (Simonyan & Zisserman, 2015) ou Caffe (Jia et al., 2014). Mais comumente, os geradores
de legenda usam uma camada de ativação da rede pré-treinada como recursos de entrada (por
exemplo, Kiros et al., 2014; Karpathy et al., 2014; Karpathy & Fei-Fei, 2015; Vinyals et al., 2015; Mao
et al., 2015a; Xu et al., 2015; Yagcioglu et al., 2015; Hendricks et al., 2016b).
4.2.2 Geração ou recuperação de texto
Dependendo do tipo de técnica de análise de imagem, as legendas podem ser geradas usando uma
variedade de métodos diferentes, dos quais os seguintes estão bem estabelecidos.
Usando modelos ou árvores Sistemas que dependem de detectores podem mapear o resultado para
estruturas linguísticas em um estágio de planejamento de frases. Por exemplo, os objetos podem ser
mapeados para substantivos, as relações espaciais para preposições e assim por diante. Yao et al.
(2010) usam métodos semissupervisionados para analisar imagens em gráficos e então gerar texto
por meio de uma gramática simples. Outras abordagens baseiam-se em algoritmos de classificação
de sequências, como modelos ocultos de Markov (Yang et al., 2011) e campos aleatórios condicionais
(Kulkarni et al., 2011, 2013). Kulkarni et al. (2013, veja o exemplo na Figura 6b) experimentam
modelos de linguagem n-grama derivados da web, descobrindo que os primeiros são mais fluentes,
mas sofrem de falta de variação, uma questão que também abordamos anteriormente, em conexão
com com realização (Seção 2.6).
No sistema Midge (Mitchell et al., 2012, veja a Figura 6d para um exemplo de legenda), as
imagens de entrada são representadas como triplas que consistem em detecções de objetos/coisas,
detecções de ação/pose e relações espaciais. Estes são posteriormente mapeados para triplos de
substantivo, verbo e preposição e realizados usando uma gramática de substituição de árvore. Isto
é ainda reforçado com a capacidade de ‘alucinar’ palavras prováveis usando um modelo probabilístico,
ou seja, inserir palavras que não estão diretamente fundamentadas nas detecções realizadas na
própria imagem, mas que têm uma alta probabilidade de ocorrência, com base no corpus dados. Em
uma avaliação humana, Midge demonstrou superar o desempenho do sistema (Kulkarni et al., 2011)
e (Yang et al., 2011) em uma série de critérios, incluindo semelhança humana e correção.
Elliott e Keller (2013) usam representações de dependência visual (vdr), um formalismo

semelhante à gramática de dependência para descrever relações espaciais entre objetos com base
em características físicas, como proximidade e posição relativa. As detecções de uma imagem são
mapeadas para suas relações vdr correspondentes antes da geração (ver também Elliott & De Vries,
2015, e o exemplo na Figura 6c). Ortiz
43
e outros. (2015) usam o ILP para identificar pares de objetos em cenas abstratas (Zitnick & Parikh, 2013)
antes de mapeá-los para um vdr. A realização é enquadrada como uma tarefa de tradução automática
sobre pares vdr-texto. Uma preocupação semelhante com a identificação de relações espaciais é
encontrada no trabalho de Lin e Kong (2015), que utilizam gráficos de cena como entrada para um
realizador baseado em gramática. Muscat e Belz (2015) propõem um modelo Bayesiano ingênuo para
prever preposições espaciais com base em características de imagem, como proximidade e sobreposição
de objetos.
Utilização de modelos de linguagem A utilização de modelos de linguagem tem a vantagem potencial de

facilitar o treinamento conjunto de pares imagem-linguagem. Também pode render legendas mais
expressivas ou criativas se for usado para superar as limitações de gramáticas ou modelos (como mostra
o exemplo de Midge; Mitchell et al., 2012).
Em alguns casos, os modelos de n-gramas são treinados em dados fora do domínio, a abordagem
adotada por (Li et al., 2011, usando n-gramas em escala web) e Fang et al. (2015, utilizando um modelo
de linguagem de entropia máxima). A maioria das arquiteturas de aprendizagem profunda usa modelos
de linguagem na forma de vanilla rnns ou redes de memória de longo prazo (por exemplo, Kiros et al.,
2014; Vinyals et al., 2015; Donahue et al., 2015; Karpathy & Fei-Fei , 2015; Xu et al., 2015; Hendricks et
al., 2016b, 2016a; Mao et al., 2016). Essas arquiteturas modelam a geração de legendas como um
processo de previsão da próxima palavra em uma sequência. As previsões são influenciadas tanto pelo
histórico de legendas gerado até o momento (ou pelo símbolo inicial para palavras iniciais) quanto pelos
recursos da imagem que, conforme observado acima, são normalmente recursos extraídos de um cnn
treinado na tarefa de detecção de objetos.
Recuperação e recombinação de legendas Em vez de gerar legendas, alguns sistemas as recuperam

com base em dados de treinamento. A vantagem disso é que garante a fluência, especialmente se a
recuperação for de legendas inteiras, e não parciais. Hodosh et al. (2013) utilizaram um espaço
multimodal para representar imagens de treinamento e legendas, enquadrando a recuperação como um
processo de identificação da legenda mais próxima de uma imagem de consulta. A ideia de recuperação
de legendas “por atacado” tem vários precedentes. Por exemplo Farhadi et al. (2010) usam campos
aleatórios de Markov para analisar imagens em objeto, ação, triplos de cena, emparelhados com legendas
analisadas. Uma legenda para uma imagem de consulta é recuperada comparando-a com as imagens
analisadas nos dados de treinamento, encontrando a mais semelhante com base no WordNet. Da mesma
forma, o sistema Im2Text (Ordonez et al., 2011) classifica as legendas candidatas para uma imagem de
consulta. Devlin et al. (2015b) usam uma abordagem de vizinhos mais próximos, com similaridade de
legenda quantificada usando bleu (Papineni et al., 2002) e cidra (Vedantam et al., 2015). Uma visão
diferente de recuperação é proposta por Feng e Lapata (2010), que utilizam técnicas de sumarização
extrativa para recuperar descrições de imagens e fragmentos narrativos associados do texto circundante
em artigos de notícias.
Uma desvantagem potencial da recuperação em massa é que as legendas nos dados de treinamento
podem não corresponder bem a uma imagem de consulta. Por exemplo, Devlin et al. (2015b) observam
que quanto menos semelhante uma consulta for às imagens de treinamento, mais genérica será a legenda
retornada pelo sistema. Uma possível solução é usar correspondências parciais,
44
recuperar e recombinar fragmentos de legenda. Kuznetsova et al. (2014) usam detectores para
combinar imagens de consulta com instâncias de treinamento, recuperando legendas na forma
de fragmentos de árvore de análise que são então recombinados. Mason e Charniak (2014)
usam um conjunto de dados de domínio específico para extrair descrições e adaptá-las a uma
imagem de consulta usando um modelo conjunto de palavras visuais e textuais. No paradigma
de aprendizagem profunda, tanto Socher et al. (2014) e Karpathy et al. (2014) usam embeddings
de palavras derivados de análises de dependência, que são projetadas, juntamente com recursos
de imagem cnn, em um espaço multimodal. Trabalhos subsequentes de Karpathy e Fei-Fei
(2015) mostraram que esse emparelhamento refinado funciona igualmente bem com sequências
de palavras, evitando a necessidade de análise de dependência.
Recentemente, Devlin et al. (2015a) compararam abordagens de recuperação do vizinho
mais próximo com diferentes tipos de modelos de linguagem para geração de legendas,
especificamente, a abordagem Maximium Entropy de Fang et al. (2015), uma abordagem
baseada em lstm e rnns que são acoplados a uma cnn para análise de imagens (por exemplo,
Vinyals et al., 2015; Donahue et al., 2015; Karpathy & Fei-Fei, 2015). Uma comparação da
qualidade linguística das legendas sugeriu que houve uma tendência significativa de todos os
modelos reproduzirem as legendas observadas no conjunto de treinamento, repetindo-as para
diferentes imagens no conjunto de teste. Isto pode dever-se à falta de diversidade nos dados, o
que também pode explicar porque é que a abordagem do vizinho mais próximo se compara
favoravelmente com as abordagens baseadas em modelos de linguagem.
4.3 Como a linguagem é baseada em dados visuais?

Como sugere a discussão anterior, as opiniões sobre a relação entre dados visuais e linguísticos
dependem de como cada uma das duas subtarefas é tratada. Assim, os sistemas que dependem
de detecções tendem a fazer uma distinção bastante clara entre processamento de entrada e
selecção de conteúdo, por um lado, e planeamento e realização de frases, por outro (por
exemplo, Kulkarni et al., 2011; Mitchell et al., 2012). ; Elliott e Keller, 2013). A ligação entre
expressões linguísticas e características visuais é mediada pelos resultados dos detectores. Por
exemplo, Midge (Mitchell et al., 2012) usa as detecções de objetos para determinar quais
substantivos mencionar, antes de dar corpo à legenda com atributos (mapeados para adjetivos)
e verbos. Da mesma forma, Elliott e Keller (2013) utilizam vdrs para determinar expressões
espaciais.
Sistemas baseados em recuperação que dependem de espaços de similaridade unimodais

ou multimodais representam a ligação entre expressões linguísticas e características de imagem
de forma mais indireta. Aqui, a semelhança desempenha o papel dominante. Num espaço
unimodal (Ordonez et al., 2011; Gupta et al., 2012; Mason & Charniak, 2014; Kuznetsova et al.,
2012, 2014), são imagens que são comparadas, com legendas (parciais) recuperadas com base
em semelhança de imagem. Uma série de abordagens de aprendizagem profunda também estão
amplamente em conformidade com este esquema. Por exemplo, tanto Yagcioglu et al. (2015) e
(Devlin et al., 2015b) recuperam e classificam legendas para uma imagem de consulta, usando
um cnn para a representação do espaço visual. Por outro lado, os espaços multimodais envolvem
um mapeamento direto entre características visuais e linguísticas (por exemplo, Hodosh et al.,
2013; Socher et al., 2014; Karpathy et al., 2014), permitindo que os sistemas mapeiem desde
imagens até 'semelhantes' – que é, relacionado ou relevante – legendas.
45
Muito trabalho interessante sobre integração visão-linguagem está sendo realizado com
modelos de aprendizagem profunda. Kiros et al. (2014) introduziram modelos de linguagem
neural multimodal (mrnn), experimentando duas arquiteturas principais. Seu modelo log-
bilinear com tendência de modalidade (mlbl-b) usa um viés aditivo para prever a próxima
palavra em uma sequência com base no contexto linguístico e nos recursos da imagem cnn.
O Modelo Log-Bilinear Fatorado de 3 Vias (mlbl-f) também controla a matriz de representação
para uma palavra com características de imagem. Na mesma linha, Donahue et al. (2015)
propõem uma arquitetura combinada cnn + lstm (também usada por Venugopalan et al.,
2015b, 2015a, para legendagem de vídeo) onde a próxima palavra é prevista em função das
palavras anteriores e dos recursos da imagem. Em uma versão da arquitetura, eles injetam
recursos CNN no lstm a cada passo de tempo. Em uma segunda versão, eles usam dois
lstms empilhados, o primeiro dos quais utiliza recursos cnn e produz uma saída que constitui
a entrada para o próximo lstm para prever a palavra. Finalmente, Mao et al. (2015a)
experimentam diversas configurações mrnn, obtendo seus melhores resultados com uma
arquitetura na qual existem duas camadas de incorporação de palavras precedendo a
camada recorrente, que por sua vez é projetada em uma camada multimodal onde
características linguísticas são combinadas com características cnn. Um exemplo de legenda
é mostrado na Figura 6e acima.
Esses modelos de redes neurais esclarecem as consequências da combinação das duas
modalidades em diferentes estágios, refletindo o ponto defendido por Manning (2015, cf.
Seção 3.3.5) de que esse paradigma incentiva o foco em arquiteturas e design. Em particular,
os recursos de imagem podem ser usados para influenciar a camada recorrente de geração
de linguagem - no início ou em cada passo de tempo do RNN - como no trabalho de Donahue
et al. (2015). Alternativamente, as características da imagem podem ser combinadas com
características linguísticas numa fase seguinte ao rnn, como no trabalho de Mao et al. (2015a).
4.4 Visão e linguagem: direções atuais e futuras

para NLG
A geração de imagem para texto é uma área da nlg onde há um claro domínio de métodos
de aprendizagem profunda. O trabalho atual concentra-se em vários temas:
1. Generalizar para além dos dados de formação ainda é um desafio, como mostra o
trabalho de Devlin et al. (2015a). De modo mais geral, lidar com novas imagens
continua difícil, embora tenham sido realizados experimentos sobre o uso de dados
de treinamento fora do domínio para expandir o vocabulário (Ordonez et al., 2013),
aprender novos conceitos (Mao et al., 2015b) ou transferir recursos. de regiões de
imagem contendo rótulos conhecidos, até regiões semelhantes, mas anteriormente
não atestadas (Hen-dricks et al., 2016b, das quais um exemplo de legenda é mostrado
na Figura 6f). O progresso na aprendizagem zero-shot, onde o objectivo é identificar
ou categorizar imagens para as quais há poucos ou nenhuns dados de treino
disponíveis, provavelmente contribuirá para a resolução de problemas de escassez de
dados (por exemplo, Antol et al., 2014; Elhoseiny et. al., 2017).
2. Também se dá atenção ao que Barnard (2016) chama de localização, ou seja, a

associação de expressões linguísticas com partes de imagens,
46
e a capacidade de gerar descrições de regiões específicas da imagem. Trabalhos recentes

incluem o de Karpathy e Fei-Fei (2015), Johnson et al. (2016) e (Mao et al., 2016), que se
concentram em descrições inequívocas de regiões específicas de imagens e/ou objetos em
imagens (ver Seção 2.5 acima para alguns trabalhos relacionados). Os modelos baseados na
atenção são um desenvolvimento adicional nesta frente. Eles foram explorados em várias
tarefas seq2seq, principalmente para tradução automática (Bahdanau et al., 2015). No caso da
legenda de imagens, a ideia é alocar pesos variáveis para porções de legendas nos dados de
treinamento, dependendo do contexto atual, para refletir a 'relevância' de uma palavra dadas as
palavras anteriores e uma região da imagem (Xu et al., 2015).
3. Trabalhos recentes também começaram a explorar a geração a partir de imagens que vai além
do conceitual concreto, por exemplo, produzindo descrições explicativas (Hendricks et al.,
2016a). Um desenvolvimento adicional é o trabalho sobre Resposta Visual a Perguntas, onde,
em vez de legendas descritivas, o objetivo é produzir respostas a perguntas específicas sobre
imagens (Geman et al., 2015; Barnard, 2016; Antol et al., 2015; Malinowski et al., 2015;
Malinowski et al. , 2016).
Recentemente, um novo conjunto de dados foi proposto fornecendo textos conceituais e
“narrativos” concretos juntamente com imagens (Huang et al., 2016), uma nova direção
promissora para este ramo da GNL.
4. Há um conjunto crescente de trabalhos que generalizam a tarefa de entradas estáticas para

entradas sequenciais, especialmente vídeos (por exemplo, Kojima et al., 2002; Reg-neri et al.,
2013; Venugopalan et al., 2015b, 2015a). Aqui, os desafios incluem lidar com dependências
temporais entre cenas, mas também lidar com redundâncias.
5 Variação: Gerando texto com estilo, personalidade e

afeto
Com base nas seções anteriores, o leitor pode ser desculpado por pensar que a nlg está principalmente
preocupada em fornecer informações factuais, seja na forma de um resumo de dados meteorológicos
ou na descrição de uma imagem. Este preconceito também foi sinalizado na Introdução, onde
apresentamos uma breve visão geral de alguns domínios de aplicação e observamos que informar era
muitas vezes, embora nem sempre, o objetivo da NGL.
Ao longo da última década, no entanto, tem havido uma tendência crescente na literatura NGL de
também se concentrar em aspectos da entrega de informação textual que são indiscutivelmente não
proposicionais, isto é, características do texto que não são estritamente falando baseadas na entrada.
dados, mas estão relacionados à forma de entrega.
Nesta seção, nos concentramos nessas tendências, começando com o conceito amplo de “variação
estilística”, antes de nos voltarmos para a geração de texto afetivo e de polidez.
47
5.1 Gerando com estilo: variação textual e personalidade

alidade
A que se refere o termo 'estilo linguístico'? A maioria trabalha no que devemos

referido como 'nlg estilístico' evita uma definição rigorosa, preferindo
operacionalizar a noção nos termos mais relevantes para o problema em questão.
'Estilo' é geralmente entendido como se referindo a características do léxico, da gramática
e da semântica que coletivamente contribuem para a identificabilidade de uma instância de uso
da linguagem como pertencente a um autor específico, ou a uma situação específica (assim,
distingue-se entre níveis de formalidade estilística, ou fala-se das características distintivas do
estilo de William Faulkner). Isto implica que qualquer
investigação do estilo deve preocupar-se, pelo menos em parte, com a variação entre
os traços que marcam tais variáveis autorais ou situacionais. Alinhado com isto
uso, esta seção analisa os desenvolvimentos em nlg nos quais a variação é a chave
preocupação, geralmente no nível tático, e não no estratégico, sendo a ideia
que uma determinada informação pode ser transmitida de maneiras linguisticamente distintas,
(cf. van der Sluis & Mellish, 2010). Esta estratégia foi, por exemplo, explicitamente
adotado por Power et al. (2003).
Dada a sua ênfase nas características linguísticas, o controle do estilo (seja como for
definido) é um problema de grande interesse para a NGL, uma vez que aborda diretamente questões de
escolha, que são sem dúvida a marca registrada de qualquer sistema NGL (cf Reiter, 2010).
As primeiras contribuições nesta área definiram características estilísticas usando regras para
variar a geração de acordo com objetivos pragmáticos. Por exemplo, McDonald e Pustejovsky
(1985) argumentaram que 'o estilo de prosa é uma consequência de quais decisões são tomadas
durante a transição do nível de representação conceitual para o nível linguístico'
(p. 61), colocando assim o problema dentro do domínio do planejamento de frases
e realização. Essa postura também foi adotada por DiMarco e Hirst (1993),
que se concentram na variação sintática, propondo uma gramática estilística para o inglês e
Francês.
Mais recentemente, uma perspectiva semelhante foi adoptada por Walker et al. (2002), em
sua descrição de como o planejador de frases pontuais foi adaptado para aprender estratégias
para diferentes objetivos comunicativos, conforme refletido na retórica e sintática
estruturas dos planos de frases. O planejador foi treinado usando uma técnica de reforço para
aprender correlações entre características de planos de frases e classificações humanas.
da adequação de uma amostra de resultados para diferentes objetivos comunicativos.
Como Walker et al. (2002), abordagens contemporâneas à variação estilística
tendem a evitar regras em favor de métodos baseados em dados para identificar características
relevantes e dimensões de variação dos corpora, no que poderia ser
pensado como uma visão indutiva do estilo, onde a variação é caracterizada pela
distribuição de quaisquer características linguísticas consideradas relevantes. Um precedente
importante para esta visão é a abordagem multidimensional baseada em corpus de Biber.
estilo e registro da variação (Biber, 1988), aproximadamente contemporâneo do
abordagem inspirada na gramática de DiMarco e Hirst (1993).
O modelo de Biber esteve no centro do trabalho de Paiva e Evans (2005), que apresenta
algumas características em comum com as abordagens estatísticas “globais” para
nlg discutido na Seção 3.3, na medida em que explora estatísticas para informar decisões
48
fazer nos pontos de escolha relevantes, em vez de filtrar as saídas de um módulo de

sobregeração. Paiva e Evans (2005) utilizaram um corpus de folhetos informativos aos
pacientes, realizando análise fatorial sobre suas características linguísticas para identificar duas
dimensões estilísticas. Eles então permitiram que seu sistema gerasse um grande número de
textos, variando suas decisões em vários pontos de escolha (por exemplo, escolher um
pronome versus um NP completo) e mantendo um rastro. Os textos foram então pontuados nas
duas dimensões estilísticas e um modelo de regressão linear foi desenvolvido para prever a
pontuação em uma dimensão com base nas escolhas feitas pelo sistema.
Este modelo foi utilizado durante os testes para prever a melhor escolha em cada ponto de
escolha, dado um estilo desejado. O estilo, entretanto, é uma característica global de um texto,
embora sobrevenha a decisões locais. Esses autores resolveram o problema usando um
algoritmo de busca do melhor primeiro para identificar a série de decisões locais conforme
pontuadas pelos modelos lineares, que tinha maior probabilidade de maximizar o efeito
estilístico desejado, produzindo variações como as seguintes (exemplos de Paiva & Evans ,
2005, página 61):
(18) A dose do medicamento do paciente é tomada duas vezes ao dia. São dois gramas.
(19) A dose de dois gramas do medicamento do paciente é tomada duas vezes ao dia.
(20) O paciente toma a dose de dois gramas do medicamento do paciente duas vezes por
dia.
Alguns autores (por exemplo, Mairesse & Walker, 2011, , sobre os quais mais abaixo)
notaram que certas características, uma vez selecionadas, podem “cancelar” ou obscurecer o
efeito estilístico de outras características. Isto levanta a questão de saber se o estilo pode de
facto ser modelado como um fenómeno linear e aditivo, no qual cada característica contribui
para uma percepção global do estilo independentemente das outras (módulo o seu peso na
equação de regressão).
Uma segunda questão é se a variação estilística poderia ser modelada de uma forma mais
específica, por exemplo, adaptando o estilo a um autor específico, em vez de dimensões
genéricas relacionadas com a “formalidade”, o “envolvimento” e assim por diante. Por exemplo,
uma análise baseada em corpus de previsões meteorológicas escritas por humanos por Reiter
et al. (2005) descobriram que a escolha lexical varia em parte com base no autor. Uma linha de
trabalho investigou isso usando corpora de expressões referenciais, como o Tuna Corpus (van
Deemter et al., 2012a), no qual múltiplas expressões referenciais de diferentes autores estão
disponíveis para um determinado domínio de entrada. Por exemplo, Bohnet (2008) e Di
Fabbrizio et al. (2008) exploram métodos estatísticos para conhecer as preferências individuais
por atributos específicos, uma estratégia também utilizada por Viethen e Dale (2010). Hervás et
al. (2013) usam o raciocínio baseado em casos para informar a escolha lexical ao realizar um
conjunto de atributos semânticos para uma expressão referencial, onde a base de casos
diferencia os autores no corpus para levar em conta as preferências individuais de lexicalização
(ver também Hervás et al. , 2016).
Uma visão mais ambiciosa da variação individual está presente no trabalho de Mairesse e
Walker (2010, 2011), no contexto da NGL para sistemas de diálogo.
Aqui, o objetivo é variar a saída de um gerador de modo a projetar diferentes
49
traços de personalidade. Semelhante ao modelo de Biber (1988), a personalidade recebe

aqui uma definição multidimensional, através do modelo clássico dos 'Big 5' (por exemplo,
John & Srivastava, 1999), onde a personalidade é uma combinação de cinco traços principais
(por exemplo, introversão/extroversão). ). No entanto, embora a variação estilística seja
geralmente definida como um fenómeno linguístico, as características linguísticas da
personalidade são apenas reflectidas indirectamente na fala ou na escrita (uma hipótese
subjacente a muitos trabalhos sobre a detecção da personalidade e de outras características
no texto, incluindo Oberlander & Nowson, 2006; Argamon et al., 2007; Schwartz et al., 2013;
Youyou et al., 2015).
O sistema de personagens de Mairesse e Walker, desenvolvido no domínio da
restauração, tem como entrada um objetivo pragmático e, tal como o sistema de Paiva e
Evans (2005), uma lista de parâmetros de estilo com valores reais, desta vez representando
pontuações no cinco traços de personalidade. O sistema estima parâmetros de geração
para recursos estilísticos com base nas características de entrada, usando modelos
aprendidos por máquina adquiridos a partir de um conjunto de dados que combina
declarações de amostra com julgamentos de personalidade humana. Por exemplo, uma
expressão que reflecte uma elevada extroversão pode ser mais prolixa e envolver mais uso
de palavrões (ver exemplo 21), em comparação com um estilo mais introvertido, que pode
demonstrar mais incerteza, por exemplo através do uso de gagueira e rodeios (exemplo 22). .
(21) Kin Khao e Tossed são excelentes. Kin Khao só tem funcionários rudes. Jogado
apresenta garçons meio rudes, mesmo que a comida seja bastante adequada.
(22) Err... não tenho muita certeza. Jogado oferece um tipo de comida decente. Hum...
No entanto, Kin Khao, que tem comida bastante adequada, é um lugar
tailandês. Você provavelmente iria gostar desses restaurantes.
Um resultado interessante da avaliação com sujeitos humanos relatada por Mairesse e

Walker (2011) é que os leitores variam significativamente nos seus julgamentos sobre qual
personalidade é realmente refletida por um determinado texto. Isto sugere que a relação
entre tais características psicológicas e os seus efeitos linguísticos está longe de ser simples.
O mesmo provavelmente poderia ser dito da estilística em geral. Claramente, esta é uma
área que está madura para futuras pesquisas.
5.2 Gerando com sentimento: afeto e polidez

A personalidade geralmente é pensada em termos de características, que são relativamente
estáveis ao longo do tempo. No entanto, o uso da linguagem pode variar não apenas entre
indivíduos, em função das suas características estáveis, mas também dentro dos indivíduos
ao longo do tempo, em função dos seus estados afetivos mais transitórios. 'Nlg afetivo' (um
termo devido a De Rosis & Grasso, 2000) preocupa-se com a variação que reflete estados
emocionais que, ao contrário dos traços de personalidade, são relativamente transitórios.
Neste caso, os objetivos podem ser duplos: i) induzir um estado emocional no receptor; ou
(ii) para refletir o estado emocional do produtor.
Tal como no caso da personalidade, a relação entre emoção e linguagem está longe de
ser clara, como observa Belz (2003). Por um lado, não está claro se
50
apenas as escolhas linguísticas superficiais precisam ser afetadas. Alguns autores argumentam que
o impacto afetivo de um texto interfere na seleção do conteúdo; esta postura foi adoptada, por
exemplo, em algumas aplicações em e-saúde onde a notificação de questões relacionadas com a
saúde deve ser sensível ao seu potencial impacto emocional (DiMarco et al., 2007; Mahamood &
Reiter, 2011).
A maior parte do trabalho sobre NGL afetiva concentrou-se, no entanto, em escolhas táticas (por exemplo,
Hovy, 1988; Fleischman & Hovy, 2002; Forte et al., 2007; van Deemter e outros, 2008). Várias
características linguísticas que podem ter impacto emocional foram identificadas, desde o aumento
do uso de redundância para melhorar a compreensão de mensagens carregadas de emoção
(Walker, 1992; De Rosis & Grasso, 2000), até o aumento do uso de pronomes e advérbios de
primeira pessoa, bem como a ordenação das frases para obter ênfase ou reduzir o impacto
emocional adverso (De Rosis & Grasso, 2000).
Esta pesquisa sobre NGL afetiva baseia-se em modelos de emoção de vários graus de
complexidade e plausibilidade cognitiva. A tendência comum subjacente a todas estas abordagens,
contudo, é que os estados emocionais devem ter impacto nas escolhas lexicais, sintáticas e outras
escolhas linguísticas. A questão então é até que ponto tais escolhas são realmente percebidas
pelos leitores ou usuários de um sistema.
Num estudo empírico, van der Sluis e Mellish (2010) relataram duas experiências que
investigaram o efeito de várias decisões táticas no impacto emocional do texto nos leitores. Numa
experiência, os textos forneceram aos participantes um relatório (falso) sobre o seu desempenho
num teste de aptidão, com variações induzidas manualmente, como estas:
(23) Inclinação positiva: Além disso, você também superou a maioria das pessoas da sua faixa
etária com suas pontuações excepcionais em Imaginação e Criatividade (7,9 vs. 7,2) e
Inteligência Lógico-Matemática (7,1 vs. 6,5).
(24) Inclinação neutra/factual: você se saiu melhor do que a maioria das pessoas da sua faixa etária
com suas pontuações em Imaginação e Criatividade (7,9 vs. 7,2) e Inteligência
Lógico-Matemática (7,1 vs. 6,5).
A avaliação destes textos mostrou que a medida em que as decisões tácticas afectivas influenciam
os estados emocionais do ouvinte depende de uma série de outros factores, incluindo o grau em que o
leitor está directamente implicado no que o texto diz (no caso de um teste de aptidão, presumiria-se que
o leitor sentiria que os resultados têm relevância pessoal). Uma questão importante levantada por este
estudo é como o afeto deve ser medido: van der Sluis e Mellish (2010) usaram um questionário
padronizado de autoavaliação para estimar mudanças no afeto antes e depois da leitura de um texto,
mas a melhor maneira de medir a emoção continua sendo uma questão aberta.
A inclinação emocional da linguagem usada por um autor ou falante pode ter implicações no
grau em que o ouvinte ou leitor pode se sentir “impingido”. Isto se torna particularmente relevante
em sistemas interativos, onde os componentes da GNL geram linguagem no contexto do diálogo.
Considere, por exemplo, a diferença entre estas solicitações:
51
(25) Estratégia direta: Pique os tomates!
(26) Estratégia de aprovação: Seria possível picar os tomates?
(27) Estratégia de autonomia: Você poderia picar os tomates?
(28) Estratégia indireta: Os tomates ainda não estão picados.
As quatro estratégias exemplificadas acima apresentam graus variados de polidez que, de acordo com um relato influente (Brown
& Levinson, 1987), depende do rosto. A face positiva reflete o desejo do locutor de que alguns de seus objetivos sejam compartilhados
com seus interlocutores; face negativa refere-se ao desejo do falante de não ter seus objetivos afetados por outras pessoas. A ligação
com o afeto que sugerimos acima depende destas distinções: diferentes graus de polidez refletem diferentes graus de “ameaça” ao
ouvinte; portanto, a geração de linguagem baseada na estratégia da face direita poderia ser vista como um ramo da NGL afetiva.
Numa proposta inicial e influente, Walker et al. (1997) propuseram uma interpretação de
(Brown & Levinson, 1987) em termos das quatro estratégias de diálogo, exemplificadas em
(25 – 28) acima. Posteriormente, Moore et al. (2004) usaram esta estrutura na geração de
feedback tutorial, onde um planejador de discurso usou uma rede bayesiana para informar
escolhas linguísticas compatíveis com o valor alvo de polidez/afeto em um determinado
contexto (ver Johnson et al., 2004, para uma abordagem relacionada ).
Gupta et al. (2007) também utilizaram as quatro estratégias de diálogo identificadas por
Walker et al. (1997) no sistema polly, que utilizou planejamento baseado em faixas para gerar
um plano distribuído entre dois agentes em uma tarefa colaborativa (ver também Gupta et al.,
2008). Uma descoberta interessante na sua avaliação é que a percepção da ameaça facial
depende do ato de fala; por exemplo, as solicitações podem ser mais ameaçadoras.
Gupta et al. (2007) também observam possíveis diferenças culturais na percepção da ameaça
facial (neste caso, entre participantes do Reino Unido e da Índia).
5.3 Estilo e afeto: considerações finais

Em resumo, o trabalho sobre variação na NGL, centrado principalmente em decisões táticas,
ou características linguísticas de nível superficial, tem procurado modelar diferenças de
registro ou estilo, bem como diferenças individuais devido à personalidade e ao estado afetivo.
Esta área de pesquisa em GNL ainda está em um estado bastante incipiente, com
diversas questões em aberto de importância teórica e computacional. Entre estas está a
questão de qual a melhor forma de modelar construções complexas e multidimensionais,
como personalidade ou emoção; esta questão fala tanto da plausibilidade cognitiva dos
modelos que informam as escolhas linguísticas, quanto da viabilidade prática de diferentes
estratégias de aprendizado de máquina que poderiam ser aproveitadas para a tarefa (por
exemplo, modelos lineares e aditivos versus modelos mais 'globais' de personalidade ou estilo ).
Também importante aqui é o tipo de dados usados para informar as estratégias de geração:
como vimos acima, muito do trabalho afetivo de GNL depende de avaliações feitas por juízes
humanos. No entanto, alguns trabalhos recentes em computação afetiva questionaram a
52
uso de classificações, comparando-as com métodos fisiológicos e baseados em classificação (por exemplo,
Martínez et al., 2014; Yannakakis & Martÿnez, 2015). Esta e outras pesquisas semelhantes são
provavelmente de grande relevância para os pesquisadores da NGL.
Uma segunda questão importante é saber quais as escolhas linguísticas que realmente transmitem a
variação pretendida ao leitor ou ouvinte. Embora os sistemas actuais utilizem uma série de dispositivos,
desde estratégias de agregação até à escolha lexical, não está claro quais são realmente considerados
como tendo o efeito desejado.
Uma terceira via de investigação importante, que é especialmente relevante para sistemas interactivos,
é a adaptabilidade, isto é, a forma como os falantes (ou sistemas) alteram as suas escolhas linguísticas
como resultado das declarações dos seus interlocutores (Clark, 1996; Niederhoffer & Pennebaker, 2002;
Pickering & Garrod, 2004), tema que também começou a ser explorado na nlg
6 Gerando texto criativo e divertido

Os “bons” escritores não apenas apresentam as suas ideias em prosa coerente e bem estruturada.
Eles também conseguem manter a atenção do leitor por meio de técnicas narrativas e, ocasionalmente,
surpreender o leitor, por exemplo, pelo uso criativo de linguagem, como pequenas piadas ou metáforas
bem colocadas (ver, por exemplo, entre muitos outros, Flower & Hayes, 1981). ; Nauman et al., 2011; Veale
& Li, 2015). As técnicas e aplicações de GNL que discutimos até agora nesta pesquisa, sem dúvida, não
simulam bons escritores nesse sentido e, como resultado, os textos gerados automaticamente podem ser
percebidos como um tanto enfadonhos e repetitivos.
Esta falta de atenção aos aspectos criativos da produção linguística dentro da NGL não se deve a uma
falta geral de interesse académico nestes fenómenos. Na verdade, a pesquisa computacional sobre
criatividade tem uma longa tradição, com raízes que remontam aos primórdios da IA (como observa Gerv
ás, 2013, o primeiro algoritmo de geração de histórias registrado, Novel Writer, foi desenvolvido por
Sheldon Klein em 1973). ).
No entanto, é justo dizer que, até agora, tem havido pouca interação entre investigadores das comunidades
de criatividade computacional e nlg, respetivamente, embora ambos os grupos, na nossa opinião, possam
aprender muito uns com os outros. Em particular, os pesquisadores de NGL podem se beneficiar de insights
sobre o que constitui a produção de linguagem criativa, bem como de características estruturais da narrativa
que têm o potencial de melhorar a produção de NGL, mesmo em sistemas de dados para texto (ver Reiter
et al., 2008, para um argumento nesse sentido em relação a um sistema de geração de textos médicos).
Ao mesmo tempo, os investigadores em criatividade computacional também poderiam beneficiar dos
conhecimentos fornecidos pela comunidade nlg no que diz respeito à geração de linguagem fluente, uma
vez que, como veremos, grande parte do foco nesta investigação, especialmente no que diz respeito à
narrativa, está na geração de planos e na determinação de conteúdo.
A seguir, damos uma visão geral das abordagens automáticas para a produção criativa de linguagem,
começando com piadas e metáforas relativamente simples até formas mais avançadas, como narrativas.
53
6.1 Gerando trocadilhos e piadas

Considerar:
(29) Qual é a diferença entre dinheiro e fundo?

Um você poupa e deposita, o outro você nua e espanca.
(30) O que você chama de mercado estranho?

Um bazar bizarro.
Esses dois (muito bons!) enigmas de trocadilhos foram gerados automaticamente pelo sistema
jape desenvolvido por Binsted e Ritchie (1994, 1997). Os enigmas de trocadilhos formam um gênero
específico de piada e têm recebido atenção considerável no contexto do humor computacional,
presumivelmente porque são relativamente simples de definir, muitas vezes dependendo de
ambiguidades ortográficas ou de sentido das palavras.
Muitos bons exemplos produzidos por humanos foram coletados em livros e sites de piadas e
podem, portanto, funcionar como fonte de inspiração.
Simplificando um pouco, jape (Joke Analysis and Production Engine) depende de um sistema
nlg baseado em modelo, combinando texto fixo (Qual é a diferença entre X e Y? ou Como você
chama X?) com slots, que são a fonte do enigma . Vários recursos lexicais padrão são usados para
a produção de piadas, incluindo um dicionário de pronúncia britânica (para encontrar palavras
diferentes com pronúncia semelhante, como 'bizarro' e 'bazar') e WordNet (Miller, 1995, para
encontrar palavras com pronúncia semelhante). significado, como bazar e mercado). O jape usa
diversas técnicas para criar os enigmas de trocadilhos, como a justaposição, na qual palavras
relacionadas são simplesmente colocadas próximas umas das outras e tratadas como uma
construção normal, ao mesmo tempo em que se certifica de que a combinação seja nova (ou seja,
não esteja no banco de dados do jape). já). É interessante observar que, desta forma, o jape pode
automaticamente surgir com piadas existentes (uma rápida pesquisa no Google revela que existem
muitos bazares bizarros, assim como bizarros de bazar). a avaliação da nlg é difícil, em geral (como
discutiremos com mais detalhes na Seção 7 abaixo) e a avaliação da
nlg humorística é, sem dúvida, ainda mais difícil.
No entanto, Binsted et al. (1997) mostraram que isso pode ser feito de maneira elegante. Eles
apresentaram a 120 crianças de 8 a 11 anos uma série de enigmas de trocadilhos, alguns gerados
automaticamente por brincadeiras e outros selecionados de livros de piadas. Eles também incluíram
uma série de controles que não são de brincadeira, como:
(31) O que você ganha quando cruza um cavalo e um burro?

Uma mula
Para cada estímulo a que foram expostas, foi pedido às crianças que indicassem se achavam
que era uma piada e o quão engraçado o consideravam. Os resultados revelaram que os enigmas
gerados por computador eram reconhecidos como piadas e considerados mais engraçados do que
as não piadas. Curiosamente, a piada que as crianças avaliaram melhor foi gerada automaticamente
pelo jape (pedimos ao leitor que inspecione o artigo original), embora, em geral, as piadas
produzidas por humanos tenham sido consideradas mais engraçadas pelas crianças do que as
geradas automaticamente.
54
Seguindo o trabalho seminal de Binsted e Ritchie, vários outros sistemas foram desenvolvidos que
podem gerar piadas automaticamente, incluindo, por exemplo, o sistema hahacronym de Stock e
Strapparava (2005), que produz siglas humorísticas, e o sistema de Binsted et al. (2003), que tem como
foco a geração de piadas referenciais (“Estava tanto frio, vi um advogado com as mãos nos bolsos.”).
Petrovic e Matthews (2013) oferecem uma alternativa interessante e não supervisionada a este
trabalho anterior, que não requer exemplos rotulados ou regras codificadas . Tal como os seus
antecessores, Petrovic e Matthews também partem de um modelo – no caso deles gosto do meu X como
gosto do meu Y, Z – onde X e Y são substantivos (por exemplo, café e guerra) e Z é um atributo (por
exemplo, frio). ). Claramente, a realização linguística não é um problema, mas a selecção de conteúdos
– encontrar triplos X, Y e Z “engraçados” – é um desafio. Curiosamente, os autores postulam uma série
de princípios orientadores para os “bons” triplos. Em particular, eles levantam a hipótese de que (a) a
piada será mais engraçada se o atributo Z puder ser usado para descrever ambos os substantivos X e Y;
(b) a piada é mais engraçada se o atributo Z for comum e ambíguo; e (c) a piada é mais engraçada
quanto mais diferentes X e Y forem. Essas três afirmações podem ser quantificadas com base em
recursos padrão, como Wordnet e o corpus n-gram do Google (Brants & Franz, 2006), e usando essas
medidas os resultados do sistema, por exemplo:
(32) Gosto dos meus relacionamentos como gosto da minha fonte, aberta.
Novamente, a avaliação é complicada – mas interessante. Os autores colheram piadas escritas por
humanos no Twitter, em conformidade com o mesmo I like my X . . . modelo, após o qual seus diferentes
modelos são usados para gerar novas piadas, não encontradas em nenhum lugar on-line, com o mesmo
X, mas com Y e Z diferentes. Os juízes humanos então avaliaram cegamente as piadas humanas e as
geradas pelo modelo. Os resultados mostraram que as piadas da melhor modelo foram avaliadas como
engraçadas em 16% dos casos. Isso pode não parecer muito, mas deve-se levar em consideração que
se você acha algo engraçado ou não, é presumivelmente muito pessoal; na verdade, apenas 33% das
piadas humanas foram consideradas engraçadas.
Provavelmente é justo dizer que a pesquisa computacional sobre geração de piadas até o momento
se concentrou principalmente em revelar a estrutura básica de certos trocadilhos relativamente simples e
em explorá-los com bons resultados (por exemplo, Ritchie, 2009). No entanto, existem muitos outros tipos
de piadas, muitas vezes exigindo raciocínio sofisticado e hipotético.
Presumivelmente, muitos dos problemas centrais da IA precisam ser resolvidos primeiro, antes que os
sistemas de geração sejam capazes de produzir esse tipo de piadas avançadas.
6.2 Gerando metáforas e símiles

Se você acha que algo é engraçado ou não, pode ser subjetivo, mas em qualquer caso, os insights da
geração de piadas podem ser úteis como um trampolim para uma melhor compreensão do uso criativo da
linguagem, incluindo metáforas, símiles e analogias. Em todos eles, é feito um mapeamento entre dois
domínios conceituais, de forma que a terminologia do domínio fonte seja utilizada para dizer algo.
55
sobre o domínio alvo, normalmente de uma forma não literal, o que pode ser útil em textos gerados por
computador para ilustrar informações complexas. Por exemplo, Hervás et al. (2006) estudam analogias
em contextos narrativos, como Luke Sky-walker foi o Rei Arthur dos Cavaleiros Jedi, o que esclarece
imediatamente um aspecto importante de Luke Skywalker para quem não conhece. Numa comparação,
os dois domínios são comparados (A 'é como' B); em uma metáfora eles são equiparados. Piadas e
metáforas/símiles estão relacionadas: as piadas geradas automaticamente de Petro-vic e Matthews são
comparáveis a símiles, enquanto Kiddon e Brun (2011), por exemplo, enquadram o problema de
identificação de piadas de duplo sentido como um tipo de identificação de metáfora. No entanto, pode-se
argumentar que gerar piadas é mais complexo devido à restrição extra de graça.
Tal como o humor computacional, o reconhecimento e a interpretação automáticos da linguagem

metafórica e não literal têm recebido atenção considerável desde os primórdios da IA (ver Shutova et al.,
2012, para uma visão geral). Martin (1990, 1994), por exemplo, focou no reconhecimento de metáforas
no contexto do Suporte Unix, como nos exemplos a seguir:
(33) Como posso encerrar um processo?
(34) Como posso entrar no lisp?
O primeiro, por exemplo, faz um mapeamento entre 'vida' (fonte) e 'processos' (alvo), e já é tão
comum que é quase uma metáfora morta, mas não era assim nos primórdios do Unix . Claramente, a
compreensão das metáforas é um pré-requisito para responder automaticamente a estas questões. As
primeiras pesquisas sobre a interpretação computacional da metáfora já reconheceram que as metáforas
dependem de convenções semânticas que são exploradas (“quebradas”) para expressar novos
significados. Um sistema para compreensão de metáforas, bem como um para geração de metáforas,
requer, portanto, conhecimento sobre o que são significados literais e como estes podem ser ampliados
ou traduzidos em significados metafóricos (por exemplo, Wilks, 1978; Fass, 1991).
Trabalhos recentes de Veale e Hao (Veale & Hao, 2007, 2008) mostraram que este tipo de
conhecimento pode ser adquirido na web e utilizado para a geração de novas metáforas e símiles
(comparações). Seu sistema, chamado Sardonicus, é capaz de gerar metáforas para alvos fornecidos
pelo usuário (t), como o seguinte, expressando que Paris Hilton ('a pessoa, não o hotel, embora a
distinção se perca em Veale & Hao, de Sardonicus, 2007, p.1474) é magro:
(35) Paris Hilton é um pau
Sardonicus pesquisa na web por substantivos (n) associados à magreza, que estão incluídos em
uma base de casos e variam de vara, lápis e bastão a cobra e bicho-pau. Os inapropriados (como o
cadáver) são descartados, com base na teoria de inclusão de categorias de Glucksberg (2001). Esta lista
de possíveis símiles é então usada para criar consultas no Google, inspiradas no trabalho de Hearst
(1992), na forma n-like t (por exemplo, Paris Hilton, parecida com um bicho-pau, que na verdade ocorre
na web), dando uma classificação dos potenciais símiles a serem gerados.
56
Uma técnica comparável é utilizada por Veale (2013) para gerar metáforas com uma componente
afetiva, como em “Steve Jobs era um grande líder, mas podia ser um grande tirano”. O corpus n-gram
do Google é usado para encontrar estereótipos adequados para geração de símiles (por exemplo,
'solitário como um cowboy'), uma estratégia que lembra o uso de dados n-gram em escala web para
suavizar a saída de imagem para texto. sistemas (ver Seção 4). Em seguida, é acrescentada uma
dimensão afectiva, baseada no pressuposto de que as propriedades que ocorrem numa conjunção
(“tão exuberante e verde como uma selva”) têm maior probabilidade de ter o mesmo efeito do que as
propriedades que não o fazem. Usando sementes positivas (por exemplo, 'feliz', 'maravilhoso') e
negativas (por exemplo, 'triste', 'mal'), consultas de coordenação (por exemplo, 'feliz e X') são usadas
para coletar rótulos positivos e negativos para estereótipos, indicando, por exemplo, que os bebés
estão positivamente associados a qualidades como “sorrir” e “fofo”, e negativamente associados a
“chorar” e “chorar”. Isto permite a geração automática de símiles positivos (“fofo como um bebê”) e
negativos (“chorando como um bebê”). Veale (2013) ainda aponta que ao coletar, por exemplo, uma
série de metáforas negativas para o monopólio da Microsoft, e usá-las em um conjunto de tropos
predefinidos, torna-se possível gerar automaticamente um poema como o seguinte:
Nenhum monopólio é mais implacável

Intimide-me com sua hegemonia imponente
Nenhuma família criminosa é mais mal organizada ou controla de forma mais implacável
Assombre-me com sua organização centralizada
Deixe sua segurança privilegiada me apoiar
Ó Microsoft, você me oprime com seu reinado corrupto
Na verdade, a geração automática de poesia é uma área emergente na encruzilhada da criatividade

computacional e da geração de linguagem natural (ver, por exemplo, Lutz, 1959; Gervás, 2001; Wong
et al., 2008; Netzer et al., 2009; Greene et al., 2010; Colton et al., 2012; Manurung et al., 2012; Zhang
& Lapata, 2014b, para variações deste tema).
6.3 Gerando narrativas

A narratologia computacional preocupa-se com modelos computacionais para a geração e interpretação
de textos narrativos (por exemplo, Gervás, 2009; Mani, 2010, 2013). O ponto de partida para muitas
abordagens à geração de narrativas é uma visão da narrativa proveniente da narratologia clássica, um
ramo dos estudos literários com raízes nas tradições formalista e estruturalista (por exemplo, Propp,
1968; Genette, 1980; Bal, 2009). Este campo tem se preocupado em analisar tanto as características
definidoras da narrativa, como enredo ou personagem, quanto características mais sutis, como o
manejo do tempo e das mudanças temporais, a focalização (ou seja, a capacidade de transmitir ao
leitor que uma história está sendo contado de um ponto de vista específico), e a interação de múltiplos
fios narrativos, na forma de subtramas, narrativas paralelas, etc. Um importante desenvolvimento
recente é o interesse, por parte dos narratologistas, em trazer à tona insights da Ciência Cognitiva e
da IA em seu trabalho literário, tornando este campo maduro para interação multidisciplinar
57
(ver especialmente Herman, 1997, 2007; Meister, 2003, para declarações programáticas nesse
sentido, bem como contribuições teóricas).
A narratologia clássica faz uma distinção fundamental entre o 'mundo da história' e o texto que
narra a história. Em consonância com as raízes formalistas e estruturalistas desta tradição, a
distinção é geralmente articulada como uma dicotomia entre fabula (ou história) e suzjet (ou
discurso). Há um paralelo entre esta distinção e aquela entre um plano de texto na NGL, versus o
texto real que articula esse plano. Contudo, a diferença crucial é que, ao produzir um plano para
uma narrativa, um sistema de geração de histórias normalmente não utiliza dados de entrada do
tipo exigido pela maioria dos sistemas NGL revistos até agora, uma vez que a história é geralmente
fictícia. Por outro lado, as ferramentas narratológicas também foram aplicadas com sucesso a
narrativas do mundo real, incluindo narrativas orais de experiência pessoal (por exemplo, Herman,
2001; Labov, 2010).
O foco da maioria dos trabalhos sobre geração de narrativas tem sido no estágio pré-linguístico,
isto é, na geração de planos dentro de um mundo narrativo para narrativas ficcionais, geralmente
dentro de um gênero específico cujas propriedades estruturais são bem compreendidas, por
exemplo, contos de fadas ou contos de fadas. Lendas arturianas (ver Gervás, 2013, para uma revisão).
Existem, no entanto, ligações entre as técnicas utilizadas para tais histórias e aquelas que
discutimos acima em relação à nlg (ver especialmente a Secção 3.2). Destacam-se entre elas as
técnicas de planejamento e raciocínio para modelar o processo criativo como uma tarefa de
resolução de problemas. Por exemplo, menestrel (Turner, 1992) utiliza o raciocínio para modelar a
criatividade a partir da perspectiva do autor, produzindo planos narrativos baseados em objetivos
autorais, como o objetivo de introduzir drama em uma narrativa, garantindo ao mesmo tempo
consistência temática.
Mais recentemente, Brutus (Bringsjord & Ferrucci, 1999) utilizou uma base de conhecimento
de esquemas de histórias, a partir dos quais um é selecionado e elaborado usando técnicas de
planejamento para vincular causas e efeitos (ver também Young, 2008; Riedl & Young, 2010, entre
outros, para exemplos recentes do uso de técnicas de planejamento para modelar o processo
criativo na geração de narrativas).
Como observa Gervás (2010), o foco no planejamento de mundos de histórias e na modelagem
da criatividade tem frequentemente implicado uma marginalização das questões linguísticas, de
modo que transformar um plano de história em texto tem sido frequentemente visto como uma
consideração secundária. Por exemplo, a Figura 7a mostra um excerto de uma história produzida
pelo sistema talespin (Meehan, 1977): aqui, a ênfase está na utilização de técnicas de resolução
de problemas para produzir uma narrativa na qual os eventos se seguem uns dos outros de uma
forma coerente, em vez de em contá-lo de maneira fluente. Uma exceção importante a esta
tendência é o trabalho de Callaway e Lester (2002), que abordou explicitamente a lacuna entre a
narratologia computacional e a nlg. O seu sistema tomou um plano narrativo como ponto de partida,
mas centrou-se no processo de transmitir a narrativa em inglês fluente, lidando com mudanças de
tempo, agregação, nps anafóricos e muitos outros fenómenos linguísticos, como mostra o excerto
na Figura 7b.9 Além disso, houve uma série de contribuições da comunidade de geração sobre
questões mais específicas relacionadas à narrativa, como como transmitir o temporal
9 Vale a pena notar que este sistema tem sido reutilizado desde então no contexto da geração de
texto interativo para um guia portátil de museu por Stock et al. (2007).
58
John Bear está com um pouco de fome. Era uma vez um lenhador e sua esposa que
John Bear quer pegar algumas frutas. John moravam em uma linda casinha nas margens
Bear quer chegar perto dos mirtilos. John
de uma grande floresta.
Bear caminha da entrada de uma caverna Eles tinham uma filha pequena, uma criança
até o mato, passando por uma passagem
doce, que era a favorita de todos. Ela era a
por um vale através de um prado. John Bear alegria do coração de sua mãe. Para agradá-
pega os mirtilos. John Bear come os mirtilos. la, a boa mulher fez-lhe uma pequena capa
Os mirtilos desapareceram. John Bear não
e um capuz escarlate. Ela ficou tão bonita
tem muita vontade com ele que todo mundo a chamava de
Chapeuzinho Vermelho.
jogos.
(a) Trecho de TaleSpin (Meehan, (b) Trecho do livro de histórias (Callaway & 1977)
Lester, 2002)
Figura 7: Exemplos de narrativas geradas automaticamente. O painel esquerdo mostra um trecho de uma
história produzida pela TaleSpin (Meehan, 1977); o painel direito é um trecho do conto de fadas
Chapeuzinho Vermelho, gerado pelo sistema de livro de histórias (Callaway & Lester, 2002).
fluxo do discurso narrativo (Oberlander & Lascarides, 1992; Dorr & Gaasterland, 1995; Elson & McKeown,
2010). Este é um problema que merece mais atenção na GNL, uma vez que textos com uma estrutura
narrativa complexa muitas vezes narram eventos em uma ordem diferente daquela em que ocorreram.
Por exemplo, os eventos podem ser planeados por ordem de importância, em vez de temporalmente,
mesmo quando se baseiam em dados do mundo real (por exemplo, Portet et al., 2009). Isso torna crucial
o uso das escolhas corretas para adverbiais de tempo, aspecto e temporais para garantir clareza ao leitor.
Este tipo de complexidade na estrutura narrativa também emerge na ficção narrativa interativa (por
exemplo, em jogos; cf., Montfort, 2007).
Além do foco em questões linguísticas específicas, também tem havido alguns trabalhos que utilizam
técnicas baseadas em dados para gerar histórias. Por exemplo, McIn-tyre e Lapata (2009) propõem um
sistema de geração de histórias cuja entrada é um banco de dados de entidades e suas interações,
extraído de um corpus de histórias, analisando-as, recuperando dependências gramaticais e construindo
cadeias de eventos nas quais entidades específicas desempenhar um papel. O resultado é um gráfico
que codifica uma ordem parcial de eventos, com arestas ponderadas por informações mútuas para refletir
o grau de associação entre os nós. O planejamento das frases ocorre então usando regras gramaticais
semelhantes a modelos, especificando verbos com informações de subcategorização, seguido pela
realização usando realpro (Lavoie & Rambow, 1997). Uma das características mais interessantes deste
trabalho é o acoplamento do modelo de geração com um modelo de interesse para prever quais histórias
seriam realmente avaliadas como interessantes pelos leitores. Isto foi conseguido treinando um
classificador baseado em kernel em
59
características lexicais e sintáticas superficiais das histórias, um romance aborda um velho problema
da narratologia, nomeadamente, o que torna uma história “contável”, distinguindo-a assim de um mero
relato (por exemplo, Herman, 1997; Norrick, 2005; Bruner, 2011) .
A maior parte do trabalho de geração de histórias está restrito a contos (muito) curtos. É
certamente verdade que planear uma narrativa do tamanho de um livro ao longo das linhas esboçadas
acima é extremamente desafiador, mas os investigadores começaram recentemente a explorar as
possibilidades, por exemplo, no contexto do NaNoGenMon (Mês Nacional da Geração de Romances),
em que os participantes escrever um programa de computador capaz de gerar um 'romance'. Talvez o
exemplo mais conhecido seja o Relógio Mundial (Mont-fort, 2013), que descreve 1.440 (24 × 60)
eventos que ocorrem em todo o mundo, um minuto selecionado aleatoriamente de cada vez. Estes são
os dois primeiros:
Agora são exatamente 05:00 em Samarcanda. Em alguma casa em ruínas, uma pessoa
chamada Gang, que é pequena, lê uma palavra inteiramente inventada em uma caixa
de cereal matinal. Ele se vira completamente.
Agora são cerca de 18h01 em Matamoros. Em alguma estrutura obscura, mas decente,
um homem chamado Tao, que não é maior nem menor do que se esperaria, lê um
pequeno código numérico de um recorte de receita. Ele sorri um pequeno sorriso.
O livro foi totalmente gerado por 165 linhas de código Python, escrito pelo autor em poucas horas,
e posteriormente publicado (junto com o software) pela editora Harvard Book Store. Existe até uma
tradução para o polonês (de Piotr Marecki), criada pela tradução do algoritmo Python.
No que diz respeito à avaliação de geradores de narrativas, esta é uma área onde o consenso no
campo é que é necessário muito mais esforço de investigação (ver Zhu, 2012, para um argumento
recente neste sentido). Até certo ponto, os problemas enfrentados na avaliação de geradores de
histórias refletem aqueles da NGL clássica. Por exemplo, avaliar a determinação do conteúdo e ao
mesmo tempo considerar o impacto do planeamento e da realização das frases está longe de ser trivial
(ver Mellish & Dale, 1998, e a discussão sobre avaliação na Secção 7). Contudo, no caso da narrativa
ficcional, o problema é agravado pelo facto de normalmente não haver dados “objectivos” com os quais
se possa comparar um plano de história; na verdade, o foco principal da avaliação aqui é o sucesso
com que um sistema modela o processo criativo, construindo histórias que possuem qualidades como
novidade (por exemplo, Pérez et al., 2011) ou credibilidade dos personagens (por exemplo, , Riedl &
Young, 2005). Onde o foco está na linguagem narrativa, a avaliação é mais claramente orientada para
questões linguísticas como coerência e fluência, como mostra a avaliação exaustiva conduzida por
Callaway e Lester (2002) para o sistema de livro de histórias.
O problema dos sistemas em que a qualidade linguística é secundária é que é difícil avaliar uma
história e ao mesmo tempo factorizar os efeitos que se devem à forma como é contada. Propostas
recentes, por exemplo de Rowe et al. (2009), enfatizaram a necessidade de implantar múltiplos métodos
de avaliação para avaliar narrativas em diferentes níveis, desde a estrutura do enredo até o impacto
cognitivo-afetivo nos leitores. Como veremos na Seção 7, o uso de múltiplos métodos é provavelmente
desejável mesmo para tarefas clássicas de Nlg.
60
6.4 Gerando linguagem criativa: Observações finais

Nesta seção destacamos os desenvolvimentos recentes na ampla área de geração de
linguagem criativa, um tópico pouco estudado na GNL. No entanto, gostaríamos de
argumentar que os pesquisadores de NGL podem melhorar a qualidade de seus resultados
incorporando insights da criatividade computacional.
Trabalhos que exploram corpora e outros recursos lexicais para a geração automática de
piadas, trocadilhos, metáforas e símiles revelaram diferentes maneiras pelas quais as
palavras estão relacionadas e podem ser justapostas para formar combinações inesperadas
e possivelmente até “engraçadas” ou “poéticas”. Dado que, por exemplo, a metáfora é
difundida na linguagem cotidiana (como argumentado, por exemplo, por Lakoff & Johnson,
1980), e não apenas em usos abertamente criativos, os pesquisadores da NGL interessados
em melhorar a legibilidade – e especialmente a variabilidade – do texto A capacidade de
geração de seus modelos se beneficiaria de uma análise mais detalhada do trabalho de
geração de poesia, piadas e metáforas.
Na mesma linha, o trabalho em narratologia é rico em insights sobre a interação de
múltiplos fios em uma única narrativa e como a escolha dos eventos e sua ordenação podem
dar origem a histórias interessantes (por exemplo, Gervás, 2012). Estas informações são
valiosas, por exemplo, no desenvolvimento de planeadores de texto mais elaborados em
domínios onde o tempo e a causalidade desempenham um papel. Da mesma forma, o
trabalho narratológico sobre personagem e focalização também pode ajudar no
desenvolvimento de melhores técnicas de GNL para variar a produção de acordo com pontos
de vista específicos, uma área que abordamos na Seção 5,
Vimos que a avaliação destes sistemas continua a ser uma espécie de estrangulamento.
Em parte, isto acontece porque nem sempre é fácil determinar a pergunta “certa” a colocar
numa avaliação. Por exemplo, como vimos no caso dos geradores de piadas e poesia,
demonstrar compatibilidade e reconhecimento de géneros (“Isto é uma piada?”) já é
indiscutivelmente uma conquista, na medida em que sugere que um sistema está a produzir
artefactos que estão em conformidade com as expectativas normativas. . Ao mesmo tempo,
a ênfase na criatividade, especialmente nos sistemas de geração de histórias, sugere que a
conformidade com as convenções do género não é a única questão em jogo.
O problema é que a avaliação é difícil de realizar sem garantir a qualidade em todos os
níveis do processo de geração, desde o planeamento até à realização. Esta é provavelmente
uma área em que a GNL tem muito a oferecer aos pesquisadores de criatividade
computacional, na forma de um conjunto de técnicas para garantir coerência e fluência.
7 Avaliação
Embora tenhamos tocado no tema da avaliação em vários pontos, ele merece uma discussão
completa como um tópico que se tornou uma preocupação metodológica central na NGL. Um
factor que contribuiu para este desenvolvimento foi o estabelecimento de uma série de
tarefas partilhadas do NGL, lançadas na sequência de um workshop financiado pelo FNS
realizado na Virgínia em 2007 (Dale & White, 2007). Estas tarefas centraram-se na geração
de expressões referenciais (Belz et al., 2010; Gatt & Belz, 2010); realização de superfície
(Belz et al., 2011); geração de instruções em virtual
61
ambientes (Striegnitz et al., 2011; Janarthanam & Lemon, 2011); determinação de conteúdo
(Bouayad-Agha et al., 2013; Banik et al., 2013); e geração de perguntas (Rus et al., 2011).
Propostas recentes para novos desafios estendem-nos à geração de narrativas (Concepción
et al., 2016), geração a partir de dados estruturados da web (Colin et al., 2016) e a partir de
pares desalinhados de representações de significado e texto (Novikova & Rieser, 2016a).
Na legendagem de imagens, as tarefas compartilhadas ajudaram no desenvolvimento de
conjuntos de dados em grande escala e servidores de avaliação, como o ms-coco10 (cf.
Seção 4.1). Em geral, porém, a avaliação do GNL é marcada por uma grande variedade e é
difícil comparar diretamente os sistemas. Há pelo menos duas razões pelas quais este é o
caso.
Entrada variável Não existe um formato de entrada único e acordado para sistemas NGL
(McDonald, 1993; Mellish & Dale, 1998; Evans et al., 2002). Normalmente, só se pode
comparar sistemas com um benchmark comum se a entrada for semelhante. Exemplos são
os sistemas de legendagem de imagens descritos na Seção 4, ou sistemas submetidos a
uma das tarefas compartilhadas mencionadas acima. Mesmo no caso de um conjunto de
dados “padrão” comum estar disponível para avaliação, a comparação pode não ser simples
devido à variação dos dados de entrada ou devido a distorções implícitas nos dados de
entrada. Por exemplo, Rajkumar e White (2014) observam que, apesar de muitos realizadores
serem avaliados em relação ao Penn Treebank, eles fazem suposições diferentes sobre o
formato de entrada, incluindo quão detalhada é a representação de entrada pré-sintática, um
problema também observado no primeiro Surface Realização de tarefa compartilhada (Belz
et al., 2011). Como observam Rajkumar e White (2014), uma comparação de realizadores
com base nas pontuações do Penn Treebank mostra que a classificação mais alta é o
realizador fuf/surge (que é o segundo em termos de idade de cobertura), com base em
experimentos de Callaway (2005). No entanto, esses experimentos exigiram um esforço
minucioso para extrair as representações de entrada no nível de detalhe necessário para fuf/
surge; outros realizadores apoiam contribuições mais subespecificadas.
Na mesma linha, estudos de avaliação de legendas de imagens mostraram que muitos
conjuntos de dados contêm uma proporção maior de substantivos do que verbos e poucos
conceitos abstratos (Ferraro et al., 2015), tornando os sistemas que geram descrições que
enfatizam objetos com maior probabilidade de obter melhores pontuações. . A relevância
desta observação é demonstrada por Elliott e De Vries (2015), que observam que a
classificação do seu sistema de legendagem de imagens baseado na gramática de
dependência visual depende em parte dos dados sobre os quais é avaliado, com melhor
desempenho em dados contendo mais imagens. retratando ações (voltaremos a este estudo abaixo).
Múltiplos resultados possíveis Mesmo para uma única entrada e um único sistema, a gama
de resultados possíveis é aberta, um problema que provavelmente se aplica a qualquer
tarefa de PNL que envolva resultados textuais, incluindo tradução automática e resumo. Os
corpora apresentam frequentemente uma gama substancial de variações e muitas vezes não
é claro, sem uma avaliação independente, quais os resultados que devem ser preferidos
(Reiter & Sripada, 2002). Na literatura sobre legendagem de imagens, os autores que
enquadraram o problema em termos de recuperação motivaram a escolha em parte
10http://mscoco.org/dataset/#captions-upload
62
com base neste problema, argumentando que “uma vez que não há consenso sobre o que
constitui uma boa descrição de imagem, avaliações humanas obtidas independentemente
de diferentes sistemas de geração de legendas não devem ser comparadas diretamente”
(Hodosh et al., 2013, p. 580) . Embora a captura da variação possa ser em si um objetivo
(por exemplo, Belz, 2008; Viethen & Dale, 2010; Hervás et al., 2013; Ferreira et al., 2016),
como também vimos na nossa discussão sobre estilo na Secção 5 , Isso não é sempre o
caso. Assim, numa avaliação orientada para o utilizador, as previsões meteorológicas do
sistema SumTime-mousam foram preferidas pelos leitores às escritas pelos previsores
porque as decisões de lexicalização destes últimos eram susceptíveis de variação
aparentemente arbitrária (Re-iter et al., 2005); resultados semelhantes foram relatados
mais recentemente para sistemas estatísticos nlg treinados no corpus SumTime (Belz, 2008; Angeli et al., 2010).
Em vez de fazer uma revisão exaustiva da avaliação da GNL – o que não é uma perspectiva
realista dada a diversidade que apontámos – o resto desta secção irá destacar algumas
questões actuais do trabalho actual. A título de visão geral destas questões, consideremos
o cenário hipotético esboçado na Figura 8, que é vagamente inspirado no trabalho sobre
vários sistemas de relatórios meteorológicos desenvolvidos no terreno.
Este sistema nlg está incorporado no ambiente de uma plataforma petrolífera offshore; as
características relevantes da configuração (no sentido de Sparck Jones & Galliers, 1996)
são o próprio sistema e seus usuários, aqui um grupo de engenheiros. Embora a tarefa do
sistema seja gerar relatórios meteorológicos a partir de dados numéricos de previsão
meteorológica, seu objetivo final é facilitar o planejamento das operações de perfuração e
manutenção pelos usuários. A Figura 8 destaca algumas das questões comuns abordadas
na avaliação do GNL, juntamente com uma ampla tipologia dos métodos usados para
abordá-las, em particular, se são objetivos – isto é, mensuráveis em relação a um critério
externo, como similaridade de corpus ou experimentalmente. dados comportamentais
obtidos – ou subjetivos, exigindo julgamentos humanos.
Uma distinção metodológica fundamental, devida a Sparck Jones e Galliers (1996), é
entre métodos de avaliação intrínsecos e extrínsecos. No caso do nlg, uma avaliação
intrínseca mede o desempenho de um sistema sem referência a outros aspectos da
configuração, como a eficácia do sistema em relação aos seus usuários. No nosso cenário
de exemplo, as questões relacionadas com a qualidade do texto, a correcção da saída e a
legibilidade qualificam-se como intrínsecas, enquanto a questão de saber se o sistema
realmente atinge o seu objectivo de apoiar a tomada de decisão adequada na plataforma
offshore é extrínseca.
7.1 Métodos intrínsecos

A avaliação intrínseca na GNL é dominada por duas metodologias, uma baseada em
julgamentos humanos (e, portanto, subjetivos), a outra em corpora.
7.1.1 Julgamentos subjetivos (humanos)
Os julgamentos humanos são normalmente obtidos expondo sujeitos ingênuos ou especialistas aos
resultados do sistema e fazendo com que eles os avaliem de acordo com alguns critérios. Os critérios
comuns incluem:
63
Figura 8: Cenário de avaliação hipotético: um sistema de geração de boletins meteorológicos integrado

em um ambiente de plataforma petrolífera offshore. Os possíveis métodos de avaliação, centrados em
diferentes questões, são destacados na parte inferior, juntamente com a orientação metodológica típica
(subjetiva/objetiva) adotada para abordá-los.
• Fluência ou legibilidade, ou seja, a qualidade linguística do texto (por exemplo, Call-

away & Lester, 2002; Mitchell et al., 2012; Stent et al., 2005; Lapata, 2006; Cahill,
2009; Espinosa et al. ., 2010, entre outros);
• Precisão, adequação, relevância ou correção em relação à entrada, refletindo a

interpretação do conteúdo pelo sistema (por exemplo, Lester & Porter, 1997; Sri-
pada et al., 2005; Hunter et al., 2012), um critério frequentemente usado também
em avaliações subjetivas de sistemas de legendagem de imagens (por exemplo,
Kulkarni et al., 2011; Mitchell et al., 2012; Kuznetsova et al., 2012; Elliott & Keller, 2013).
Embora sejam os mais comuns, estes dois conjuntos de critérios não esgotam as
possibilidades. Por exemplo, classificações subjetivas também foram obtidas para a
eficácia dos argumentos num sistema concebido para gerar texto persuasivo para
potenciais compradores de casas (Carenini & Moore, 2006). Na legendagem de imagens,
pelo menos um sistema foi avaliado solicitando aos usuários que julgassem a criatividade
da legenda gerada, com o objetivo de avaliar a contribuição dos modelos de linguagem n-
gram em escala web para a qualidade da legenda (Li et al., 2011). . Abaixo, também
discutimos julgamentos de compatibilidade de gênero (Seção 7.1.3).
O uso de escalas para extrair julgamentos levanta uma série de questões. Um tem a
ver com a natureza da própria escala. Embora as escalas ordinais discretas sejam o
método dominante, uma escala contínua – por exemplo, uma que envolva um controle
deslizante apresentado visualmente (Gatt & Belz, 2010; Belz & Kow, 2011) – pode dar aos
sujeitos a possibilidade de emitir julgamentos mais matizados. Por exemplo, um texto
gerado pelo nosso hipotético sistema de boletins meteorológicos pode ser considerado tão disfluente que
64
receber a classificação mais baixa numa escala ordinal; se o texto seguinte for julgado pior, o
sujeito não terá como indicar isso. Uma questão relacionada é se os sujeitos acham mais fácil
comparar itens em vez de julgar cada um por si só. Esta questão começou a ser abordada na
literatura de avaliação de PNL, geralmente com comparações binárias, por exemplo, entre as
saídas de dois sistemas MT (ver Dras, 2015, para discussão). Em um estudo recente avaliando
conectivos causais produzidos por um sistema nlg, Siddharthan e Katsos (2012) usaram a
Estimativa de Magnitude, por meio da qual os sujeitos não recebem uma escala predefinida,
mas são solicitados a escolher a sua própria e a fazer comparações de cada item com um '
módulo ', que serve como um ponto de comparação ao longo do experimento (ver Bard et al.,
1996).11 Belz e Kow (2010) compararam um paradigma baseado em preferência a uma escala
de classificação padrão para avaliar sistemas de dois domínios diferentes (relatórios
meteorológicos e reg), e descobriu que o primeiro era mais sensível às diferenças entre os
sistemas e menos suscetível à variação entre os sujeitos.
Uma preocupação adicional com avaliações subjetivas é a confiabilidade entre avaliadores.

Múltiplos julgamentos de diferentes avaliadores podem apresentar alta variância, um problema
que foi encontrado no caso da Geração de Perguntas (Rus et al., 2011).
Recentemente, Godwin e Piwek (2016) sugeriram que tal variância pode ser reduzida por um
método iterativo em que a formação dos juízes é seguida por um período de discussão, levando
à atualização das diretrizes de avaliação. Isto, no entanto, é mais caro em termos de tempo e
recursos.
Provavelmente é justo afirmar que, hoje em dia, avaliações humanas subjetivas são
frequentemente realizadas através de plataformas on-line, como Amazon Mechanical Turk12 e
CrowdFlower13, embora isso seja provavelmente mais viável para idiomas amplamente
falados, como o inglês. Uma questão raramente discutida com tais plataformas diz respeito às
suas implicações éticas (por exemplo, envolvem grandes grupos de indivíduos mal remunerados;
ver Fort et al., 2011), bem como à fiabilidade dos dados recolhidos, embora possam ser postas
em prática medidas para garantir, por exemplo, que os colaboradores sejam fluentes na língua-
alvo (ver, por exemplo, Goodman et al., 2013; Mason & Suri, 2012).
7.1.2 Medidas objetivas de semelhança humana usando corpora
Geralmente, pode-se dizer que os métodos intrínsecos que dependem de corpora abordam a
questão da “semelhança humana”, isto é, até que ponto a produção do sistema corresponde à
produção humana em condições comparáveis. Do ponto de vista do desenvolvedor, o ponto de
venda de tais métodos é o seu baixo custo, uma vez que geralmente são baseados em métricas
calculadas automaticamente. Uma variedade de métricas baseadas em corpus, frequentemente
usadas anteriormente em áreas relacionadas, como tradução automática
11O módulo é um item – um texto, ou uma frase – que é selecionado antecipadamente e cujos sujeitos
são solicitados a avaliar primeiro. Todas as classificações ou julgamentos subsequentes são realizados em
comparação com este item do modus. Embora os sujeitos possam usar qualquer escala que escolherem,
este método permite que todos os julgamentos sejam normalizados pelo julgamento dado para o módulo.
Normalmente, os julgamentos normalizados são analisados em uma
escala logarítmica. 12https://www.mturk.com/
mturk/welcome 13https://www.crowdflower.com
65
Métrica Descrição Origens

azul Pontuação de precisão em n-gramas de comprimento variável, com comprimento mt
penalidade (Papineni et al., 2002) e, opcionalmente, suavização (Lin
& Och, 2004).
nista Uma versão do bleu com maior ponderação para menos frequentes mt
n-gramas e uma penalidade de comprimento diferente (Doddington, 2002).
rouge Pontuação orientada para recordação, com opções para comparar n-gramas não como
contíguos e subsequências comuns mais longas (Lin &

Azul, 2003).
Sobreposição
meteoro Média harmônica de precisão e recuperação de unigramas, com opções mt

gramas
para manuseio (quase sinonímia) e lematização (Lavie & Agarwal,

de
N-
2007).
gtm Correspondente de texto geral. F-Score baseado em precisão e recall, mt
com maior peso para vãos correspondentes contíguos (Turian et al.,
2003)
cidra Pontuação de similaridade de n-gramas baseada em cosseno, com ponderação de eu
n-gramas usando tf-idf (Vedantam et al., 2015).
Distância de edição Número de inserções, exclusões, substituições e, possivelmente, n/D
transposição necessária para transformar o candidato na string de referência
(Levenshtein, 1966).
ter Taxa de edição de tradução, uma versão da distância de edição (Snover et al., mt
2006).
Distância
corda
terp Versão de ter que trata de substituição frasal, lematização e sinonímia (Snover et al., mt
da
2006).
bater Versão do ter otimizada para correlações com julgamentos de adequação (Snover et mt
al., 2006).
Medidas teóricas de conjuntos de dados/Jaccard de sobreposição entre dois conjuntos não ordenados n/D
(por exemplo, de predicados ou outras unidades de conteúdo)
masi Medida de concordância entre itens com valor definido, uma versão ponderada de como
Jaccard (Passonneau, 2006)

especiaria Medida de sobreposição entre textos candidatos e de referência com base eu
no conteúdo proposicional obtido pela análise do texto em
Sobreposição
gráficos que representam objetos e relações, primeiro analisando legendas em

conteúdo
gráficos de cena que representam objetos e relações (An-derson et al., 2016)

de
Tabela 1: Métricas intrínsecas baseadas em corpus com base na sobreposição de strings, distância de strings,
ou sobreposição de conteúdo. A última coluna indica a subdisciplina da PNL na qual um
métrica originada, quando aplicável. Legenda: mt = Tradução automática; como =
resumo automático; ic = legenda da imagem.
ou Sumarização, têm sido usados na avaliação do GNL. Alguns dos principais

estão resumidos na Tabela 1, que os agrupa de acordo com seus principais
características, e para cada uma adiciona uma referência chave.
Medidas de sobreposição de n-gramas ou distância de edição de strings, geralmente originadas em
66
A tradução automática ou o resumo (com exceção de cider, Vedantam et al., 2015) são frequentemente
usados para avaliar a realização de superfície (por exemplo, White et al., 2007; Cahill & Josef, 2006;
Espinosa et al., 2010; Belz et al., 2010; Belz et al., 2010; Belz et al., 2010; al., 2011) e ocasionalmente
também para avaliar textos curtos característicos de sistemas baseados em dados em domínios como
relatórios meteorológicos (por exemplo, Reiter & Belz, 2009; Konstas & Lapata, 2013) e legendagem de
imagens (ver Bernardi et al., 2016). . Métricas de distância de edição têm sido exploradas para realização
(Espinosa et al., 2010), mas também para registro (Gatt & Belz, 2010).
O foco dessas métricas está no texto, e não na fidelidade à entrada. Num número limitado de casos,
foram utilizadas métricas orientadas para a superfície para avaliar a adequação com que o texto de
saída reflete o conteúdo (Banik et al., 2013; Reiter & Belz, 2009). Contudo, se o foco for a determinação
do conteúdo, uma medida de sobreposição de superfície é, na melhor das hipóteses, um substituto,
baseando-se na suposição de uma correspondência direta entre entrada e saída. Esta suposição pode
ser sustentável se os textos forem breves e relativamente previsíveis. Em alguns casos, tem sido
possível utilizar métricas para medir diretamente a determinação do conteúdo, com base em corpora
anotados semanticamente. Por exemplo, algoritmos reg foram avaliados desta forma usando métricas
de sobreposição de conjuntos (Viethen & Dale, 2007; van Deemter et al., 2012a). As medições diretas
da sobreposição de conteúdo entre os resultados gerados e os resultados candidatos provavelmente
aumentarão, à medida que as técnicas automáticas de alinhamento de dados e texto tornam esses
corpora 'semanticamente transparentes' mais prontamente disponíveis para nlg de ponta a ponta (ver,
por exemplo, Chen & Mooney, 2008; Liang et al., 2009, e a discussão na Seção 3.3).
7.1.3 Avaliando a compatibilidade de gênero
Uma questão ligeiramente diferente que tem sido ocasionalmente colocada em estudos de avaliação
questiona se o artefacto linguístico produzido por um sistema é uma instância reconhecível de um
género ou estilo particular. Vimos exemplos disso em nossa discussão sobre geração de linguagem
criativa na Seção 6. Por exemplo, uma das perguntas feitas por Binsted et al. (1997) foi se o resultado
da jape era reconhecidamente uma piada. Hardcastle e Scott (2008) descrevem uma avaliação de um
sistema de geração de pistas cruzadas enigmáticas com base em um teste de Turing no qual o objetivo
era determinar se as saídas do sistema eram reconhecidamente diferentes das pistas de autoria humana.
Embora tais questões tenham claramente uma orientação intrínseca, também têm influência em
factores extrínsecos, uma vez que a capacidade de reconhecer um artefacto como uma instância de um
género ou como exibindo um certo estilo ou personalidade é indiscutivelmente uma das fontes do seu
impacto, especialmente no caso do uso criativo da linguagem.
É claro que a intenção por trás da variação de estilo, personalidade ou afeto pode muito bem ser,
em última análise, aumentar a eficácia na consecução de algum objetivo ulterior. Na verdade, qualquer
sistema NGL destinado a ser incorporado em um ambiente específico precisará abordar questões
estilísticas e baseadas em gênero. Por exemplo, nosso hipotético gerador de boletins meteorológicos
pode usar um estilo técnico muito breve, dado seu conjunto profissional de usuários-alvo (como foi o
caso de SumTime Reiter et al., 2005); em contrapartida, os boletins meteorológicos destinados ao
consumo público, como os do
67
o corpus WeatherGov, seria provavelmente mais longo e menos técnico (Angeli et al., 2010).
Contudo, há uma diferença entre avaliar se as restrições de gênero ou a variação estilística

ajudam a contribuir para um objetivo e avaliar se o texto realmente exibe a variação desejada. Por
exemplo, Mairesse e Walker (2011) avaliaram o sistema de personagens (ver Seção 5) pedindo aos
usuários que julgassem os traços de personalidade refletidos nos fragmentos de diálogo gerados
(em vez de, digamos, medir se os usuários eram mais propensos a comer em um restaurante). se
isso foi recomendado por uma configuração do sistema com alto grau de extroversão).
Isto é semelhante em espírito à questão sobre a piada feita por Binsted et al. (1997), em contraste
com a avaliação mais explicitamente extrínseca do gerador de piadas standup feita por Waller et al.
(2009), que questionaram se o sistema realmente ajudava os usuários a melhorar suas interações
com os pares.
7.2 Métodos de avaliação extrínseca
Em contraste com os métodos intrínsecos, as avaliações extrínsecas medem a eficácia na consecução

de um objetivo desejado. No cenário de exemplo da Figura 8, tal avaliação pode abordar o impacto
no planeamento por parte dos engenheiros que são os utilizadores-alvo do sistema. Claramente, a
“eficácia” depende do domínio de aplicação e da finalidade de um sistema. Exemplos incluem:
• persuasão e mudança de comportamento, por exemplo, através da exposição a pessoas

cartas personalizadas para cessação do tabagismo (Reiter et al., 2003);
• decisão de compra após apresentação de argumentos a favor e contra opções no mercado

imobiliário com base em um modelo de usuário (Carenini & Moore, 2006);
• envolvimento com questões ecológicas depois de ler blogs sobre aves migratórias (Siddharthan
et al., 2013);
• apoio à decisão num ambiente médico após a geração de relatórios de pacientes (Portet et al.,
2009; Hunter et al., 2012);
• melhorar a interação linguística entre utilizadores com necessidades de comunicação complexas

através da geração de narrativas pessoais (Tintarev et al., 2016);
• melhorar a eficácia da aprendizagem no diálogo tutorial (Di Eugenio et al., 2005; Fossati et al.,
2015; Boyer et al., 2011; Lipschultz et al., 2011; Chi et al., 2014)
Embora estudos baseados em questionários ou de autorrelato possam ser usados para abordar
critérios extrínsecos (por exemplo, Hunter et al., 2012; Siddharthan et al., 2013; Carenini & Moore,
2006), em muitos casos a avaliação depende de algum objetivo medida de desempenho ou realização.
Isto pode ser feito com os utilizadores-alvo in situ, aumentando a validade ecológica do estudo, mas
também pode assumir a forma de uma tarefa que modela os cenários para os quais o sistema NGL
foi concebido.
Assim, no dar Challenge (Striegnitz et al., 2011), em que sistemas nlg
68
gerou instruções para um usuário navegar por um mundo virtual, uma avaliação baseada em tarefas
em grande escala foi realizada fazendo com que os usuários jogassem o jogo online, enquanto vários
índices de sucesso foram registrados, incluindo o tempo que um usuário levou para completar o jogo.
reg cujo objetivo era gerar descrições de identificação de objetos em domínios visuais foram avaliados
em parte com base no tempo que os leitores levaram para identificar um referente com base em uma
descrição gerada bem como sua taxa de erro(Gatt & Belz , 2010). O skillsum, um sistema para gerar
relatórios de feedback de avaliações de alfabetização, foi avaliado medindo como a autoavaliação do
usuário sobre suas próprias habilidades de alfabetização melhorou após a leitura do feedback gerado,
em comparação com textos de controle (Williams & Reiter, 2008).
Uma desvantagem potencial dos estudos extrínsecos, além do tempo e dos custos, é a dependência
de uma base de usuários adequada (que pode ser difícil de obter quando os usuários precisam ser
amostrados de uma população específica, como os engenheiros em nosso cenário hipotético na Figura
8) e a possibilidade de realizar o estudo num cenário realista. Tais estudos também levantam desafios
significativos de concepção, devido à necessidade de controlar variáveis intervenientes e de confusão,
comparando múltiplas versões de um sistema (por exemplo, numa concepção ablativa; ver Secção 7.3
abaixo), ou comparando um sistema com um padrão-ouro ou linha de base. Por exemplo, Carenini e
Moore (2006) observam que a avaliação da eficácia dos argumentos apresentados no texto precisa
levar em conta aspectos da personalidade do usuário que podem impactar o quão receptivos eles são
aos argumentos em primeiro lugar.
Um exemplo do equilíbrio entre questões de design e controle e validade ecológica é fornecido pela
família de sistemas BabyTalk. Um sistema piloto denominado bt-45 (Portet et al., 2009), que gerava
resumos de pacientes a partir de intervalos de 45 minutos de dados históricos de pacientes, foi avaliado
em uma tarefa envolvendo enfermeiros e médicos, que escolheram entre um conjunto de ações clínicas
para tomar com base nas informações fornecidas. Estas foram então comparadas com decisões
“verdadeiras” tomadas por especialistas neonatais seniores. Esta avaliação foi realizada fora da
enfermaria; portanto, os sujeitos tomavam decisões clínicas em um ambiente artificial, sem acesso
direto ao paciente. Por outro lado, na avaliação do bt-nurse, um sucessor do bt-45 que resumiu os dados
dos pacientes coletados durante um turno de doze horas (Hunter et al., 2012), o sistema foi avaliado
na enfermaria usando dados do paciente ao vivo , mas considerações éticas impediram uma avaliação
baseada em tarefas. Pelas mesmas razões, a comparação com textos humanos “padrão ouro” também
era impossível. Assim, a avaliação suscitou julgamentos, tanto sobre critérios intrínsecos, como
compreensibilidade e precisão, quanto sobre critérios extrínsecos, como utilidade clínica percebida (ver
Sid-dharthan et al., 2013, para uma medida de impacto extrínseca indireta semelhante, desta vez em
ambiente ecológico).
7.3 Avaliação de caixa preta versus caixa de vidro

Com exceção das avaliações de módulos ou algoritmos específicos, como no caso dos realizadores reg
ou de superfície, a maioria dos estudos de avaliação discutidos até agora seriam classificados como
avaliações de 'caixa preta' de 'ponta a ponta', ou completas, sistemas nlg. Numa avaliação “caixa de
vidro”, por outro lado, é a contribuição dos componentes individuais que está sob escrutínio, idealmente
numa configuração onde as versões de
69
um sistema com e sem componente são avaliados da mesma maneira. Observação

que a distinção entre avaliação de caixa preta e caixa de vidro é ortogonal
à questão de quais métodos são usados.
Um excelente exemplo de avaliação em caixa de vidro é Callaway e Lester (2002),
que usou um design ablativo, provocando julgamentos sobre a qualidade da saída de
seu sistema de geração de narrativas baseado em diferentes configurações que omitiam ou incluíam
componentes-chave. Na mesma linha, Elliott e Keller (2013)
compararam modelos de imagem para texto que incluíam representações de dependência refinadas
de dependências espaciais e linguísticas, com modelos com uma representação de imagem de
granulação mais grossa, encontrando uma vantagem para os primeiros.
No entanto, comparações exaustivas entre componentes são por vezes difíceis
fazer e pode resultar em uma explosão combinatória de configurações, com
uma redução concomitante nos pontos de dados coletados por configuração (assumindo
assuntos são limitados e precisam ser divididos entre diferentes condições) e
uma redução no poder estatístico. Existem alternativas na literatura. Reiter
e outros. (2003) obtiveram julgamentos sobre previsões meteorológicas usando textos gerados por
humanos e por máquinas, juntamente com uma versão 'híbrida' onde o conteúdo foi selecionado
pelos previsores, mas a linguagem foi gerada automaticamente. Isso ativou
uma comparação entre seleção de conteúdo humana e automática. Angeli et al. (2010)
utilizou medidas subjetivas e baseadas em corpus para avaliar a qualidade linguística, juntamente com
com medidas de precisão e baseadas em recall para avaliar a determinação do conteúdo de seus
sistema estatístico contra textos anotados por humanos. Na enfermeira bt (Hunter et al.,
2012), os enfermeiros foram solicitados a fazer comentários em texto livre (além de responder a uma
questionário visando dimensões extrínsecas), que foram então anotados manualmente e analisados
para determinar quais elementos do sistema eram potencialmente
problemático.
7.4 Sobre a relação entre métodos de avaliação

Até que ponto a infinidade de métodos pesquisados – desde os extrínsecos, orientados para tarefas,
até os intrínsecos, que dependem de métricas automáticas ou julgamentos humanos
– realmente relacionado? Acontece que múltiplos métodos de avaliação raramente dão
veredictos convergentes sobre um sistema ou sobre a classificação relativa de um conjunto de sistemas
em comparação.
7.4.1 Métricas versus julgamentos humanos
Embora as métricas baseadas em corpus usadas na MT e na sumarização sejam normalmente

validadas pela demonstração de sua correlação com classificações humanas, a meta-avaliação
estudos nestes campos sugeriram que a correspondência é um tanto fraca
(por exemplo, Dorr et al., 2004; Callison-Burch et al., 2006; Caporaso et al., 2008). Da mesma forma,
avaliações de tarefas compartilhadas na geração de expressões referentes mostraram que
métodos baseados em corpus, baseados em julgamento e experimentais ou baseados em tarefas
frequentemente não se correlacionam com Gatt e Belz (2010). Em sua recente revisão, Bernardi
e outros. (2016) observam um problema semelhante na avaliação do sistema de legendagem de imagens. Por isso,
Kulkarni et al. (2013) descobriram que seu sistema de descrição de imagens não superava
70
realizar dois métodos anteriores (Farhadi et al., 2010; Yang et al., 2011) nas pontuações do
bleu; no entanto, os julgamentos humanos indicaram a tendência oposta, com os leitores
preferindo o seu sistema (observações semelhantes são feitas por Kiros et al., 2014).
Hodosh et al. (2013) compararam a concordância (medida pelo ÿ de Cohen) entre
julgamentos humanos e pontuações bleu ou rouge para legendas recuperadas, descobrindo
que os resultados não foram classificados de forma semelhante por humanos e métricas, a
menos que as legendas recuperadas fossem idênticas às legendas de referência.
Ocasionalmente, a correlação entre uma métrica e os julgamentos humanos parece
diferir entre os estudos, sugerindo que os resultados baseados em métricas são altamente
suscetíveis a variações devido a algoritmos de geração e conjuntos de dados. Por exemplo,
Konstas e Lapata (2013) (discutido na Seção 3.3.4 acima) descobrem que em métricas
baseadas em corpus, a versão de melhor desempenho de seu modelo não supera a de Kim
e Mooney (2010) no robocup domínio, ou o de Angeli et al. (2010) em seu corpus
meteorológico (weathergov), embora tenha um desempenho melhor do que Angeli et al.
(2010) sobre o conjunto de dados de viagens mais barulhentos da Atis. No entanto, uma
avaliação da fluência e da correção semântica, baseada em julgamentos humanos, mostrou
que o sistema superou, por uma pequena margem, tanto Kim e Mooney (2010) quanto
Angeli et al. (2010) em ambas as medidas em todos os domínios, com exceção do
weathergov, onde o sistema de Angeli et al. teve um desempenho marginalmente melhor.
Na mesma linha, Elliott e De Vries (2015) comparam seu sistema de legenda de
imagens, baseado em relações de dependência visual, ao RNN bidirecional desenvolvido
por Karpathy e Fei-Fei (2015), em dois conjuntos de dados diferentes. Os dois sistemas
estavam próximos um do outro no conjunto de dados vlt2k, mas não no Pascal1k, resultado
que os autores afirmam ser devido ao vlt2k conter mais imagens envolvendo ações. Quanto
à relação entre métricas e julgamentos humanos, Elliott e Keller (2013) concluíram que o
meteoro se correlaciona melhor que o azul (ver El-liott & Keller, 2014, para uma comparação
sistemática de métricas automáticas neste domínio), uma descoberta também confirmada
em seu trabalho posterior (Elliott & De Vries, 2015), bem como no Desafio de Avaliação ms-
coco, que descobriu que o meteoro era mais robusto. No entanto, o trabalho de Kuznetsova
et al. (2014) apresentaram resultados variáveis; seu método de maior pontuação avaliado
pelos humanos, envolvendo a composição das árvores, foi classificado mais alto pelo bleu
do que pelo meteoro. No Desafio de Avaliação ms-coco, alguns sistemas superaram o
limite superior humano-humano quando comparados a textos de referência usando métricas
automáticas, mas nenhum sistema atingiu esse nível em uma avaliação baseada em
julgamentos humanos (ver Bernardi et al., 2016, para discussão adicional).
Alguns estudos abordaram explicitamente a relação entre métodos como uma questão
de investigação por si só. Uma contribuição importante nesta direção é o estudo de (Reiter
& Belz, 2009), que abordou a validade de métricas baseadas em corpus em relação aos
julgamentos humanos, no domínio da geração de previsões meteorológicas (um estudo
semelhante foi recentemente realizado sobre imagens legenda por Elliott & Keller, 2014).
Numa primeira experiência, centrada na qualidade linguística, os autores encontraram uma
elevada correlação entre os julgamentos dos leitores especialistas e não especialistas, mas
a correlação entre os julgamentos humanos e as métricas automáticas variou
consideravelmente (de 0,3 a 0,87), dependendo da versão do a métrica utilizada e se os
textos de referência foram incluídos na comparação
71
por juízes humanos. O segundo experimento avaliou a qualidade linguística, pedindo a juízes humanos
que avaliassem a clareza/legibilidade; e determinação do conteúdo, através da obtenção de julgamentos
de precisão/adequação (comparando os textos com os dados brutos). As métricas automáticas
correlacionaram-se significativamente com julgamentos de clareza, mas muito menos com precisão,
sugerindo que eram melhores em prever a qualidade linguística do que a correção.
Outros estudos produziram resultados igualmente inconsistentes. Em um estudo sobre geração de

paráfrases, Stent et al. (2005) descobriram que as métricas automáticas correlacionavam-se altamente
com os julgamentos de adequação (aproximadamente semelhantes à precisão), mas não com a fluência.
Por outro lado, Espinosa et al. (2010) descobriram que métricas automáticas como nist, meteoro e gtm
correlacionam-se moderadamente bem com a fluência humana e julgamentos de adequação da
qualidade de realização de superfície inglesa, enquanto Cahill (2009) relatou apenas uma correlação
fraca para a realização de superfície alemã. Wubben et al. (2012), comparando estratégias de
simplificação de texto, encontraram correlações baixas, mas significativas, entre julgamentos de bleu e
fluência, e uma correlação muito baixa e negativa entre bleu e adequação. Estas descobertas
contrastantes sugerem que a relação entre métricas pode depender do propósito e do género do texto
em consideração; por exemplo, Reiter e Belz (2009) utilizaram boletins meteorológicos, enquanto
Wubben et al. (2012) usaram artigos da Wikipédia.
Vários fatores podem ser aduzidos para explicar a inconsistência desses meta-
estudos de avaliação:
1. Métricas como o bleu são sensíveis à extensão dos textos em comparação. Com textos mais
curtos, as métricas baseadas em n-gramas provavelmente resultarão em pontuações mais baixas.
2. O tipo de sobreposição é importante: por exemplo, muitas avaliações na legenda de imagens

baseiam-se no bleu-1 (o trabalho de Elliott & Keller, 2013, 2014, foi um dos primeiros a
experimentar n-gramas mais longos), mas n-gramas mais longos. gramas são mais difíceis de
combinar, embora capturem mais informações sintáticas e sejam indiscutivelmente melhores
indicadores de fluência.
3. A variabilidade semântica é uma questão importante. Os textos gerados podem ser semelhantes
aos textos de referência, mas diferem em alguns quase sinônimos ou em variações sutis na ordem
das palavras. Conforme mostrado na Tabela 1, algumas métricas são projetadas para abordar
parcialmente essas questões.
4. Muitas métricas intrínsecas baseadas em corpus são projetadas para comparação com vários
textos de referência, mas isso nem sempre é possível em nlg. Por exemplo, embora os conjuntos
de dados de legendas de imagens normalmente contenham múltiplas legendas por imagem
(normalmente, cerca de 5), este não é o caso em outros domínios, como relatórios meteorológicos
ou recomendações de restaurantes.
O resultado é que as avaliações da PNL dependem cada vez mais de múltiplos métodos, uma tendência
,
que é igualmente visível em outras áreas da PNL, como a MT (Callison-Burch et al., 2007, 2008).
72
7.4.2 Usando experimentos controlados
Alguns estudos validaram medidas de avaliação em relação a dados experimentais.

Por exemplo, Siddharthan e Katsos (2012) compararam os resultados do seu estudo de
julgamento de estimativa de magnitude (ver Secção 7.1 acima) com os resultados de uma
tarefa de recordação de frases, descobrindo que os resultados desta última são
largamente consistentes com os julgamentos e concluindo que podem substituir
avaliações baseadas em tarefas para esclarecer falhas na compreensão no nível da
frase. Alguns estudos também utilizaram experiências comportamentais e compararam
medidas de processamento “online”, tais como o tempo de leitura de expressões
referentes, com métricas baseadas em corpus (por exemplo, Belz et al., 2010). As
correlações com métricas automáticas são geralmente fracas. Um uso um pouco diferente
dos tempos de leitura foi feito por Lapata (2006), que os utilizou como uma medida
objetiva para validar o ÿ de Kendall como uma métrica para avaliar a ordenação da
informação no texto (um aspecto da estruturação do texto). Num estudo recente, Zarrieß
et al. (2015) compararam textos gerados com textos de autoria humana e textos de
“preenchimento” (que foram manipulados manualmente para comprometer sua coerência).
Eles descobriram que as medidas do tempo de leitura eram mais úteis para distinguir
estas classes de textos do que as medidas off-line baseadas em julgamentos de fluência e clareza.
7.5 Avaliação: Observações finais No contexto desta
secção, podem ser tiradas três conclusões principais:
1. Existe uma aceitação generalizada da necessidade de utilização de múltiplos

métodos de avaliação na GNL. Embora nem sempre sejam consistentes entre si,
são úteis para esclarecer diferentes aspectos da qualidade, desde a fluência e
clareza dos resultados até à adequação do conteúdo semântico e à eficácia na
concretização das intenções comunicativas. A escolha do método tem impacto
direto na forma como os resultados podem ser interpretados.
2. Estudos de meta-avaliação produziram resultados conflitantes sobre a relação

entre julgamentos humanos, medidas comportamentais e métricas computadas
automaticamente. A correlação entre eles varia dependendo da tarefa e do domínio
da aplicação. Este é um tema de investigação contínua, com muitos estudos
centrados na fiabilidade das métricas e na sua relação com outras medidas,
especialmente julgamentos humanos.
3. Uma questão que permanece pouco explorada diz respeito às dimensões da

qualidade que são elas próprias objecto de investigação. (Neste contexto, vale a
pena notar que algumas disciplinas afins procuraram diminuir a ênfase do seu
papel alegando que são inconsistentes; ver Callison-Burch et al. (2008), por
exemplo). Por exemplo, o que as pessoas estão julgando quando avaliam a
fluência ou a adequação e com que consistência o fazem? Está longe de ser óbvio
se se deve realmente esperar que estes julgamentos se correlacionem com outras
medidas, dado que estas últimas são orientadas para o produtor, centrando-se na
produção, enquanto os próprios julgamentos são muitas vezes orientados para o
receptor, centrando-se na forma como o resultado é lido ou processado (para um argumento relacionado,
73
ver Oberlander, 1998). Além disso, embora os julgamentos metalinguísticos possam

espera-se que reflita o impacto de um texto sobre seus leitores, existe, no entanto, a
possibilidade de que métodos comportamentais on-line projetados para diretamente
investigar aspectos do processamento produziria uma imagem diferente, um resultado
que foi obtido em alguns estudos psicolinguísticos (por exemplo, Engelhardt
e outros, 2006).
Concluindo, nossa principal recomendação aos profissionais de GNL, onde

avaliação, é errar em favor da diversidade, utilizando métodos múltiplos, na medida do possível, e
reportando não só os seus resultados, mas também a correlação entre eles. Correlações fracas
não implicam necessariamente que os resultados de uma
método específico são inválidos. Pelo contrário, podem indicar que as medidas se concentram
em diferentes aspectos de um sistema ou de sua saída.
8 Discussão e direções futuras
Nas últimas duas décadas, o campo da GNL avançou consideravelmente e

muitos desses avanços recentes não foram abordados em uma pesquisa abrangente
ainda. Este artigo procurou colmatar esta lacuna, com os seguintes objetivos:
1. fornecer uma atualização das principais tarefas e arquiteturas no campo, com uma
ênfase em técnicas recentes baseadas em dados;
2. destacar brevemente os desenvolvimentos recentes em áreas relativamente novas, incluindo

geração de visão para texto e geração de textos estilisticamente variados, envolventes ou
criativos; e
3. discutir extensivamente os problemas e perspectivas da avaliação de aplicações de GNL

aplicações.
Ao longo desta pesquisa, surgiram vários temas gerais relacionados. Provavelmente, o tema
central tem sido a mudança gradual das abordagens tradicionais, baseadas em regras, para
abordagens estatísticas e baseadas em dados, o que, claro, tem sido
ocorrendo em IA em geral. Na nlg, isto teve um impacto substancial na forma como
tarefas individuais são abordadas (por exemplo, passar de tarefas dependentes de domínio para
abordagens mais gerais, independentes de domínio, confiando em vez disso nos dados
disponíveis), bem como em como as tarefas são combinadas em diferentes arquiteturas (por exemplo,
passando de abordagens modulares para abordagens mais integradas). A compensação
entre a qualidade de saída do texto gerado e a eficiência e robustez
de uma abordagem está se tornando uma questão central: abordagens baseadas em dados são indiscutivelmente
mais eficientes do que as abordagens baseadas em regras, mas a qualidade dos resultados pode
ser comprometida, pelas razões que discutimos. Outro tema importante foi
a maior interação entre a pesquisa principal da NGL e outras disciplinas, como
como visão computacional (no caso de visão para texto) e criatividade computacional
pesquisa (no caso do uso de linguagem criativa).
Na conclusão deste levantamento abrangente do estado da arte em
nlg, e dado o ritmo acelerado a que ocorrem os desenvolvimentos tanto na indústria como
74
academia, consideramos útil apontar algumas possíveis direções futuras, bem como levantar uma série
de questões que pesquisas recentes trouxeram à tona.
8.1 Por que (e como) o NLG deve ser usado?

Há mais de uma década, no início de sua influente pesquisa sobre NGL, Reiter e Dale (2000)
recomendaram ao desenvolvedor que ela colocasse essa questão antes de embarcar no projeto e na
implementação de um sistema. O nlg pode realmente ajudar no domínio de destino? Existe uma solução
mais barata e mais padronizada e funcionaria tão bem? Do ponto de vista de um engenheiro ou de uma
empresa, estas são questões obviamente relevantes. Como mostram aplicações recentes de nlg
baseadas na indústria, esta tecnologia é normalmente valiosa sempre que a informação que precisa ser
apresentada aos usuários é relativamente volumosa e vem em uma forma que não é facilmente
consumida e não permite um mapeamento direto para um formato mais modalidade fácil de usar sem
transformação considerável.
É aqui que a GNL se destaca, oferecendo uma bateria de técnicas para selecionar, estruturar e
apresentar a informação.
No entanto, a questão de saber se vale a pena usar a GNL num contexto específico também deve
ser acompanhada pela questão de como deve ser usada. A nossa pesquisa centrou-se nas técnicas de
geração de texto, mas o texto nem sempre é apresentado isoladamente. Outras dimensões importantes
incluem a estrutura e o layout do documento, um problema pouco estudado (mas ver Power et al.,
2003). Eles também incluem o papel dos gráficos no texto, uma área onde há potencial para maior
interação entre as comunidades NGL e de visualização, abordando questões como quais informações
devem ser renderizadas textualmente e quais podem ser tornadas mais acessíveis em uma modalidade
gráfica. Estas questões são de grande relevância em alguns domínios, especialmente aqueles em que
a entrega de informações precisas é um precursor da tomada de decisões em situações críticas (para
alguns exemplos, ver Elting et al., 1999; Law et al., 2005).
8.2 NLG não trata de texto para texto. . . ou é?
Em nossa seção introdutória, distinguimos a geração de texto para texto da geração de dados para
texto; esta pesquisa centrou-se principalmente neste último. As duas áreas têm características distintas,
entre as quais o fato de que as entradas do NGL tendem a variar amplamente, assim como os objetivos
dos sistemas NGL em função do domínio em consideração. Em contraste, a entrada na geração de
texto para texto, especialmente a Sumarização Automática, é comparativamente homogênea e, embora
seus objetivos possam variar amplamente, o campo também tem sido bem-sucedido na definição de
tarefas e conjuntos de dados (por exemplo, por meio das tarefas compartilhadas duc) , que
estabeleceram o padrão para pesquisas subsequentes.
No entanto, um olhar mais atento aos dois tipos de geração mostrará mais possibilidades de
convergência do que sugere a caracterização acima. Para começar, se a nlg está preocupada em
passar dos dados para o texto, então certamente a entrada textual deve ser considerada como uma
dentre uma ampla variedade de formas nas quais os dados de entrada podem ser usados.
75
Seja apresentado. Alguns trabalhos recentes, como Kondadadi et al. (2013) (discutido na Secção 3.3)
e McIntyre e Lapata (2009) (discutido na Secção 6) concentraram-se explicitamente em aproveitar
esses dados para gerar texto coerente. Outras abordagens para nlg, incluindo alguns sistemas que
estão em conformidade com uma arquitetura padrão e modular de dados para texto (por exemplo,
Hunter et al., 2012), tiveram que lidar com o texto como um entre uma variedade de tipos de entrada. ,
embora usando técnicas muito simples.
A geração a partir de entradas heterogêneas que incluem texto como um tipo de dados é uma direção
de pesquisa promissora, especialmente tendo em vista as grandes quantidades de dados textuais
disponíveis, muitas vezes acompanhados de números ou imagens.
8.3 Teorias e modelos em busca de aplicações?

Na sua visão geral do estado da avaliação na NGL no final da década de 1990, Mellish e Dale (1998)
discutiram, entre as formas possíveis de avaliar um sistema, os seus fundamentos teóricos e, em
particular, se o modelo teórico subjacente a um sistema NGL ou um dos seus componentes é adequado
à tarefa e pode generalizar para novos domínios. Em vez de avaliar um sistema de GNL como tal, esta
questão visa a própria teoria e sugere que vejamos a GNL como um potencial banco de testes para tais
teorias ou modelos. Mas quais são as teorias subjacentes à nlg?
A proeminência dos modelos teóricos na GNL tende a depender da tarefa em consideração. Por
exemplo, muitas abordagens à realização discutidas na Secção 2.6 baseiam-se numa teoria específica
de estrutura sintática; a pesquisa sobre reg tem sido frequentemente baseada em insights da teoria
pragmática, especialmente nas máximas griceanas (Grice, 1975); e muitas pesquisas sobre estruturação
de texto foram inspiradas na Teoria da Estrutura Retórica (Mann & Thompson, 1988). As abordagens
relativamente novas em várias tarefas de planejamento de frases – especialmente aquelas relacionadas
com estilo, afeto e personalidade – tendem a ter uma inspiração teórica, na forma de um modelo de
personalidade (John & Srivastava, 1999) ou de uma teoria de polidez (Brown & Levinson). , 1987), por
exemplo.
Na maioria das vezes, tais teorias são aproveitadas no processo de formalização de um problema
específico para alcançar uma solução tratável. Tratar a sua implementação num sistema NGL como
um teste explícito da teoria, como Mellish e Dale (1998) parecem sugerir, acontece com muito menos
frequência. Isto talvez seja um reflexo de uma divisão entre perspectivas “orientadas para a engenharia”
e “orientadas para a teoria” neste campo: a primeira perspectiva enfatiza soluções viáveis, robustez e
qualidade dos resultados; o último enfatiza a solidez teórica, a plausibilidade cognitiva e assim por
diante. No entanto, a dicotomia teoria/engenharia é indiscutivelmente falsa. Embora o objetivo da
pesquisa em GNL seja muitas vezes diferente, digamos, daquele da modelagem cognitiva (por exemplo,
poucos sistemas de GNL procuram modelar erros de produção explicitamente), também é verdade
que as implementações orientadas pela teoria são, elas próprias, contribuições valiosas para o trabalho
teórico. .
Recentemente, alguns autores argumentaram que os profissionais de GNL deveriam prestar mais
atenção aos modelos teóricos e cognitivos. As razões apresentadas a favor deste argumento são
duplas. Primeiro, os resultados psicolinguísticos e os modelos teóricos podem realmente ajudar a
melhorar os sistemas implementados, como afirmam Rajkumar e
76
White (2014) mostra para o caso de realização. Em segundo lugar, como argumentado, por exemplo,
por van Deemter et al. (2012b), os modelos teóricos podem beneficiar da precisão formal que é a
base da investigação linguística computacional; um caso concreto em PNL é fornecido por Poesio et
al. (2004), cuja implementação da Teoria da Centralização (Grosz et al., 1995) lançou luz sobre uma
série de parâmetros subespecificados no modelo original e modificações subsequentes do mesmo.
O nosso argumento aqui é que a GNL forneceu uma riqueza de conhecimentos teóricos que não
devem ser perdidos pela comunidade de investigação mais ampla; da mesma forma, os investigadores
da NGL beneficiariam, sem dúvida, de uma consciência dos desenvolvimentos recentes no trabalho
teórico e experimental.
8.4 Para onde vamos a partir daqui?

Finalmente, concluímos com algumas especulações sobre algumas direções futuras para pesquisas
futuras para as quais o momento parece oportuno.
No campo do Processamento de Linguagem Natural como um todo, um desenvolvimento recente
notável é a explosão de interesse nas mídias sociais, incluindo blogs online, microblogs como os
feeds do Twitter e plataformas sociais como o Facebook.
Num aspecto, o interesse pelas redes sociais poderia ser visto como uma extensão natural de tópicos
de longa data na PNL, incluindo o desejo de lidar com a linguagem “em estado selvagem”. Contudo,
os dados das redes sociais deram mais ímpeto à exploração da linguagem não canónica (por
exemplo, Eisenstein, 2013); o impacto dos factores sociais e demográficos no uso da língua (por
exemplo, Hovy & Søgaard, 2015; Johannsen et al., 2015); a prevalência de características
paralinguísticas como afeto, ironia e humor (Pang & Lee, 2008; Lukin & Walker, 2013); e outras
variáveis, como personalidade (por exemplo, Oberlander & Nowson, 2006; Farnadi et al., 2013;
Schwartz et al., 2013). Os feeds das redes sociais também são fluxos de dados importantes para a
identificação de eventos atuais e de tendências (ver Atefeh & Khreich, 2015, para uma revisão
recente).
Ainda há pouco trabalho sobre a geração de resumos textuais ou multimídia de tais dados (mas ver,
por exemplo, Wang et al., 2014) ou sobre a geração de texto em contextos de mídia social (as
exceções incluem Ritter et al., 2011; Cagan et al., 2011; Cagan et al., 2011; Cagan et al., 2011; al., 2014).
Uma vez que grande parte do texto das redes sociais é subjetivo e opinativo, um interesse crescente
nas redes sociais por parte dos investigadores da NGL também pode dar um novo impulso à
investigação sobre o impacto do estilo, da personalidade e do afeto na variação textual (discutido na
Secção 5). , e na linguagem não literal (incluindo alguns dos fenômenos discutidos na Seção 6).
Uma segunda área potencial de crescimento para a GNL está situada na geração de línguas.
O termo situado é geralmente usado para se referir ao uso da linguagem em ambientes físicos ou
virtuais onde as escolhas de produção levam explicitamente em conta propriedades físicas e
perceptivas. A pesquisa sobre processamento de linguagem situada avançou significativamente nos
últimos anos, com estruturas para produção e compreensão de linguagem em contextos virtuais (por
exemplo, Kelleher et al., 2005), bem como uma série de contribuições dentro da NGL, especialmente
para a geração de linguagem em ambientes interativos (Kelleher & Kruijff, 2006; Stoia & Shockley,
2006; Garoufi & Koller, 2013; Dethlefs & Cuayáhuitl, 2015). O popular desafio deu ainda mais
impulso a esta pesquisa (Striegnitz et al., 2011). Claramente,
77
este trabalho também está ligado ao empreendimento de fundamentar a linguagem gerada no mundo
perceptivo, do qual a pesquisa discutida na Seção 4 constitui uma das tendências atuais. No entanto, existem
muitos campos onde a situação é fundamental, nos quais a GNL ainda pode fazer contribuições inovadoras.
Um deles são os jogos. Com exceção de alguns esforços para aumentar a variedade de expressões
linguísticas usadas em ambientes virtuais (por exemplo, Orkin & Roy, 2007), a tecnologia nlg é relativamente
pouco representada na pesquisa sobre jogos, apesar do progresso significativo na geração de conteúdo
dinâmico em ambientes de jogos. (por exemplo, Togelius et al., 2011).
Isto pode dever-se à percepção de que a interacção linguística nos jogos é previsível e pode basear-se em
texto “enlatado”. No entanto, com a crescente influência da gamificação como estratégia para melhorar uma
variedade de atividades além do entretenimento, como a pedagogia, bem como o desenvolvimento de
técnicas sofisticadas de planeamento para variar a forma como os mundos dos jogos se desenrolam em
tempo real, o como -a suposição de previsibilidade no que diz respeito ao uso da linguagem pode muito bem
estar sujeita a revisão.
Terceiro, há um interesse crescente na aplicação de técnicas de GNL para geração a partir de bases de
conhecimento e ontologias estruturadas (por exemplo, Ell & Harth, 2014; Duma & Klein, 2013; Gyawali &
Gardent, 2014; Mrabet et al., 2016; Sleimi & Gardent, 2016, alguns dos quais foram brevemente discutidos
na Secção 3.3.4). A disponibilidade de bases de conhecimento como a dbpedia, ou folksonomias como a
Freebase, não só constituem fontes de input por si só, mas também abrem a possibilidade de explorar
alinhamentos entre inputs estruturados e texto numa variedade mais ampla de domínios do que tem sido até
agora possível. caso.
Finalmente, embora tenha havido uma mudança significativa nos últimos anos no sentido de técnicas
baseadas em dados em nlg, muitas delas não foram testadas em aplicações comerciais ou do mundo real,
apesar do crescimento na comercialização de serviços de geração de texto personalizados observado no
seção introdutória. Normalmente, os argumentos para sistemas baseados em regras em cenários comerciais,
ou em casos onde a entrada é de alto volume e heterogênea, são que (1) sua saída é mais fácil de controlar
para sistemas sob medida; ou (2) que os dados estão, em qualquer caso, indisponíveis num determinado
domínio, tornando discutível o uso de técnicas estatísticas; ou (3) não foi demonstrado que os sistemas
baseados em dados sejam capazes de se expandir para além dos cenários experimentais (alguns destes
argumentos são apresentados, por exemplo, por Harris, 2008). A resposta ao primeiro ponto depende da
disponibilidade de técnicas que permitam ao desenvolvedor “olhar nos bastidores” e compreender as relações
estatísticas aprendidas por um modelo. Tais técnicas estão, por exemplo, sendo desenvolvidas para investigar
ou visualizar as representações aprendidas por redes neurais profundas. O segundo ponto exige mais
investimento em pesquisas sobre aquisição de dados e alinhamento de dados-texto. Técnicas de geração
que dependem de alinhamentos menos precisos entre dados e texto também são uma direção futura
promissora. Finalmente, a escalabilidade continua a ser um desafio em aberto. Muitos dos sistemas que
discutimos foram desenvolvidos em ambientes de investigação, onde o objectivo é, obviamente, expandir
as fronteiras da GNL e demonstrar a viabilidade ou correcção de novas abordagens.
Embora em alguns casos a investigação sobre dados para texto tenha abordado problemas de grande escala
– nomeadamente em alguns dos sistemas que resumem dados numéricos – uma maior preocupação com a
escalabilidade também concentraria a atenção dos investigadores em questões como
78
como o tempo e os recursos necessários para coletar dados e treinar um sistema e a eficiência dos
algoritmos que estão sendo implantados. É evidente que os desenvolvimentos no hardware irão
aliviar estes problemas, como aconteceu com alguns métodos estatísticos que recentemente se
tornaram mais viáveis.
9 Conclusão
Nos últimos anos, assistimos a um aumento acentuado no interesse na geração automática de
texto. As empresas agora oferecem tecnologia nlg para uma série de aplicações em domínios como
jornalismo, meteorologia e finanças. O enorme aumento nos dados disponíveis e no poder
computacional, bem como os rápidos desenvolvimentos na aprendizagem automática, criaram
muitas novas possibilidades e motivaram os investigadores da NGL a explorar uma série de novas
aplicações, relacionadas, por exemplo, com a geração de imagem para texto, enquanto as aplicações
relacionadas com as redes sociais parecem estar ao virar da esquina, como testemunha, por
exemplo, o surgimento de técnicas relacionadas com a nlg para a criação automática de conteúdos,
bem como a nlg para o Twitter e chatbots (por exemplo, Dale, 2016). Com os desenvolvimentos
ocorrendo em um ritmo constante e a tecnologia também encontrando seu caminho em aplicações
industriais, o futuro do campo parece brilhante. Na nossa opinião, a investigação em GNL deveria
ser ainda mais fortalecida através de uma maior colaboração com disciplinas afins. Esperamos que
esta pesquisa sirva para destacar alguns dos caminhos potenciais para esse trabalho multidisciplinar.
Reconhecimentos
Este trabalho beneficiou enormemente das discussões e comentários de Grzegorz Chrupala, Robert
Dale, Raquel Hervás, Thiago Castro Ferreira, Ehud Reiter, Marc Tanti, Mariët Theune, Kees van
Deemter, Michael White e Sander Wubben. EK recebeu apoio da RAAK-PRO SIA (2014-01-51PRO)
e da Organização Holandesa para Pesquisa Científica (NWO 360-89-050), que é reconhecida com
gratidão.
Referências
Anderson, P., Fernando, B., Johnson, M. e Gould, S. (2016). SPICE: Avaliação Semântica
Proposicional de Legendas de Imagens. Em Proc. ECCV'16, pp.
Androutsopoulos, I., & Malakasiotis, P. (2010). Uma pesquisa sobre métodos de paráfrase e
implicação textual. Jornal de Pesquisa de Inteligência Artificial, 38, 135–187.
Angeli, G., Liang, P. e Klein, D. (2010). Uma abordagem probabilística simples e independente de
domínio para geração. Em Proc. EMNLP'10, pp. 502–512.
Angeli, G., Manning, CD e Jurafsky, D. (2012). Análise de tempo: Aprendendo a interpretar

expressões de tempo. Em Proc. NAACL-HLT'12, pp.
79
Antol, S., Agrawal, A., Lu, J., Mitchell, M., Batra, D., Zitnick, CL, & Parikh, D. (2015). VQA: Resposta visual
a perguntas. Em Proc. ICCV'15, pp.
Antol, S., Zitnick, CL e Parikh, D. (2014). Aprendizagem zero-shot por meio de abstração
visual. Em Proc. ECCV'14, pp.
Appelt, D. (1985). Planejando frases em inglês. Cambridge University Press,
Cambridge, Reino Unido.
Argamon, S., Koppel, M., Pennebaker, JW e Schler, J. (2007). Minerando a Blogosfera:

Idade, gênero e variedades de autoexpressão. Primeira segunda-feira, 12 (9).
Atefeh, F. e Khreich, W. (2015). Um levantamento de técnicas para detecção de eventos

no Twitter. Inteligência Computacional, 31 (1), 132–164.
Austin, JL (1962). Como fazer coisas com palavras. Clarendon Press, Oxford.
Bahdanau, D., Cho, K. e Bengio, Y. (2015). Tradução automática neural aprendendo
em conjunto a alinhar e traduzir. Em Proc. ICLR'15, pp.
Bal, M. (2009). Narratologia (terceira edição). Imprensa da Universidade de Toronto,
Toronto.
Ballesteros, M., Bohnet, B., Mille, S., & Wanner, L. (2015). Geração de frases baseada em dados com
árvores não isomórficas. Em Proc. NAACL-HTL'15, pp.
Banaee, H., Ahmed, MU e Loutfi, A. (2013). Rumo a NLG para monitoramento de dados fisiológicos com
redes de áreas corporais. Em Proc. ENLG'13, pp.
Bangalore, S. e Rambow, O. (2000). Escolha lexical baseada em corpus na geração de

linguagem natural. Em Proc. ACL'00, pp.
Bangalore, S. e Stent, A. (2014). Geração de Linguagem Natural em Interativo
Sistemas. Cambridge University Press.
Banik, E., Gardent, C. e Cow, E. (2013). O Desafio KBGen. Em Proc.
ENGL'13, pp. 94–97.
Bannard, C. e Callison-Burch, C. (2005). Parafraseando com paralelo bilíngue
corpo. Em Proc. ACL'05, pp. 597–604.
Bard, EG, Robertson, D., & Sorace, A. (1996). Estimativa de magnitude de aceitabilidade
linguística. Linguagem, 72 (1), 32–68.
Barnard, K. (2016). Métodos computacionais para integração de visão e linguagem
medidor. Editores Morgan e Claypool.
Bartoli, A., De Lorenzo, A., Medvet, E. e Tarlao, F. (2016). Seu artigo foi aceito, rejeitado
ou o que quer que seja: Geração automática de revisões de artigos científicos.
Na Conferência Internacional sobre Disponibilidade, Confiabilidade e Segurança,
pp.
80
Barzilay, R., Elhadad, N., & McKeown, KR (2002). Inferindo estratégias para
ordenação de frases no resumo de notícias multidocumentos. Journal of Artificial
Intelligence Research, 17, 35–55.
Barzilay, R. e Lapata, M. (2005). Seleção coletiva de conteúdo para geração do conceito em
texto. Em Proc. HLT/EMNLP'05, pp.
Barzilay, R. e Lapata, M. (2006). Agregação via Set Partitioning for Natural
Geração de Linguagem. Em Proc. HLT-NAACL'06, pp.
Barzilay, R. e Lee, L. (2004). Pegando a deriva: modelos de conteúdo probabilísticos, com
aplicações para geração e resumo. Em Proc. HLT-NAACL'04, pp.
Bateman, JA (1997). Habilitando tecnologia para linguagem natural multilíngue

geração: o ambiente de desenvolvimento KPML. Engenharia de Linguagem Natural, 3
(1), 15–55.
Bateman, JA e Zock, M. (2005). Geração de linguagem natural. Em Mitkov,
R. (Ed.), The Oxford Handbook of Computational Linguistics. Oxford University Press,
Oxford, Reino Unido.
Belz, A. (2003). E agora com sentimento: desenvolvimentos na linguagem emocional
Geração (Relatório Técnico nº ITRI-03-21). Tecnologia. representante, Universidade de
Brighton, Brighton, Reino Unido.
Belz, A. (2008). Geração automática de textos de previsão meteorológica usando modelos de

espaço de geração probabilísticos abrangentes. Engenharia de Linguagem Natural, 14
(04).
Belz, A. e Kow, E. (2010). Comparando escalas de classificação e julgamentos de preferência
na avaliação da linguagem. Em Proc. INLG'10, pp.
Belz, A. e Kow, E. (2011). Discreto vs. Escalas de avaliação contínua para idioma
Avaliação em PNL. Em Proc. ACL'11, pp.
Belz, A., Kow, E., Viethen, J. e Gatt, A. (2010). Gerando expressões referentes no contexto: Os
desafios da avaliação da tarefa GREC. Em Krahmer, E., &
Theune, M. (Eds.), Métodos Empíricos em Geração de Linguagem Natural.
Springer, Berlim e Heidelberg.
Belz, A., White, M., Espinosa, D., Kow, E., Hogan, D., & Stent, A. (2011). O
Primeira tarefa compartilhada de realização de superfície: visão geral e resultados da avaliação.
Em Proc. ENLG'11, vol. 2, pp. 217–226.
Bengio, Y., Ducharme, R., Vincent, P. e Janvin, C. (2003). Um modelo de linguagem
probabilística neural. Jornal de Pesquisa de Aprendizado de Máquina, 3, 1137–
1155.
Bernardi, R., Cakici, R., Elliott, D., Erdem, A., Erdem, E., Ikizler-Cinbis, N.,
Keller, F., Muscat, A. e Plank, B. (2016). Geração automática de descrição a partir de
imagens: um levantamento de modelos, conjuntos de dados e medidas de avaliação.
Jornal de Pesquisa de Inteligência Artificial, 55, 409–442.
Biber, D. (1988). Variação na fala e na escrita. Universidade de Cambridge
Imprensa, Cambridge.
81
Binsted, K., Bergen, B. e McKay, J. (2003). Humor com trocadilhos e sem trocadilhos na aprendizagem
de um segundo idioma. Em Proc. CHI 2003 Workshop sobre Modelagem de Humor na
Interface.
Binsted, K., Pain, H. e Ritchie, GD (1997). Avaliação infantil de enigmas de trocadilhos gerados por
computador. Pragmática e Cognição, 5 (2), 305–354.
Binsted, K. e Ritchie, GD (1994). Um modelo implementado de enigmas de trocadilhos.

Em Proc. AAAI'94.
Binsted, K. e Ritchie, GD (1997). Regras computacionais para gerar enigmas de trocadilhos. Humor:
International Journal of Humor Research, 10 (1), 25–76.
Bohnet, B. (2008). A impressão digital de expressões referenciais humanas e sua realização superficial com
transdutores gráficos. Em Proc. INLG'08, pp.
Bohnet, B., Wanner, L., Mille, S. e Burga, A. (2010). Geração de frases profundas multilíngues de
ampla cobertura com um realizador estocástico multinível.
Em Proc. COLING'10, pp.
Bollegala, D., Okazaki, N. e Ishizuka, M. (2010). Uma abordagem ascendente para ordenação de
frases para resumo de vários documentos. Processamento e gerenciamento de informações,
46 (1), 89–109.
Bollmann, M. (2011). Adaptando SimpleNLG para alemão. Em Proc. ENGL'11.
Bouayad-Agha, N., Casamayor, G., Wanner, L. e Mellish, C. (2013). Visão geral do primeiro desafio
de seleção de conteúdo de dados abertos da Web semântica.
Em Proc. ENGL'11, pp. 98–102.
Boyer, KE, Phillips, R., Ingram, A., Ha, EY, Wallis, M., Vouk, M., & Lester, JC (2011). Investigando a
relação entre estrutura de diálogo e eficácia da tutoria: Uma abordagem de modelagem de
Markov oculta. Jornal Internacional de Inteligência Artificial em Educação, 21 (1-2), 65–81.
Brants, T. e Franz, A. (2006). Web 1T 5 gramas Versão 1. Tecnologia. rep., Consórcio de Dados
Linguísticos.
Bratman, ME (1987). Intenções, Planos e Razão Prática. CSLI, Stanford,

QUE.
Bringsjord, S. e Ferrucci, DA (1999). Inteligência Artificial e Criatividade Literária: Por Dentro da Mente
de BRUTUS, uma Máquina de Contar Histórias. Lawrence Erlbaum Associates, Hillsdale, NJ.
Brown, JC, Frishkoff, GA e Eskenazi, M. (2005). Geração automática de perguntas para avaliação de
vocabulário. Em Proc. EMNLP'05, pp.
Brown, P. e Levinson, SC (1987). Polidez: alguns universais no uso da linguagem. Cambridge

University Press, Cambridge, Reino Unido.
Bruner, J. (2011). A construção narrativa da realidade. Investigação Crítica,

18 (1), 1–21.
82
Busemann, S. e Horacek, H. (1997). Geração de relatórios de qualidade do ar a partir de

dados ambientais. Em Busemann, S., Becker, T., & Finkler, W. (Eds.), Workshop
DFKI sobre Geração de Linguagem Natural (Documento DFKI D-97-06), pp. DFKI,
Saarbrücken.
Cagan, T., Frank, SL e Tsarfaty, R. (2014). Gerando respostas subjetivas a artigos
opinativos nas mídias sociais: uma arquitetura orientada para a agenda e um teste
semelhante ao de Turing. Em Proc. Workshop conjunto sobre dinâmica social e
atributos pessoais nas mídias sociais, pp.
Cahill, A. (2009). Correlacionando avaliação humana e automática de um realizador de
superfície alemão. Em Proc. ACL-IJCNLP'09, pp.
Cahill, A., Forst, M. e Rohrer, C. (2007). Classificação de realização estocástica para uma
linguagem de ordem de palavras gratuita. Em Proc. ENLG'07, pp.
Cahill, A. e Josef, V. (2006). Geração robusta baseada em PCFG usando aproximações de LFG adquiridas
automaticamente. Em Proc. COLING-ACL'06, pp.
Callaway, CB (2005). Os tipos e distribuições de erros em uma avaliação do Realizador de

superfície de ampla cobertura. Em Proc. ENLG'05, pp.
Callaway, CB e Lester, JC (2002). Geração de prosa narrativa. Inteligência Artificial, 139
(2), 213–252.
Callison-Burch, C., Fordyce, C., Koehn, P., Monz, C., & Schroeder, J. (2007).
(Meta-)avaliação da tradução automática. Em Proc. StatMT'07, pp.
158.
Callison-Burch, C., Fordyce, C., Koehn, P., Monz, C., & Schroeder, J. (2008).
Meta-avaliação adicional da tradução automática. Em Proc. StatMT'08, pp.
Callison-Burch, C., Osborne, M. e Koehn, P. (2006). Reavaliando o papel

do BLEU em Pesquisa em Tradução Automática. Em Proc. EACL'06.
Caporaso, JG, Deshpande, N., Fink, JL, Bourne, PE, Bretonnel Cohen, K., & Hunter, L.
(2008). A avaliação intrínseca de ferramentas de mineração de texto pode não
prever o desempenho em tarefas realistas. Simpósio do Pacífico sobre
Biocomputação, 13, 640–651.
Carenini, G. e Moore, JD (2006). Gerar e avaliar argumentos avaliativos. Inteligência
Artificial, 170 (11), 925–952.
Carroll, J. e Oepen, S. (2005). Realização de alta eficiência para uma gramática de
unificação de ampla cobertura. Em Dale, R. (Ed.), Anais da 2ª Conferência Conjunta
Internacional sobre Processamento de Linguagem Natural (IJCNLP'05), pp.
Chang, F., Dell, GS e Bock, K. (2006). Tornando-se sintático. Psicológico

revisão, 113 (2), 234–72.
Chen, DL e Mooney, RJ (2008). Aprendendo a transmitir esportes: um teste de aquisição
de linguagem fundamentada. Em Proc. ICML'08, pp.
83
Cheng, H. e Mellish, C. (2000). Capturando a interação entre agregação e planejamento de

texto em sistemas de duas gerações. Em Proc. INLG '00, vol. 14, pp.
Chi, M., Jordan, PW e VanLehn, K. (2014). Quando o diálogo tutorial é mais eficaz do que a
tutoria baseada em etapas? Em Proc. ITS'14, pp.
Clark, HH (1996). Usando a linguagem. Imprensa da Universidade de Cambridge, Cambridge,

REINO UNIDO.
Clarke, J. e Lapata, M. (2010). Restrições de discurso para compactação de documentos.

Lingüística Computacional, 36 (3), 411–441.
Clerwall, C. (2014). Entra o Robô Jornalista. Prática de Jornalismo, 8 (5),
519–531.
Coch, J. (1998). Geração interativa e administração de conhecimento em Mul-tiMeteo. Em

Proc. IWNLG'98, pp.
Cohen, PR e Levesque, HJ (1985). Atos de fala e racionalidade. Em Proc.

ACL'85, pp. 49–60.
Cohen, PR e Perrault, CR (1979). Elementos de uma teoria baseada em planos de

atos de fala. Ciência Cognitiva, 3, 177–212.
Colin, E., Gardent, C., Mrabet, Y., Narayan, S., & Perez-Beltrachini, L. (2016).
O desafio webnlg: Gerando texto a partir de dados dbpedia. Em Proc.
INLG'16, pp. 163–167, Edimburgo, Reino Unido.
Colton, S., Goodwin, J. e Veale, T. (2012). Geração de Poesia Full-FACE. Em Proc. ICCC'12,
pp.
Concepción, E., Mendez, G., Gervas, P., & Leon, C. (2016). Uma proposta de desafio para
geração de narrativas utilizando cnls. Em Proc. INLG'16, pp. 171–173, Edimburgo, Reino
Unido.
Cuayáhuitl, H., & Dethlefs, N. (2011). Aprendizagem por Reforço Hierárquico e Modelos Ocultos
de Markov para Geração de Linguagem Natural Orientada a Tarefas.
Em Proc. ACL'11, pp. 654–659.
Dale, R. (1989). Preparando expressões referentes. Em Proc. ACL'89, pp.

Dale, R. (1992). Gerando Expressões de Referência: Construindo Descrições em um Domínio
de Objetos e Processos. MIT Press, Cambridge, MA.
Dale, R. (2016). O retorno dos chatbots. Engenharia de Linguagem Natural, 22 (5), 811817.
Dale, R., Anisimoff, I., & Narroway, G. (2012). Hoo 2012: Um relatório sobre a tarefa
compartilhada de correção de erros de preposição e determinante. Em Proc. 7º Workshop
sobre Construção de Aplicações Educacionais Usando PNL, pp.
Dale, R. e Reiter, E. (1995). Interpretações Computacionais das Máximas Griceanas na Geração

de Expressões Referenciais. Ciência Cognitiva, 19 (2), 233–263.
84
Dale, R. e White, M. (2007). Tarefas Compartilhadas e Avaliação Comparativa na Geração de

Linguagem Natural: Relatório de Workshop. Tecnologia. representante, Universidade
Estadual de Ohio, Arlington, Virgínia.
Dalianis, H. (1999). Agregação na geração de linguagem natural. Inteligência Computacional,

15 (4), 384–414.
de Oliveira, R., & Sripada, S. (2014). Adapting SimpleNLG for Brazilian Por-
realização tugese. Em Proc. INLG'14, pp.
De Rosis, F. e Grasso, F. (2000). Geração Afetiva de Linguagem Natural. Em Paiva, A. (Ed.),

Interações afetivas, pp. Springer, Berlim e Heidelberg.
De Smedt, K., Horacek, H. e Zock, M. (1996). Arquiteturas para geração de linguagem natural:
problemas e perspectivas. Em Adorni, G. e Zock, M.
(Eds.), Tendências na geração de linguagem natural: uma perspectiva de inteligência
artificial, pp. Springer, Berlim e Heidelberg.
Dethlefs, N. (2014). Geração de linguagem natural sensível ao contexto: de técnicas baseadas

em conhecimento a técnicas baseadas em dados. Bússola de Linguagem e Lingüística,
8 (3), 99–115.
Dethlefs, N., & Cuayáhuitl, H. (2015). Aprendizagem por reforço hierárquico para geração de
linguagem natural situada. Engenharia de Linguagem Natural, 21 (3), 391–435.
Devlin, J., Cheng, H., Fang, H., Gupta, S., Deng, L., He, X., Zweig, G., & Mitchell, M. (2015a).
Modelos de linguagem para legendagem de imagens: as peculiaridades e o que funciona.
Em Proc. ACL/IJCNLP'15, pp.
Devlin, J., Gupta, S., Girshick, R., Mitchell, M., & Zitnick, CL (2015b).
Explorando abordagens de vizinhos mais próximos para legendas de imagens. Repositório
de Pesquisa de Computação (arXiv), 1505.04467, 1–6.
Di Eugenio, B., Fossati, D., Yu, D., Haller, S., & Glass, M. (2005). A agregação melhora a
aprendizagem: Experimentos em geração de linguagem natural para sistemas de tutoria
inteligentes. Em Proc. ACL'05, pp.
Di Eugenio, B. e Green, N. (2010). Aplicações emergentes de geração de linguagem natural na

visualização de informações, educação e cuidados de saúde.
Em Indurkhya, N., & Damerau, F. (Eds.), Handbook of Natural Language Processing (2
edição)., p. 557575. Chapman e Hall/CRC, Londres.
Di Fabbrizio, G., Stent, A. e Bangalore, S. (2008). Geração de expressão de referência baseada
em alto-falante treinável. Em Proc. CoNLL'08, pp.
DiMarco, C., Covvey, HD, Bray, P., Cowan, D., DiCiccio, V., Yellow, EH, Mulholland, D., & Lipa,
J. (2007). O desenvolvimento de um sistema de geração de linguagem natural para
informações personalizadas de e-saúde. Em Proc.
MedInfo'07.
DiMarco, C. e Hirst, G. (1993). Uma teoria computacional de estilo direcionado a metas em

sintaxe. Lingüística Computacional, 19 (3), 451–499.
85
Dimitromanolaki, A. e Androutsopoulos, I. (2003). Aprendendo a ordenar fatos para

planejamento de discurso na geração de linguagem natural. Em Proc. ENLG'03, pp.
Doddington, G. (2002). Avaliação automática da qualidade da tradução automática usando

estatísticas de co-ocorrência de n-gramas. Em Proc. Workshop ARPA sobre Tecnologia
da Linguagem Humana, pp.
Donahue, J., Hendricks, LA, Rohrbach, M., Venugopalan, S., Guadarrama, S., Saenko, K., & Darrell, T. (2015).
Redes Convolucionais Recorrentes de Longo Prazo para Reconhecimento e Descrição Visual. Em
Proc. CVPR'15, pp.
Dong, D., Wu, H., He, W., Yu, D. e Wang, H. (2015). Aprendizagem multitarefa para tradução de vários
idiomas. Em Proc. ACL/IJCNLP'15, pp.
Dorr, B. e Gaasterland, T. (1995). Seleção de tempo verbal, aspecto e conexão de palavras

na geração de linguagem. Em Proc. IJCAI'95, pp.
Dorr, B., Monz, C., Oard, D., Presidente, S., Zajic, D., & Schwartz, R. (2004).
Avaliação Extrínseca de Métricas Automáticas (LAMP-TR-115). Tecnologia.
representante, Universidade de Maryland, College Park, MD.
Dras, M. (2015). Avaliando julgamentos de preferência de pares humanos. Lingüística
Computacional, 41 (2), 309–317.
Duboue, PA e McKeown, KR (2003). Aquisição estatística de regras de seleção de conteúdo para geração
de linguagem natural. Em Proc. EMNLP'03, pp. 121–128.
Duma, D. e Klein, E. (2013). Gerando linguagem natural a partir de dados vinculados:

extração não supervisionada de modelos. Nos Anais da 10ª Conferência Internacional
sobre Semântica Computacional (IWCS'13), pp.
Duygulu, P., Barnard, K., de Freitas, N., & Forsyth, D. (2002). Reconhecimento de objetos
como tradução automática: aprendendo um léxico para um vocabulário de imagem
fixa. Em Proc. ECCV'02, pp. Springer.
Edmonds, P. e Hirst, G. (2002). Quase Sinonímia e Escolha Lexical. Computador
Linguística Nacional, 28 (2), 105–144.
Eisenstein, J. (2013). O que fazer com palavrões na internet. Em Proc.
NAACL-HLT'13, pp.
Elhadad, M. e Robin, J. (1996). Uma visão geral do SURGE: um componente de realização
sintática abrangente e reutilizável. Em Anais do 8º Workshop Internacional de Geração
de Linguagem Natural (IWNLG'98), pp.
Elhadad, M., Robin, J., & McKeown, KR (1997). Restrições flutuantes na escolha lexical.
Elhoseiny, M., Elgammal, A., & Saleh, B. (2017). Escreva um classificador: prevendo
classificadores visuais a partir de descrições de texto não estruturado. IEEE
Transactions on Pattern Analysis and Machine Intelligence, a aparecer, 1–14.
86
Ell, B. e Harth, A. (2014). Um método independente de linguagem para a extração

de modelos de verbalização RDF. Em Proc. INLG'14, pp.
Elliott, D. e De Vries, AP (2015). Descrever imagens usando representações de
dependência visual inferidas. Em Proc. ACL-IJCNLP'15, pp.
Elliott, D., Frank, S., Sima'an, K., & Specia, L. (2016). Multi30K: descrições de imagens
multilíngues inglês-alemão. CoRR, abs/1605.00459.
Elliott, D. e Keller, F. (2013). Descrição da imagem usando representações visuais de
dependência. Em Proc. EMNLP'13, pp.
Elliott, D. e Keller, F. (2014). Comparando medidas de avaliação automática para
descrição de imagens. Em Proc. Volume 2: Artigos Curtos, pp.
Elman, JL (1990). Encontrar estrutura no tempo. Ciência Cognitiva, 14 (2), 179–
211.
Elman, JL (1993). Aprendizagem e desenvolvimento em redes neurais: A importância

de começar aos poucos. Cognição, 48, 71–99.
Elson, D. e McKeown, KR (2010). Atribuição de tempo e aspecto na narrativa
discurso. Em Proc. INLG'10, pp.
Elting, LS, Martin, CG, Cantor, SB e Rubenstein, EB (1999). Influência dos formatos de
exibição de dados nas decisões dos investigadores médicos de interromper os
ensaios clínicos: ensaio prospectivo com medidas repetidas. BMJ (edição de
pesquisa clínica), 318 (7197), 1527–1531.
Engelhardt, P., Bailey, K., & Ferreira, F. (2006). Os falantes e os ouvintes observam a
Máxima Griceana da Quantidade?. Jornal de Memória e Linguagem, 54 (4), 554–
573.
Engonopoulos, N. e Koller, A. (2014). Gerando expressões de referência eficazes
usando gráficos. Em Proc. INLG'14, pp.
Espinosa, D., Rajkumar, R., White, M., & Berleant, S. (2010). Meta-avaliação adicional
da realização de superfície de ampla cobertura. Em Proc. EMNLP'10, pp.
Espinosa, D., White, M., & Mehay, D. (2008). Hypertagging: Supertagging para realização
de superfície com CCG. Em Proc. ACL-HLT'08, pp.
Evans, R., Piwek, P. e Cahill, L. (2002). O que é nlg?. Em Proc. INLG'02, pp.
144–151.
Fang, H., Gupta, S., Iandola, F., Srivastava, R., Deng, L., Dollár, P., Gao, J., He, X.,
Mitchell, M., Platt, JC , Zitnick, CL e Zweig, G. (2015). Das legendas aos conceitos
visuais e vice-versa. Em Proc. CVPR'15.
Farhadi, A., Hejrati, M., Sadeghi, MA, Young, P., Rashtchian, C., Hocken-maier, J., &
Forsyth, D. (2010). Cada imagem conta uma história: Gerando frases a partir de
imagens. Em Proc. ECCV'10, Vol. 6314 LNCS, pp.
87
Farnadi, G., Zoghbi, S., Moens, M.-F., & De Cock, M. (2013). Reconhecendo traços de
personalidade usando atualizações de status do Facebook. No Relatório Técnico
AAAI WS-13-01: Reconhecimento de Personalidade Computacional (Tarefa
Compartilhada), pp.
Fass, D. (1991). met*: Um método para discriminar metonímia e metáfora por computador.
Feng, Y. e Lapata, M. (2010). Quantas palavras vale uma imagem? Geração automática
de legendas para imagens de notícias. Em Proc. ACL'10, pp.
Ferraro, F., Mostafazadeh, N., Huang, T.-H., Vanderwende, L., Devlin, J., Galley, M., &
Mitchell, M. (2015). Uma pesquisa de conjuntos de dados atuais para pesquisa
em visão e linguagem. Em Proc. EMNLP'15, pp.
Ferreira, TC, Krahmer, E., & Wubben, S. (2016). Rumo a mais variação na geração de
texto: Desenvolvendo e avaliando modelos de variação para escolha da forma
referencial. Em Proc. ACL'16, pp.
Ferreira, TC, Krahmer, E., & Wubben, S. (2017). Gerando referências flexíveis de nomes
próprios em texto: Dados, modelos e avaliação. Em Proc. EACL'17.
Fikes, RE e Nilsson, NJ (1971). Tiras: Uma nova abordagem para a aplicação da prova de teoremas na
resolução de problemas. Inteligência Artificial, 2 (3-4), 189–208.
Filippova, K. e Strube, M. (2007). Gerando Ordem Constituinte em Alemão

Cláusulas. Em Proc. ACL'07, pp.
Filippova, K. e Strube, M. (2009). Linearização de árvores em inglês: Melhorando abordagens baseadas em
modelos de linguagem. Em Proc. NAACL-HLT'09, pp.
FitzGerald, N., Artzi, Y. e Zettlemoyer, L. (2013). Aprendendo Distribuições sobre Formas

Lógicas para Geração de Expressões de Referência. Em Proc. EMNLP'13, pp.
Fleischman, M. e Hovy, EH (2002). Variação emocional na geração de linguagem natural

baseada na fala. Em Proc. INLG'02, pp.
Flower, L. e Hayes, JR (1981). Uma teoria do processo cognitivo da escrita. Composição
e comunicação do colégio, 32 (4), 365–387.
Fort, K., Adda, G. e Bretonnel Cohen, K. (2011). Amazon Mechanical Turk: mina de ouro
ou mina de carvão? Lingüística Computacional, 37 (2), 413–420.
Fossati, D., Di Eugenio, B., Ohlsson, S., Brown, C., & Chen, L. (2015). Geração
automática de feedback baseada em dados no iList Intelligent Tutoring System.
Tecnologia, Instrução, Cognição e Aprendizagem, 10, 5–26.
Frank, MC, Goodman, ND e Tenenbaum, JB (2009). Usando as intenções referenciais
dos falantes para modelar a aprendizagem precoce de palavras inter-situacionais.
Ciência Psicológica, 20 (5), 578–85.
Gardent, C. (2002). Gerando descrições mínimas definidas. Em Proc. ACL'02,
pp. 96–103.
88
Gardent, C. e Narayan, S. (2015). Adjunção múltipla na gramática de junção de árvore

baseada em recursos. Lingüística Computacional, 41 (1), 41–70.
Garoufi, K. (2014). Modelos baseados em planejamento de geração de linguagem natural.
Bússola de Linguagem e Lingüística, 8 (1), 1–10.
Garoufi, K. e Koller, A. (2013). Geração de expressões referenciais eficazes em contexto
situado. Linguagem e Processos Cognitivos, 00 (00), 1–16.
Gatt, A. e Belz, A. (2010). Apresentando avaliação de tarefas compartilhadas ao NLG: Os
desafios de avaliação de tarefas compartilhadas do TUNA. Em Krahmer, E., & Theune, M.
(Eds.), Métodos empíricos na geração de linguagem natural. Springer, Berlim e
Heidelberg.
Gatt, A., Portet, F., Reiter, E., Hunter, JR, Mahamood, S., Moncur, W., & Sripada, S. (2009).
Dos dados ao texto na Unidade de Terapia Intensiva Neonatal: Utilizando a tecnologia
NLG para apoio à decisão e gestão da informação.
Comunicações AI, 22 (3), 153–186.
Gatt, A., van der Sluis, I., & van Deemter, K. (2007). Avaliação de algoritmos para geração de
expressões referenciais utilizando corpus balanceado. Em Proc. ENLG'07, pp.
Geman, D., Geman, S., Hallonquist, N., & Younes, L. (2015). Teste Visual Turing para
sistemas de visão computacional. Anais da Academia Nacional de Ciências dos Estados
Unidos da América, 112 (12), 3618–23.
Genette, G. (1980). Discurso Narrativo: Um Ensaio de Método. Universidade Cornell-
City Press, Ithaca, NY.
Gervás, P. (2001). Um sistema especialista para a composição de poesia formal espanhola.
Sistemas Baseados em Conhecimento, 14 (3-4), 181–188.
Gervás, P. (2009). Abordagens computacionais para contar histórias e criatividade. Revista
AI, outono de 2009, 49–62.
Gervás, P. (2010). Criatividade Linguística de Engenharia: Voo de Pássaros e Aviões a Jato.
Em Proc. 2º Workshop sobre Abordagens Computacionais para Criatividade
Linguística, pp.
Gervás, P. (2012). Do Velocino do Fato aos Fios Narrativos: um Modelo Computacional de Composição.
Em Proc. Workshop sobre Modelos Computacionais de Narrativa.
Gervás, P. (2013). Algoritmos geradores de histórias. Em Hühn, P. (Ed.), The Living

Handbook of Narratology. Universidade de Hamburgo, Hamburgo.
Gkatzia, D., Rieser, V., Bartie, P. e Mackaness, W. (2015). Do mundo virtual ao mundo real:
referindo-se a objetos em cenas espaciais do mundo real. Em Proc. EMNLP'15, pp.
Glucksberg, S. (2001). Compreendendo a linguagem figurada: das metáforas às

expressões idiomáticas. Imprensa da Universidade de Oxford, Oxford.
Godwin, K. e Piwek, P. (2016). Coletando julgamentos humanos confiáveis sobre linguagem

gerada por máquina: o caso dos dados QGSTEC. Em Proc.
INLG'16, pp. 212–216.
89
Goldberg, E., Driedger, N., & Kittredge, RI (1994). Usando processamento de linguagem
natural para produzir previsões meteorológicas. Especialista IEEE, 2, 45–53.
Goldberg, Y. (2016). Uma cartilha sobre modelos de redes neurais para processamento de
linguagem natural. Jornal de Pesquisa de Inteligência Artificial, 57, 345–420.
Goodfellow, I., Bengio, Y. e Courville, A. (2016). Aprendizagem profunda. Livro em preparação
para a MIT Press.
Goodman, J., Cryder, C. e Cheema, A. (2013). Coleta de dados em um mundo plano: os
pontos fortes e fracos das amostras mecânicas de turcos. Jornal de Tomada de Decisão
Comportamental, 26 (3), 213–224.
Goyal, R., Dymetman, M. e Gaussier, E. (2016). Geração de linguagem natural por meio de
RNNs baseados em caracteres com conhecimento prévio de estado finito. Em Proc.
COLING'16, pp.
Greene, E., Ave, L., Knight, K. e Rey, M. (2010). Análise Automática de Poesia Rítmica com
Aplicações à Geração e Tradução. Em Proc. EMNLP'10, pp.
Grice, HP (1975). Lógica e conversação. Em Sintaxe e Semântica 3: Fala

Atos, pp. 41–58. Elsevier, Amsterdã.
Grosz, BJ, Joshi, AK e Weinstein, S. (1995). Centralização: uma estrutura para modelar a
coerência local do discurso. Lingüística Computacional, 21 (2), 203–225.
Guhe, M. (2007). Conceitualização Incremental para Produção de Linguagem.

Lawrence Erlbaum Associates, Hillsdale, NJ.
Gupta, A., Verma, Y. e Jawahar, CV (2012). Escolhendo a linguística em vez da visão para
descrever imagens. Em Proc. AAAI'12, pp. 606–612.
Gupta, S., Walker, MA e Romano, DM (2007). Gerando Polidez na Interação Baseada em
Tarefas: Uma Avaliação da Forma e Cultura Linguística.
Gupta, S., Walker, MA e Romano, DM (2008). POLLy: Um sistema conversacional que utiliza
uma representação compartilhada para gerar ação e linguagem social. Em Proc.
IJCNLP'08, pp.
Gyawali, B. e Gardent, C. (2014). Realização de superfície a partir de bases de conhecimento.
Em Proc. ACL'14, pp. 424–434.
Halliday, M. e Matthiessen, CM (2004). Introdução à Gramática Funcional (3ª edição). Hodder
Arnold, Londres.
Harbusch, K. e Kempen, G. (2009). Gerando reticências de coordenadas oracionais
multilíngues: uma abordagem uniforme baseada em pós-edição. Em Proc. ENLG'09, pp.
Hardcastle, D. e Scott, D. (2008). Podemos avaliar a qualidade do gerado

texto?. Em Proc. LREC'08, pp.
Harnad, S. (1990). O problema de aterramento de símbolos. Física, D42 (1990), 335–
346.
90
Harris, MD (2008). Construindo um sistema NLG comercial em larga escala para um

EMR Em Proc. INLG '08, pp. 157–160.
Hearst, MA (1992). Aquisição automática de hipônimos de grandes corpora de texto. Em
Proc. COLING'92, pp.
Heeman, PA e Hirst, G. (1995). Colaborando em expressões referenciais.
Hendricks, LA, Akata, Z., Rohrbach, M., Donahue, J., Schiele, B., & Darrell, T. (2016a).
Gerando explicações visuais. Em Proc. ECCV'16.
Hendricks, LA, Venugopalan, S., Rohrbach, M., Mooney, RJ, Saenko, K., & Darrell, T.
(2016b). Legendas composicionais profundas: descrevendo novas categorias de
objetos sem dados de treinamento emparelhados. Em Proc. CVPR'16.
Herman, D. (1997). Roteiros, sequências e histórias: elementos de um pós-clássico
narratologia. PMLA, 112 (5), 1046–1059.
Herman, D. (2001). Lógica da história em narrativas conversacionais e literárias. Nar-
relativo, 9 (2), 130–137.
Herman, D. (2007). Contação de histórias e as ciências da mente: narratologia cognitiva,
psicologia discursiva e narrativas em interação face a face. Narrativa, 15 (3), 306–
334.
Hermida, A. (2015). Do Sr. e da Sra. Outlier às Tendências Centrais: Jornalismo
Computacional e reportagem criminal no Los Angeles Times. Jornalismo Digital, 3
(3), 381–397.
Hervás, R., Arroyo, J., Francisco, V., Peinado, F., & Gervás, P. (2016). Influência das
escolhas pessoais na variabilidade lexical das expressões referentes. Engenharia
de Linguagem Natural, 22 (2), 257–290.
Hervás, R., Francisco, V., & Gervás, P. (2013). Avaliar a influência das preferências
pessoais na escolha do vocabulário para geração de linguagem natural.
Processamento e gerenciamento de informações, 49 (4), 817–832.
Hervás, R., Pereira, F., Gervás, P., & Cardoso, A. (2006). Analogia entre domínios na
geração automatizada de texto. Em Proc. 3º workshop conjunto sobre Criatividade
Computacional, Vol. 6.
Hockenmaier, J. e Steedman, M. (2007). CCGbank: um corpus de derivações e estruturas
de dependência de CCG extraídas do Penn Treebank.
Hodosh, M., Young, P. e Hockenmaier, J. (2013). Enquadrar a descrição de imagens como
tarefa de classificação: Dados, modelos e métricas de avaliação. Jornal de Pesquisa
de Inteligência Artificial, 47, 853–899.
Horacek, H. (1997). Um algoritmo para geração de descrições referenciais com interfaces
flexíveis. Em Proc. ACL'97, pp.
Azul, D. e Søgaard, A. (2015). O desempenho da marcação se correlaciona com a idade
do autor. Em ACL'15, pp. 483–488.
91
Hovy, EH (1988). Gerando linguagem natural sob restrições pragmáticas.

Lawrence Erlbaum Associates, Hillsdale, NJ.
Hovy, EH (1991). Abordagens para o Planejamento de Texto Coerente. Em Paris, CL,
Swartout, WR, & Mann, WC (Eds.), Natural Language Gener-ation in Artificial
Intelligence and Computational Linguistics, pp.
Kluwer, Dordrecht.
Hovy, EH (1993). Planejamento e geração automatizada de discursos. Em Proc.
Reunião Anual da Sociedade de Texto e Discurso.
Huang, T.-H., Ferraro, F., Mostafazadeh, N., Misra, I., Agrawal, A., Devlin, J., Girshick,
R., He, X., Kohli, P., Batra, D., Zitnick, CL, Parikh, D., Vanderwende, L., Galley,
M., & Mitchell, M. (2016). Narrativa visual.
Em Proc. NAACL-HLT'16, pp.
Hueske-Kraus, D. (2003). Suregen-2: um sistema shell para geração de documentos
clínicos. Em Proc. EACL'03, pp.
Hunter, JR, Freer, Y., Gatt, A., Reiter, E., Sripada, S., & Sykes, C. (2012). Geração automática de resumos
de turnos de enfermagem em linguagem natural em terapia intensiva neonatal: BT-Nurse.
Inteligência Artificial em Medicina, 56 (3), 157–172.
Hüske-Kraus, D. (2003). Geração de texto em medicina clínica: uma revisão. Métodos

de informação em medicina, 42 (1), 51–60.
Inui, K., Tokunaga, T., & Tanaka, H. (1992). Revisão do texto: Um modelo e sua
implementação. Em Dale, R., Hovy, EH, Rosner, D., & Stock, O. (Eds.), Aspects
of Automated Natural Language Generation, Vol. 587, pág. 215–230.
Janarthanam, S. e Lemon, O. (2011). O Desafio GRUVE: Gerando Rotas sob Incerteza
em Ambientes Virtuais. Em Proc. ENLG'11, pp.
Janarthanam, S. e Lemon, O. (2014). Geração Adaptativa em Sistemas de Diálogo Usando Modelagem

Dinâmica de Usuários. Lingüística Computacional, 40 (4), 883–920.
Jia, Y., Shelhamer, E., Donahue, J., Karayev, S., Long, J., Girshick, R., Guadar-rama,
S., & Darrell, T. (2014). Caffe: Arquitetura Convolucional para Incorporação
Rápida de Recursos. Em Proc. Conferência Internacional ACM sobre Multimídia,
pp. ACM.
Johannsen, A., Blue, D., & Søgaard, A. (2015). Variação sintática interlingual entre
idade e sexo. Em Proc. CoNLL'15, pp. 103–112.
John, O. e Srivastava, S. (1999). A taxonomia dos cinco grandes traços: história,
medição e perspectivas teóricas. Em Pervin, L., & John, O. (Eds.), Manual de
Teoria e Pesquisa da Personalidade. Guilford Press, Nova York.
Johnson, J., Karpathy, A. e Fei-Fei, L. (2016). DenseCap: redes de localização
totalmente convolucionais para legendas densas. Em Proc. CVPR'16.
92
Johnson, WL, Rizzo, P., Bosma, W., Kole, S., Ghijsen, M., & Van Welbergen, H. (2004).
Gerando diálogo tutorial socialmente apropriado. Em Andre, E., Dybkjæ r, L.,
Minker, W., & Heisterkamp, P. (Eds.), Sistemas de Diálogo Afetivo: Anais do
Tutorial e Workshop de Pesquisa ADS 2004, Vol. Aula nº, pp. Springer, Berlim e
Heidelberg.
Jordan, PW e Walker, MA (2005). Aprender regras de seleção de conteúdo para gerar
descrições de objetos em diálogo. Jornal de Pesquisa de Inteligência Artificial,
24, 157–194.
Joshi, AK e Schabes, Y. (1997). Gramáticas adjacentes à árvore. No Manual de
Linguagens Formais, Vol. 3, pp. Springer, Nova York.
Kalchbrenner, N. e Blunsom, P. (2013). Modelos recorrentes de tradução contínua. Em
Proc. EMNLP'13, pp.
Karpathy, A. e Fei-Fei, L. (2015). Alinhamentos visual-semânticos profundos para gerar
descrições de imagens. Em Anais da Conferência IEEE sobre Visão
Computacional e Reconhecimento de Padrões (CVPR'15), pp.
Karpathy, A., Joulin, A. e Fei-Fei, L. (2014). Incorporações profundas de fragmentos
para mapeamento bidirecional de frases de imagens. Em Proc. NIPS'14, pp.
Kasper, RT (1989). Uma interface flexível para vincular aplicativos ao gerador de frases
do Penman. Em Proc. Workshop sobre Fala e Linguagem Natural, pp.
Kauchak, D. e Barzilay, R. (2006). Parafraseando para avaliação automática. Em

Processo. NAACL-HLT'06, pp.
Kay, M. (1996). Geração de gráficos. Em Proc. ACL'96, pp.
Kazemzadeh, S., Ordonez, V., Matten, M., & Berg, T. (2014). ReferItGame: Referindo-
se a objetos em fotografias de cenas naturais. Em Proc. EMNLP'14, pp. 787–798.
Kelleher, J., Costello, F. e Van Genabith, J. (2005). Estruturar, atualizar e inter-

relacionar dinamicamente representações do contexto discursivo visual e
linguístico. Inteligência Artificial, 167, 62–102.
Kelleher, J. e Kruijff, G.-J. (2006). Geração incremental de expressões referenciais
espaciais em diálogo situado. Em Proc. COLING-ACL'06, pp.
Kempen, G. (2009). Coordenação clausal e elipse de coordenadas em um modelo de
o orador. Lingüística, 47 (3), 653–696.
Kennedy, C. e McNally, L. (2005). Estrutura de escala, modificação de grau e semântica
de predicados gradáveis. Linguagem, 81 (2), 345–381.
Kibble, R. e Power, R. (2004). Otimizando a coerência referencial na geração de texto.
Kiddon, C. e Brun, Y. (2011). Foi isso que ela disse: identificação de duplo sentido
cátion. Em Proc. ACL-HLT'11, pp.
93
Kim, J. e Mooney, RJ (2010). Alinhamento Generativo e Análise Semântica para Aprendizagem com
Supervisão Ambígua. Em Proc. COLING'10, pp.
Kiros, R., Zemel, R. e Salakhutdinov, R. (2014). Modelos de linguagem neural multimodais.

Em Proc. ICML'14, pp. 1–14.
Kojima, A., Tamura, T. e Fukunaga, K. (2002). Descrição em linguagem natural das atividades
humanas a partir de imagens de vídeo com base na hierarquia conceitual de ações.
Jornal Internacional de Visão Computacional, 50 (2), 171–184.
Koller, A. e Petrick, RP (2011). Experiências com planejamento para recursos naturais
geração de linguagem. Inteligência Computacional, 27 (1), 23–40.
Koller, A. e Stone, M. (2007). Geração de sentenças como problema de planejamento. Em
Proc. ACL'07, pp.
Koller, A. e Striegnitz, K. (2002). Geração como análise de dependência. Em Proc.
ACL'02, pp. 17–24.
Koller, A., Striegnitz, K., Gargett, A., Byron, D., Cassell, J., Dale, R., Moore, JD, & Oberlander,
J. (2010). Relatório sobre o segundo desafio nlg sobre geração de instruções em
ambientes virtuais (give-2). Em Proc. INLG'10, pp.
Koncel-Kedziorski, R. e Hajishirzi, H. (2014). Aterramento de linguagem multi-resolução com

supervisão fraca. Em Proc. EMNLP'14, pp. 386–396.
Koncel-Kedziorski, R., Hajishirzi, H., & Farhadi, A. (2014). Base de linguagem multi-resolução com supervisão
fraca. Em Proc. EMNLP'14, pág. 386396.
Kondadadi, R., Howald, B. e Schilder, F. (2013). Uma Estrutura Estatística NLG para
Planejamento e Realização Agregados. Em Proc. Volume 1: Artigos Longos, pp.
Konstas, I. e Lapata, M. (2012). Geração não supervisionada de conceito em texto com

hipergrafos. Em Proc. NAACL-HLT'12, pp.
Konstas, I. e Lapata, M. (2013). Um modelo global para geração de conceito em texto.
Jornal de Pesquisa de Inteligência Artificial, 48, 305–346.
Krahmer, E. e Theune, M. (2010). Métodos Empíricos em Linguagem Natural
Geração. Springer, Berlim e Heidelberg.
Krahmer, E. e van Deemter, K. (2012). Geração computacional de expressões referentes:
uma pesquisa. Lingüística Computacional, 38 (1), 173–218.
Krizhevsky, A., Sutskever, I. e Hinton, G. (2012). Classificação ImageNet com Redes Neurais
Convolucionais Profundas. Em Pereira, F., Burges, CJC, Bottou, L., & Weinberger,
KQ (Eds.), Advances in Neural Information Processing Systems 25, pp. Curran
Associates, Inc., EUA.
Kukich, K. (1987). De onde vêm as frases: Algumas experiências preliminares na geração
de frases conexionistas. Em Geração de Linguagem Natural: Novos Resultados em
Inteligência Artificial, Psicologia e Lingüística.
94
Kukich, K. (1992). Técnicas para correção automática de palavras em texto. Pesquisas de

Computação ACM (CSUR), 24 (4), 377–439.
Kulkarni, G., Premraj, V., Dhar, S., Li, S., Choi, Y., Berg, AC, & Berg, T.
(2011). Baby Talk: Compreendendo e gerando descrições de imagens.
Em Proc. CVPR'11, pp.
Kulkarni, G., Premraj, V., Ordonez, V., Dhar, S., Li, S., Choi, Y., Berg, AC, & Berg, T. (2013).
Conversa de bebê: Compreender e gerar descrições simples de imagens. Transações
IEEE em Análise de Padrões e Inteligência de Máquina, 35 (12), 2891–2903.
Kutlak, R., Mellish, C. e van Deemter, K. (2013). Desafio de seleção de conteúdo - inscrição
na Universidade de Aberdeen. Em Proc. ENGL'13, pp. 208–209.
Kuznetsova, P., Ordonez, V., Berg, AC, Berg, T., & Choi, Y. (2012). Geração Coletiva de
Descrições de Imagens Naturais. Em Proc. ACL'12, pp. 359–368.
Kuznetsova, P., Ordonez, V., Berg, T., & Choi, Y. (2014). TREETALK: Composição e
compressão de árvores para descrições de imagens. Transações da Associação para
Linguística Computacional, 2, 351–362.
Labbé, C., & Portet, F. (2012). Rumo a um resumo de opinião abstrativo de múltiplas avaliações
no domínio do turismo. Em Proc. Workshop Internacional sobre Descoberta de
Sentimentos a partir de Dados Afetivos, pp.
Labov, W. (2010). Narrativas orais de experiência pessoal. Em Hogan, PC

(Ed.), Enciclopédia Cambridge de Ciências da Linguagem, pp.
Cambridge University Press, Cambridge, Reino Unido.
Lakoff, G. e Johnson, M. (1980). Metáforas pelas quais vivemos. Chicago University Press,
Chicago, Illinois.
Langkilde-Geary, I. (2000). Geração de sentenças estatísticas baseadas em floresta. Em Proc.

ANLP-NAACL'00, pp. 170–177.
Langkilde-Geary, I. e Knight, K. (2002). Geração de sentença estatística HALogen-

motorista Em Proc. ACL'02 (Demonstrações), pp. 102–103.
Lapata, M. (2006). Avaliação automática de pedido de informações: Kendall's

Tau. Lingüística Computacional, 32 (4), 471–484.
Lavie, A. e Agarwal, A. (2007). METEOR: Uma métrica automática para avaliação de MT com
correlação aprimorada com julgamentos humanos. Em Proc.
Workshop sobre medidas de avaliação intrínseca e extrínseca para tradução automática
e/ou resumo, pp.
Lavoie, B. e Rambow, O. (1997). Um realizador rápido e portátil para geração de texto
ção. Em Proc. ANLP'97, pp.
Law, AS, Freer, Y., Hunter, JR, Logie, RH, McIntosh, N., & Quinn, J.
(2005). Uma comparação de apresentações gráficas e textuais de dados de séries
temporais para apoiar a tomada de decisões médicas na unidade de terapia intensiva
neonatal. Jornal de monitoramento clínico e computação, 19 (3), 183–94.
95
Lebret, R., Grangier, D. e Auli, M. (2016). Geração de Texto a partir de Dados Estruturados
com Aplicação ao Domínio Biografia. Em Proc. EMNLP'16.
LeCun, Y., Bengio, Y. e Hinton, G. (2015). Aprendizagem profunda. Natureza, 521 (7553),
436–444.
Limão, O. (2008). Geração adaptativa de linguagem natural em diálogo usando

aprendizagem por reforço. Em Proc. LONDIAL, pág. 141148.
Limão, O. (2011). Aprendendo o que dizer e como dizer: Otimização conjunta da gestão
do diálogo falado e da geração de linguagem natural. Fala e linguagem
computacional, 25 (2), 210–221.
Lester, JC e Porter, BW (1997). Desenvolvendo e avaliando empiricamente geradores de
explicação robustos: os experimentos KNIGHT. Lingüística Computacional, 23 (1),
65–101.
Levelt, W. (1989). Falando: da intenção à articulação. MIT Press, Cam-
ponte, MA.
Levelt, W. (1999). Produzindo a linguagem falada: um modelo do falante. Em Brown, C.,
& Hagoort, P. (Eds.), A Neurocognição da Linguagem, pp.
83–122. Oxford University Press, Oxford e Londres.
Levelt, W., Roelofs, A., & Meyer, AS (1999). Uma teoria do acesso lexical na produção da fala. As
ciências comportamentais e do cérebro, 22 (1), 1–38; discussão 38–75.
Levenshtein, VI (1966). Códigos binários capazes de corrigir exclusões, inserções e

reversões. Física Soviética Doklady, 10 (8), 707–710.
Lewis, DD e Catlett, J. (1994). Amostragem heterogênea de incerteza para aprendizagem
supervisionada. Em Proc. ICML'94, pp.
Li, S., Kulkarni, G., Berg, T., Berg, AC e Choi, Y. (2011). Composição de descrições
simples de imagens usando n-gramas em escala web. Em Proc. CoNLL'11, pp.
Liang, P., Jordan, MI e Klein, D. (2009). Aprendendo correspondências semânticas com

menos supervisão. Em Proc. ACL-IJCNLP'09, pp.
Lin, C.-Y., & Blue, EH (2003). Avaliação automática de resumos usando estatísticas de
coocorrência de N-gramas. Em Proc. HLT-NAACL'03, pp. 71–78.
Lin, C.-Y., & Och, FJ (2004). Avaliação automática da qualidade da tradução automática
usando a subsequência comum mais longa e estatísticas de salto-bigrama. Em
Proc. ACL'04, pp.
Lin, D. e Kong, C. (2015). Gerando descrições em linguagem natural com várias frases
de cenas internas. Em Proc. BMVC'15, pp.
Lin, TY, Maire, M., Belongie, S., Hays, J., Perona, P., Ramanan, D., Dollár, P., & Zitnick,
CL (2014). Microsoft COCO: objetos comuns no contexto.
Em Proc. ECCV'14, Vol. 8693 LNCS, pág. 740–755. Springer.
96
Lipschultz, M., Litman, DJ, Jordan, PW e Katz, S. (2011). Previsão de mudanças no nível de
abstração nas respostas do tutor aos alunos. Em Proc.
FLAIRS'11.
Lowe, DG (2004). Recursos de imagem distintos de pontos-chave invariantes em escala.

Jornal Internacional de Visão Computacional, 60, 91–11020042.
Lukin, S. e Walker, MA (2013). Realmente? Bem. Aparentemente, o Bootstrapping melhora o

desempenho dos classificadores de sarcasmo e maldade para diálogo online. Em Proc.
LSM'13, pp.
Luong, M.-T., Le, QV, Sutskever, I., Vinyals, O., & Kaiser, L. (2016). Sequência multitarefa para
aprendizagem sequencial. Em Proc. ICLR'16, pp. 1–10.
Luong, MT-T., Socher, R. e Manning, CD (2013). Melhores representações de palavras com

redes neurais recursivas para morfologia. Em Proc. CoNLL'13, pp.
Lutz, T. (1959). Textos estocásticos. Momento, 4 (1), 3-9.

Macdonald, I. e Siddharthan, A. (2016). Resumindo notícias para crianças.
Em Proc. INLG'16, pp. 1–10, Edimburgo, Reino Unido.
Mahamood, S. e Reiter, E. (2011). Gerando linguagem natural afetiva para pais de bebês
neonatais. Em Proc. ENLG'11, pp.
Mairesse, F., Gasic, M., Jurcicek, F., Keizer, S., Thompson, B., Yu, K., & Young, S. (2010).
Geração de linguagem estatística baseada em frases usando modelos gráficos e
aprendizagem ativa. Em Proc. ACL'10, pp.
Mairesse, F. e Walker, MA (2010). Rumo à adaptação do usuário baseada na personalidade:

geração de linguagem estilística psicologicamente informada. Modelagem do usuário e
interação adaptada ao usuário, 20 (3), 227–278.
Mairesse, F. e Walker, MA (2011). Controlando as percepções do usuário sobre o estilo
linguístico: geração treinável de traços de personalidade. Lingüística Computacional, 37
(3), 455–488.
Mairesse, F. e Young, S. (2014). Geração estocástica de linguagem em diálogo usando modelos
de linguagem fatorados. Lingüística Computacional, 4 (4), 763–799.
Malinowski, M., Rohrbach, M. e Fritz, M. (2016). Pergunte aos seus neurônios: uma abordagem
baseada em neurônios para responder perguntas sobre imagens. Em Proc. ICCV'15, pp.
Mani, I. (2001). Resumo Automático. John Benjamins Publishing Company, Amsterdã.
Mani, I. (2010). O momento imaginado: tempo, narrativa e computação.

Imprensa da Universidade de Nebraska, Lincoln, NE.
Mani, I. (2013). Modelagem Computacional de Narrativa. Editores Morgan e Claypool, EUA.
Mann, WC e Matthiessen, CM (1983). Nigel: Uma gramática sistêmica para geração de texto
(Relatório Técnico RR-83-105). Tecnologia. representante, ISI, Universidade do Sul da
Califórnia, Marina del Rey, CA.
97
Mann, WC e Moore, JA (1981). Geração computacional de texto multiparágrafo. American Journal

of Computational Linguistics, 7 (1), 17–29.
Mann, WC e Thompson, SA (1988). Teoria da estrutura retórica: Rumo a uma teoria funcional da
organização do texto. Texto, 8 (3), 243–281.
Manning, CD (2015). Últimas palavras: Lingüística computacional e aprendizagem profunda.
Lingüística Computacional, 41, 701–707.
Manurung, R., Ritchie, GD e Thompson, H. (2012). Usando algoritmos genéticos para criar texto
poético significativo. Jornal de Inteligência Artificial Experimental e Teórica, 24 (1), 43–64.
Mao, J., Huang, J., Toshev, A., Camburu, O., Yuille, A., & Murphy, K. (2016).
Geração e compreensão de descrições inequívocas de objetos. Em Proc. CVPR'16.
Mao, J., Xu, W., Yang, Y., Wang, J., Huang, Z., & Yuille, A. (2015a). Legendas profundas com redes
neurais recorrentes multimodais (m-RNN). Em Proc. ICLR.
Mao, J., Xu, W., Yang, Y., Wang, J., Huang, Z., & Yuille, A. (2015b). Aprendendo como uma
criança: conceito visual inovador e rápido aprendendo a partir de descrições de frases de
imagens. Em Proc. ICCV'15, pp.
Marciniak, T. e Strube, M. (2004). Geração baseada em classificação usando TAG.

Em Proc. INLG'04, pp. Springer.
Marciniak, T. e Strube, M. (2005). Além do pipeline: otimização discreta

na PNL. Em Proc. CoNLL'05, pp.
Martin, JH (1990). Um modelo computacional de interpretação de metáforas. Ac-

demic Press, Nova York.
Martin, JH (1994). Metabank: Uma base de conhecimento de convenções de linguagem

metafóricas. Inteligência Computacional, 10 (2), 134–149.
Martinez, HP, Yannakakis, GN e Hallam, J. (2014). Não classifique classificações de afeto; Classifique-os!
Transações IEEE em Computação Afetiva, 5 (3), 314–326.
Mason, R. e Charniak, E. (2014). Legendas de imagens específicas de domínio. Em Proc.

CONLL'14, pp.
Mason, W. e Suri, S. (2012). Conduzindo pesquisas comportamentais no turco mecânico

amazônico. Métodos de Pesquisa Comportamental, 44 (1), 1–23.
McCoy, KF e Strube, M. (1999). Gerando Expressões Anafóricas: Pró-nome ou Descrição
Definida?. Em Cristea, D., Ide, N., & Marcu, D. (Eds.), A Relação de Discurso/Estrutura de
Diálogo e Referência: Procedimentos do Workshop realizado em conjunto com ACL'99, pp.
McDermott, D. (2000). A competição de sistemas de planejamento de IA de 1998. Revista AI, 21

(2), 1–33.
McDonald, DD (1993). Questões na escolha de uma fonte para geração de linguagem natural.
98
McDonald, DD (2010). Geração de linguagem natural. Em Indurkhya, N., & Damerau, F.

(Eds.), Manual de Processamento de Linguagem Natural (2ª edição)., p. 121144.
Chapman e Hall/CRC, Londres.
McDonald, DD e Pustejovsky, JD (1985). Uma teoria computacional de estilo de prosa
para geração de linguagem natural. Em Proc. EACL'85, pp.
McIntyre, N. e Lapata, M. (2009). Aprendendo a contar histórias: uma abordagem baseada
em dados para a geração de histórias. Em Proc. ACL-IJCNLP'09, pp.
McKeown, KR (1985). Geração de texto. Cambridge University Press, Cam-
ponte, Reino Unido.
McRoy, SW, Channarukul, S. e Ali, SS (2003). Uma abordagem aumentada baseada em modelo para
realização de texto. Engenharia de Linguagem Natural, 9 (04), 381–420.
Meehan, Jr. (1977). TALE-SPIN, um programa interativo que escreve histórias.

Em Proc. IJCAI'77, pág. 91–98. Morgan Kaufmann.
Mei, H., Bansal, M. e Walter, MR (2016). Sobre o que falar e como?
Geração seletiva usando LSTMs com alinhamento grosso a fino. Em NAACL-
HLT'16, pp.
Meister, JC (2003). Ação computacional. Uma abordagem narratológica. Mouton de
Gruyter, Berlim.
Mellish, C. e Dale, R. (1998). Avaliação no contexto da geração de linguagem natural.
Fala e linguagem computacional, 12 (4), 349–373.
Mellish, C., Scott, D., Cahill, L., Paiva, DS, Evans, R., & Reape, M. (2006). Uma
Arquitetura de Referência para Sistemas de Geração de Linguagem Natural.
Engenharia de Linguagem Natural, 12 (01), 1–34.
Medidor, MW (1991). Preenchendo a lacuna de gerações entre o planejamento de texto e
realização linguística. Inteligência Computacional, 7 (4), 296–304.
Meteer, MW, McDonald, DD, Anderson, S., Forster, D., Gay, L., Iluettner, A., & Sibun, P.
(1987). Mumble-86: Projeto e Implementação (Relatório Técnico COINS 87-87).
Tecnologia. representante, Universidade de Massachusetts em Amherst, Amherst,
MA.
Mikolov, T., Chen, K., Corrado, G. e Dean, J. (2013). Representações Distribuídas de
Palavras e Frases e sua Composicionalidade. Em Burges, CJC, Bottou, L., Welling,
M., Ghahramani, Z., & Weinberger, KQ
(Eds.), Avanços em Sistemas de Processamento de Informação Neural 26, pp.
3111–3119. Curran Associates, Inc.
Mikolov, T., Karafiat, M., Burget, L., Cernocky, J., & Khudanpur, S. (2010). Modelo de
linguagem baseado em rede neural recorrente. Em Proc. Interspeech'10, pp.
Miller, GA (1995). WordNet: um banco de dados lexical para inglês. Comunicações do

ACM, 38 (11), 39–41.
99
Mitchell, M., Dodge, J., Goyal, A., Yamaguchi, K., Stratos, K., Han, X., Mensch, A., Berg,
A., Han, X., Berg, T., & Daume III, H. (2012). Midge: Gerando descrições de
imagens a partir de detecções de visão computacional. Em Proc.
EACL'12, pp.
Mitchell, M., van Deemter, K., & Reiter, E. (2013). Gerando expressões que se referem
a objetos visíveis. Em Proc. NAACL'13, pp. 1174–1184.
Mnih, A. e Hinton, G. (2007). Três novos modelos gráficos para modelagem estatística
de linguagem. Em Proc. ICML'07, pp.
Molina, M., Stent, A. e Parodi, E. (2011). Gerando notícias automatizadas para explicar
o significado dos dados do sensor. Em Gama, J., Bradley, E., & Hollmén, J.
(Eds.), Proc. AID 2011, pp. Springer, Berlim e Heidelberg.
Montfort, N. (2007). Ordenação de eventos em narrativas de ficção interativas. Em Proc.
Simpósio de outono da AAAI sobre tecnologias narrativas inteligentes, pp.
Montfort, N. (2013). Relógio mundial. Harvard Book Store Press, Cambridge, MA.
Moore, JD e Paris, C. (1993). Planejando texto para diálogos consultivos: Capturando informações
intencionais e retóricas. Lingüística Computacional, 19 (4), 651–694.
Moore, JD, Porayska-Pomsta, K., Zinn, C. e Varges, S. (2004). Gerando Feedback do

Tutorial com Afeto. Em Proc. FLAIRS'04.
Mrabet, Y., Vougiouklis, P., Kilicoglu, H., Gardent, C., Demner-Fushman, D., Hare, J., &
Simperl, E. (2016). Combinando textos e bases de conhecimento com simplificação
semântica de frases. Em Proc. WebNLG'16, pp. 29–36.
Mascate, A. e Belz, A. (2015). Gerando descrições de relações espaciais entre objetos
em imagens. Em Proc. ENLG'15, pp.
Nakanishi, H., Miyao, Y. e Tsujii, J. (2005). Modelos Probabilísticos para Desambiguação
de um Gerador de Gráficos Baseado em HPSG. Em Proc. 9º Workshop
Internacional sobre Tecnologias de Análise, pp.
Nakatsu, C. e White, M. (2010). Gerando Gramática Categorial Combinatória com
Discurso. Questões linguísticas em tecnologia da linguagem, setembro.
Nauman, AD, Stirling, T. e Borthwick, A. (2011). O que torna a escrita boa? uma questão
essencial para os professores. O professor de leitura, 64 (5), 318–328.
Nemhauser, GL e Wolsey, LA (1988). Programação inteira e otimização combinatória.
Wiley, Chichester, Reino Unido.
Nenkova, A. e McKeown, KR (2011). Resumo Automático. Fundações e Tendências na
Recuperação de Informação, 5 (2-3), 103–233.
Netzer, Y., Gabay, D., Goldberg, Y., & Elhadad, M. (2009). Gaiku: Gerando Haiku com
Normas de Associações de Palavras. Em Proc. Workshop sobre Abordagens
Computacionais para Criatividade Linguística, pp.
Niederhoffer, KG e Pennebaker, JW (2002). Correspondência de estilos linguísticos na
interação social. Revista de Linguagem e Psicologia Social, 21 (4),
337–360.
100
Nirenburg, S., Lesser, V., & Nyberg, E. (1989). Controlando uma geração de linguagem
planejadores de ação. Em Proc. IJCAI'89, pág. 1524–1530.
Norrick, NR (2005). O lado negro da narrabilidade. Investigação Narrativa, 15 (2),

323–343.
Novikova, J. e Rieser, V. (2016a). O desafio analógico: geração de línguas não alinhadas. Em

Proc. INLG'16, pp. 168–170, Edimburgo, Reino Unido.
Novikova, J. e Rieser, V. (2016b). Crowdsourcing de dados NLG: imagens provocam

dados melhores. Em Proc. INLG'16.
Oberlander, J. (1998). Faça a coisa certa... mas espere o inesperado.

Oberlander, J. e Lascarides, A. (1992). Prevenindo falsas implicaturas temporais: Padrões interativos para
geração de texto. Em Proc. COLING'92, pp.
Oberlander, J. e Nowson, S. (2006). De quem é esse polegar, afinal? Classificando a personalidade do

autor a partir do texto do weblog. Em Proc. COLING/ACL'06, pp.
O'Donnell, M. (2001). ILEX: uma arquitetura para um sistema dinâmico de geração de hipertexto.
Ah, AH e Rudnicky, AI (2002). Geração estocástica de linguagem natural para sistemas de
diálogo falado. Fala e linguagem computacional, 16 (3-4), 387–407.
Oliva, A. e Torralba, A. (2001). Modelando a forma da cena: Uma representação holística do
envelope espacial. Jornal Internacional de Visão Computacional, 42 (3), 145–175.
Ordonez, V., Deng, J., Choi, Y., Berg, AC, & Berg, T. (2013). Da categorização de imagens em
grande escala às categorias de nível básico. Em Proc. ICCV'13, pp.
Ordonez, V., Kulkarni, G., & Berg, T. (2011). Im2text: descrição de imagens usando 1 milhão de
fotografias legendadas. Em Proc. NIPS'11, pp. Curran Associates Ltd.
Ordonez, V., Liu, W., Deng, J., Choi, Y., Berg, AC, & Berg, T. (2016).
Aprendendo a nomear objetos. Comunicações do ACM, 59 (3), 108–115.
Orkin, J. e Roy, D. (2007). O jogo do restaurante: aprendendo comportamento social e linguagem
com milhares de jogadores online. Jornal de Desenvolvimento de Jogos, 3, 39–60.
Ortiz, LGM, Wolff, C. e Lapata, M. (2015). Aprendendo a interpretar e

Descreva cenas abstratas. Em Proc. NAACL'15, pp.
Paiva, DS, & Evans, R. (2005). Controle da linguagem natural com base empírica
geração. Em Proc. ACL'05, pp.
Pang, B. e Lee, L. (2008). Mineração de opinião e análise de sentimento. Fundamentos e

Tendências na Recuperação de Informação, 1 (2), 1–135.
101
Papineni, K., Roukos, S., Ward, T., & Zhu, W.-j. (2002). BLEU: um método para avaliação automática de
tradução automática. Em Proc. ACL'02, pp.
Passoneau, RJ (2006). Medição de acordo em itens com valor definido (MASI) para anotação
semântica e pragmática. Em Proc. LREC'06, pp.
Pennington, J., Socher, R. e Manning, CD (2014). GloVe: Vetores Globais
para representação de palavras. Em Proc. EMNLP'14.
Perez, R.,
' Ortiz, O., Luna, W., Negrete, S., Castellanos, V., Penalosa, E., & Avila, R. (2011).
Um sistema para avaliar novidades em narrativas geradas por computador. Em Proc.
ICCC'11, pp. 63–68.
Petrovic, S. e Matthews, D. (2013). Geração de piadas não supervisionadas de grandes
dados Em Proc. ACL'13, pp. 228–232.
Pickering, MJ e Garrod, S. (2004). Rumo a uma psicologia mecanicista do diálogo. As ciências
comportamentais e do cérebro, 27 (2), 169–90; discussão 190–226.
Pickering, MJ e Garrod, S. (2013). Uma teoria integrada de produção e compreensão da linguagem. As

ciências comportamentais e do cérebro, 36 (4), 329–47.
Piwek, P. (2003). Uma bibliografia comentada da geração afetiva da linguagem natural

geração. Tecnologia. representante, ITRI, Universidade de Brighton.
Piwek, P. e Boyer, KE (2012). Variedades de geração de perguntas: Introdução a esta edição

especial. Diálogo e Discurso, 3 (2), 1–9.
Plachouras, V., Smiley, C., Bretz, H., Taylor, O., Leidner, JL, Song, D., & Schilder, F. (2016).
Interagindo com dados financeiros usando linguagem natural.
Em Proc. COW'16, pp. 1121–1124.
Poesio, M., Stevenson, R., DiEugenio, B., & Hitzeman, J. (2004). Centralização: Uma teoria
paramétrica e suas instanciações. Linguística Computacional, 30(3), 309–363.
Portet, F., Reiter, E., Gatt, A., Hunter, JR, Sripada, S., Freer, Y., & Sykes, C. (2009). Geração
automática de resumos textuais a partir de dados de terapia intensiva neonatal.
Inteligência Artificial, 173 (7-8), 789–816.
Power, R., Scott, D. e Bouayad-Agha, N. (2003). Estrutura do Documento. Com-
Lingüística putacional, 29 (2), 211–260.
Power, R. e Williams, S. (2012). Gerando aproximações numéricas. Com-
Lingüística putacional, 38 (1), 113–134.
Propp, V. (1968). Morfologia do conto popular. Imprensa da Universidade do Texas,
Austin, Texas.
Rajkumar, R. e White, M. (2011). Escolha do complementador com motivação linguística na
realização de superfície. Em Proc. UCNLG+Eval'11, pp.
Rajkumar, R. e White, M. (2014). Melhor Realização Superficial através da Psicolinguística.
Bússola de Linguagem e Lingüística, 8 (10), 428–448.
102
Ramos-Soto, A., Bugarin, AJ, Barro, S., & Taboada, J. (2015). Descrições linguísticas para
geração automática de previsões meteorológicas textuais de curto prazo em dados reais
de previsão. Transações IEEE em Sistemas Fuzzy, 23 (1), 44–57.
Ratnaparkhi, A. (1996). Um modelo de entropia máxima para marcação de classes gramaticais.

Em Proc. EMNLP'96, pp. 133–142.
Ratnaparkhi, A. (2000). Métodos treináveis para geração de linguagem natural de superfície

ação. Em Proc. NAACL'00, pp.
Reape, M. e Mellish, C. (1999). Afinal, o que é agregação? Em Proc.

ENGL'99.
Regneri, M., Rohrbach, M., Wetzel, D., & Thater, S. (2013). Descrições de ações de aterramento
em vídeos. Transações da Associação para Lingüística Computacional, 1, 25–36.
Reiter, E. (1994). Apareceu uma arquitetura consensual de geração de NL e ela é

psicolinguisticamente plausível? Em Proc. IWNLG'94, pp.
Reiter, E. (2000). Pipelines e restrições de tamanho. Lingüística Computacional, 26 (2), 251–

259.
Reiter, E. (2007). Uma arquitetura para sistemas de dados para texto. Em Proc. ENGL'07,
pp. 97–104.
Reiter, E. (2010). Geração de linguagem natural. Em Clark, A., Fox, C., & Lappin, S. (Eds.),
Handbook of Computational Linguistics and Natural Language Processing, pp. 574–598.
Wiley, Oxford.
Reiter, E. e Belz, A. (2009). Uma investigação sobre a validade de algumas métricas para
avaliar automaticamente sistemas de geração de linguagem natural.
Reiter, E. e Dale, R. (1997). Construindo sistemas de geração de linguagem natural.
Engenharia de Linguagem Natural, 3, 57–87.
Reiter, E. e Dale, R. (2000). Construindo Sistemas de Geração de Linguagem Natural.

Reiter, E., Gatt, A., Portet, F. e van Der Meulen, M. (2008). A importância da narrativa e outras
lições de uma avaliação de um sistema NLG que resume dados clínicos. Em Proc.
INLG'08, pp.
Reiter, E., Mellish, C. e Levine, J. (1995). Geração Automática de Documentação Técnica.

Inteligência Artificial Aplicada, 9, 259–287.
Reiter, E., Robertson, R. e Osman, LM (2003). Lições de um fracasso: Geração de cartas personalizadas
para parar de fumar. Inteligência Artificial, 144 (1-2), 41–58.
Reiter, E. e Sripada, S. (2002). Os corpora texts deveriam ser padrões ouro para
NLG? Em Proc. INLG'02, pp. 97–104.
103
Reiter, E., Sripada, S., Hunter, JR, Yu, J., & Davy, I. (2005). Escolhendo palavras em previsões
meteorológicas geradas por computador. Inteligência Artificial, 167 (1-2), 137–169.
Riedl, MO e Young, RM (2005). Um procedimento objetivo de avaliação de credibilidade

de personagens para sistemas de geração de histórias multiagentes. Em
Panayiotopoulos, T., Gratch, J., Aylett, R., Ballin, D., Olivier, P., & Thomas Rist
(Eds.), Proc. 5ª Conferência Internacional sobre Agentes Virtuais Inteligentes.
Riedl, MO e Young, RM (2010). Planejamento narrativo: Equilibrando enredo e

personagem. Jornal de Pesquisa de Inteligência Artificial, 39, 217–268.
Rieser, V., Keizer, S., Liu, X. e Lemon, O. (2011). Apresentação Adaptativa de Informações
para Sistemas de Diálogo Falado: Avaliação com seres humanos.
Rieser, V. e Lemon, O. (2009). Geração de linguagem natural como planejamento sob incerteza para
sistemas de diálogo falado. Em Eacl 2009, pp.
Rieser, V. e Lemon, O. (2011a). Aprendizagem por Reforço para Diálogo Adaptativo

Sistemas. Springer, Berlim e Heidelberg.
Rieser, V. e Lemon, O. (2011b). Aprendizagem por reforço para sistemas de diálogo
adaptativos: uma metodologia baseada em dados para gestão de diálogo e geração
de linguagem natural. Springer, Berlim e Heidelberg.
Ritchie, GD (2009). Os computadores podem criar humor? Revista AI, 30 (3),
71–81.
Ritter, A., Cherry, C. e Dolan, WB (2011). Geração de resposta baseada em dados nas
mídias sociais. Em Proc. EMNLP'11, pp.
Robin, J. (1993). Uma Arquitetura de Geração Baseada em Revisão para Relatar Fatos
em seu Contexto Histórico. Em Horacek, H., & Zock, M. (Eds.), Novos conceitos
em geração de linguagem natural: planejamento, realização e sistemas, pp. Pinter,
Londres.
Rowe, JP, McQuiggan, SW, Robison, JL, Marcey, DR, & Lester, JC
(2009). STORYEVAL: Uma Estrutura de Avaliação Empírica para Geração de
Narrativas. No Simpósio AAAI Spring: Tecnologias Narrativas Inteligentes II, pp.
Roy, D. (2002). Aprender palavras e sintaxe visualmente fundamentadas para uma tarefa
de descrição de cena. Fala e linguagem computacional, 16 (3-4), 353–385.
Roy, D. e Reiter, E. (2005). Conectando a linguagem ao mundo. Inteligência Artificial, 167
(1-2), 1–12.
Rus, V., Piwek, P., Stoyanchev, S., Wyse, B., Lintean, M., e Moldovan, C.
(2011). Tarefa compartilhada de geração de perguntas e desafio de avaliação:
relatório de status. Em Proc. ENLG'11, pp.
104
Rus, V., Wyse, B., Piwek, P., Lintea, M., Stoyanchev, S., e Moldovan, C.
(2010). Visão geral do primeiro desafio de avaliação de tarefa compartilhada de
geração de perguntas. Em Proc. 3º Workshop sobre Geração de Perguntas, pp.
Schwartz, HA, Eichstaedt, JC, Kern, ML, Dziurzynski, L., Ramones, SM, Agrawal, M., Shah,
A., Kosinski, M., Stillwell, D., Seligman, MEP, & Ungar, LH ( 2013). Personalidade,
gênero e idade na linguagem das mídias sociais: a abordagem do vocabulário aberto.
PloS um, 8 (9), 1–16.
Schwenk, H., & Gauvain, J.-l. (2005). Treinamento de modelos de linguagem de redes
neurais. Em Proc. EMNLP/HLT'05, pp. 201–208.
Scott, D. e Sieckenius de Souza, C. (1990). Transmitir a mensagem na geração de texto
baseada em RST. Em Dale, R., Mellish, C., & Zock, M. (Eds.), Pesquisa atual em
geração de linguagem natural, pp. Academic Press Pro-fessional, Inc., San Diego, CA.
Searle, Jr (1969). Atos de Fala: Um Ensaio de Filosofia da Linguagem.

Serban, IV, Sordoni, A., Bengio, Y., Courville, A., & Pineau, J. (2016). Construindo sistemas de
diálogo ponta a ponta usando modelos de redes neurais hierárquicas generativas. Em Proc.
AAAI.
Shaw, J. (1998). Agregação de cláusulas usando conhecimento linguístico. Em Proc.

IWNLG'98, pp.
Shutova, E., Teufel, S. e Korhonen, A. (2012). Processamento de Metáforas Estatísticas.

Siddharthan, A. (2014). Um levantamento de pesquisas sobre simplificação de texto. Revista
Internacional de Lingüística Aplicada, 165 (2), 259–298.
Siddharthan, A., Green, M., van Deemter, K., Mellish, C., & van der Wal, R.
(2013). Blogando pássaros: Gerando narrativas sobre espécies reintroduzidas para
promover o envolvimento público. Em Proc. INLG'13, pp.
Siddharthan, A. e Katsos, N. (2012). Medidas de processamento de frases offline para testar
a legibilidade com os usuários. Em Proc. PITR'12, pp.
Siddharthan, A., Nenkova, A. e McKeown, KR (2011). Distinções de status de informação e
expressões de referência: um estudo empírico de referências a pessoas em resumos
de notícias. Lingüística Computacional, 37 (4), 811–842.
Simonyan, K. e Zisserman, A. (2015). Redes Convolucionais Muito Profundas para
Reconhecimento de Imagens em Grande Escala. Em Proc. ICLR'15, pp.
Sleimi, A. e Gardent, C. (2016). Gerando paráfrases de DBPedia usando Deep Learning. Em
Proc. WebNLG'16, pp.
Snover, M., Dorr, B., Schwartz, R., Micciulla, L., & Makhoul, J. (2006). Um estudo da taxa de
edição de tradução com anotação humana direcionada. Em Proc. AMTA'06, pp.
Socher, R., Karpathy, A., Le, QV, Manning, CD, & Ng, AY (2014).
Semântica composicional fundamentada para encontrar e descrever imagens
105
com sentenças. Transações da Association for Computational Linguistics (TACL),

2 (abril), 207–218.
Sparck Jones, K. e Galliers, JR (1996). Avaliando Sistemas de Processamento de
Linguagem Natural: Uma Análise e Revisão. Springer, Berlim e Heidelberg.
Sripada, S., Reiter, E. e Davy, I. (2003). SUMTIME-MOUSAM: Configurável
Gerador de previsão do tempo marítimo. Atualização de especialistas, 6 (1), 4–10.
Sripada, S., Reiter, E. e Hawizy, L. (2005). Avaliação de um sistema NLG usando dados
pós-edição: lições aprendidas. Em Proc. ENLG'05, pp.
Stede, M. (2000). O problema do hiperônimo revisitado: Hierarquias conceituais e
lexicais na linguagem. Em Proc. INLG'00, pp.
Steedman, M. (2000). O Processo Sintático. MIT Press, Cambridge, MA.
Steedman, M. e Petrick, RP (2007). Planejando ações de diálogo. Em Proc.
SIGDIAL'07, pp.
Stent, A., Marge, M. e Singhai, M. (2005). Avaliar métodos de avaliação para geração
na presença de variação. Em Gelbukh, A. (Ed.), Proc.
CiCLing'05, Vol. 3406 de Notas de aula em Ciência da Computação, pp.
Springer Berlim Heidelberg.
Stent, A. e Molina, M. (2009). Avaliando a extração automática de regras para
construção do plano de sentença. Em Proc. SIGDIAL'09, pp.
Stock, O. e Strapparava, C. (2005). O ato de criar siglas humorísticas.
Inteligência Artificial Aplicada, 19 (2), 137–151.
Stock, O., Zancanaro, M., Busetta, P., Callaway, C., Krüger, A., Kruppa, M., Kuflik, T.,
Not, E., & Rocchi, C. (2007) . Apresentação adaptativa e inteligente de informações
para o visitante do museu em PEACH. Modelagem de usuário e interação
adaptada ao usuário, 17 (3), 257–304.
Stoia, L. e Shockley, D. (2006). Geração de sintagmas nominais para diálogos situados.
Em Proc. INLG'06, pp. 81–88.
Pedra, M. (2000). Na identificação de conjuntos. Em Proc. INLG'00, pp.
Stone, M. e Webber, B. (1998). Economia Textual através do Acoplamento Próximo de
Sintaxe e Semântica. Em Proc. INLG'98, pág. 10.
Striegnitz, K., Gargett, A., Garoufi, K., Koller, A., & Theune, M. (2011). Relatório sobre
o segundo desafio NLG sobre geração de instruções em ambientes virtuais
(GIVE-2). Em Proc. ENLG'11, pp.
Strong, CR, Mehta, M., Mishra, K., Jones, A., & Ram, A. (2007). Geração de linguagem
natural impulsionada pela emoção para personagens ricos em personalidade em
jogos interativos. Em Proc. AIIDE'07, pp.
Sutskever, I., Martens, J. e Hinton, G. (2011). Gerando Texto com Redes Neurais
Recorrentes. Nos Anais da 28ª Conferência Internacional sobre Aprendizado de
Máquina (ICML'11), pp.
106
Sutskever, I., Vinyals, O., & Le, QV (2014). Aprendizagem sequência a sequência com
redes neurais. Em Avanços em Sistemas de Processamento de Informação Neural
27 (NIPS'14), pp.
Theune, M., Hielkema, F., & Hendriks, P. (2006). Realização de agregação e reticências
utilizando estruturas discursivas. Pesquisa sobre Linguagem e Computação, 4, 353–
375.
Theune, M., Klabbers, E., de Pijper, J.-R., Krahmer, E., & Odijk, J. (2001).
Dos dados à fala: uma abordagem geral. Engenharia de Linguagem Natural, 7 (1),
47–86.
Theune, M. (2003). Geração de linguagem natural para diálogo: levantamento do sistema.
Tecnologia. representante, Universidade de Twente.
Thomason, J., Venugopalan, S., Guadarrama, S., Saenko, K., & Mooney, RJ
(2014). Integrando linguagem e visão para gerar descrições de vídeos em linguagem
natural. Em Proc. COLING'14, pp.
Thompson, H. (1977). Estratégia e Tática: um Modelo para Produção de Linguagem. Em
Artigos da 13ª Reunião Regional da Chicago Linguistic Society, Vol. 13, pp.
Tintarev, N., Reiter, E., Black, R., Waller, A., & Reddington, J. (2016). Contação de histórias
pessoais: Usando a geração de linguagem natural para crianças com necessidades
complexas de comunicação, em estado selvagem. Jornal Internacional de Estudos
de Computação Humana, 92-93, 1–16.
Togelius, J., Yannakakis, GN, Stanley, KO e Browne, C. (2011). Geração de conteúdo processual baseada
em pesquisa: uma taxonomia e pesquisa. Transações IEEE sobre Inteligência Computacional e IA
em Jogos, 3 (3), 172–186.
Turian, J., Shen, L. e Melamed, ID (2003). Avaliação da Tradução Automática e sua

Avaliação. Em Proc. Cúpula MT IX, pp.
Turner, R., Sripada, S., Reiter, E., & Davy, I. (2008). Selecionando o conteúdo das
descrições textuais de eventos geograficamente localizados em dados meteorológicos
espaço-temporais. Em Aplicações e Inovações em Sistemas Inteligentes XV, pp.
Turner,SR (1992). MINSTREL: Um modelo computacional de criatividade e narração de

histórias. Ph.d. tese, Universidade da Califórnia em Los Angeles.
van Dalen, A. (2012). Os algoritmos por trás das manchetes. Prática de Jornalismo,
6 (5-6), 648–658.
van Deemter, K. (2012). Não exatamente: em louvor à imprecisão. Imprensa da Universidade
de Oxford,
Oxford. van Deemter, K. (2016). Projetando algoritmos para referência com nomes próprios.
Em Proc. INLG 2016, pp. 31–35.
van Deemter, K., Gatt, A., van der Sluis, I., & Power, R. (2012a). Geração de Expressões
Referenciais: Avaliando o Algoritmo Incremental. Ciência Cognitiva, 36 (5), 799–836.
107
van Deemter, K., Gatt, A., van Gompel, RPG, & Krahmer, E. (2012b).
Rumo a uma psicolinguística computacional de produção de referência. Tópicos
em ciência cognitiva, 4 (2), 166–83.
van Deemter, K., Krahmer, E., & Theune, M. (2005). Geração de linguagem natural
real versus baseada em modelo: uma falsa oposição?. Linguística Computacional,
31 (1), 15–24.
van Deemter, K., Krenn, B., Piwek, P., Klesen, M., Schröder, M., & Baumann, S.
(2008). Diálogo com script totalmente gerado para agentes incorporados.
Inteligência Artificial, 172 (10), 1219–
1244. van der Sluis, I. e Mellish, C. (2010). Rumo à avaliação empírica do NLG tático
afetivo. Em Krahmer, E., & Theune, M. (Eds.), Métodos empíricos na geração de
linguagem natural, pp. Springer, Berlim e Heidelberg.
Varges, S. e Mellish, C. (2010). Geração de linguagem natural baseada em instâncias.
Vaudry, PL, & Lapalme, G. (2013). Adaptando SimpleNLG para realização bilíngue
francês-inglês. Em Proc. ENLG'13, pp.
Veale, T. (2013). Mais uma vez, com sentimento! Usando metáforas afetivas criativas
para expressar necessidades de informação. Em Proc. ICCM'13, pp.
Veale, T. e Hao, Y. (2007). Compreendendo e gerando metáforas adequadas: uma
abordagem da linguagem figurativa baseada na Web e baseada em casos. Em Proc.
AAAI'07, pp. 1471–1476.
Veale, T. e Hao, Y. (2008). Uma representação fluida do conhecimento para
compreender e gerar metáforas criativas. Em Proc. COLING'08, pp.
Veale, T. e Li, G. (2015). Criatividade divergente distribuída: Agentes criativos
computacionais em escala web. Computação Cognitiva, 8 (2), 175–186.
Vedantam, R., Zitnick, CL e Parikh, D. (2015). CIDEr: avaliação de descrição de imagem
baseada em consenso. Em Proc. CVPR'15, pp.
Venigalla, H. e Di Eugenio, B. (2013). UIC-CSC: The Content Selection Challenge
Entry da Universidade de Illinois em Chicago. Em Proc. ENLG'13, pp.
Venugopalan, S., Rohrbach, M., Darrell, T., Donahue, J., Saenko, K., & Mooney, RJ
(2015a). Sequência para sequência de vídeo para texto. Em Proc. ICCV'15, pp.
A Fundação de Visão Computacional.
Venugopalan, S., Xu, H., Donahue, J., Rohrbach, M., Mooney, RJ, & Saenko, K.
(2015b). Traduzindo vídeos para linguagem natural usando redes neurais
recorrentes profundas. Em Proc. NAACL'15, pp.
Viethen, J. e Dale, R. (2007). Avaliação na geração de linguagem natural: Lições da
geração de expressões referentes. Processamento de linguagem natural, 48 (1),
141–160.
Viethen, J. e Dale, R. (2008). O Uso de Relações Espaciais na Geração de Expressões
Referentes. Em Proc. INLG'08, pp.
108
Viethen, J. e Dale, R. (2010). Variação dependente do locutor na seleção de conteúdo

para geração de expressões de referência. Em Proc. 8º Workshop de Tecnologia
da Linguagem da Australásia, pp.
Viethen, J. e Dale, R. (2011). GRE3D7: Um corpus de descrições distintivas para
objetos em cenas visuais. Em Proc. UCNLG+Eval'11, pp.
Vinyals, O., Toshev, A., Bengio, S., & Erhan, D. (2015). Mostre e conte: um gerador de
legenda de imagem neural. CoRR, abs/1411.4.
Wah, C., Branson, S., Welinder, P., Perona, P., & Belongie, S. (2011). Conjunto de
dados Caltech-UCSD Birds-200-2011 (Relatório Técnico CNS-TR-2011-001).
Tecnologia. representante, Instituto de Tecnologia da Califórnia, Califórnia.
Walker, MA (1992). Redundância no Diálogo Colaborativo. Em Proc. COL-
ING'92, pp. 345–351.
Walker, MA, Cahn, JE e Whittaker, SJ (1997). Improvisando o estilo linguístico: bases
sociais e afetivas da personalidade do agente. Em Proc. Agentes'97, pp.
Walker, MA, Park, F., Rambow, O., & Rogati, M. (2001). SPoT: um treinável
Planejador de frases. Em Proc. NAACL'01, pp.
Walker, MA, Rambow, O. e Rogati, M. (2002). Treinando um planejador de frases para
diálogo falado usando reforço. Fala e linguagem computacional, 16 (3-4), 409–
433.
Walker, MA, Stent, A., Mairesse, F., & Prasad, R. (2007a). Adaptação individual e de
domínio no planejamento de frases para diálogo. Jornal de Pesquisa de
Inteligência Artificial, 30, 413–456.
Walker, MA, Stent, A., Mairesse, F., & Prasad, R. (2007b). Adaptação individual e de
domínio no planejamento de frases para diálogo. Jornal de Pesquisa de
Inteligência Artificial (JAIR), 30, 413–456.
Waller, A., Black, R., OMara, D. a., Pain, H., Ritchie, GD, & Manurung, R.
(2009). Avaliando o software de geração de trocadilhos STANDUP com crianças com paralisia
cerebral. Transações ACM em Computação Acessível, 1 (3), 1–27.
Wang, J. e Gaizauskas, R. (2015). Gerando descrições de imagens com avaliação de ouro e linhas de
Entradas visuais padrão: motivação , base. Em Proc.
ENLG'15, pp.
Wang, L., Raghavan, H., Cardie, C. e Castelli, V. (2014). Resumo de opinião com foco
em consulta para conteúdo gerado pelo usuário. Em Proc. COLING '14, pp.
Wanner, L. (2010). Geração de relatório. Em Indurkhya, N., & Damerau, F. (Eds.),

Handbook of Natural Language Processing (2 edição)., pp. Chap-man e Hall/
CRC, Londres.
Wanner, L., Bosch, H., Bouayad-Agha, N., & Casamayor, G. (2015). Transmitir as
informações ambientais: da Web para o usuário. Sistemas Especialistas, 32 (3),
405–432.
109
Wen, T.-h., Gasic, M., Mrksić, N., Su, P.-h., Vandyke, D., & Young, S. (2015).
Geração de linguagem natural baseada em LSTM semanticamente condicionada para
sistemas de diálogo falado. Em Proc. EMNLP'15, pp.
Branco, M., Clark, RAJ e Moore, JD (2010). Gerar descrições comparativas personalizadas com
entonação contextualmente apropriada. Lingüística Computacional, 36 (2), 159–201.
Branco, M. e Howcroft, DM (2015). Induzindo regras de combinação de cláusulas: um estudo de caso com
o SPaRKy Restaurant Corpus. Em Proc. ENLG'15, pp.
Branco, M. e Rajkumar, R. (2009). Reclassificação do Perceptron para realização do CCG.

Em Proc. EMNLP'09, pp. 410–419, Singapura.
Branco, M. e Rajkumar, R. (2012). Comprimento mínimo de dependência na realização

classificação. Em Proc. EMNLP'12, pp. 244–255, Ilha de Jeju, Coreia.
Branco, M., Rajkumar, R. e Martin, S. (2007). Rumo a uma ampla superfície de cobertura
Realização com CCG. Em Proc. UCNLG+MT.
Wilks, Y. (1978). Tornando as preferências mais ativas. Inteligência Artificial, 11 (3),

197–223.
Williams, S. e Reiter, E. (2008). Geração de relatórios de habilidades básicas para leitores pouco
qualificados. Engenharia de Linguagem Natural, 14 (4), 495–525.
Winograd, T. (1972). Compreender a linguagem natural. Psicologia cognitiva,

3 (1), 1–191.
Wong, MT, Hon, A. e Chun, W. (2008). Geração automática de Haiku usando

VSM Em Proc. ACACOS'08, pp. 318–323.
Wong, YW e Mooney, RJ (2007). Geração pela inversão de um analisador semântico que usa
tradução automática estatística. Em Proc. NAACL-HLT'07, pp.
Wubben, S., van den Bosch, A. e Krahmer, E. (2012). Simplificação de frases por tradução
automática monolíngue. Em Proc. ACL'12, pp.
Xu, K., Ba, JL, Kiros, R., Cho, K., Courville, A., Salakhutdinov, R., Zemel, RS, & Bengio, Y. (2015).
Mostre, assista e conte: geração de legendas de imagens neurais com atenção visual. Em
Proc. ICLR'15.
Yagcioglu, S., Erdem, E. e Erdem, A. (2015). Uma abordagem de expansão de consulta baseada
em representação distribuída para legendagem de imagens. Em Proc. ACL-IJCNLP'15,
pp.
Yang, Y., Teo, CL, Daume III, H., & Aloimonos, Y. (2011). Geração de frases guiadas por corpus
de imagens naturais. Em Proc. EMNLP'11, pp. 444–454.
Yannakakis, GN e Martÿnez, HP (2015). As classificações são superestimadas! Fronteiras

em TIC, 2 (julho).
Yao, BZ, Yang, X., Lin, L., Lee, MW e Zhu, SC (2010). I2T: análise de imagem para descrição de
texto. Anais do IEEE, 98 (8), 1485–1508.
110
Yatskar, M., Galley, M., Vanderwende, L., & Zettlemoyer, L. (2014). Não veja nenhum mal, não diga
nenhum mal: geração de descrição a partir de imagens densamente rotuladas.
E Proc. *EU SOU.
Young, P., Lai, A., Hodosh, M., & Hockenmaier, J. (2014). Das descrições de imagens às
denotações visuais: novas métricas de similaridade para inferência semântica sobre
descrições de eventos. Transações da Association for Computational Linguistics
(TACL), 2 (abril), 67–78.
Jovem, RM (2008). Criatividade Computacional na Geração de Narrativas: Utilidade e
Novidade Baseadas em Modelos de Compreensão de Histórias. Em Creative Intel-
ligent Systems, Artigos do Simpósio AAAI Spring de 2008 (Relatório Técnico
SS-08-03), pp.
Youyou, W., Kosinski, M. e Stillwell, D. (2015). Os julgamentos de personalidade baseados
em computador são mais precisos do que aqueles feitos por humanos. Anais da
Academia Nacional de Ciências, 112 (4), 1036–1040.
Yu, C. e Ballard, DH (2004). Uma interface de aprendizagem multimodal para fundamentar
a linguagem falada nas percepções sensoriais. Transações ACM sobre Percepção
Aplicada (TAP), 1 (1), 57–80.
Yu, H. e Siskind, JM (2013). Aprendizagem de idiomas fundamentada a partir de vídeos
descritos com frases. Em Proc. ACL'13, pp.
Yu, J., Reiter, E., Hunter, JR e Mellish, C. (2006). Escolha do conteúdo de resumos textuais
de grandes conjuntos de dados de séries temporais. Engenharia de Linguagem
Natural, 13 (01), 25.
Zaremba, W., Sutskever, I., & Vinyals, O. (2015). Regularização de Rede Neural Recorrente.
Pré-impressão arXiv, arXiv:1409.
Zarrieß, S. e Kuhn, J. (2013). Combinando geração de expressões de referência e realização
de superfície: uma investigação de arquiteturas baseada em corpus.
Em Proc. ACL'13), pp. 1547–1557.
Zarrieß, S., Loth, S. e Schlangen, D. (2015). Os tempos de leitura prevêem a qualidade do
texto gerado acima e além das classificações humanas. Em Proc. ENLG'15, pp.
Zhang, X. e Lapata, M. (2014a). Geração de Poesia Chinesa com Redes Neurais

Recorrentes. Em Proc. EMNLP'14, pp.
Zhang, X. e Lapata, M. (2014b). Geração de poesia chinesa com recorrente
redes neurais. Em EMNLP, pp.
Zhu, J. (2012). Rumo a uma abordagem de avaliação mista para narrativas computacionais
sistemas rativos. Em Proc. ICCC'12, pp.
Zitnick, CL e Parikh, D. (2013). Colocando a semântica em foco usando recursos visuais
abstração. Em Proc. CVPR'13, pp.
Zitnick, CL, Parikh, D. e Vanderwende, L. (2013). Aprendendo o Visual
Interpretação de Sentenças. Em Proc. ICCV'13, pp.
111

Survey of The State of The Art in Natural

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Survey of The State of The Art in Natural

Enviado por

Direitos autorais:

Formatos disponíveis

Machine Translated by Google

Levantamento do Estado da Arte em Natural

Este artigo examina o estado atual da arte em Geração de Linguagem

tópicos de investigação relativamente recentes que surgiram, em parte, como

artificial; (c) chamar a atenção para os desafios da avaliação da GNL,

2 Tarefas NLG 2.1 9

3 Arquiteturas e Abordagens NLG 3.1 Abordagens 21

4 A interface da linguagem de visão: Legendagem de imagens e mais de 40

5 Variação: Gerando texto com estilo, personalidade e afeto 47

6 Gerando texto criativo e divertido 6.1 Gerando trocadilhos 53

8 Discussão e direções futuras 74

• fusão e resumo de frases ou textos relacionados para torná-los mais

• geração de paráfrases de sentenças de entrada (por exemplo, Bannard & Callison-Burch,

• geração automática de perguntas, para fins educacionais e outros

a entrada de dados de terremotos registrados automaticamente em um texto, preenchendo lacunas

• 'jornais' virtuais a partir de dados de sensores (Molina et al., 2011);

• descrições textuais do dia-a-dia das aves com base em dados de satélite

• resumos de informações de pacientes em contextos clínicos (H¨uske-Kraus, 2003; Harris, 2008;

1.1 O que é geração de linguagem natural?

1.2 Por que uma pesquisa sobre Geração de Linguagem Natural?

Finalmente, uma omissão marcante de Reiter e Dale (2000) é a falta de discussão da

1.3 Objetivos desta pesquisa

Em suma, os objetivos desta pesquisa são:

inteligência artificial, como visão computacional, estilística e criatividade computacional

• Chamar a atenção para os desafios da avaliação da GNL, relacionando-os com

1. Determinação do conteúdo: decidir quais informações incluir no texto

2. Estruturação do texto: Determinar em qual pedido as informações serão pré-

3. Agregação de frases: decidir quais informações apresentar individualmente

4. Lexicalização: Encontrar as palavras e frases certas para expressar informações

5. Geração de expressões de referência: seleção de palavras e frases para identificar

6. Realização linguística: Combinar todas as palavras e frases em formas bem formadas

tema {b1, b2, b3}

(a) (b) (c) (d)

Figura 1: Tarefas em nlg, ilustradas com um exemplo simplificado da área neonatal

2.1 Determinação de conteúdo

2.2 Estruturação do texto

2.3 Agregação de frases

(1) Sadio Mane marcou para o Southampton aos 12 minutos e 22 segundos.

(2) Sadio Mane marcou para o Southampton aos 13 minutos e 46 segundos.

(3) Sadio Mane marcou para o Southampton aos 15 minutos e 18 segundos.

Claramente, isto é bastante redundante, não muito conciso ou coerente e geralmente

Em geral, a agregação é difícil de definir e tem sido interpretada de diversas

(5) Sadio Mane marcou aos 12 minutos e voltou a marcar aos 13

(6) Sadio Mane marcou aos 12 minutos e novamente aos 13.

Indiscutivelmente, a agregação ao nível sintático só pode ser responsável por reduções

Uma vez finalizado o conteúdo da frase, possivelmente também como resultado da

2.5 Geração de expressão de referência

Em nosso exemplo em execução, os três eventos de bradicardia mostrados na Figura 1b são

Figura 2: Domínio visual e representação tabular

A primeira escolha está portanto relacionada com a forma referencial: se as entidades

• Realizar uma busca exaustiva no espaço de descrições possíveis e escolher o menor

• Selecionar propriedades de forma incremental, mas escolhendo aquela que exclui a

• Seleção de propriedades de forma incremental, mas com base na preferência

Embora estas heurísticas se concentrem exclusivamente no requisito de que um

2.6 Realização linguística

Muitas abordagens diferentes foram propostas, das quais discutiremos

1. Modelos criados por humanos;

2. Sistemas baseados em gramática criados por humanos;

(7) $jogador marcou para $team no minuto $minuto.

(8) Ivan Rakitic marcou para o Barcelona aos 4 minutos.

2.6.2 Sistemas baseados em gramática codificados manualmente

(9) Ivan Rakitic marcou para o Barcelona aos 4 minutos.

(10) Pelo Barcelona, Ivan Rakitic marcou aos quatro minutos.