Escolar Documentos
Profissional Documentos
Cultura Documentos
Survey of The State of The Art in Natural
Survey of The State of The Art in Natural
Instituto Albert
Gatt de Linguística, Universidade de Malta, Tal-Qroqq,
Msida MSD2080, Malta albert.gatt@um.edu.mt
Centro Emiel
Krahmer de Tilburg para Cognição e Comunicação (TiCC), Universidade de
Tilburg, POBox 90153, NL-5000 LE, Tilburg, Holanda
ejkrahmer@tilburguniversity.edu
30 de março de 2017
Abstrato
Natural (nlg), definida como a tarefa de gerar texto ou fala a partir de dados não
linguísticos. Uma pesquisa sobre GNL é oportuna, tendo em vista as mudanças
que o campo sofreu ao longo da última década, especialmente em relação a
novos métodos (geralmente baseados em dados), bem como novas aplicações
da tecnologia GNL. Este inquérito visa, portanto, (a) fornecer uma síntese
atualizada da investigação sobre as tarefas centrais da NGL e as arquiteturas
[cs.CL]
adotadas nas quais essas tarefas são organizadas; (b) destacar uma série de
março
2017
1
Machine Translated by Google
Conteúdo
1. Introdução 4
1.1 O que é geração de linguagem natural? . . . . . . . . . . . . . . 6
1.2 Por que uma pesquisa sobre Geração de Linguagem Natural? . . . . . . . . . 7
1.3 Objetivos desta pesquisa. . ... . . . . . . . . . . . . . . . . . . . . 8
2
Machine Translated by Google
7 Avaliação 7.1 61
Métodos intrínsecos . . . . ... . . . . . . . . . . . . . . . . . . . . 63
7.1.1 Julgamentos subjetivos (humanos) . . . . . . . . . . . . . . . 63
7.1.2 Medidas objetivas de semelhança humana usando corpora. . . . . 65
7.1.3 Avaliando a compatibilidade de gênero . . . . . . . . . . . . . . . 67
7.2 Métodos de avaliação extrínseca. . . . . . . . . . . . . . . . . . . . 68
7.3 Avaliação de caixa preta versus caixa de vidro. . . . . . . . . . . . . . . . . . 69
7.4 Sobre a relação entre métodos de avaliação. . . . . . . . . 70
7.4.1 Métricas versus julgamentos humanos. . . . . . . . . . . . . 70
7.4.2 Usando experimentos controlados. . . . . . . . . . . . . . . . 73
7.5 Avaliação: Considerações finais . . . . . . . . . . . . . . . . . . 73
9 Conclusão 79
Referências 79
3
Machine Translated by Google
1. Introdução
Em sua intrigante história A Biblioteca de Babel (La biblioteca de Babel, 1941), Jorge Luis Borges
descreve uma biblioteca na qual todos os livros concebíveis podem ser encontrados. Provavelmente
é a pergunta errada a ser feita, mas os leitores não podem deixar de se perguntar: quem escreveu
todos esses livros? Certamente, este não poderia ser o trabalho de autores humanos?
O surgimento de técnicas de geração automática de texto nos últimos anos proporciona uma
reviravolta interessante nesta questão. Considere Philip M. Parker, que ofereceu mais de 100.000
livros para venda via Amazon.com, incluindo, por exemplo, seu The 2007-2012 Outlook for Tufted
Washable Scatter Rugs, Bathmats, and Sets That Measure 6-Feet por 9-Feet ou Menor em Índia
Obviamente, Parker não escreveu esses 100 mil livros à mão. Em vez disso, ele usou um programa
de computador que coleta informações publicamente disponíveis, possivelmente embaladas em
textos escritos por humanos, e as compila em um livro. Assim como a biblioteca de Babel contém
muitos livros que provavelmente não atrairão um público amplo, os livros de Parker não precisam
encontrar muitos leitores. Na verdade, mesmo que apenas uma pequena percentagem dos seus
livros fosse vendida algumas vezes, isso ainda lhe traria um lucro considerável.
O algoritmo de Parker pode ser visto como pertencente a uma tradição de pesquisa dos
chamados métodos de geração de texto para texto, aplicações que tomam textos existentes como
entrada e produzem automaticamente um texto novo e coerente como saída. Outros exemplos de
aplicativos que geram novos textos a partir de textos existentes (geralmente escritos por humanos)
incluem:
• simplificação de textos complexos, por exemplo, para torná-los mais acessíveis para leitores
com baixo nível de alfabetização (por exemplo, Siddharthan, 2014) ou para crianças
(Macdon-ald & Siddharthan, 2016);
• correção automática de ortografia, gramática e texto (por exemplo, Kukich, 1992; Dale
e outros, 2012);
• geração automática de revisões por pares para artigos científicos (Bartoli et al.,
2016);
Muitas vezes, porém, é necessário gerar textos que não se baseiam em textos já existentes.
Consideremos, como exemplo, o pequeno terremoto que ocorreu perto de Beverly Hills, Califórnia,
em 17 de março de 2014. O Los Angeles Times foi o primeiro jornal a noticiá-lo, três minutos após
o evento, fornecendo detalhes sobre o horário. , localização e força do terremoto. Este relatório foi
gerado automaticamente por um 'jornalista robótico', que converteu o
4
Machine Translated by Google
• reportagens sobre futebol (por exemplo, Theune et al., 2001; Chen & Mooney, 2008);
• relatórios meteorológicos e financeiros (Goldberg et al., 1994; Reiter et al., 2005; Turner et al.,
2008; Ramos-Soto et al., 2015; Wanner et al., 2015; Pla-chouras et al., 2016);
• informação interactiva sobre artefactos culturais, por exemplo num contexto de museu (por
exemplo, O'Donnell, 2001; Stock et al., 2007); e
• texto destinado a persuadir (Carenini & Moore, 2006) ou motivar modificação de comportamento
(Reiter et al., 2003).
Estes sistemas podem diferir consideravelmente na qualidade e variedade dos textos que
produzem, na sua viabilidade comercial e na sofisticação dos métodos subjacentes, mas todos são
exemplos de geração de dados para texto. Muitos dos sistemas mencionados acima concentram-se
na transmissão de informações ao usuário. Por outro lado, como mostram os exemplos citados acima
de sistemas centrados na persuasão ou na mudança de comportamento, informar não precisa ser o
objetivo exclusivo da GNL. Nem é um objectivo trivial em si, uma vez que para transmitir informação
com sucesso, um sistema precisa de seleccionar o que dizer, distinguindo-o do que pode ser
facilmente inferido (possivelmente também dependendo do utilizador-alvo), antes de exprimi-lo de
forma coerente.
Os textos gerados não precisam ter um grande público. Não há necessidade de gerar
automaticamente uma reportagem sobre, por exemplo, a final do futebol europeu da Liga dos
Campeões, que, de qualquer forma, é coberta por muitos dos melhores jornalistas da área. Contudo,
existem muitos outros jogos, menos importantes para o público em geral (mas presumivelmente
muito importantes para as partes envolvidas). Normalmente, todas as estatísticas esportivas (quem
jogou?, quem marcou? etc.) desses jogos são armazenadas, mas essas estatísticas não são armazenadas.
1Veja http://www.slate.com/blogs/future_tense/2014/03/17/quakebot_los_angeles_
times_robot_journalist_writes_article_on_la_earthquake.html.
5
Machine Translated by Google
via de regra, examinado por repórteres esportivos. Empresas como a Narrative Science2 preenchem
esse nicho gerando automaticamente relatórios esportivos para esses jogos. O Automated Insights3
gera até mesmo relatórios baseados em dados de “futebol de fantasia” fornecidos pelos usuários.
Na mesma linha, a geração automática de previsões meteorológicas para plataformas petrolíferas
offshore (Sripada et al., 2003), ou a partir de sensores que monitoram o desempenho de turbinas a
gás (Yu et al., 2006), provou ser uma aplicação frutífera de técnicas de dados para texto. Estas
aplicações personalizadas são agora a base de empresas como a Arria-NLG.4 Levando esta ideia
um passo adiante, a
geração de dados em texto abre caminho para a adaptação de textos a públicos específicos.
Por exemplo, os dados de bebés em cuidados neonatais podem ser convertidos em texto de forma
diferente, com diferentes níveis de detalhe técnico e linguagem explicativa, dependendo se o leitor
pretendido é um médico, um enfermeiro ou um pai (Mahamood & Reiter, 2011). Também se poderia
facilmente imaginar que diferentes reportagens desportivas são geradas para os adeptos das
respectivas equipas; o golo da vitória de uma equipa será provavelmente considerado um golo de
sorte do ponto de vista da equipa perdedora, independentemente das suas qualidades “objectivas”.
Um jornalista humano não sonharia em escrever reportagens separadas sobre um jogo desportivo
(mesmo que apenas por falta de tempo), mas para um computador isto não é um problema e é
provável que seja apreciado por um leitor que receba uma reportagem mais pessoalmente
apropriada.
2https://www.narrativescience.com
3https://automatedinsights.com 4
http://www.arria.com
6
Machine Translated by Google
expresso em frases completamente novas (por exemplo, Labb´e & Portet, 2012). Por outro
lado, um sistema de geração de dados para texto poderia contar com técnicas de geração
de texto para texto para aprender como expressar pedaços de dados de maneiras diferentes
ou criativas (McIntyre & Lapata, 2009; Gatt et al., 2009; Kondadadi et al., 2013).
A consideração de outras aplicações de nlg destaca de forma semelhante como os
limites podem ficar confusos. Por exemplo, a geração de enunciados falados em sistemas
de diálogo (por exemplo, Walker et al., 2007a; Rieser & Lemon, 2009; Dethlefs, 2014) é
outra aplicação da NGL, mas normalmente está intimamente relacionada à gestão do
diálogo, portanto que as políticas de gestão e realização são por vezes aprendidas em
conjunto (por exemplo, Rieser & Lemon, 2011b). Mesmo o que constitui “uma representação
não linguística de informação” no contexto da conversão de dados em texto está sujeito a
alterações: tradicionalmente, isto era considerado uma base de dados ou informação
logicamente estruturada, mas nos últimos tempos tem havido um interesse crescente em
usando dados visuais como entrada, resultando nos chamados sistemas de visão para
texto que produzem automaticamente descrições de imagens estáticas ou em movimento
com base em entradas de visão computacional (por exemplo, Mitchell et al., 2012; Kulkarni
et al., 2013; Thomason et al., 2014, entre muitos outros).
7
Machine Translated by Google
oportuno.
Tal como em Reiter e Dale (2000), o nosso foco principal, especialmente na primeira parte do inquérito,
será a geração de dados para texto. De qualquer forma, fazer plena justiça aos desenvolvimentos recentes nas
diversas aplicações de geração de texto para texto está além do escopo de uma única pesquisa, e muitos deles
são abordados em outras pesquisas individuais, incluindo Mani (2001) e Nenkova e McKeown ( 2011) para
resumo; Androutsopoulos e Malakasiotis (2010) pela paráfrase; e Piwek e Boyer (2012) para geração automática
de perguntas. No entanto, discutiremos em vários lugares as conexões entre a geração de dados para texto e
de texto para texto, tanto porque – como observado acima – as fronteiras são confusas, mas também, e talvez
mais importante, porque os sistemas de texto para texto há muito que foram formulados em estruturas baseadas
em dados que estão a tornar-se cada vez mais populares na geração de dados para texto, dando também
origem a alguns sistemas híbridos que combinam técnicas estatísticas e baseadas em regras (por exemplo,
Kondadadi et al., 2013).
Nossa revisão começará com uma visão geral atualizada das principais tarefas da NGL que foram
introduzidas em Reiter e Dale (2000), seguida por uma discussão de arquiteturas e abordagens, onde
prestamos atenção especial àquelas não abordadas no Reiter e Dale (2000). 2000) pesquisa. Estas duas
secções constituem a parte “central” do inquérito. Além destes, destacamos vários novos desenvolvimentos,
incluindo abordagens onde os dados de entrada são visuais; e pesquisas destinadas a gerar textos mais
variados, envolventes ou criativos e divertidos, levando a NGL além dos textos factuais e repetitivos que às
vezes é acusada de produzir. Acreditamos que esses aplicativos não são apenas interessantes em si mesmos,
mas também podem informar aplicativos de geração de texto mais orientados a 'utilidades'. Por exemplo, ao
incluir insights provenientes da geração de narrativas, poderemos ser capazes de gerar relatórios mais
envolventes e, ao incluir insights provenientes da geração de metáforas, poderemos ser capazes de formular
informações nestes relatórios de uma forma mais original. Finalmente, discutiremos os desenvolvimentos
recentes na avaliação de aplicações de geração de linguagem natural.
• Apresentar uma síntese actualizada da investigação sobre as principais tarefas da GNL, bem como das
arquitecturas adoptadas no terreno, especialmente tendo em conta os desenvolvimentos recentes que
exploram técnicas baseadas em dados (Secções 2 e 3);
• Destacar uma série de questões de pesquisa relativamente recentes que surgiram em parte como
resultado de sinergias crescentes entre a nlg e outras áreas de
8
Machine Translated by Google
2 Tarefas NLG
Tradicionalmente, o problema nlg de converter dados de entrada em texto de saída era
resolvido dividindo-o em vários subproblemas. Os seis seguintes são frequentemente
encontrados em muitos sistemas NGL (Reiter & Dale, 1997, 2000); seu papel é ilustrado na
Figura 1:
Estas tarefas podem ser pensadas em termos de processos de decisão iniciais (que
informações transmitir ao leitor?) até processos tardios (que palavras usar numa frase
específica e como colocá-las na ordem correta?). Esta caracterização reflete uma distinção
de longa data na GNL entre estratégia e tática (uma distinção que remonta pelo menos a
Thompson, 1977). Esta distinção também sugere uma ordem temporal na qual as tarefas
são executadas, pelo menos em sistemas com uma arquitetura modular de pipeline
(discutida na Seção 3.1): por exemplo, o sistema primeiro precisa decidir quais dados de
entrada expressar no texto, antes pode solicitar informações para apresentação. No entanto,
tal ordenação de módulos é hoje cada vez mais questionada nas arquiteturas orientadas a
dados discutidas abaixo (Seção 3). Aqui, referimo-nos a tarefas “iniciais” e “tardias” para
distinguir entre escolhas que são mais orientadas para os dados (como o que dizer) e
escolhas que são de natureza cada vez mais linguística (por exemplo, lexicalização ou
realização). .
Nesta secção, descrevemos brevemente estas seis tarefas, ilustrando-as com exemplos,
e destacamos os desenvolvimentos recentes em cada caso. Como veremos,
9
Machine Translated by Google
Evento
ÿ tipo existencial ÿ
ÿ ÿ
ÿ antes ser ÿ
ÿ ÿ
ÿ tenso passado ÿ
ÿ ÿ
embora as tarefas “iniciais” sejam cruciais para o desenvolvimento de sistemas NGL, elas são
muitas vezes intimamente ligado à aplicação específica. Em contrapartida, as tarefas «tardias»
são mais frequentemente investigados independentemente de uma aplicação e, portanto, têm
resultou em abordagens que podem ser compartilhadas entre aplicativos.
Como primeiro passo no processo de geração, o sistema nlg precisa decidir quais
informações devem constar no texto em construção, e que devem
não. Normalmente, há mais informações contidas nos dados do que queremos transmitir
através de texto, ou os dados são mais detalhados do que gostaríamos de expressar em texto. Isso é
claro na Figura 1a, onde o sinal de entrada – a frequência cardíaca de um paciente – contém apenas
alguns padrões de interesse. A seleção também pode depender do público-alvo
(por exemplo, se é composto por especialistas ou novatos, por exemplo) e no geral
intenção comunicativa (por exemplo, o texto deve informar o leitor ou convencer
ele faça alguma coisa).
A determinação do conteúdo envolve escolha. Numa reportagem sobre futebol, podemos não querer
verbalizar cada passe e falta cometida, mesmo que os dados possam conter esta informação. No caso
dos cuidados neonatais, os dados podem ser recolhidos
continuamente a partir de sensores que medem frequência cardíaca, pressão arterial e outros parâmetros
fisiológicos. Os dados, portanto, precisam ser filtrados e abstraídos em um conjunto
de mensagens pré-verbais, representações semânticas de informações que muitas vezes são
expresso em uma linguagem de representação formal, como linguagens lógicas ou de banco de dados,
matrizes de atributos-valores ou estruturas gráficas. Eles podem expressar, entre
outras coisas, quais relações existem entre quais entidades de domínio, por exemplo,
expressando que o jogador X marcou o primeiro gol para a equipe Y no tempo T.
Embora a determinação de conteúdo esteja presente na maioria dos sistemas nlg (cf. Mellish
et al., 2006), as abordagens normalmente estão intimamente relacionadas ao domínio de aplicação.
10
Machine Translated by Google
ção. Uma exceção notável é Guhe (2007), um relato incremental da determinação de conteúdo
baseado em estudos de descrições de eventos dinâmicos feitos por falantes à medida que
eles se desenrolam. Este trabalho pertence a uma vertente de pesquisa que considera a NGL,
antes de tudo, como uma metodologia eminentemente adequada para a compreensão da
produção da linguagem humana.
Nos últimos anos, os pesquisadores começaram a explorar técnicas baseadas em dados
para determinação de conteúdo ((ver, por exemplo, Barzilay & Lee, 2004; Bouayad-Agha et
al., 2013; Kutlak et al., 2013; Venigalla & Di Eugenio, 2013). Barzilay e Lee (2004), por
exemplo, utilizaram modelos de Markov ocultos para modelar mudanças de tópicos num
domínio particular do discurso (digamos, relatórios de terramotos), onde os estados ocultos
representavam “tópicos”, modelados como frases agrupadas por similaridade. Uma abordagem
de agrupamento também foi utilizada por Duboue e McKeown (2003) no domínio da biografia,
utilizando textos emparelhados com uma base de conhecimento, a partir da qual os dados
semânticos foram agrupados e pontuados de acordo com sua ocorrência no texto. Na mesma
linha, Barzilay e Lapata (2005) utilizam uma base de dados de registros de futebol americano
e textos correspondentes. Seu objetivo não era apenas identificar informações que deveriam
ser mencionadas, mas também dependências entre elas, já que mencionar um determinado
evento (digamos, um gol de um quarterback ) pode justificar a menção de outro (digamos,
outro evento de pontuação de um segundo quarterback). A solução proposta por Barzilay e
Lapata foi calcular pontuações de preferência individual para eventos e uma pontuação de
preferência de link.
Mais recentemente, vários pesquisadores abordaram a questão de como aprender
automaticamente os alinhamentos entre dados e texto, também no contexto mais amplo da
aquisição fundamentada da linguagem, ou seja, modelando como aprendemos a linguagem
observando as correspondências entre objetos e eventos em o mundo e a forma como nos
referimos a eles na linguagem (Roy, 2002; Yu & Ballard, 2004; Yu & Siskind, 2013).
Por exemplo, Liang et al. (2009) estenderam o trabalho de Barzilay e Lapata (2005) a múltiplos
domínios (futebol e meteorologia), apoiando-se em técnicas pouco supervisionadas; na mesma
linha, Koncel-Kedziorski et al. (2014) apresentaram uma abordagem multinível fracamente
supervisionada, para lidar com o facto de não haver correspondência um-para-um entre, por
exemplo, eventos de futebol em dados e frases em relatórios de futebol associados.
Voltaremos a esses métodos como parte de uma discussão mais ampla sobre abordagens
baseadas em dados abaixo (Seção 3.3).
Esta fase é muitas vezes referida como estruturação do texto (ou discurso ou documento).
No caso do domínio do futebol, por exemplo, parece razoável começar com informações
gerais (onde e quando o jogo foi disputado, quantas pessoas compareceram, etc.), antes de
os golos serem descritos, normalmente em ordem temporal. No domínio dos cuidados
neonatais, uma ordem temporal pode ser imposta entre
11
Machine Translated by Google
eventos, como na Figura 1b, mas extensões maiores de texto podem refletir a ordenação
com base na importância e o agrupamento de informações com base na relação (por
exemplo, todos os eventos relacionados à respiração de um paciente) (Portet et al., 2009).
Naturalmente, podem existir relações discursivas alternativas entre mensagens separadas,
tais como contrastes ou elaborações. O resultado desta etapa é um plano de discurso, texto
ou documento, que é uma representação estruturada e ordenada de mensagens.
Estes exemplos implicam novamente que o domínio da aplicação impõe restrições às
preferências de ordenação. As primeiras abordagens, como McKeown (1985), muitas vezes
dependiam de regras de estruturação dependentes de domínio e feitas à mão (que McKeown
chamou de esquemas). Para explicar as relações discursivas entre mensagens, os
pesquisadores têm se baseado alternativamente na Teoria da Estrutura Retórica (primeiro;
por exemplo, Mann & Thompson, 1988; Scott & Sieckenius de Souza, 1990; Hovy, 1993),
que também normalmente envolvia regras específicas de domínio. . Por exemplo, Williams e
Reiter (2008) utilizaram as primeiras relações para identificar a ordem entre as mensagens
que maximizariam a clareza para leitores pouco qualificados.
Vários investigadores exploraram as possibilidades de utilização de técnicas de
aprendizagem automática para a estruturação de documentos (por exemplo, Dimitromanolaki
& Androutsopou-los, 2003), por vezes fazendo-o em conjunto com a selecção de conteúdo
(Duboue & McKeown, 2003). Foram propostas abordagens gerais para a ordenação da
informação (Barzilay & Lee, 2004; Lapata, 2006), que tentam automaticamente encontrar
uma ordenação óptima dos “itens que contêm informação”. Essas abordagens podem ser
aplicadas à estruturação de textos, onde os itens a serem ordenados são tipicamente
mensagens pré-verbais; no entanto, também podem ser aplicados na sumarização
(multidocumentos), onde os itens a serem ordenados são frases dos documentos de entrada
que são consideradas suficientemente dignas de resumo para serem incluídas (por exemplo,
Barzilay et al., 2002; Bollegala et al. , 2010).
Para dar outro exemplo, do domínio do futebol, uma forma (não agregada)
para descrever o hat-trick mais rápido da Premier League inglesa seria:
12
Machine Translated by Google
(4) Sadio Mane marcou três vezes pelo Southampton em menos de três
minutos.
poderia ser alcançado identificando as frases verbais paralelas nas duas sentenças
conjuntas e eliminando o sujeito e o verbo na segunda. Trabalhos recentes exploraram
a possibilidade de adquirir tais regras de corpora automaticamente.
Por exemplo, Stent e Molina (2009) descrevem uma abordagem para a aquisição de
regras de combinação de frases a partir de um banco de árvores de discurso, que são
então incorporadas no planejador de frases animado descrito por Walker et al. (2007b).
Uma abordagem mais geral para o mesmo problema é discutida por White e Howcroft
(2015).
13
Machine Translated by Google
2.4 Lexicalização
14
Machine Translated by Google
Por exemplo, selecionar os adjetivos “largo” ou “alto” com base nas dimensões de uma entidade exige
que o sistema raciocine sobre a largura ou a altura de objetos semelhantes, talvez usando algum padrão
de comparação (uma vez que um “copo alto” é mais baixo que um 'homem baixo'; cf. Kennedy & McNally,
2005; van Deemter, 2012).
Uma questão semelhante foi observada no contexto da apresentação de informações numéricas, como
carimbos de data e hora e quantidades (Reiter et al., 2005; Power & Williams, 2012). Por exemplo, Reiter
et al. (2005) discutiram expressões de tempo no contexto da geração de previsões meteorológicas,
apontando que um carimbo de data/hora 00:00 poderia ser expresso como tarde da noite, meia-noite ou
simplesmente noite (Reiter et al., 2005, p. 143). Não é de surpreender que os seres humanos (incluindo
os previsores profissionais que contribuíram para a avaliação de Reiter et al.) apresentem variações
consideráveis nas suas escolhas lexicais.
É interessante notar que muitas questões relacionadas com a lexicalização também foram discutidas
na literatura psicolinguística sobre acesso lexical (Levelt, 1989; Levelt et al., 1999). Entre elas está a
questão de como os falantes se concentram na palavra certa e em que condições estão sujeitos a cometer
erros, dado que o léxico mental é uma rede densamente conectada na qual os itens lexicais estão
conectados em múltiplos níveis (semântico, fonológico, etc.). ). Este também tem sido um tópico frutífero
para modelagem computacional (por exemplo, Levelt et al., 1999). Em contraste com as abordagens de
modelagem cognitiva, no entanto, a pesquisa em NGL vê cada vez mais a lexicalização como parte da
realização superficial (discutida abaixo) (uma observação semelhante é feita por Mellish & Dale, 1998,
p.351). Uma contribuição fundamental neste contexto é de Elhadad et al. (1997), que descrevem uma
abordagem baseada na unificação, unificando representações conceituais (ou seja, mensagens pré-
verbais) com regras gramaticais que codificam escolhas lexicais e sintáticas.
15
Machine Translated by Google
Objetos de domínio
Atributos d1 d2 d3
Cor azul cubo azul
Forma bola verde bola
Tamanho pequeno grande grande
Relação antes (d2) atrás (d1) próximo a (d2)
(a) Domínio visual do
gre3d corpus (Viethen & (b) Representação tabular do domínio visual
Dal, 2008)
16
Machine Translated by Google
apelou para a máxima griceana que afirma que os oradores devem certificar-se de que as
suas contribuições são suficientemente informativas para os fins do intercâmbio, mas não
mais (Grice, 1975). A forma como isso é interpretado tem sido objeto de uma série de
interpretações algorítmicas, incluindo:
17
Machine Translated by Google
os pesquisadores também começaram a explorar a relevância dos algoritmos reg como modelos
psicolinguísticos de produção da linguagem humana (por exemplo, van Deemter et al., 2012b).
Uma outra linha de trabalho afastou-se da separação entre seleção de conteúdo e forma, realizando
essas tarefas em conjunto. Por exemplo, Engonopou-los e Koller (2014) usam uma gramática síncrona que
relaciona diretamente strings de superfície com referentes alvo, usando um gráfico para calcular as
expressões possíveis para um determinado alvo. Este trabalho tem alguma relação com abordagens
baseadas em planejamento que discutimos na Seção 3.2 abaixo, que exploram formalismos gramaticais
como operadores de planejamento (por exemplo, Stone & Webber, 1998; Koller & Stone, 2007), resolvendo
problemas de realização e determinação de conteúdo em tandem (incluindo reg como um caso especial).
Finalmente, em trabalhos anteriores, a informação visual era normalmente “simplificada” numa tabela
(como fizemos acima), mas houve um progresso substancial no registo em cenários mais complexos. Por
exemplo, o desafio dar (Koller et al., 2010) deu impulso à exploração de referências situadas a objetos num
ambiente virtual (ver também Stoia & Shockley, 2006; Garoufi & Koller, 2013). Trabalhos mais recentes
começaram a explorar a interface entre visão computacional e registro para produzir descrições de objetos
em cenas visuais complexas e realistas, incluindo fotografias (por exemplo, Mitchell et al., 2013; Kazemzadeh
et al., 2014; Mao et al., 2013; Kazemzadeh et al., 2014; Mao et al. , 2016). Isto faz parte de um conjunto
mais amplo de desenvolvimentos centrados na relação entre visão e linguagem, que abordaremos na Secção
4.
Normalmente referida como realização linguística, esta tarefa envolve ordenar os constituintes de uma
frase, bem como gerar as formas morfológicas corretas (incluindo conjugações verbais e concordância, nas
línguas onde isto é relevante). Muitas vezes, os realizadores também precisam inserir palavras funcionais
(como verbos auxiliares e preposições) e sinais de pontuação. Uma complicação importante nesta fase é
que o resultado precisa de incluir vários componentes linguísticos que podem não estar presentes no input
(um exemplo do “conflito entre gerações” discutido na Secção 3.1 abaixo); assim, esta tarefa de geração
pode ser pensada em termos de projeção entre estruturas não isomórficas (cf. Ballesteros et al., 2015).
3. abordagens estatísticas.
18
Machine Translated by Google
2.6.1 Modelos
Quando os domínios de aplicação são pequenos e se espera que a variação seja mínima, a
realização é uma tarefa relativamente fácil e os resultados podem ser especificados usando
modelos (por exemplo, Reiter et al., 1995; McRoy et al., 2003), como o seguinte.
Este modelo possui três variáveis, que podem ser preenchidas com o nome de um jogador,
de um time e o minuto em que esse jogador marcou um gol. Pode assim servir para gerar
frases como:
Uma vantagem dos modelos é que eles permitem controle total sobre a qualidade da
saída e evitam a geração de estruturas não gramaticais. Variantes modernas do método
baseado em modelos incluem informações sintáticas nos modelos, bem como regras
sofisticadas para preencher as lacunas (Theune et al., 2001), tornando difícil distinguir
modelos de métodos mais sofisticados (van Deemter et al., 2001). ., 2005). A desvantagem
dos modelos é que eles exigem muito trabalho se construídos à mão (embora os modelos
tenham sido recentemente aprendidos automaticamente a partir de dados do corpus, ver,
por exemplo, Angeli et al., 2012; Kondadadi et al., 2013, e a discussão na Seção 3.3 abaixo).
Eles também não se adaptam bem a aplicações que exigem variação linguística considerável.
Uma alternativa aos modelos é fornecida por sistemas de realização de uso geral e
independentes de domínio. A maioria desses sistemas é baseada na gramática, ou seja, eles
fazem algumas ou todas as suas escolhas com base na gramática da língua em consideração.
Esta gramática pode ser escrita manualmente, como em muitos realizadores clássicos
disponíveis no mercado, como fuf/surge (Elhadad & Robin, 1996), mumble (Meteer et al.,
1987), kpml (Bateman, 1997), nigel (Mann & Matthiessen, 1983) e RealPro (Lavoie &
Rambow, 1997). Realizadores baseados em gramática codificados manualmente tendem a
exigir informações muito detalhadas. Por exemplo, kpml (Bateman, 1997) é baseado na
Gramática Sistêmico-Funcional (sfg; Halliday & Matthiessen, 2004), e a realização é
modelada como uma travessia de uma rede na qual as escolhas dependem de informações
gramaticais e semântico-pragmáticas. Este nível de detalhe torna estes sistemas difíceis de
usar como módulos simples 'plug-and-play' ou 'prontos para uso' (por exemplo, Kasper,
1989), algo que motivou o desenvolvimento de mecanismos de realização simples que
fornecem APIs de sintaxe e morfologia , mas deixa a escolha para o desenvolvedor (Gatt et
al., 2009; Vaudry & Lapalme, 2013; Bollmann, 2011; de Oliveira & Sripada, 2014).
Uma dificuldade para os sistemas baseados em gramática é como fazer escolhas entre
opções relacionadas, como as seguintes, onde regras elaboradas à mão com a sensibilidade
correta ao contexto e à entrada são difíceis de projetar:
19
Machine Translated by Google
Abordagens recentes têm procurado adquirir gramáticas probabilísticas de grandes corpora, reduzindo
a quantidade de trabalho manual necessário, ao mesmo tempo que aumentam a cobertura.
Essencialmente, duas abordagens foram adotadas para incluir informações estatísticas no processo de
realização. Uma abordagem, introduzida pelo trabalho seminal de Langkilde e Knight (Langkilde-Geary,
2000; Langkilde-Geary & Knight, 2002) sobre os sistemas halogênio/nitrogênio, baseia-se em uma
abordagem de dois níveis, na qual um pequeno , a gramática artesanal é usada para gerar realizações
alternativas representadas como uma floresta, a partir da qual um reclassificador estocástico seleciona
o candidato ideal. Langkilde e Knight confiam no conhecimento estatístico baseado em corpus na forma
de n-gramas, enquanto outros experimentaram modelos estatísticos mais sofisticados para realizar a
reclassificação (por exemplo, Bangalore & Ram-bow, 2000; Ratnaparkhi, 2000; Cahill et al., 2007). A
segunda abordagem não depende de uma abordagem de geração e filtragem computacionalmente
dispendiosa, mas utiliza informações estatísticas diretamente no nível das decisões de geração. Um
exemplo dessa abordagem é o sistema pcru desenvolvido por Belz (2008), que gera a derivação mais
provável de uma sentença, dado um corpus, utilizando uma gramática livre de contexto. Neste caso, as
estatísticas são exploradas para controlar o comportamento de tomada de decisão do gerador à medida
que procura a solução óptima.
Em ambas as abordagens, o gerador base é feito à mão, enquanto a informação estatística é usada
para filtrar os resultados. Uma alternativa óbvia seria também confiar em informações estatísticas para
o sistema de geração de base. Abordagens gramaticais totalmente orientadas por dados foram
desenvolvidas através da aquisição de regras gramaticais de bancos de árvores. Por exemplo, o
framework Openccg (Espinosa et al., 2008; White & Rajkumar, 2009, 2012) apresenta um realizador de
superfície inglês de ampla cobertura, baseado na Gramática Categorial Combinatória (ccg; Steedman,
2000), contando com um corpus de representações ccg derivadas do Penn Treebank (Hockenmaier &
Steedman, 2007) e usando modelos de linguagem estatística para reclassificação. Existem várias outras
abordagens de realização que adotam um raciocínio semelhante, baseado em uma variedade de
formalismos gramaticais, incluindo Gramática de Estrutura de Frase Orientada à Cabeça (hpsg;
Nakanishi et al., 2005; Carroll & Oepen, 2005), Gramática Lexical-Funcional ( lfg; Cahill & Josef, 2006) e
Tree Ad-joining Grammar (tag; Gardent & Narayan, 2015). Em muitos desses sistemas, o gerador de
base usa alguma variante do algoritmo de geração de gráficos (Kay, 1996) para realizar iterativamente
partes de uma especificação de entrada e fundi-las em uma ou mais estruturas finais, que podem então
ser classificadas (ver Rajkumar & White, 2014, para discussão mais aprofundada). A existência de
realizadores estocásticos com gramáticas de ampla cobertura motivou um maior foco em escolhas sutis,
tais como como evitar ambiguidade estrutural, ou como lidar com escolhas como a inserção explícita de
complementadores em inglês (ver, por exemplo, Rajkumar & White, 2011).
20
Machine Translated by Google
provar resultados. Por exemplo, Filippova e Strube descrevem uma abordagem para linearização de
constituintes usando uma abordagem em duas etapas com classificadores de Entropia Máxima, primeiro
determinando qual constituinte deve ocupar a posição inicial da frase e depois ordenando os constituintes
no restante da frase (Fil-ippova & Strube, 2007, 2009). Bohnet et al. (2010) descrevem um realizador
usando estruturas de dependência subespecificadas como entrada, em um framework baseado em Sup-
port Vector Machines, onde os classificadores são organizados em cascata. Um classificador inicial
decodifica a entrada semântica nos recursos sintáticos correspondentes, enquanto dois classificadores
subsequentes primeiro linearizam a sintaxe e depois renderizam a realização morfológica correta para os
lexemas componentes. Esta abordagem de “geração profunda” foi aplicada a quatro línguas – chinês,
inglês, alemão e espanhol – e descobriu-se que supera a abordagem de Filippova e Strube (2009) em
inglês quando comparada com um corpus usando a métrica bleu (Papineni et al. ., 2002), embora fique
um pouco aquém do realizador alemão de Filippova e Strube (2007), onde a abordagem de classificação
em duas etapas tem melhor desempenho.
2.7 Discussão
Esta seção forneceu uma visão geral de algumas tarefas clássicas encontradas na maioria dos sistemas
nlg. Uma das tendências comuns que podem ser identificadas em cada caso é a mudança constante das
primeiras abordagens artesanais baseadas em regras para as abordagens estocásticas mais recentes
que dependem de dados corpus, com um movimento concomitante em direcção a abordagens mais
independentes de domínio. Historicamente, este já era o caso de tarefas como a geração ou realização
de expressões referenciais, que se tornaram tópicos de investigação intensiva por direito próprio. Contudo,
à medida que cada vez mais abordagens a todas as tarefas da NGL começam a assumir um rumo
estatístico, há uma ênfase crescente nas técnicas de aprendizagem; o aspecto específico do domínio é,
por assim dizer, incidental, uma propriedade dos próprios dados de treinamento. Como veremos na
próxima seção, esta tendência também influenciou a forma como as diferentes tarefas de NGL são
organizadas, ou seja, a arquitetura dos sistemas de geração de texto a partir de dados.
21
Machine Translated by Google
Figura 3: Arquitetura NLG clássica de três estágios, segundo Reiter e Dale (2000).
Segmentos mais escuros ilustram os três módulos principais; segmentos mais claros mostram as
saídas.
1. Arquiteturas modulares: muitas vezes são típicas de sistemas com raízes no paradigma
clássico de processamento de símbolos que dominou as primeiras pesquisas em IA.
Por definição, tais arquiteturas envolvem divisões bastante nítidas entre subtarefas,
embora com variações significativas entre elas;
Destes três, o primeiro, o design modular, é o mais antigo e durante muito tempo, seguindo
Reiter (1994), foi referido como o 'consenso'. Embora o revisemos com alguma profundidade
abaixo, enfatizamos que o seu estatuto consensual tem sido repetidamente questionado. Na
verdade, a investigação mais recente baseada no planeamento e/ou orientada por dados desafiou
fortemente a visão modular. Por esta razão, no que se segue, iremos muitas vezes contrastar
explicitamente o design encapsulado do modelo mais antigo com estas abordagens mais “globais”,
com vista a destacar soluções computacionais destinadas a abordar conjuntamente subtarefas de
NGL.
22
Machine Translated by Google
1993), a escolha do “o que dizer”. O plano de texto resultante, uma representação estruturada
de mensagens, é a entrada para o Planejador de Sentenças (ou microplanejador), que
normalmente combina agregação de frases, lexicalização e geração de expressões referentes
(Reiter & Dale, 2000). Se o planejamento do texto equivale a decidir o que dizer, o planejamento
das frases pode ser entendido como a decisão de como dizê-lo.
Resta então dizê-lo de fato, ou seja, gerar as sentenças finais de forma gramaticalmente correta,
aplicando regras sintáticas e morfológicas.
Esta tarefa é executada pelo Realizador Linguístico. Juntos, o planejamento e a realização de
frases abrangem o conjunto de tarefas tradicionalmente chamadas de geração tática.
Curiosamente, quando Reiter (1994) propôs esta arquitetura de três estágios como a
arquitetura de consenso emergente na NGL, ele traçou um paralelo com a produção da fala
humana, onde o modelo psicolinguístico mais influente de produção da linguagem, proposto por
Levelt (1989, 1999) , faz uma distinção semelhante entre decidir o que dizer e determinar como
dizê-lo. O modelo de Levelt permite um grau limitado de automonitoramento através de ciclos de
feedback, um recurso que está ausente no pipeline NGL de Reiter, mas continua a desempenhar
um papel importante na psicolinguística (cf. Pickering & Garrod, 2013), embora aqui também
tenha havido ênfase crescente em modelos mais integrados.
1. Análise do(s) texto(s) fonte(s), por meio da qual as informações – na forma de frases ou
sentenças – são selecionadas para inclusão no eventual resumo. Como esta etapa envolve
seleção, ela compartilha algumas características com a etapa de planejamento de texto de
um sistema de conversão de dados em texto, onde a determinação do conteúdo é uma
das tarefas;
3. Síntese, ou seja, processo de geração do resumo, com base nas informações selecionadas.
Neste caso, os sistemas normalmente lidam com entrada de texto, mas quanto maior o
nível de abstração no resumo, mais esta etapa desempenhará um papel na regeneração
do texto que pode parecer bastante diferente em seus aspectos essenciais da entrada
original. Texto:% s). Portanto, esta tarefa pode compartilhar alguns recursos com o estágio
de realização da Figura 3.
Uma marca registrada da arquitetura na Figura 3 é que ela representa divisões claras entre
tarefas que são tradicionalmente consideradas pertencentes ao “o quê”
23
Machine Translated by Google
(estratégico) e o 'como' (tático). Contudo, isto não implica que esta divisão seja
universalmente aceite na prática. Em pesquisa realizada há aproximadamente uma década,
Mellish et al. (2006) já concluíram que, embora vários sistemas NGL incorporem muitas
das tarefas principais descritas na Secção 2, a sua organização varia consideravelmente
de sistema para sistema. Na verdade, algumas tarefas podem ser divididas em módulos.
Por exemplo, a parte de determinação do conteúdo da geração de expressões referenciais
pode ser colocada no planejador de frase, mas as decisões sobre a forma (como usar um
SN anafórico e, em caso afirmativo, que tipo de NP produzir) podem ter que esperar até
que pelo menos algumas decisões relacionadas com a realização foram tomadas. Com
base nessas observações, Mellish et al. propuseram um formalismo alternativo, a estrutura
de 'objetos e setas', dentro da qual diferentes tipos de fluxo de informações entre
subtarefas da NGL podem ser acomodados.
Em vez de oferecer uma arquitetura específica, esta estrutura foi concebida como um
formalismo dentro do qual podem ser especificadas descrições de alto nível de diferentes
arquiteturas. No entanto, mantém o princípio de que as tarefas, independentemente da
sua organização, são bem definidas e distintas.
Um desenvolvimento mais recente em relação à arquitetura de pipeline na Figura 3 é
uma proposta de Reiter (2007) para acomodar sistemas nos quais a entrada consiste em
dados brutos (muitas vezes numéricos) que requerem algum pré-processamento antes de
poderem passar pelo tipo de seleção e planejamento que o Planejador de Texto foi
projetado para executar. A principal característica desses sistemas é que a entrada não é
estruturada, em contraste com sistemas que operam sobre formas lógicas, ou entradas
de banco de dados. Exemplos de domínios de aplicação onde este é o caso incluem
relatórios meteorológicos (por exemplo, Goldberg et al., 1994; Busemann & Horacek, 1997;
Coch, 1998; Turner et al., 2008; Sripada et al., 2003; Ramos- Soto et al., 2015), onde os
dados muitas vezes assumem a forma de previsões meteorológicas numéricas; e geração
de resumos a partir de dados de pacientes (por exemplo, Hueske-Kraus, 2003; Harris,
2008; Gatt et al., 2009; Banaee et al., 2013). Nesses casos, os sistemas NGL muitas vezes
precisam realizar alguma forma de abstração de dados (por exemplo, identificando
tendências amplas nos dados), seguida pela interpretação dos dados. As técnicas utilizadas
para realizar estas tarefas vão desde extensões de técnicas de processamento de sinais
(e.g., Portet et al., 2009) até à aplicação de formalismos de raciocínio baseados na teoria
dos conjuntos fuzzy (e.g., Ramos-Soto et al., 2015). A proposta de Reiter (2007) acomoda
essas etapas estendendo o pipeline “para trás”, incorporando etapas anteriores ao Planejamento do Texto.
Apesar da sua elegância e simplicidade, existem desafios associados a uma arquitetura
pipeline nlg, dos quais dois merecem particular destaque:
• Geração sob restrições: ela própria talvez seja uma instância da geração
24
Machine Translated by Google
lacuna, esse problema pode ocorrer quando a saída de um sistema precisa atender a
determinados requisitos, por exemplo, não pode exceder um determinado comprimento (ver
Reiter, 2000, para discussão). A formalização desta restrição pode parecer possível na fase de
realização – estipulando a restrição de comprimento em termos de número de palavras ou
caracteres, por exemplo – mas é muito mais difícil nas fases iniciais, onde as representações
são pré-linguísticas e o seu mapeamento para o texto final são potencialmente imprevisíveis.
Por exemplo, Robin (1993) utilizou a revisão no contexto de resumos desportivos; um rascunho inicial
foi revisado para adicionar informações históricas que se tornaram relevantes pelos eventos relatados
no rascunho, tomando também decisões sobre onde colocá-las em relação ao texto principal. O preço
que todas estas alternativas potencialmente incorrem é, obviamente, uma redução na eficiência, como
observado por De Smedt et al. (1996).
Alternativas aos pipelines muitas vezes acabam confundindo as fronteiras entre os módulos no sistema NGL. Esta é
uma característica ainda mais evidente em algumas abordagens baseadas no planeamento e orientadas por dados propostas
nos últimos anos. É para estes que nos voltamos agora.
Em ai, o problema de planejamento pode ser descrito como o processo de identificação de uma
sequência de uma ou mais ações para satisfazer um objetivo específico. Um objectivo inicial pode ser
decomposto em sub-objectivos, satisfeitos por acções, cada uma das quais com as suas pré-condições
e efeitos. No paradigma de planejamento clássico (strips; Fikes & Nilsson, 1971), as ações são
representadas como tuplas de tais pré-condições e efeitos.
A conexão entre planejamento e NGL reside no fato de que a geração de texto pode ser vista como
a execução de um comportamento planejado para atingir um objetivo comunicativo, onde cada ação
leva a um novo estado, ou seja, uma mudança em um contexto que inclui tanto a interação linguística
ou história do discurso até o momento, mas também o contexto físico ou situado e as crenças e ações
do usuário (ver
25
Machine Translated by Google
Limão, 2008; Rieser e Limão, 2009; Dethlefs, 2014; Garoufi & Koller, 2013; Garoufi, 2014, para
algumas perspectivas recentes sobre este tema). Esta perspectiva sobre a NGL está, portanto,
relacionada com a visão da “linguagem como acção” (Clark, 1996), ela própria enraizada numa
tradição filosófica inaugurada pelo trabalho de Austin (1962) e Searle (1969). Na verdade, alguns
dos primeiros trabalhos de IA nesta tradição (especialmente Cohen & Perrault, 1979; Cohen &
Levesque, 1985) procuraram uma formulação explícita de pré-condições (semelhantes às condições
de felicidade de Searle) para actos de fala e suas consequências.
Dado que não há, em princípio, nenhuma restrição sobre os tipos de ações que podem ser
incorporadas num plano, é possível que as abordagens baseadas em planos para a GNL
ultrapassem os limites de muitas das tarefas que normalmente são encapsuladas na arquitetura de
pipeline clássica, combinar elementos táticos e estratégicos, vendo os problemas do que dizer e
como dizer como parte integrante do mesmo conjunto de operações. Na verdade, existem
precedentes importantes nos primeiros trabalhos para uma visão unificada da NGL como uma
hierarquia de objetivos, estando o sistema kamp (Appelt, 1985) entre os exemplos mais conhecidos.
Por exemplo, para gerar expressões de referência em kamp, o ponto de partida foi o raciocínio
sobre as crenças e o conhecimento mútuo dos interlocutores, após o que o sistema gerou
subobjetivos que se infiltraram até a escolha e realização da propriedade, produzindo finalmente
um referencial. np cujo efeito previsto foi alterar o estado de crença do ouvinte sobre o referente
(ver Heeman & Hirst, 1995, para uma abordagem semelhante à geração de expressões referentes
no diálogo).
Um problema com estas perspectivas, contudo, é que o raciocínio profundo sobre crenças,
desejos e intenções (ou bdi, como é frequentemente chamado seguindo o trabalho de Bratman,
1987) requer formalismos altamente expressivos e incorre em despesas computacionais
consideráveis. Uma solução é evitar formalismos de raciocínio de propósito geral e, em vez disso,
adaptar uma estrutura linguística ao paradigma de planejamento para
ngl.
26
Machine Translated by Google
Gramática Adjacente (ltag; Joshi & Schabes, 1997), embora outros formalismos, como Gramática
Categorial Combinatória (Steedman, 2000) também tenham se mostrado adequados para a tarefa (ver
especialmente Nakatsu & White, 2010, para uma abordagem de geração usando Gramática Categorial
Combinatória Discursiva).
Numa ltag, pedaços de estrutura linguística (as chamadas árvores elementares num léxico) podem
ser acoplados a informações semânticas e pragmáticas que especificam (a) quais pré-condições
semânticas precisam ser obtidas para que o item seja usado corretamente; e (b) quais objetivos
pragmáticos o uso daquele item específico alcançará (ver Stone & Webber, 1998; Garoufi & Koller,
2013; Koller & Striegnitz, 2002, para trabalho baseado em planejamento usando ltag). Como exemplo
de como tal formalismo poderia ser implementado num quadro de planeamento, concentremo-nos na
tarefa de nos referirmos a uma entidade-alvo. Koller e Stone (2007) formularam a tarefa de uma forma
que evita a necessidade de distinguir entre as fases de determinação e realização do conteúdo (uma
abordagem já adotada por Stone & Webber, 1998). Além disso, eles não separam planejamento,
registro e realização de frases, como é feito no pipeline tradicional. Considere a frase Maria gosta do
coelho branco. Simplificando o formalismo para facilitar a apresentação, podemos representar o item
lexical likes da seguinte forma (este exemplo é baseado em Garoufi, 2014, embora com algumas
simplificações):
• x é animado;
• O enunciado atual u pode ser substituído na derivação S em construção;
efeitos:
Como nas tiras, um operador consiste em pré-condições e efeitos. Observe que as pré-condições
associadas ao item lexical requerem suporte na base de conhecimento (fazendo referência à entrada
kb, que normalmente não seria acessível ao realizador) e incluem informações semânticas (como que
o agente precisa ser animar). Tendo inserido likes como verbo principal da frase, temos dois sintagmas
nominais que precisam ser preenchidos gerando nps para os argumentos x e y. Em vez de adiar esta
tarefa para um módulo reg separado, Koller e Stone constroem expressões referentes associando
outras pré-condições pragmáticas aos operadores linguísticos (árvores elementares) que serão
incorporadas no np referencial. Primeiro, a entidade deve fazer parte do estado de conhecimento do
ouvinte, uma vez que uma descrição identificadora (digamos, para x) pressupõe que
27
Machine Translated by Google
o ouvinte está familiarizado com isso. Em segundo lugar, um efeito da adição de palavras ao np
(como os predicados coelho ou branco) é que a frase exclui distratores, ou seja, entidades cujas
propriedades não são verdadeiras. Num cenário com um ser humano e dois coelhos, dos quais
apenas um (o y no nosso exemplo) é branco, a derivação procederia atualizando primeiro o np
correspondente a y com coelho, excluindo assim o humano do conjunto distrator , mas deixando
o objetivo de distinguir y insatisfeito (já que y não é o único coelho). A adição de outro predicado
ao np (branco) resolve.
As abordagens ao planeamento que discutimos até agora são em grande parte baseadas em
regras e tendem a ver a relação entre uma acção planeada e as suas consequências (ou seja, o
seu impacto no contexto), como fixas (embora existam excepções, como nas situações de
contingência). planejamento, que gera múltiplos planos para abordar diferentes resultados
possíveis; Steedman & Petrick, 2007).
Como observam Rieser e Lemon (2009), esta visão não é realista. Considere um sistema que
gera uma recomendação de restaurante. As consequências do seu resultado (isto é, o novo estado
que dá origem) estão sujeitas a ruído proveniente de diversas fontes de incerteza. Em parte, isto
deve-se a compromissos, por exemplo, entre a necessidade de incluir a quantidade certa de
informação e ao mesmo tempo evitar a prolixidade excessiva. Outra fonte de incerteza é o usuário,
cujas ações podem não ser as previstas pelo sistema. Um exemplo do conflito de gerações de
Meteer (1991) pode surgir, por exemplo, se um realizador estocástico traduz o conteúdo de uma
mensagem numa expressão ambígua ou excessivamente longa (Rieser & Lemon, 2009), um
problema que poderia ser resolvido permitindo diferentes subtarefas para compartilhar fontes de
conhecimento e ser guiado por restrições sobrepostas (Dethlefs & Cuay´ahuitl, 2015, discutido
abaixo).
Em suma, planear uma boa solução para atingir um objectivo comunicativo poderia ser visto
como um problema de optimização estocástica (um tema que revisitaremos na Secção 3.3.3
abaixo). Esta visão é partilhada por muitas abordagens recentes baseadas na Aprendizagem por
Reforço (rl; Lemon, 2008; Rieser & Lemon, 2009, 2011a), especialmente aquelas que abordam
NGL num contexto de diálogo. Nesta estrutura, a geração pode ser modelada como um processo
de decisão de Markov onde os estados estão associados a ações possíveis e cada par estado-
ação está associado a uma probabilidade de passar de um estado no tempo t para um novo estado
em t + 1 através da ação a. . Crucialmente para o
28
Machine Translated by Google
algoritmo de aprendizagem, as transições são associadas a um sinal de reforço, por meio de uma função
de recompensa que quantifica a otimização da saída gerada. A aprendizagem geralmente envolve
simulações nas quais diferentes estratégias de geração ou “políticas” – essencialmente, planos
correspondentes a caminhos possíveis através do espaço de estados – passam a ser associadas a
diferentes recompensas. Tem sido argumentado que a estrutura RL é melhor para lidar com a incerteza
em ambientes dinâmicos do que a aprendizagem supervisionada ou a classificação, uma vez que estas
não permitem a adaptação num contexto em mudança (Rieser & Lemon, 2009). Rieser et al. (2011)
mostraram que esta abordagem é eficaz na otimização da apresentação de informações ao gerar
recomendações de restaurantes. Janarthanam e Lemon (2014) utilizaram-no para otimizar a escolha da
informação a selecionar numa expressão referencial, dado o conhecimento do utilizador.
O sistema aprende a adaptar seu modelo de usuário à medida que o usuário adquire novos conhecimentos
no decorrer de um diálogo.
Uma contribuição importante deste trabalho tem sido a exploração da optimização conjunta, onde a
política aprendida satisfaz múltiplas restrições decorrentes de diferentes subtarefas do processo de
geração, através da partilha de conhecimento entre as subtarefas. Lemon (2011) mostrou que a otimização
conjunta pode aprender uma política que determina quando gerar declarações informativas ou consultas
para buscar mais informações de um usuário. Da mesma forma, Cuay´ahuitl e Dethlefs (2011) usaram RL
hierárquica para otimizar conjuntamente o problema de encontrar e descrever uma descrição curta de
rota, ao mesmo tempo que se adapta ao conhecimento prévio do usuário, dando origem a uma estratégia
pela qual o usuário é guiado por pontos de referência que com os quais estão familiarizados, evitando
junções potencialmente confusas. Também num cenário de determinação de rotas, Dethlefs e Cuay´ahuitl
(2015) desenvolvem um modelo hierárquico que compreende um conjunto de agentes de aprendizagem
cujas tarefas vão desde a seleção de conteúdos até à realização.
Eles mostram que uma estrutura conjunta na qual os agentes compartilham conhecimento supera uma
estrutura de aprendizagem isolada na qual cada tarefa é modelada separadamente.
Por exemplo, a política conjunta aprende a fornecer instruções de navegação de alto nível, mas muda
para instruções de baixo nível se o utilizador se desviar do rumo. Além disso, as declarações produzidas
pela política conjunta são menos prolixas e levam a interações mais curtas em geral.
29
Machine Translated by Google
usado para adquirir dados de treinamento para NGL – em particular, pares de entradas (dados) e saídas
(texto) – antes de passar para uma visão geral de técnicas e estruturas. Um dos temas que emergirão desta
visão geral é que, tal como no caso do planeamento, os métodos estatísticos adoptam frequentemente uma
visão unificada ou “global”, em vez de uma visão modularizada, do processo NGL.
Conforme observado na Seção 2, algumas tarefas de NGL suportam a transição para uma abordagem
estocástica com bastante facilidade. Por exemplo, a investigação sobre a realização explora frequentemente
a existência de bancos de árvores a partir dos quais as correspondências de entrada-saída podem ser aprendidas.
Da mesma forma, o surgimento de corpora de expressões referentes representando tanto domínios de
entrada quanto descrições de saída (por exemplo, Gatt et al., 2007; Viethen & Dale, 2011; Kazemzadeh et
al., 2014; Gkatzia et al., 2015) facilitou o desenvolvimento -opção de algoritmos de registro probabilísticos.
As tarefas partilhadas também contribuíram para o desenvolvimento de fontes e métodos de dados (ver
Secção 7). Como mostramos na Secção 4 abaixo, trabalhos recentes sobre geração de imagem para texto
também beneficiaram da disponibilidade de grandes conjuntos de dados. Para a geração estatística, de
ponta a ponta, em outros domínios, há menos constrangimento com a riqueza. No entanto, esta situação
está a melhorar à medida que são desenvolvidos métodos para alinhar automaticamente os dados de
entrada com o texto de saída. Ainda assim, vale a pena enfatizar que muitas dessas abordagens de
alinhamento utilizam dados semiestruturados, em vez da entrada numérica bruta (por exemplo, sinais) usada
pelos sistemas de dados para texto que Reiter (2007), entre outros, desenhou. atenção a.
Os parâmetros do modelo podem ser encontrados usando o algoritmo Expectation Maximization (em). Um
exemplo de alinhamento é mostrado na Figura 4.
Esses modelos realizam o alinhamento identificando coocorrências regulares de segmentos de dados e
texto. Koncel-Kedziorski e Hajishirzi (2014) vão além disso ao propor um modelo que explora a estrutura
linguística para alinhar em resoluções variadas. Por exemplo, (13) abaixo está relacionado a duas
observações em um registro de jogo de futebol (um passe aéreo e uma falha), mas pode ser posteriormente
analisado em duas subpartes (indicadas pelos índices 1 e 2 em nosso exemplo), que individualmente
mapear para esses dois subeventos.
30
Machine Translated by Google
Figura 4: Registros do banco de dados alinhados ao texto com supervisão mínima. Depois
de Liang et al. (2009).
(13) (Chamakh sobe mais alto)1 e (mira uma cabeçada em direção ao gol que está ao
lado)2.
Uma abordagem diferente para aquisição de dados é descrita por Mairesse e Young
(2014), que usam técnicas de crowdsourcing para obter realizações para entradas semânticas/
pragmáticas que descrevem atos de diálogo no domínio do restaurante (ver Novikova &
Rieser, 2016b, para outra abordagem recente para crowdsourcing em um domínio diferente).
A chave para o sucesso desta técnica é o desenvolvimento de uma semântica que seja
suficientemente transparente para uso com não especialistas. Em artigo anterior, Mairesse
et al. (2010) descrevem um método para reduzir a quantidade de dados de treinamento
necessários para geração usando amostragem de incerteza (Lewis & Catlett, 1994), por meio
do qual um sistema pode ser treinado em uma quantidade relativamente pequena de dados
de entrada; posteriormente, o modelo aprendido é aplicado a novos dados, a partir dos quais
o sistema amostra os casos dos quais é menos certo, encaminhando-os para um oráculo
(possivelmente humano) para feedback, o que potencialmente leva a um novo ciclo de
treinamento.
Embora muitos dos sistemas estocásticos ponta a ponta que discutimos abaixo dependam
de formalismos bem definidos e normalmente precisem de alinhamentos bastante precisos
entre entradas e porções da saída, modelos de aprendizagem profunda mais recentes (Seção
3.3.5) foram baseados em parcialmente dados alinhados (por exemplo, Wen et al., 2015;
Lebret et al., 2016; Mei et al., 2016).
Dado um alinhamento entre dados e texto, uma forma de modelar o processo de PNL é
permanecer fiel à divisão entre escolhas estratégicas e táticas, usando o alinhamento
estatístico para informar a seleção de conteúdo, enquanto implementa técnicas de PNL para
adquirir regras, modelos ou esquemas. (´a laMcKeown, 1985) para impulsionar o planejamento
e a realização de frases.
Lembre-se que o modelo generativo de Liang et al. (2009) emparelha dados com texto
com base em um processo Markov sequencial, combinando escolhas estratégicas (de
registros e campos de banco de dados) com escolhas táticas (de sequências de palavras)
em um único modelo probabilístico. Na verdade, as abordagens de modelagem de linguagem
baseadas em Markov continuam a ter destaque na GNL baseada em dados. Um dos
primeiros exemplos é Oh e Rudnicky (2002) no contexto de um sistema de diálogo no domínio das viagens,
31
Machine Translated by Google
onde a entrada assume a forma de um ato de diálogo (por exemplo, uma consulta que o
sistema precisa fazer para obter informações sobre os planos de viagem do usuário) com os
atributos a incluir (por exemplo, a cidade de partida). Ah, e a abordagem de Rudnicky abrange
tanto o planejamento quanto a realização de conteúdo. Baseia-se em corpora de diálogo
anotados com classes de enunciado, ou seja, o tipo de ato de diálogo que cada enunciado
pretende cumprir. Com base nisso, eles constroem modelos de linguagem n-gram separados
para cada classe de enunciado, bem como para classes de palavras que podem aparecer na
entrada (por exemplo, palavras correspondentes à cidade de partida).
O planejamento de conteúdo é feito por um modelo que prevê quais atributos devem ser
incluídos em um enunciado com base no histórico recente do diálogo. A realização é feita
usando uma combinação de modelos e modelos de n-gramas. Assim, a geração é concebida
como um processo de duas etapas (planejamento seguido de realização).
A dependência de modelos linguísticos padrão tem uma desvantagem potencial, na
medida em que tais modelos se baseiam numa suposição de história local, limitando a medida
em que as seleções anteriores podem influenciar as escolhas atuais. Um modelo alternativo e
discriminativo (conhecido pela comunidade da PNL pelo menos desde Ratnaparkhi, 1996) é a
regressão logística (Entropia Máxima). As bases para esta abordagem em NGL podem ser
encontradas em Ratnaparkhi (2000), que se concentrou principalmente na realização (embora
combinada com elementos de planeamento de frases). Ele comparou dois sistemas nlg
estocásticos baseados em uma estrutura de aprendizagem de entropia máxima com um
sistema nlg básico. O primeiro deles (nlg2 no artigo de Ratnaparkhi) usa um modelo de
linguagem condicional que gera sentenças de forma incremental, da esquerda para a direita,
prevendo a melhor palavra dada a história anterior (como nos modelos padrão de n-gramas).
e os atributos semânticos que ainda precisam ser expressos. O segundo (nlg3) aumenta o
modelo com relações de dependência sintática, realizando a geração prevendo recursivamente
os filhos esquerdo e direito de um determinado constituinte. Numa avaliação baseada em
julgamentos de correção, Ratnaparkhi descobriu que o sistema aumentado com dependências
era geralmente preferido.
Em trabalhos posteriores, Angeli et al. (2010) descrevem uma abordagem para nlg ponta
a ponta que mantém uma separação entre seleção de conteúdo, planejamento de frases e
realização, modelando cada processo como uma sequência de decisões em uma estrutura
log-linear, onde as escolhas podem ser condicionadas a histórias arbitrariamente longas. de
decisões anteriores. Isto permite-lhes lidar com dependências de longo alcance, tais como
relações de coerência, de forma mais flexível (por exemplo, um modelo pode incorporar a
informação de que um relatório meteorológico que descreve a velocidade do vento deve fazê-
lo depois de mencionar a direção do vento; ver Barzilay & Lapata, 2005 , para obter insights
semelhantes com base na otimização global). A separação de tarefas é mantida na medida
em que um conjunto diferente de recursos pode ser utilizado para informar decisões em cada
etapa do processo. As decisões de planejamento e realização de frases são baseadas em
modelos adquiridos de textos corpus: um modelo é selecionado com base em sua
probabilidade, dados os campos do banco de dados selecionados durante a seleção do conteúdo.
Mairesse e Young (2014) descrevem uma abordagem diferente, que também se baseia
em alinhamentos entre registros de banco de dados e texto, e busca uma solução global para
geração, sem uma distinção nítida entre componentes estratégicos e táticos. Neste caso, a
estrutura representacional básica é uma árvore do tipo
32
Machine Translated by Google
Figura 5: Estrutura em árvore para um ato de diálogo, segundo Mairesse e Young (2014).
As folhas correspondem a sequências de palavras. Nós não terminais são atributos
semânticos, mostrados na parte inferior como pilhas semânticas. As pilhas em negrito
representam conteúdo obrigatório.
mostrado na Figura 5. A raiz indica um tipo de ato de diálogo (no exemplo, o ato de diálogo
busca informar). As folhas da árvore correspondem a palavras ou sequências de palavras,
enquanto os não-terminais são pilhas semânticas, ou seja, as peças de entrada às quais as
palavras correspondem. Nesta estrutura, a seleção e a realização de conteúdo podem ser
resolvidas em conjunto, procurando a sequência de pilha ideal para um determinado ato de
diálogo e a sequência de palavras ideal correspondente a essa sequência de pilha. Mairesse
e Young usam um modelo de linguagem fatorada (flm), que estende modelos de n-gramas
condicionando probabilidades em diferentes contextos de enunciados, em vez de
simplesmente em histórias de palavras. Dado um ato de diálogo de entrada, a geração
funciona aplicando uma busca de Viterbi através do filme em cada uma das seguintes
etapas: (a) pilhas semânticas obrigatórias são identificadas para o ato de diálogo; (b) estas
são enriquecidas com possíveis pilhas não obrigatórias (aquelas que não estão em negrito
na Figura 5), geralmente correspondendo a palavras funcionais; (c) são encontradas
realizações para a sequência da pilha. A abordagem também é estendida para lidar com n-
melhores realizações, bem como para lidar com variações, na forma de paráfrases para a
mesma entrada.
Uma forma alternativa de pensar sobre decisões de GNL em diferentes níveis é em termos
de classificação, já encontrada no contexto de tarefas específicas, como determinação de
conteúdo (por exemplo, Duboue & McKeown, 2003) e realização (por exemplo, Filippova &
Strube, 2007). . Como a geração é, em última análise, uma questão de tomada de escolha
em múltiplos níveis, uma maneira de modelar o processo é usar uma cascata de
classificadores, onde a saída é construída de forma incremental, de modo que qualquer
classificador Ci use como (parte de) sua entrada a saída. de um classificador anterior Ciÿi .
Dentro deste quadro, ainda é possível conceber o GNL em termos de pipeline. Como
observam Marciniak e Strube (2005), uma forma alternativa de pensar sobre isso é
33
Machine Translated by Google
em termos de uma rede ponderada e multicamadas, onde a geração equivale a uma travessia do
melhor primeiro: em qualquer estágio i, o classificador Ci produz a saída mais provável, o que leva
ao próximo estágio Ci+1 ao longo do caminho mais provável . Esta generalização está conceitualmente
relacionada à visão do nlg em termos de políticas na estrutura de Aprendizagem por Reforço (ver
Seção 3.2.2 acima), que definem uma travessia através de sequências de estados que podem ser
organizados hierarquicamente (como no trabalho de Dethlefs & Cuay ´ahuitl, 2015, por exemplo).
de casa.'
Esses autores utilizam uma sequência de classificadores para realizar a geração e realização de
expressões referentes. Eles usam um modelo de classificação baseado em Support Vector Machines
que, dada uma representação de dependência de entrada extraída de um texto notado como (3.3.3),
executa duas tarefas em qualquer ordem: (a) mapear a entrada para uma árvore sintática superficial
para linearização; e (b) inserção de expressões referentes. Curiosamente, Zarrieß e Kuhn (2013)
observam que o desempenho de qualquer uma das tarefas depende da ordem, na medida em que
ambas as tarefas de classificação têm pior desempenho quando estão em segundo lugar na
sequência. Eles observam uma melhoria marginal quando as tarefas são executadas em paralelo,
mas alcançam o melhor desempenho em uma arquitetura baseada em revisão, onde o mapeamento
sintático é seguido pela inserção de expressões referenciais, seguida por uma revisão da sintaxe.
As cascatas de classificação para nlg mantêm uma separação clara entre tarefas, mas a
investigação nesta área ecoou preocupações anteriores sobre pipelines em geral (ver Secção 3.1),
sendo o principal problema a propagação de erros. É claro que escolhas infelizes terão impacto na
classificação mais a jusante, uma situação análoga ao problema do conflito de gerações. A conclusão
de Zarrieß e Kuhn (2013) a favor de uma arquitetura baseada em revisão fecha o círculo do nosso
relato, na medida em que é demonstrado que uma solução bem conhecida produz melhorias em uma
nova estrutura.
Nossa discussão até agora destacou repetidamente o fato de que uma organização sequencial
de tarefas nlg é suscetível à propagação de erros, seja na forma de erros de classificador ou de
decisões em um módulo baseado em regras que possui um
5 Abordagens baseadas em instâncias para nlg também são discutidas por Varges e Mellish (2010), embora
em uma abordagem overgenerate-and-rank, onde as regras geram excessivamente candidatos, que são então
classificados por comparação com a base de instâncias.
34
Machine Translated by Google
impacto negativo nos componentes a jusante. Uma solução potencial é ver a geração como
um problema de otimização, onde a melhor combinação de decisões é buscada em um
espaço exponencialmente grande de combinações possíveis. Encontramos o uso de
técnicas de otimização, como Programação Linear Inteira (ilp) no contexto de agregação e
determinação de conteúdo (Seção 2.3). Por exemplo, Barzilay e Lapata (2006) agrupam
unidades de conteúdo com base na sua similaridade entre pares, com uma etapa de
otimização para identificar um conjunto de pares que sejam maximamente semelhantes. O
ILP também foi explorado por Marciniak e Strube (2005), como um meio de neutralizar o
problema de propagação de erros em sua abordagem original baseada em classificação
(Marciniak & Strube, 2004). Conceitualmente, a estrutura de otimização é simples:
1. Cada tarefa nlg é mais uma vez modelada como classificação ou atribuição de rótulo,
mas desta vez, os rótulos são modelados como escolhas binárias (um rótulo é
atribuído ou não), associados a uma função de custo, definida em termos da
probabilidade de um rótulo nos dados de treinamento;
3. Um modelo ILP busca a solução de rotulagem global que minimize o custo geral, com
a restrição adicional de que se um de um par de rótulos correlacionados li , lj for
selecionado, o outro também deverá ser.
Nos últimos anos, tem havido um ressurgimento do interesse em ver a geração em termos
de formalismos probabilísticos de gramática livre de contexto (sc cfg), ou mesmo como o
'inverso' da análise semântica. Por exemplo, Belz (2008) formaliza o problema nlg
inteiramente em termos de cfgs: um gerador de base expande as entradas (bits de dados
meteorológicos, neste caso) aplicando regras cfg; as probabilidades derivadas do corpus
são então usadas para controlar a escolha de quais regras expandir em cada estágio do
processo. O gerador base deste trabalho é feito à mão. No entanto, é possível extrair regras
ou modelos de corpora, como foi feito para regras de agregação (Stent & Molina, 2009;
White & Howcroft, 2015, e Secção 2.3), e também para abordagens estatísticas mais gerais
ao planeamento e realização de frases.
35
Machine Translated by Google
em uma estrutura de texto para texto (por exemplo, Kondadadi et al., 2013). Da mesma forma, abordagens para
nlg a partir de bases de conhecimento estruturadas, expressas em formalismos como rdf, descreveram técnicas
para extrair gramáticas ou modelos lexicalizados de tais entradas emparelhadas com descrições textuais (Ell &
Harth, 2014; Duma & Klein, 2013; Gyawali & Gardent, 2014).
O trabalho de Mooney e colegas (Wong & Mooney, 2007; Chen & Mooney, 2008; Kim & Mooney, 2010)
comparou uma série de diferentes estratégias de geração inspiradas no analisador semântico wasp (Wong &
Mooney, 2007), que utiliza dados probabilísticos. regras síncronas de cfg aprendidas a partir de pares de
enunciados e suas representações semânticas usando técnicas estatísticas de tradução automática.
Chen e Mooney (2008) usam esta estrutura para geração tanto adaptando o wasp em uma estrutura de geração,
quanto adaptando-o ainda mais para produzir um novo sistema, o wasper-gen. Enquanto o wasp procura
maximizar a probabilidade de uma representação de significado (mr) dada uma sentença, o wasper-gen faz o
oposto, buscando a sentença maximamente provável dada uma entrada mr, por assim dizer, aprendendo um
modelo de tradução do significado para o texto. Quando treinado em um conjunto de dados de transmissões
esportivas (o conjunto de dados robocup), o wasper-gen supera o wasp em métricas de avaliação baseadas em
corpus e demonstra atingir um nível de fluência e correção semântica que se aproxima do texto humano, com
base em julgamentos subjetivos pelos participantes experimentais. Observe, entretanto, que esta estrutura se
concentra principalmente na geração tática. A determinação do conteúdo é realizada separadamente, utilizando
uma variante do algoritmo para convergir para um modelo probabilístico que prevê quais eventos ou predicados
devem ser mencionados.
Por outro lado, o trabalho de Konstas e Lapata (Konstas & Lapata, 2012, 2013), que também se baseia em
cfgs, utiliza uma estrutura unificada por toda parte. O ponto de partida é um alinhamento do texto com os registros
da base de dados, ampliando a proposta de Liang et al. (2009). O processo de conversão de dados de entrada
em texto de saída é modelado em termos de regras que incorporam implicitamente diferentes tipos de decisões.
Por exemplo, dada uma base de dados de registos meteorológicos, as regras podem assumir a forma simplificada
mostrada abaixo,
(16) FS (velocidade do vento, min) ÿ FS (velocidade do vento, máx) FS (velocidade do vento, máx)
36
Machine Translated by Google
Sob essa visão, a geração é semelhante à análise invertida. A decodificação prossegue usando uma
adaptação do algoritmo cyk. Como o modelo que define o mapeamento da entrada para a saída não
incorpora heurística de fluência, o decodificador é intercalado com duas outras fontes de conhecimento
linguístico por Konstas e Lapata (2013): (a) um autômato ponderado de estado finito (representando um
n-grama modelo de linguagem); e (b) um modelo de dependência (cf. Ratnaparkhi, 2000, , também
discutido acima).
Concluímos nossa discussão sobre métodos estatísticos com uma visão geral das aplicações de
arquiteturas de redes neurais profundas (nn) para geração e tarefas relacionadas.
A decisão de dedicar uma seção separada é justificada pelo interesse recente e renovado por esses
modelos, bem como pelo número comparativamente pequeno de estudos que adotaram essa estrutura
na nlg até o momento (com exceção da geração de legendas a partir de imagens, que revisamos na
Seção 4). No entanto, esta é sem dúvida uma das áreas de maior crescimento na pesquisa atual em PNL,
como na PNL em geral (ver Goldberg, 2016, para uma visão geral focada em PNL).
O recente ressurgimento do interesse em nns deve-se, em parte, aos avanços no hardware que
pode suportar problemas de aprendizagem com uso intensivo de recursos (Goodfellow et al., 2016). Mais
importante ainda, os nns são projetados para aprender representações em níveis crescentes de
abstração, explorando a retropropagação (LeCun et al., 2015; Goodfellow et al., 2016). Tais representações
são densas, de baixa dimensão e distribuídas, tornando-as especialmente adequadas para capturar
generalizações gramaticais e semânticas (ver Mikolov et al., 2013; Luong et al., 2013; Penning-ton et al.,
2014, inter alia). nns também obtiveram sucessos notáveis na modelagem sequencial usando redes
feedforward (Bengio et al., 2003; Schwenk & Gauvain, 2005), modelos log-bilineares (Mnih & Hinton,
2007) e redes neurais recorrentes (rnns Mikolov et al., 2010 ), incluindo rnns com unidades de memória
de longo prazo (Zaremba et al., 2015). Sua principal vantagem sobre os modelos padrão de n-gramas é
que eles representam sequências de comprimentos variados, evitando ao mesmo tempo a escassez de
dados e uma explosão no número de parâmetros através da projeção de histórias em um espaço de baixa
dimensão, de modo que histórias semelhantes tenham representações conjuntas.
As arquiteturas de memória de longo e curto prazo (lstm) são um desenvolvimento adicional de rnns
equipadas com células de memória e portas multiplicativas que controlam como as informações são
retidas ou esquecidas. Isso também lhes permite lidar com dependências de longo alcance. Em última
análise, o objetivo de tais modelos é aprender uma probabilidade condicional p(Y |T) entre uma sequência
de saída Y e uma sequência de entrada T cujo comprimento pode diferir daquele de Y (Sutskever et al.,
2014; LeCun et al., 2015). Sua capacidade de mapear desde entradas de comprimento variável até
representações vetoriais de dimensão fixa, condicionando a probabilidade do próximo elemento em uma
sequência de saída no vetor de dimensão fixa e nos tokens da sequência emitidos anteriormente, os torna
adequados para tarefas como como tradução automática (mt; por exemplo, Kalchbrenner & Blunsom,
2013; Bahdanau et al., 2015), que pode ser vista como instâncias de sequência a sequência mais geral
(também conhecida como seq2seq)
37
Machine Translated by Google
tarefas. Sutskever et al. (2014) mostraram que as arquiteturas lstm podem ser adaptadas
a diferentes problemas seq2seq, desacoplando-as em um codificador lstm inicial para a
entrada e um decodificador subsequente. Isto deu impulso à investigação sobre
aprendizagem multitarefa, onde diferentes tarefas partilham partes de uma arquitetura de
rede e as representações correspondentes (Dong et al., 2015; Luong et al., 2016). Por
exemplo, Luong et al. (2016) mostraram que melhorias podem ser obtidas em mt com uma
arquitetura seq2seq cujo codificador é co-treinado em um conjunto de dados de análise;
da mesma forma, a decodificação melhorou quando o decodificador (para o idioma de
destino inglês) foi compartilhado com um gerador de legenda.
Na verdade, as aplicações de nns em nlg remontam pelo menos a Kukich (1987),
embora o seu trabalho fosse experimental e restrito a exemplos de pequena escala.
Desde o início da década de 1990, quando o interesse pelas abordagens neurais diminuiu
nas comunidades de PNL e IA, a pesquisa em ciências cognitivas continuou a explorar
sua aplicação à sintaxe e à produção de linguagem (por exemplo, Elman, 1990, 1993;
Chang et al., 2006).
Nos últimos anos, a pesquisa sobre modelos neurais para geração começou a decolar.
Um ponto de partida pode ser encontrado no trabalho de Sutskever et al. (2011), que
mostraram que um lstm rnn em nível de caractere poderia ser usado para gerar sentenças
gramaticais em inglês. Desde então, vários aplicativos nlg surgiram. Por exemplo, Zhang
e Lapata (2014a) concentram-se na geração de poesia em chinês usando rnns, onde os
versos são gerados pela previsão de caracteres com base (a) nos versos anteriores do
poema, representados por um modelo de frase convolucional (Kalchbrenner & Blunsom,
2013) ; e (b) os caracteres anteriores no versículo atual. Em diálogo, tanto Wen et al.
(2015) e Serban et al. (2016) usam rnns para prever o próximo enunciado em um contexto
de diálogo, enquanto (Goyal et al., 2016) mostram que a geração de atos de diálogo
melhora quando modelados usando um rnn baseado em caracteres, em vez de um rnn
baseado em palavras.
Também houve alguns trabalhos aplicando nns à geração de dados para texto (Mei et
al., 2016; Lebret et al., 2016). A arquitetura baseada em lstm proposta por Mei et al. (2016)
baseia-se na estrutura codificador-decodificador, com um design que reflete amplamente
uma divisão na seleção e realização de conteúdo. O domínio de aplicação são os dados
meteorológicos (Angeli et al., 2010). O ponto de partida é um codificador lstm rnn
bidirecional que mapeia os registros de entrada para um estado oculto, seguido por um
alinhador que modela a seleção de conteúdo. O alinhador, inspirado no trabalho mt de
Bahdanau et al. (2015) e o trabalho de legendagem de imagens com base na atenção de
Xu et al. (2015), determina quais registros mencionar em função de sua probabilidade
anterior e da probabilidade de seu alinhamento com palavras do vocabulário; uma etapa
adicional de refinamento pondera os resultados do alinhamento com os anteriores,
tornando mais provável que registros mais importantes sejam verbalizados. Finalmente,
um decodificador rnn gera uma sequência palavra por palavra, calculando a cada passo
de tempo uma distribuição de probabilidade sobre as palavras, dado o contexto gerado
anteriormente e os registros. Os lstms permitem o tratamento de dependências de longo
alcance entre registros e descritores, que o modelo log-linear de Angeli et al. (2010) foram
considerados explicitamente (ver Seção 3.3.2 acima).
O trabalho de Lebret et al. (2016), por outro lado, restringe a geração à frase inicial
das biografias da Wikipédia a partir da tabela de fatos wiki correspondente
38
Machine Translated by Google
3.4 Discussão
Um tema importante que emergiu de trabalhos recentes é a indefinição dos limites entre as tarefas
encapsuladas nas arquiteturas tradicionais. Isto é evidente nas abordagens baseadas no planeamento,
mas talvez a ruptura mais radical desta perspectiva surja nos sistemas estocásticos de conversão de
dados em texto, que capitalizam os alinhamentos entre os dados de entrada e o texto de saída,
combinando escolhas linguísticas e orientadas para o conteúdo num quadro unificado. Entre as questões
em aberto levantadas pela investigação sobre GNL estocástica está até que ponto as subtarefas precisam
de ser optimizadas conjuntamente e, em caso afirmativo, quais as fontes de conhecimento que devem
ser partilhadas entre elas.
Uma questão pendente é o equilíbrio entre alcançar resultados textuais adequados e fazê-lo de forma
eficiente e robusta. As primeiras abordagens que partiam de uma arquitetura de pipeline tendiam a
sacrificar a última em favor da primeira; esse foi o caso nas arquiteturas baseadas em revisão e no quadro-
negro. O mesmo se aplica, até certo ponto, às abordagens baseadas no planeamento que estão
enraizadas em paradigmas com uma longa história em IA: como o trabalho empírico recente demonstrou
(Koller & Petrick, 2011), estas também são suscetíveis a custos computacionais consideráveis, embora
isso aconteça com a vantagem de uma visão unificada da geração de línguas que também é compatível
com formalismos linguísticos bem compreendidos, como o ltag. As abordagens estocásticas apresentam
um problema diferente, nomeadamente, o de adquirir os dados certos para construir os modelos
estatísticos necessários. Embora esses dados sejam ou possam ser disponibilizados para tarefas como
recomendações, breves boletins meteorológicos ou resumos esportivos, resta saber se as técnicas
existentes para alinhamento de dados e texto podem ser ampliadas para domínios onde grandes volumes
de dados heterogêneos ( números, símbolos, etc.) são a norma e onde textos mais longos precisam ser
gerados.
39
Machine Translated by Google
provavelmente aparecerão mais fortemente em uma gama mais ampla de tarefas de GNL, bem como em
sistemas de GNL de ponta a ponta. Como afirmou um artigo de opinião recente (Manning, 2015), talvez a
sua atracção pela PNL, para além das vantagens de utilizar representações distribuídas, resida no facto
de encorajarem o profissional a concentrar-se no design, ou seja, em como uma arquitectura pode lidar
com o diferentes subpartes de um problema complexo, talvez nos moldes detalhados na Seção 2 acima.
Poderá isto implicar uma ênfase renovada em abordagens modulares e multiníveis para a GNL, com
arquitecturas complexas cujos componentes lidam com tarefas diferentes? Por outro lado, a pesquisa
sobre aprendizagem multitarefa no paradigma seq2seq também pode abrir novas possibilidades para
aprender como resolver múltiplas subtarefas de nlg dentro de uma única estrutura, como muitas
abordagens discutidas nas subseções anteriores procuram fazer.
Nas secções seguintes, desviamos a nossa atenção das tarefas padrão e da forma como são
organizadas, concentrando-nos em três grandes tópicos – geração de imagem para texto, variação
estilística e criatividade computacional – nos quais a investigação em GNL também se cruzou com a
investigação noutras áreas. áreas.
Além de suas aplicações práticas, o fundamento da linguagem em dados perceptivos tem sido há muito
tempo uma questão de interesse científico em IA (ver Winograd, 1972; Harnad, 1990; Roy & Reiter, 2005,
para uma variedade de visões teóricas sobre os desafios computacionais de a interface percepção-
linguagem).
A Figura 6 mostra alguns exemplos de geração de legendas, amostrados de publicações de
aproximadamente 6 anos. A pesquisa atual sobre geração de legendas concentra-se principalmente no
que Hodosh et al. (2013) referem-se a descrições de imagens conceituais concretas de elementos
retratados diretamente em uma cena. Como Donahue et al. (2015), a legendagem de imagens é uma
tarefa cuja entrada é estática e não sequencial (uma imagem, em vez de, digamos, um vídeo), enquanto
a saída é sequencial (um texto com várias palavras), em contraste com não- saídas sequenciais, como
rótulos de objetos (por exemplo
Duygulu et al., 2002; Ordonez et al., 2016, entre outros).
Nossa discussão será breve, uma vez que a legendagem de imagens foi recentemente objeto de
extensa revisão por Bernardi et al. (2016), e também foi discutido no contexto de questões mais amplas
na pesquisa sobre a interface visão-linguagem de Barnard (2016). Embora a presente seção se baseie
nessas fontes, ela está organizada de uma maneira um pouco diferente, trazendo também à tona
40
Machine Translated by Google
De Vries, 2015)
4.1 Dados
Uma visão geral detalhada dos conjuntos de dados é fornecida por Bernardi et al. (2016),
enquanto Ferraro et al. (2015) oferecem uma comparação sistemática de conjuntos de
dados para geração de legendas e respostas visuais a perguntas com um recurso online
que o acompanha6 .
Os conjuntos de dados normalmente consistem em imagens combinadas com uma ou
mais legendas de autoria humana (principalmente em inglês) e variam de cenas criadas
artificialmente (Zitnick et al., 2013) a fotografias reais. Entre estes últimos, os mais utilizados
são o Flickr8k (Hodosh et al., 2013), o Flickr30k (Young et al., 2014) e o ms-coco (Lin
6http://visionandlinguagem.net
41
Machine Translated by Google
e outros, 2014). Conjuntos de dados como o sbu1m Captioned Photo Dataset (Ordonez et al., 2011)
incluem legendas que ocorrem naturalmente de fotografias compartilhadas por usuários em sites como o
Flickr; portanto, as legendas nele incluídas não se restringem ao conceitual concreto. Há também uma
série de conjuntos de dados especializados e específicos de domínio, como o datast Caltech ucsd Birds
(cub; Wah et al., 2011).
Também houve uma série de tarefas compartilhadas nesta área, incluindo o Coco ('Common Objects
in Context') Captioning Challenge7 , organizado como parte do Large-Scale Scene Understanding
8
Challenge (lsun) e a Multimodal Machine Translation Task (Elliott et al., 2016). Adiamos a discussão da
avaliação de sistemas de legendagem de imagens para a Seção 7 deste artigo, onde ela é discutida no
contexto da avaliação de nlg como um todo.
Existem três grupos principais de abordagens para tratar informações visuais para fins de legendagem.
Detecção Alguns sistemas baseiam-se em métodos de visão computacional para a detecção e rotulagem
de objetos, atributos, 'coisas' (normalmente mapeadas para substantivos massivos, como grama),
relações espaciais e, possivelmente, também informações de ação e pose.
Isso geralmente é seguido por uma etapa de mapeamento desses resultados para estruturas linguísticas
('planos de frases' do tipo discutido nas Seções 2 e 3), como árvores ou modelos (por exemplo, Kulkarni
et al., 2011; Yang et al., 2011; Mitchell et al., 2012; Elliott & De Vries, 2015; Yatskar et al., 2014;
Kuznetsova et al., 2014). Como o desempenho depende da cobertura e precisão dos detectores
(Kuznetsova et al., 2014; Bernardi et al., 2016), alguns trabalhos também exploraram a geração a partir
de anotações de imagem padrão ouro (Elliott & Keller, 2013; Wang & Gaizauskas, 2015; Muscat & Belz,
2015) ou cenas criadas artificialmente em que os componentes são conhecidos antecipadamente (Ortiz
et al., 2015).
Análise holística da cena Aqui, é utilizada uma caracterização mais holística de uma cena, contando com
características que normalmente não identificam objetos, atributos e similares. Tais recursos incluem
histogramas RGB, transformações de recursos invariantes em escala (sift; Lowe, 2004) ou representações
de baixa dimensão da estrutura espacial (como em Gist; Oliva & Torralba, 2001), entre outros. Este tipo
de processamento de imagem
7http://mscoco.org/dataset/#captions-challenge2015 8 http://
lsun.cs.princeton.edu/2016/
42
Machine Translated by Google
é frequentemente usado por sistemas que enquadram a tarefa em termos de recuperação, em vez
de geração de legenda propriamente dita. Tais sistemas usam um espaço unimodal para comparar
uma imagem de consulta com imagens de treinamento antes da recuperação da legenda (por
exemplo, Ordonez et al., 2011; Gupta et al., 2012) ou exploram um espaço multimodal que representa
a proximidade entre imagens e legendas (por exemplo, Hodosh et al., 2012). al., 2013; Socher et al., 2014).
Vetores de características de imagem densas Dado o sucesso das redes neurais convolucionais (cnn)
para tarefas de visão computacional (cf. por exemplo, LeCun et al., 2015), muitas abordagens de
aprendizagem profunda usam recursos de uma cnn pré-treinada, como AlexNet (Krizhevsky et al. .,
2012), vgg (Simonyan & Zisserman, 2015) ou Caffe (Jia et al., 2014). Mais comumente, os geradores
de legenda usam uma camada de ativação da rede pré-treinada como recursos de entrada (por
exemplo, Kiros et al., 2014; Karpathy et al., 2014; Karpathy & Fei-Fei, 2015; Vinyals et al., 2015; Mao
et al., 2015a; Xu et al., 2015; Yagcioglu et al., 2015; Hendricks et al., 2016b).
Dependendo do tipo de técnica de análise de imagem, as legendas podem ser geradas usando uma
variedade de métodos diferentes, dos quais os seguintes estão bem estabelecidos.
Usando modelos ou árvores Sistemas que dependem de detectores podem mapear o resultado para
estruturas linguísticas em um estágio de planejamento de frases. Por exemplo, os objetos podem ser
mapeados para substantivos, as relações espaciais para preposições e assim por diante. Yao et al.
(2010) usam métodos semissupervisionados para analisar imagens em gráficos e então gerar texto
por meio de uma gramática simples. Outras abordagens baseiam-se em algoritmos de classificação
de sequências, como modelos ocultos de Markov (Yang et al., 2011) e campos aleatórios condicionais
(Kulkarni et al., 2011, 2013). Kulkarni et al. (2013, veja o exemplo na Figura 6b) experimentam
modelos de linguagem n-grama derivados da web, descobrindo que os primeiros são mais fluentes,
mas sofrem de falta de variação, uma questão que também abordamos anteriormente, em conexão
com com realização (Seção 2.6).
No sistema Midge (Mitchell et al., 2012, veja a Figura 6d para um exemplo de legenda), as
imagens de entrada são representadas como triplas que consistem em detecções de objetos/coisas,
detecções de ação/pose e relações espaciais. Estes são posteriormente mapeados para triplos de
substantivo, verbo e preposição e realizados usando uma gramática de substituição de árvore. Isto
é ainda reforçado com a capacidade de ‘alucinar’ palavras prováveis usando um modelo probabilístico,
ou seja, inserir palavras que não estão diretamente fundamentadas nas detecções realizadas na
própria imagem, mas que têm uma alta probabilidade de ocorrência, com base no corpus dados. Em
uma avaliação humana, Midge demonstrou superar o desempenho do sistema (Kulkarni et al., 2011)
e (Yang et al., 2011) em uma série de critérios, incluindo semelhança humana e correção.
43
Machine Translated by Google
e outros. (2015) usam o ILP para identificar pares de objetos em cenas abstratas (Zitnick & Parikh, 2013)
antes de mapeá-los para um vdr. A realização é enquadrada como uma tarefa de tradução automática
sobre pares vdr-texto. Uma preocupação semelhante com a identificação de relações espaciais é
encontrada no trabalho de Lin e Kong (2015), que utilizam gráficos de cena como entrada para um
realizador baseado em gramática. Muscat e Belz (2015) propõem um modelo Bayesiano ingênuo para
prever preposições espaciais com base em características de imagem, como proximidade e sobreposição
de objetos.
Uma desvantagem potencial da recuperação em massa é que as legendas nos dados de treinamento
podem não corresponder bem a uma imagem de consulta. Por exemplo, Devlin et al. (2015b) observam
que quanto menos semelhante uma consulta for às imagens de treinamento, mais genérica será a legenda
retornada pelo sistema. Uma possível solução é usar correspondências parciais,
44
Machine Translated by Google
recuperar e recombinar fragmentos de legenda. Kuznetsova et al. (2014) usam detectores para
combinar imagens de consulta com instâncias de treinamento, recuperando legendas na forma
de fragmentos de árvore de análise que são então recombinados. Mason e Charniak (2014)
usam um conjunto de dados de domínio específico para extrair descrições e adaptá-las a uma
imagem de consulta usando um modelo conjunto de palavras visuais e textuais. No paradigma
de aprendizagem profunda, tanto Socher et al. (2014) e Karpathy et al. (2014) usam embeddings
de palavras derivados de análises de dependência, que são projetadas, juntamente com recursos
de imagem cnn, em um espaço multimodal. Trabalhos subsequentes de Karpathy e Fei-Fei
(2015) mostraram que esse emparelhamento refinado funciona igualmente bem com sequências
de palavras, evitando a necessidade de análise de dependência.
Recentemente, Devlin et al. (2015a) compararam abordagens de recuperação do vizinho
mais próximo com diferentes tipos de modelos de linguagem para geração de legendas,
especificamente, a abordagem Maximium Entropy de Fang et al. (2015), uma abordagem
baseada em lstm e rnns que são acoplados a uma cnn para análise de imagens (por exemplo,
Vinyals et al., 2015; Donahue et al., 2015; Karpathy & Fei-Fei, 2015). Uma comparação da
qualidade linguística das legendas sugeriu que houve uma tendência significativa de todos os
modelos reproduzirem as legendas observadas no conjunto de treinamento, repetindo-as para
diferentes imagens no conjunto de teste. Isto pode dever-se à falta de diversidade nos dados, o
que também pode explicar porque é que a abordagem do vizinho mais próximo se compara
favoravelmente com as abordagens baseadas em modelos de linguagem.
45
Machine Translated by Google
Muito trabalho interessante sobre integração visão-linguagem está sendo realizado com
modelos de aprendizagem profunda. Kiros et al. (2014) introduziram modelos de linguagem
neural multimodal (mrnn), experimentando duas arquiteturas principais. Seu modelo log-
bilinear com tendência de modalidade (mlbl-b) usa um viés aditivo para prever a próxima
palavra em uma sequência com base no contexto linguístico e nos recursos da imagem cnn.
O Modelo Log-Bilinear Fatorado de 3 Vias (mlbl-f) também controla a matriz de representação
para uma palavra com características de imagem. Na mesma linha, Donahue et al. (2015)
propõem uma arquitetura combinada cnn + lstm (também usada por Venugopalan et al.,
2015b, 2015a, para legendagem de vídeo) onde a próxima palavra é prevista em função das
palavras anteriores e dos recursos da imagem. Em uma versão da arquitetura, eles injetam
recursos CNN no lstm a cada passo de tempo. Em uma segunda versão, eles usam dois
lstms empilhados, o primeiro dos quais utiliza recursos cnn e produz uma saída que constitui
a entrada para o próximo lstm para prever a palavra. Finalmente, Mao et al. (2015a)
experimentam diversas configurações mrnn, obtendo seus melhores resultados com uma
arquitetura na qual existem duas camadas de incorporação de palavras precedendo a
camada recorrente, que por sua vez é projetada em uma camada multimodal onde
características linguísticas são combinadas com características cnn. Um exemplo de legenda
é mostrado na Figura 6e acima.
Esses modelos de redes neurais esclarecem as consequências da combinação das duas
modalidades em diferentes estágios, refletindo o ponto defendido por Manning (2015, cf.
Seção 3.3.5) de que esse paradigma incentiva o foco em arquiteturas e design. Em particular,
os recursos de imagem podem ser usados para influenciar a camada recorrente de geração
de linguagem - no início ou em cada passo de tempo do RNN - como no trabalho de Donahue
et al. (2015). Alternativamente, as características da imagem podem ser combinadas com
características linguísticas numa fase seguinte ao rnn, como no trabalho de Mao et al. (2015a).
A geração de imagem para texto é uma área da nlg onde há um claro domínio de métodos
de aprendizagem profunda. O trabalho atual concentra-se em vários temas:
1. Generalizar para além dos dados de formação ainda é um desafio, como mostra o
trabalho de Devlin et al. (2015a). De modo mais geral, lidar com novas imagens
continua difícil, embora tenham sido realizados experimentos sobre o uso de dados
de treinamento fora do domínio para expandir o vocabulário (Ordonez et al., 2013),
aprender novos conceitos (Mao et al., 2015b) ou transferir recursos. de regiões de
imagem contendo rótulos conhecidos, até regiões semelhantes, mas anteriormente
não atestadas (Hen-dricks et al., 2016b, das quais um exemplo de legenda é mostrado
na Figura 6f). O progresso na aprendizagem zero-shot, onde o objectivo é identificar
ou categorizar imagens para as quais há poucos ou nenhuns dados de treino
disponíveis, provavelmente contribuirá para a resolução de problemas de escassez de
dados (por exemplo, Antol et al., 2014; Elhoseiny et. al., 2017).
46
Machine Translated by Google
3. Trabalhos recentes também começaram a explorar a geração a partir de imagens que vai além
do conceitual concreto, por exemplo, produzindo descrições explicativas (Hendricks et al.,
2016a). Um desenvolvimento adicional é o trabalho sobre Resposta Visual a Perguntas, onde,
em vez de legendas descritivas, o objetivo é produzir respostas a perguntas específicas sobre
imagens (Geman et al., 2015; Barnard, 2016; Antol et al., 2015; Malinowski et al., 2015;
Malinowski et al. , 2016).
Recentemente, um novo conjunto de dados foi proposto fornecendo textos conceituais e
“narrativos” concretos juntamente com imagens (Huang et al., 2016), uma nova direção
promissora para este ramo da GNL.
Ao longo da última década, no entanto, tem havido uma tendência crescente na literatura NGL de
também se concentrar em aspectos da entrega de informação textual que são indiscutivelmente não
proposicionais, isto é, características do texto que não são estritamente falando baseadas na entrada.
dados, mas estão relacionados à forma de entrega.
Nesta seção, nos concentramos nessas tendências, começando com o conceito amplo de “variação
estilística”, antes de nos voltarmos para a geração de texto afetivo e de polidez.
47
Machine Translated by Google
48
Machine Translated by Google
(18) A dose do medicamento do paciente é tomada duas vezes ao dia. São dois gramas.
(19) A dose de dois gramas do medicamento do paciente é tomada duas vezes ao dia.
(20) O paciente toma a dose de dois gramas do medicamento do paciente duas vezes por
dia.
Alguns autores (por exemplo, Mairesse & Walker, 2011, , sobre os quais mais abaixo)
notaram que certas características, uma vez selecionadas, podem “cancelar” ou obscurecer o
efeito estilístico de outras características. Isto levanta a questão de saber se o estilo pode de
facto ser modelado como um fenómeno linear e aditivo, no qual cada característica contribui
para uma percepção global do estilo independentemente das outras (módulo o seu peso na
equação de regressão).
Uma segunda questão é se a variação estilística poderia ser modelada de uma forma mais
específica, por exemplo, adaptando o estilo a um autor específico, em vez de dimensões
genéricas relacionadas com a “formalidade”, o “envolvimento” e assim por diante. Por exemplo,
uma análise baseada em corpus de previsões meteorológicas escritas por humanos por Reiter
et al. (2005) descobriram que a escolha lexical varia em parte com base no autor. Uma linha de
trabalho investigou isso usando corpora de expressões referenciais, como o Tuna Corpus (van
Deemter et al., 2012a), no qual múltiplas expressões referenciais de diferentes autores estão
disponíveis para um determinado domínio de entrada. Por exemplo, Bohnet (2008) e Di
Fabbrizio et al. (2008) exploram métodos estatísticos para conhecer as preferências individuais
por atributos específicos, uma estratégia também utilizada por Viethen e Dale (2010). Hervás et
al. (2013) usam o raciocínio baseado em casos para informar a escolha lexical ao realizar um
conjunto de atributos semânticos para uma expressão referencial, onde a base de casos
diferencia os autores no corpus para levar em conta as preferências individuais de lexicalização
(ver também Herv´as et al. , 2016).
Uma visão mais ambiciosa da variação individual está presente no trabalho de Mairesse e
Walker (2010, 2011), no contexto da NGL para sistemas de diálogo.
Aqui, o objetivo é variar a saída de um gerador de modo a projetar diferentes
49
Machine Translated by Google
(21) Kin Khao e Tossed são excelentes. Kin Khao só tem funcionários rudes. Jogado
apresenta garçons meio rudes, mesmo que a comida seja bastante adequada.
(22) Err... não tenho muita certeza. Jogado oferece um tipo de comida decente. Hum...
No entanto, Kin Khao, que tem comida bastante adequada, é um lugar
tailandês. Você provavelmente iria gostar desses restaurantes.
50
Machine Translated by Google
apenas as escolhas linguísticas superficiais precisam ser afetadas. Alguns autores argumentam que
o impacto afetivo de um texto interfere na seleção do conteúdo; esta postura foi adoptada, por
exemplo, em algumas aplicações em e-saúde onde a notificação de questões relacionadas com a
saúde deve ser sensível ao seu potencial impacto emocional (DiMarco et al., 2007; Mahamood &
Reiter, 2011).
A maior parte do trabalho sobre NGL afetiva concentrou-se, no entanto, em escolhas táticas (por exemplo,
Hovy, 1988; Fleischman & Hovy, 2002; Forte et al., 2007; van Deemter e outros, 2008). Várias
características linguísticas que podem ter impacto emocional foram identificadas, desde o aumento
do uso de redundância para melhorar a compreensão de mensagens carregadas de emoção
(Walker, 1992; De Rosis & Grasso, 2000), até o aumento do uso de pronomes e advérbios de
primeira pessoa, bem como a ordenação das frases para obter ênfase ou reduzir o impacto
emocional adverso (De Rosis & Grasso, 2000).
Esta pesquisa sobre NGL afetiva baseia-se em modelos de emoção de vários graus de
complexidade e plausibilidade cognitiva. A tendência comum subjacente a todas estas abordagens,
contudo, é que os estados emocionais devem ter impacto nas escolhas lexicais, sintáticas e outras
escolhas linguísticas. A questão então é até que ponto tais escolhas são realmente percebidas
pelos leitores ou usuários de um sistema.
Num estudo empírico, van der Sluis e Mellish (2010) relataram duas experiências que
investigaram o efeito de várias decisões táticas no impacto emocional do texto nos leitores. Numa
experiência, os textos forneceram aos participantes um relatório (falso) sobre o seu desempenho
num teste de aptidão, com variações induzidas manualmente, como estas:
(23) Inclinação positiva: Além disso, você também superou a maioria das pessoas da sua faixa
etária com suas pontuações excepcionais em Imaginação e Criatividade (7,9 vs. 7,2) e
Inteligência Lógico-Matemática (7,1 vs. 6,5).
(24) Inclinação neutra/factual: você se saiu melhor do que a maioria das pessoas da sua faixa etária
com suas pontuações em Imaginação e Criatividade (7,9 vs. 7,2) e Inteligência
Lógico-Matemática (7,1 vs. 6,5).
A avaliação destes textos mostrou que a medida em que as decisões tácticas afectivas influenciam
os estados emocionais do ouvinte depende de uma série de outros factores, incluindo o grau em que o
leitor está directamente implicado no que o texto diz (no caso de um teste de aptidão, presumiria-se que
o leitor sentiria que os resultados têm relevância pessoal). Uma questão importante levantada por este
estudo é como o afeto deve ser medido: van der Sluis e Mellish (2010) usaram um questionário
padronizado de autoavaliação para estimar mudanças no afeto antes e depois da leitura de um texto,
mas a melhor maneira de medir a emoção continua sendo uma questão aberta.
A inclinação emocional da linguagem usada por um autor ou falante pode ter implicações no
grau em que o ouvinte ou leitor pode se sentir “impingido”. Isto se torna particularmente relevante
em sistemas interativos, onde os componentes da GNL geram linguagem no contexto do diálogo.
Considere, por exemplo, a diferença entre estas solicitações:
51
Machine Translated by Google
As quatro estratégias exemplificadas acima apresentam graus variados de polidez que, de acordo com um relato influente (Brown
& Levinson, 1987), depende do rosto. A face positiva reflete o desejo do locutor de que alguns de seus objetivos sejam compartilhados
com seus interlocutores; face negativa refere-se ao desejo do falante de não ter seus objetivos afetados por outras pessoas. A ligação
com o afeto que sugerimos acima depende destas distinções: diferentes graus de polidez refletem diferentes graus de “ameaça” ao
ouvinte; portanto, a geração de linguagem baseada na estratégia da face direita poderia ser vista como um ramo da NGL afetiva.
Numa proposta inicial e influente, Walker et al. (1997) propuseram uma interpretação de
(Brown & Levinson, 1987) em termos das quatro estratégias de diálogo, exemplificadas em
(25 – 28) acima. Posteriormente, Moore et al. (2004) usaram esta estrutura na geração de
feedback tutorial, onde um planejador de discurso usou uma rede bayesiana para informar
escolhas linguísticas compatíveis com o valor alvo de polidez/afeto em um determinado
contexto (ver Johnson et al., 2004, para uma abordagem relacionada ).
Gupta et al. (2007) também utilizaram as quatro estratégias de diálogo identificadas por
Walker et al. (1997) no sistema polly, que utilizou planejamento baseado em faixas para gerar
um plano distribuído entre dois agentes em uma tarefa colaborativa (ver também Gupta et al.,
2008). Uma descoberta interessante na sua avaliação é que a percepção da ameaça facial
depende do ato de fala; por exemplo, as solicitações podem ser mais ameaçadoras.
Gupta et al. (2007) também observam possíveis diferenças culturais na percepção da ameaça
facial (neste caso, entre participantes do Reino Unido e da Índia).
52
Machine Translated by Google
uso de classificações, comparando-as com métodos fisiológicos e baseados em classificação (por exemplo,
Martínez et al., 2014; Yannakakis & Martÿnez, 2015). Esta e outras pesquisas semelhantes são
provavelmente de grande relevância para os pesquisadores da NGL.
Uma segunda questão importante é saber quais as escolhas linguísticas que realmente transmitem a
variação pretendida ao leitor ou ouvinte. Embora os sistemas actuais utilizem uma série de dispositivos,
desde estratégias de agregação até à escolha lexical, não está claro quais são realmente considerados
como tendo o efeito desejado.
Uma terceira via de investigação importante, que é especialmente relevante para sistemas interactivos,
é a adaptabilidade, isto é, a forma como os falantes (ou sistemas) alteram as suas escolhas linguísticas
como resultado das declarações dos seus interlocutores (Clark, 1996; Niederhoffer & Pennebaker, 2002;
Pickering & Garrod, 2004), tema que também começou a ser explorado na nlg
Esta falta de atenção aos aspectos criativos da produção linguística dentro da NGL não se deve a uma
falta geral de interesse académico nestes fenómenos. Na verdade, a pesquisa computacional sobre
criatividade tem uma longa tradição, com raízes que remontam aos primórdios da IA (como observa Gerv
´as, 2013, o primeiro algoritmo de geração de histórias registrado, Novel Writer, foi desenvolvido por
Sheldon Klein em 1973). ).
No entanto, é justo dizer que, até agora, tem havido pouca interação entre investigadores das comunidades
de criatividade computacional e nlg, respetivamente, embora ambos os grupos, na nossa opinião, possam
aprender muito uns com os outros. Em particular, os pesquisadores de NGL podem se beneficiar de insights
sobre o que constitui a produção de linguagem criativa, bem como de características estruturais da narrativa
que têm o potencial de melhorar a produção de NGL, mesmo em sistemas de dados para texto (ver Reiter
et al., 2008, para um argumento nesse sentido em relação a um sistema de geração de textos médicos).
Ao mesmo tempo, os investigadores em criatividade computacional também poderiam beneficiar dos
conhecimentos fornecidos pela comunidade nlg no que diz respeito à geração de linguagem fluente, uma
vez que, como veremos, grande parte do foco nesta investigação, especialmente no que diz respeito à
narrativa, está na geração de planos e na determinação de conteúdo.
A seguir, damos uma visão geral das abordagens automáticas para a produção criativa de linguagem,
começando com piadas e metáforas relativamente simples até formas mais avançadas, como narrativas.
53
Machine Translated by Google
Esses dois (muito bons!) enigmas de trocadilhos foram gerados automaticamente pelo sistema
jape desenvolvido por Binsted e Ritchie (1994, 1997). Os enigmas de trocadilhos formam um gênero
específico de piada e têm recebido atenção considerável no contexto do humor computacional,
presumivelmente porque são relativamente simples de definir, muitas vezes dependendo de
ambiguidades ortográficas ou de sentido das palavras.
Muitos bons exemplos produzidos por humanos foram coletados em livros e sites de piadas e
podem, portanto, funcionar como fonte de inspiração.
Simplificando um pouco, jape (Joke Analysis and Production Engine) depende de um sistema
nlg baseado em modelo, combinando texto fixo (Qual é a diferença entre X e Y? ou Como você
chama X?) com slots, que são a fonte do enigma . Vários recursos lexicais padrão são usados para
a produção de piadas, incluindo um dicionário de pronúncia britânica (para encontrar palavras
diferentes com pronúncia semelhante, como 'bizarro' e 'bazar') e WordNet (Miller, 1995, para
encontrar palavras com pronúncia semelhante). significado, como bazar e mercado). O jape usa
diversas técnicas para criar os enigmas de trocadilhos, como a justaposição, na qual palavras
relacionadas são simplesmente colocadas próximas umas das outras e tratadas como uma
construção normal, ao mesmo tempo em que se certifica de que a combinação seja nova (ou seja,
não esteja no banco de dados do jape). já). É interessante observar que, desta forma, o jape pode
automaticamente surgir com piadas existentes (uma rápida pesquisa no Google revela que existem
muitos bazares bizarros, assim como bizarros de bazar). a avaliação da nlg é difícil, em geral (como
discutiremos com mais detalhes na Seção 7 abaixo) e a avaliação da
nlg humorística é, sem dúvida, ainda mais difícil.
No entanto, Binsted et al. (1997) mostraram que isso pode ser feito de maneira elegante. Eles
apresentaram a 120 crianças de 8 a 11 anos uma série de enigmas de trocadilhos, alguns gerados
automaticamente por brincadeiras e outros selecionados de livros de piadas. Eles também incluíram
uma série de controles que não são de brincadeira, como:
Para cada estímulo a que foram expostas, foi pedido às crianças que indicassem se achavam
que era uma piada e o quão engraçado o consideravam. Os resultados revelaram que os enigmas
gerados por computador eram reconhecidos como piadas e considerados mais engraçados do que
as não piadas. Curiosamente, a piada que as crianças avaliaram melhor foi gerada automaticamente
pelo jape (pedimos ao leitor que inspecione o artigo original), embora, em geral, as piadas
produzidas por humanos tenham sido consideradas mais engraçadas pelas crianças do que as
geradas automaticamente.
54
Machine Translated by Google
Seguindo o trabalho seminal de Binsted e Ritchie, vários outros sistemas foram desenvolvidos que
podem gerar piadas automaticamente, incluindo, por exemplo, o sistema hahacronym de Stock e
Strapparava (2005), que produz siglas humorísticas, e o sistema de Binsted et al. (2003), que tem como
foco a geração de piadas referenciais (“Estava tanto frio, vi um advogado com as mãos nos bolsos.”).
Petrovic e Matthews (2013) oferecem uma alternativa interessante e não supervisionada a este
trabalho anterior, que não requer exemplos rotulados ou regras codificadas . Tal como os seus
antecessores, Petrovic e Matthews também partem de um modelo – no caso deles gosto do meu X como
gosto do meu Y, Z – onde X e Y são substantivos (por exemplo, café e guerra) e Z é um atributo (por
exemplo, frio). ). Claramente, a realização linguística não é um problema, mas a selecção de conteúdos
– encontrar triplos X, Y e Z “engraçados” – é um desafio. Curiosamente, os autores postulam uma série
de princípios orientadores para os “bons” triplos. Em particular, eles levantam a hipótese de que (a) a
piada será mais engraçada se o atributo Z puder ser usado para descrever ambos os substantivos X e Y;
(b) a piada é mais engraçada se o atributo Z for comum e ambíguo; e (c) a piada é mais engraçada
quanto mais diferentes X e Y forem. Essas três afirmações podem ser quantificadas com base em
recursos padrão, como Wordnet e o corpus n-gram do Google (Brants & Franz, 2006), e usando essas
medidas os resultados do sistema, por exemplo:
(32) Gosto dos meus relacionamentos como gosto da minha fonte, aberta.
Novamente, a avaliação é complicada – mas interessante. Os autores colheram piadas escritas por
humanos no Twitter, em conformidade com o mesmo I like my X . . . modelo, após o qual seus diferentes
modelos são usados para gerar novas piadas, não encontradas em nenhum lugar on-line, com o mesmo
X, mas com Y e Z diferentes. Os juízes humanos então avaliaram cegamente as piadas humanas e as
geradas pelo modelo. Os resultados mostraram que as piadas da melhor modelo foram avaliadas como
engraçadas em 16% dos casos. Isso pode não parecer muito, mas deve-se levar em consideração que
se você acha algo engraçado ou não, é presumivelmente muito pessoal; na verdade, apenas 33% das
piadas humanas foram consideradas engraçadas.
Provavelmente é justo dizer que a pesquisa computacional sobre geração de piadas até o momento
se concentrou principalmente em revelar a estrutura básica de certos trocadilhos relativamente simples e
em explorá-los com bons resultados (por exemplo, Ritchie, 2009). No entanto, existem muitos outros tipos
de piadas, muitas vezes exigindo raciocínio sofisticado e hipotético.
Presumivelmente, muitos dos problemas centrais da IA precisam ser resolvidos primeiro, antes que os
sistemas de geração sejam capazes de produzir esse tipo de piadas avançadas.
55
Machine Translated by Google
sobre o domínio alvo, normalmente de uma forma não literal, o que pode ser útil em textos gerados por
computador para ilustrar informações complexas. Por exemplo, Hervás et al. (2006) estudam analogias
em contextos narrativos, como Luke Sky-walker foi o Rei Arthur dos Cavaleiros Jedi, o que esclarece
imediatamente um aspecto importante de Luke Skywalker para quem não conhece. Numa comparação,
os dois domínios são comparados (A 'é como' B); em uma metáfora eles são equiparados. Piadas e
metáforas/símiles estão relacionadas: as piadas geradas automaticamente de Petro-vic e Matthews são
comparáveis a símiles, enquanto Kiddon e Brun (2011), por exemplo, enquadram o problema de
identificação de piadas de duplo sentido como um tipo de identificação de metáfora. No entanto, pode-se
argumentar que gerar piadas é mais complexo devido à restrição extra de graça.
O primeiro, por exemplo, faz um mapeamento entre 'vida' (fonte) e 'processos' (alvo), e já é tão
comum que é quase uma metáfora morta, mas não era assim nos primórdios do Unix . Claramente, a
compreensão das metáforas é um pré-requisito para responder automaticamente a estas questões. As
primeiras pesquisas sobre a interpretação computacional da metáfora já reconheceram que as metáforas
dependem de convenções semânticas que são exploradas (“quebradas”) para expressar novos
significados. Um sistema para compreensão de metáforas, bem como um para geração de metáforas,
requer, portanto, conhecimento sobre o que são significados literais e como estes podem ser ampliados
ou traduzidos em significados metafóricos (por exemplo, Wilks, 1978; Fass, 1991).
Trabalhos recentes de Veale e Hao (Veale & Hao, 2007, 2008) mostraram que este tipo de
conhecimento pode ser adquirido na web e utilizado para a geração de novas metáforas e símiles
(comparações). Seu sistema, chamado Sardonicus, é capaz de gerar metáforas para alvos fornecidos
pelo usuário (t), como o seguinte, expressando que Paris Hilton ('a pessoa, não o hotel, embora a
distinção se perca em Veale & Hao, de Sardonicus, 2007, p.1474) é magro:
Sardonicus pesquisa na web por substantivos (n) associados à magreza, que estão incluídos em
uma base de casos e variam de vara, lápis e bastão a cobra e bicho-pau. Os inapropriados (como o
cadáver) são descartados, com base na teoria de inclusão de categorias de Glucksberg (2001). Esta lista
de possíveis símiles é então usada para criar consultas no Google, inspiradas no trabalho de Hearst
(1992), na forma n-like t (por exemplo, Paris Hilton, parecida com um bicho-pau, que na verdade ocorre
na web), dando uma classificação dos potenciais símiles a serem gerados.
56
Machine Translated by Google
Uma técnica comparável é utilizada por Veale (2013) para gerar metáforas com uma componente
afetiva, como em “Steve Jobs era um grande líder, mas podia ser um grande tirano”. O corpus n-gram
do Google é usado para encontrar estereótipos adequados para geração de símiles (por exemplo,
'solitário como um cowboy'), uma estratégia que lembra o uso de dados n-gram em escala web para
suavizar a saída de imagem para texto. sistemas (ver Seção 4). Em seguida, é acrescentada uma
dimensão afectiva, baseada no pressuposto de que as propriedades que ocorrem numa conjunção
(“tão exuberante e verde como uma selva”) têm maior probabilidade de ter o mesmo efeito do que as
propriedades que não o fazem. Usando sementes positivas (por exemplo, 'feliz', 'maravilhoso') e
negativas (por exemplo, 'triste', 'mal'), consultas de coordenação (por exemplo, 'feliz e X') são usadas
para coletar rótulos positivos e negativos para estereótipos, indicando, por exemplo, que os bebés
estão positivamente associados a qualidades como “sorrir” e “fofo”, e negativamente associados a
“chorar” e “chorar”. Isto permite a geração automática de símiles positivos (“fofo como um bebê”) e
negativos (“chorando como um bebê”). Veale (2013) ainda aponta que ao coletar, por exemplo, uma
série de metáforas negativas para o monopólio da Microsoft, e usá-las em um conjunto de tropos
predefinidos, torna-se possível gerar automaticamente um poema como o seguinte:
57
Machine Translated by Google
(ver especialmente Herman, 1997, 2007; Meister, 2003, para declarações programáticas nesse
sentido, bem como contribuições teóricas).
A narratologia clássica faz uma distinção fundamental entre o 'mundo da história' e o texto que
narra a história. Em consonância com as raízes formalistas e estruturalistas desta tradição, a
distinção é geralmente articulada como uma dicotomia entre fabula (ou história) e suzjet (ou
discurso). Há um paralelo entre esta distinção e aquela entre um plano de texto na NGL, versus o
texto real que articula esse plano. Contudo, a diferença crucial é que, ao produzir um plano para
uma narrativa, um sistema de geração de histórias normalmente não utiliza dados de entrada do
tipo exigido pela maioria dos sistemas NGL revistos até agora, uma vez que a história é geralmente
fictícia. Por outro lado, as ferramentas narratológicas também foram aplicadas com sucesso a
narrativas do mundo real, incluindo narrativas orais de experiência pessoal (por exemplo, Herman,
2001; Labov, 2010).
O foco da maioria dos trabalhos sobre geração de narrativas tem sido no estágio pré-linguístico,
isto é, na geração de planos dentro de um mundo narrativo para narrativas ficcionais, geralmente
dentro de um gênero específico cujas propriedades estruturais são bem compreendidas, por
exemplo, contos de fadas ou contos de fadas. Lendas arturianas (ver Gerv´as, 2013, para uma revisão).
Existem, no entanto, ligações entre as técnicas utilizadas para tais histórias e aquelas que
discutimos acima em relação à nlg (ver especialmente a Secção 3.2). Destacam-se entre elas as
técnicas de planejamento e raciocínio para modelar o processo criativo como uma tarefa de
resolução de problemas. Por exemplo, menestrel (Turner, 1992) utiliza o raciocínio para modelar a
criatividade a partir da perspectiva do autor, produzindo planos narrativos baseados em objetivos
autorais, como o objetivo de introduzir drama em uma narrativa, garantindo ao mesmo tempo
consistência temática.
Mais recentemente, Brutus (Bringsjord & Ferrucci, 1999) utilizou uma base de conhecimento
de esquemas de histórias, a partir dos quais um é selecionado e elaborado usando técnicas de
planejamento para vincular causas e efeitos (ver também Young, 2008; Riedl & Young, 2010, entre
outros, para exemplos recentes do uso de técnicas de planejamento para modelar o processo
criativo na geração de narrativas).
Como observa Gerv´as (2010), o foco no planejamento de mundos de histórias e na modelagem
da criatividade tem frequentemente implicado uma marginalização das questões linguísticas, de
modo que transformar um plano de história em texto tem sido frequentemente visto como uma
consideração secundária. Por exemplo, a Figura 7a mostra um excerto de uma história produzida
pelo sistema talespin (Meehan, 1977): aqui, a ênfase está na utilização de técnicas de resolução
de problemas para produzir uma narrativa na qual os eventos se seguem uns dos outros de uma
forma coerente, em vez de em contá-lo de maneira fluente. Uma exceção importante a esta
tendência é o trabalho de Callaway e Lester (2002), que abordou explicitamente a lacuna entre a
narratologia computacional e a nlg. O seu sistema tomou um plano narrativo como ponto de partida,
mas centrou-se no processo de transmitir a narrativa em inglês fluente, lidando com mudanças de
tempo, agregação, nps anafóricos e muitos outros fenómenos linguísticos, como mostra o excerto
na Figura 7b.9 Além disso, houve uma série de contribuições da comunidade de geração sobre
questões mais específicas relacionadas à narrativa, como como transmitir o temporal
9 Vale a pena notar que este sistema tem sido reutilizado desde então no contexto da geração de
texto interativo para um guia portátil de museu por Stock et al. (2007).
58
Machine Translated by Google
John Bear está com um pouco de fome. Era uma vez um lenhador e sua esposa que
John Bear quer pegar algumas frutas. John moravam em uma linda casinha nas margens
Bear quer chegar perto dos mirtilos. John
de uma grande floresta.
Bear caminha da entrada de uma caverna Eles tinham uma filha pequena, uma criança
até o mato, passando por uma passagem
doce, que era a favorita de todos. Ela era a
por um vale através de um prado. John Bear alegria do coração de sua mãe. Para agradá-
pega os mirtilos. John Bear come os mirtilos. la, a boa mulher fez-lhe uma pequena capa
Os mirtilos desapareceram. John Bear não
e um capuz escarlate. Ela ficou tão bonita
tem muita vontade com ele que todo mundo a chamava de
Chapeuzinho Vermelho.
jogos.
(a) Trecho de TaleSpin (Meehan, (b) Trecho do livro de histórias (Callaway & 1977)
Lester, 2002)
Figura 7: Exemplos de narrativas geradas automaticamente. O painel esquerdo mostra um trecho de uma
história produzida pela TaleSpin (Meehan, 1977); o painel direito é um trecho do conto de fadas
Chapeuzinho Vermelho, gerado pelo sistema de livro de histórias (Callaway & Lester, 2002).
fluxo do discurso narrativo (Oberlander & Lascarides, 1992; Dorr & Gaasterland, 1995; Elson & McKeown,
2010). Este é um problema que merece mais atenção na GNL, uma vez que textos com uma estrutura
narrativa complexa muitas vezes narram eventos em uma ordem diferente daquela em que ocorreram.
Por exemplo, os eventos podem ser planeados por ordem de importância, em vez de temporalmente,
mesmo quando se baseiam em dados do mundo real (por exemplo, Portet et al., 2009). Isso torna crucial
o uso das escolhas corretas para adverbiais de tempo, aspecto e temporais para garantir clareza ao leitor.
Este tipo de complexidade na estrutura narrativa também emerge na ficção narrativa interativa (por
exemplo, em jogos; cf., Montfort, 2007).
Além do foco em questões linguísticas específicas, também tem havido alguns trabalhos que utilizam
técnicas baseadas em dados para gerar histórias. Por exemplo, McIn-tyre e Lapata (2009) propõem um
sistema de geração de histórias cuja entrada é um banco de dados de entidades e suas interações,
extraído de um corpus de histórias, analisando-as, recuperando dependências gramaticais e construindo
cadeias de eventos nas quais entidades específicas desempenhar um papel. O resultado é um gráfico
que codifica uma ordem parcial de eventos, com arestas ponderadas por informações mútuas para refletir
o grau de associação entre os nós. O planejamento das frases ocorre então usando regras gramaticais
semelhantes a modelos, especificando verbos com informações de subcategorização, seguido pela
realização usando realpro (Lavoie & Rambow, 1997). Uma das características mais interessantes deste
trabalho é o acoplamento do modelo de geração com um modelo de interesse para prever quais histórias
seriam realmente avaliadas como interessantes pelos leitores. Isto foi conseguido treinando um
classificador baseado em kernel em
59
Machine Translated by Google
características lexicais e sintáticas superficiais das histórias, um romance aborda um velho problema
da narratologia, nomeadamente, o que torna uma história “contável”, distinguindo-a assim de um mero
relato (por exemplo, Herman, 1997; Norrick, 2005; Bruner, 2011) .
A maior parte do trabalho de geração de histórias está restrito a contos (muito) curtos. É
certamente verdade que planear uma narrativa do tamanho de um livro ao longo das linhas esboçadas
acima é extremamente desafiador, mas os investigadores começaram recentemente a explorar as
possibilidades, por exemplo, no contexto do NaNoGenMon (Mês Nacional da Geração de Romances),
em que os participantes escrever um programa de computador capaz de gerar um 'romance'. Talvez o
exemplo mais conhecido seja o Relógio Mundial (Mont-fort, 2013), que descreve 1.440 (24 × 60)
eventos que ocorrem em todo o mundo, um minuto selecionado aleatoriamente de cada vez. Estes são
os dois primeiros:
Agora são exatamente 05:00 em Samarcanda. Em alguma casa em ruínas, uma pessoa
chamada Gang, que é pequena, lê uma palavra inteiramente inventada em uma caixa
de cereal matinal. Ele se vira completamente.
Agora são cerca de 18h01 em Matamoros. Em alguma estrutura obscura, mas decente,
um homem chamado Tao, que não é maior nem menor do que se esperaria, lê um
pequeno código numérico de um recorte de receita. Ele sorri um pequeno sorriso.
O livro foi totalmente gerado por 165 linhas de código Python, escrito pelo autor em poucas horas,
e posteriormente publicado (junto com o software) pela editora Harvard Book Store. Existe até uma
tradução para o polonês (de Piotr Marecki), criada pela tradução do algoritmo Python.
No que diz respeito à avaliação de geradores de narrativas, esta é uma área onde o consenso no
campo é que é necessário muito mais esforço de investigação (ver Zhu, 2012, para um argumento
recente neste sentido). Até certo ponto, os problemas enfrentados na avaliação de geradores de
histórias refletem aqueles da NGL clássica. Por exemplo, avaliar a determinação do conteúdo e ao
mesmo tempo considerar o impacto do planeamento e da realização das frases está longe de ser trivial
(ver Mellish & Dale, 1998, e a discussão sobre avaliação na Secção 7). Contudo, no caso da narrativa
ficcional, o problema é agravado pelo facto de normalmente não haver dados “objectivos” com os quais
se possa comparar um plano de história; na verdade, o foco principal da avaliação aqui é o sucesso
com que um sistema modela o processo criativo, construindo histórias que possuem qualidades como
novidade (por exemplo, P´erez et al., 2011) ou credibilidade dos personagens (por exemplo, , Riedl &
Young, 2005). Onde o foco está na linguagem narrativa, a avaliação é mais claramente orientada para
questões linguísticas como coerência e fluência, como mostra a avaliação exaustiva conduzida por
Callaway e Lester (2002) para o sistema de livro de histórias.
O problema dos sistemas em que a qualidade linguística é secundária é que é difícil avaliar uma
história e ao mesmo tempo factorizar os efeitos que se devem à forma como é contada. Propostas
recentes, por exemplo de Rowe et al. (2009), enfatizaram a necessidade de implantar múltiplos métodos
de avaliação para avaliar narrativas em diferentes níveis, desde a estrutura do enredo até o impacto
cognitivo-afetivo nos leitores. Como veremos na Seção 7, o uso de múltiplos métodos é provavelmente
desejável mesmo para tarefas clássicas de Nlg.
60
Machine Translated by Google
7 Avaliação
Embora tenhamos tocado no tema da avaliação em vários pontos, ele merece uma discussão
completa como um tópico que se tornou uma preocupação metodológica central na NGL. Um
factor que contribuiu para este desenvolvimento foi o estabelecimento de uma série de
tarefas partilhadas do NGL, lançadas na sequência de um workshop financiado pelo FNS
realizado na Virgínia em 2007 (Dale & White, 2007). Estas tarefas centraram-se na geração
de expressões referenciais (Belz et al., 2010; Gatt & Belz, 2010); realização de superfície
(Belz et al., 2011); geração de instruções em virtual
61
Machine Translated by Google
ambientes (Striegnitz et al., 2011; Janarthanam & Lemon, 2011); determinação de conteúdo
(Bouayad-Agha et al., 2013; Banik et al., 2013); e geração de perguntas (Rus et al., 2011).
Propostas recentes para novos desafios estendem-nos à geração de narrativas (Concepción
et al., 2016), geração a partir de dados estruturados da web (Colin et al., 2016) e a partir de
pares desalinhados de representações de significado e texto (Novikova & Rieser, 2016a).
Na legendagem de imagens, as tarefas compartilhadas ajudaram no desenvolvimento de
conjuntos de dados em grande escala e servidores de avaliação, como o ms-coco10 (cf.
Seção 4.1). Em geral, porém, a avaliação do GNL é marcada por uma grande variedade e é
difícil comparar diretamente os sistemas. Há pelo menos duas razões pelas quais este é o
caso.
Entrada variável Não existe um formato de entrada único e acordado para sistemas NGL
(McDonald, 1993; Mellish & Dale, 1998; Evans et al., 2002). Normalmente, só se pode
comparar sistemas com um benchmark comum se a entrada for semelhante. Exemplos são
os sistemas de legendagem de imagens descritos na Seção 4, ou sistemas submetidos a
uma das tarefas compartilhadas mencionadas acima. Mesmo no caso de um conjunto de
dados “padrão” comum estar disponível para avaliação, a comparação pode não ser simples
devido à variação dos dados de entrada ou devido a distorções implícitas nos dados de
entrada. Por exemplo, Rajkumar e White (2014) observam que, apesar de muitos realizadores
serem avaliados em relação ao Penn Treebank, eles fazem suposições diferentes sobre o
formato de entrada, incluindo quão detalhada é a representação de entrada pré-sintática, um
problema também observado no primeiro Surface Realização de tarefa compartilhada (Belz
et al., 2011). Como observam Rajkumar e White (2014), uma comparação de realizadores
com base nas pontuações do Penn Treebank mostra que a classificação mais alta é o
realizador fuf/surge (que é o segundo em termos de idade de cobertura), com base em
experimentos de Callaway (2005). No entanto, esses experimentos exigiram um esforço
minucioso para extrair as representações de entrada no nível de detalhe necessário para fuf/
surge; outros realizadores apoiam contribuições mais subespecificadas.
Na mesma linha, estudos de avaliação de legendas de imagens mostraram que muitos
conjuntos de dados contêm uma proporção maior de substantivos do que verbos e poucos
conceitos abstratos (Ferraro et al., 2015), tornando os sistemas que geram descrições que
enfatizam objetos com maior probabilidade de obter melhores pontuações. . A relevância
desta observação é demonstrada por Elliott e De Vries (2015), que observam que a
classificação do seu sistema de legendagem de imagens baseado na gramática de
dependência visual depende em parte dos dados sobre os quais é avaliado, com melhor
desempenho em dados contendo mais imagens. retratando ações (voltaremos a este estudo abaixo).
Múltiplos resultados possíveis Mesmo para uma única entrada e um único sistema, a gama
de resultados possíveis é aberta, um problema que provavelmente se aplica a qualquer
tarefa de PNL que envolva resultados textuais, incluindo tradução automática e resumo. Os
corpora apresentam frequentemente uma gama substancial de variações e muitas vezes não
é claro, sem uma avaliação independente, quais os resultados que devem ser preferidos
(Reiter & Sripada, 2002). Na literatura sobre legendagem de imagens, os autores que
enquadraram o problema em termos de recuperação motivaram a escolha em parte
10http://mscoco.org/dataset/#captions-upload
62
Machine Translated by Google
com base neste problema, argumentando que “uma vez que não há consenso sobre o que
constitui uma boa descrição de imagem, avaliações humanas obtidas independentemente
de diferentes sistemas de geração de legendas não devem ser comparadas diretamente”
(Hodosh et al., 2013, p. 580) . Embora a captura da variação possa ser em si um objetivo
(por exemplo, Belz, 2008; Viethen & Dale, 2010; Herv´as et al., 2013; Ferreira et al., 2016),
como também vimos na nossa discussão sobre estilo na Secção 5 , Isso não é sempre o
caso. Assim, numa avaliação orientada para o utilizador, as previsões meteorológicas do
sistema SumTime-mousam foram preferidas pelos leitores às escritas pelos previsores
porque as decisões de lexicalização destes últimos eram susceptíveis de variação
aparentemente arbitrária (Re-iter et al., 2005); resultados semelhantes foram relatados
mais recentemente para sistemas estatísticos nlg treinados no corpus SumTime (Belz, 2008; Angeli et al., 2010).
Em vez de fazer uma revisão exaustiva da avaliação da GNL – o que não é uma perspectiva
realista dada a diversidade que apontámos – o resto desta secção irá destacar algumas
questões actuais do trabalho actual. A título de visão geral destas questões, consideremos
o cenário hipotético esboçado na Figura 8, que é vagamente inspirado no trabalho sobre
vários sistemas de relatórios meteorológicos desenvolvidos no terreno.
Este sistema nlg está incorporado no ambiente de uma plataforma petrolífera offshore; as
características relevantes da configuração (no sentido de Sparck Jones & Galliers, 1996)
são o próprio sistema e seus usuários, aqui um grupo de engenheiros. Embora a tarefa do
sistema seja gerar relatórios meteorológicos a partir de dados numéricos de previsão
meteorológica, seu objetivo final é facilitar o planejamento das operações de perfuração e
manutenção pelos usuários. A Figura 8 destaca algumas das questões comuns abordadas
na avaliação do GNL, juntamente com uma ampla tipologia dos métodos usados para
abordá-las, em particular, se são objetivos – isto é, mensuráveis em relação a um critério
externo, como similaridade de corpus ou experimentalmente. dados comportamentais
obtidos – ou subjetivos, exigindo julgamentos humanos.
Uma distinção metodológica fundamental, devida a Sparck Jones e Galliers (1996), é
entre métodos de avaliação intrínsecos e extrínsecos. No caso do nlg, uma avaliação
intrínseca mede o desempenho de um sistema sem referência a outros aspectos da
configuração, como a eficácia do sistema em relação aos seus usuários. No nosso cenário
de exemplo, as questões relacionadas com a qualidade do texto, a correcção da saída e a
legibilidade qualificam-se como intrínsecas, enquanto a questão de saber se o sistema
realmente atinge o seu objectivo de apoiar a tomada de decisão adequada na plataforma
offshore é extrínseca.
Os julgamentos humanos são normalmente obtidos expondo sujeitos ingênuos ou especialistas aos
resultados do sistema e fazendo com que eles os avaliem de acordo com alguns critérios. Os critérios
comuns incluem:
63
Machine Translated by Google
Embora sejam os mais comuns, estes dois conjuntos de critérios não esgotam as
possibilidades. Por exemplo, classificações subjetivas também foram obtidas para a
eficácia dos argumentos num sistema concebido para gerar texto persuasivo para
potenciais compradores de casas (Carenini & Moore, 2006). Na legendagem de imagens,
pelo menos um sistema foi avaliado solicitando aos usuários que julgassem a criatividade
da legenda gerada, com o objetivo de avaliar a contribuição dos modelos de linguagem n-
gram em escala web para a qualidade da legenda (Li et al., 2011). . Abaixo, também
discutimos julgamentos de compatibilidade de gênero (Seção 7.1.3).
O uso de escalas para extrair julgamentos levanta uma série de questões. Um tem a
ver com a natureza da própria escala. Embora as escalas ordinais discretas sejam o
método dominante, uma escala contínua – por exemplo, uma que envolva um controle
deslizante apresentado visualmente (Gatt & Belz, 2010; Belz & Kow, 2011) – pode dar aos
sujeitos a possibilidade de emitir julgamentos mais matizados. Por exemplo, um texto
gerado pelo nosso hipotético sistema de boletins meteorológicos pode ser considerado tão disfluente que
64
Machine Translated by Google
receber a classificação mais baixa numa escala ordinal; se o texto seguinte for julgado pior, o
sujeito não terá como indicar isso. Uma questão relacionada é se os sujeitos acham mais fácil
comparar itens em vez de julgar cada um por si só. Esta questão começou a ser abordada na
literatura de avaliação de PNL, geralmente com comparações binárias, por exemplo, entre as
saídas de dois sistemas MT (ver Dras, 2015, para discussão). Em um estudo recente avaliando
conectivos causais produzidos por um sistema nlg, Siddharthan e Katsos (2012) usaram a
Estimativa de Magnitude, por meio da qual os sujeitos não recebem uma escala predefinida,
mas são solicitados a escolher a sua própria e a fazer comparações de cada item com um '
módulo ', que serve como um ponto de comparação ao longo do experimento (ver Bard et al.,
1996).11 Belz e Kow (2010) compararam um paradigma baseado em preferência a uma escala
de classificação padrão para avaliar sistemas de dois domínios diferentes (relatórios
meteorológicos e reg), e descobriu que o primeiro era mais sensível às diferenças entre os
sistemas e menos suscetível à variação entre os sujeitos.
Geralmente, pode-se dizer que os métodos intrínsecos que dependem de corpora abordam a
questão da “semelhança humana”, isto é, até que ponto a produção do sistema corresponde à
produção humana em condições comparáveis. Do ponto de vista do desenvolvedor, o ponto de
venda de tais métodos é o seu baixo custo, uma vez que geralmente são baseados em métricas
calculadas automaticamente. Uma variedade de métricas baseadas em corpus, frequentemente
usadas anteriormente em áreas relacionadas, como tradução automática
11O módulo é um item – um texto, ou uma frase – que é selecionado antecipadamente e cujos sujeitos
são solicitados a avaliar primeiro. Todas as classificações ou julgamentos subsequentes são realizados em
comparação com este item do modus. Embora os sujeitos possam usar qualquer escala que escolherem,
este método permite que todos os julgamentos sejam normalizados pelo julgamento dado para o módulo.
Normalmente, os julgamentos normalizados são analisados em uma
escala logarítmica. 12https://www.mturk.com/
mturk/welcome 13https://www.crowdflower.com
65
Machine Translated by Google
2007).
gtm Correspondente de texto geral. F-Score baseado em precisão e recall, mt
com maior peso para vãos correspondentes contíguos (Turian et al.,
2003)
cidra Pontuação de similaridade de n-gramas baseada em cosseno, com ponderação de eu
n-gramas usando tf-idf (Vedantam et al., 2015).
Distância de edição Número de inserções, exclusões, substituições e, possivelmente, n/D
transposição necessária para transformar o candidato na string de referência
(Levenshtein, 1966).
ter Taxa de edição de tradução, uma versão da distância de edição (Snover et al., mt
2006).
Distância
corda
terp Versão de ter que trata de substituição frasal, lematização e sinonímia (Snover et al., mt
da
2006).
bater Versão do ter otimizada para correlações com julgamentos de adequação (Snover et mt
al., 2006).
Medidas teóricas de conjuntos de dados/Jaccard de sobreposição entre dois conjuntos não ordenados n/D
(por exemplo, de predicados ou outras unidades de conteúdo)
masi Medida de concordância entre itens com valor definido, uma versão ponderada de como
Tabela 1: Métricas intrínsecas baseadas em corpus com base na sobreposição de strings, distância de strings,
ou sobreposição de conteúdo. A última coluna indica a subdisciplina da PNL na qual um
métrica originada, quando aplicável. Legenda: mt = Tradução automática; como =
resumo automático; ic = legenda da imagem.
66
Machine Translated by Google
A tradução automática ou o resumo (com exceção de cider, Vedantam et al., 2015) são frequentemente
usados para avaliar a realização de superfície (por exemplo, White et al., 2007; Cahill & Josef, 2006;
Espinosa et al., 2010; Belz et al., 2010; Belz et al., 2010; Belz et al., 2010; al., 2011) e ocasionalmente
também para avaliar textos curtos característicos de sistemas baseados em dados em domínios como
relatórios meteorológicos (por exemplo, Reiter & Belz, 2009; Konstas & Lapata, 2013) e legendagem de
imagens (ver Bernardi et al., 2016). . Métricas de distância de edição têm sido exploradas para realização
(Espinosa et al., 2010), mas também para registro (Gatt & Belz, 2010).
O foco dessas métricas está no texto, e não na fidelidade à entrada. Num número limitado de casos,
foram utilizadas métricas orientadas para a superfície para avaliar a adequação com que o texto de
saída reflete o conteúdo (Banik et al., 2013; Reiter & Belz, 2009). Contudo, se o foco for a determinação
do conteúdo, uma medida de sobreposição de superfície é, na melhor das hipóteses, um substituto,
baseando-se na suposição de uma correspondência direta entre entrada e saída. Esta suposição pode
ser sustentável se os textos forem breves e relativamente previsíveis. Em alguns casos, tem sido
possível utilizar métricas para medir diretamente a determinação do conteúdo, com base em corpora
anotados semanticamente. Por exemplo, algoritmos reg foram avaliados desta forma usando métricas
de sobreposição de conjuntos (Viethen & Dale, 2007; van Deemter et al., 2012a). As medições diretas
da sobreposição de conteúdo entre os resultados gerados e os resultados candidatos provavelmente
aumentarão, à medida que as técnicas automáticas de alinhamento de dados e texto tornam esses
corpora 'semanticamente transparentes' mais prontamente disponíveis para nlg de ponta a ponta (ver,
por exemplo, Chen & Mooney, 2008; Liang et al., 2009, e a discussão na Seção 3.3).
Uma questão ligeiramente diferente que tem sido ocasionalmente colocada em estudos de avaliação
questiona se o artefacto linguístico produzido por um sistema é uma instância reconhecível de um
género ou estilo particular. Vimos exemplos disso em nossa discussão sobre geração de linguagem
criativa na Seção 6. Por exemplo, uma das perguntas feitas por Binsted et al. (1997) foi se o resultado
da jape era reconhecidamente uma piada. Hardcastle e Scott (2008) descrevem uma avaliação de um
sistema de geração de pistas cruzadas enigmáticas com base em um teste de Turing no qual o objetivo
era determinar se as saídas do sistema eram reconhecidamente diferentes das pistas de autoria humana.
Embora tais questões tenham claramente uma orientação intrínseca, também têm influência em
factores extrínsecos, uma vez que a capacidade de reconhecer um artefacto como uma instância de um
género ou como exibindo um certo estilo ou personalidade é indiscutivelmente uma das fontes do seu
impacto, especialmente no caso do uso criativo da linguagem.
É claro que a intenção por trás da variação de estilo, personalidade ou afeto pode muito bem ser,
em última análise, aumentar a eficácia na consecução de algum objetivo ulterior. Na verdade, qualquer
sistema NGL destinado a ser incorporado em um ambiente específico precisará abordar questões
estilísticas e baseadas em gênero. Por exemplo, nosso hipotético gerador de boletins meteorológicos
pode usar um estilo técnico muito breve, dado seu conjunto profissional de usuários-alvo (como foi o
caso de SumTime Reiter et al., 2005); em contrapartida, os boletins meteorológicos destinados ao
consumo público, como os do
67
Machine Translated by Google
o corpus WeatherGov, seria provavelmente mais longo e menos técnico (Angeli et al., 2010).
Isto é semelhante em espírito à questão sobre a piada feita por Binsted et al. (1997), em contraste
com a avaliação mais explicitamente extrínseca do gerador de piadas standup feita por Waller et al.
(2009), que questionaram se o sistema realmente ajudava os usuários a melhorar suas interações
com os pares.
• envolvimento com questões ecológicas depois de ler blogs sobre aves migratórias (Siddharthan
et al., 2013);
• apoio à decisão num ambiente médico após a geração de relatórios de pacientes (Portet et al.,
2009; Hunter et al., 2012);
• melhorar a eficácia da aprendizagem no diálogo tutorial (Di Eugenio et al., 2005; Fossati et al.,
2015; Boyer et al., 2011; Lipschultz et al., 2011; Chi et al., 2014)
Embora estudos baseados em questionários ou de autorrelato possam ser usados para abordar
critérios extrínsecos (por exemplo, Hunter et al., 2012; Siddharthan et al., 2013; Carenini & Moore,
2006), em muitos casos a avaliação depende de algum objetivo medida de desempenho ou realização.
Isto pode ser feito com os utilizadores-alvo in situ, aumentando a validade ecológica do estudo, mas
também pode assumir a forma de uma tarefa que modela os cenários para os quais o sistema NGL
foi concebido.
Assim, no dar Challenge (Striegnitz et al., 2011), em que sistemas nlg
68
Machine Translated by Google
gerou instruções para um usuário navegar por um mundo virtual, uma avaliação baseada em tarefas
em grande escala foi realizada fazendo com que os usuários jogassem o jogo online, enquanto vários
índices de sucesso foram registrados, incluindo o tempo que um usuário levou para completar o jogo.
reg cujo objetivo era gerar descrições de identificação de objetos em domínios visuais foram avaliados
em parte com base no tempo que os leitores levaram para identificar um referente com base em uma
descrição gerada bem como sua taxa de erro(Gatt & Belz , 2010). O skillsum, um sistema para gerar
relatórios de feedback de avaliações de alfabetização, foi avaliado medindo como a autoavaliação do
usuário sobre suas próprias habilidades de alfabetização melhorou após a leitura do feedback gerado,
em comparação com textos de controle (Williams & Reiter, 2008).
Uma desvantagem potencial dos estudos extrínsecos, além do tempo e dos custos, é a dependência
de uma base de usuários adequada (que pode ser difícil de obter quando os usuários precisam ser
amostrados de uma população específica, como os engenheiros em nosso cenário hipotético na Figura
8) e a possibilidade de realizar o estudo num cenário realista. Tais estudos também levantam desafios
significativos de concepção, devido à necessidade de controlar variáveis intervenientes e de confusão,
comparando múltiplas versões de um sistema (por exemplo, numa concepção ablativa; ver Secção 7.3
abaixo), ou comparando um sistema com um padrão-ouro ou linha de base. Por exemplo, Carenini e
Moore (2006) observam que a avaliação da eficácia dos argumentos apresentados no texto precisa
levar em conta aspectos da personalidade do usuário que podem impactar o quão receptivos eles são
aos argumentos em primeiro lugar.
Um exemplo do equilíbrio entre questões de design e controle e validade ecológica é fornecido pela
família de sistemas BabyTalk. Um sistema piloto denominado bt-45 (Portet et al., 2009), que gerava
resumos de pacientes a partir de intervalos de 45 minutos de dados históricos de pacientes, foi avaliado
em uma tarefa envolvendo enfermeiros e médicos, que escolheram entre um conjunto de ações clínicas
para tomar com base nas informações fornecidas. Estas foram então comparadas com decisões
“verdadeiras” tomadas por especialistas neonatais seniores. Esta avaliação foi realizada fora da
enfermaria; portanto, os sujeitos tomavam decisões clínicas em um ambiente artificial, sem acesso
direto ao paciente. Por outro lado, na avaliação do bt-nurse, um sucessor do bt-45 que resumiu os dados
dos pacientes coletados durante um turno de doze horas (Hunter et al., 2012), o sistema foi avaliado
na enfermaria usando dados do paciente ao vivo , mas considerações éticas impediram uma avaliação
baseada em tarefas. Pelas mesmas razões, a comparação com textos humanos “padrão ouro” também
era impossível. Assim, a avaliação suscitou julgamentos, tanto sobre critérios intrínsecos, como
compreensibilidade e precisão, quanto sobre critérios extrínsecos, como utilidade clínica percebida (ver
Sid-dharthan et al., 2013, para uma medida de impacto extrínseca indireta semelhante, desta vez em
ambiente ecológico).
69
Machine Translated by Google
70
Machine Translated by Google
realizar dois métodos anteriores (Farhadi et al., 2010; Yang et al., 2011) nas pontuações do
bleu; no entanto, os julgamentos humanos indicaram a tendência oposta, com os leitores
preferindo o seu sistema (observações semelhantes são feitas por Kiros et al., 2014).
Hodosh et al. (2013) compararam a concordância (medida pelo ÿ de Cohen) entre
julgamentos humanos e pontuações bleu ou rouge para legendas recuperadas, descobrindo
que os resultados não foram classificados de forma semelhante por humanos e métricas, a
menos que as legendas recuperadas fossem idênticas às legendas de referência.
Ocasionalmente, a correlação entre uma métrica e os julgamentos humanos parece
diferir entre os estudos, sugerindo que os resultados baseados em métricas são altamente
suscetíveis a variações devido a algoritmos de geração e conjuntos de dados. Por exemplo,
Konstas e Lapata (2013) (discutido na Seção 3.3.4 acima) descobrem que em métricas
baseadas em corpus, a versão de melhor desempenho de seu modelo não supera a de Kim
e Mooney (2010) no robocup domínio, ou o de Angeli et al. (2010) em seu corpus
meteorológico (weathergov), embora tenha um desempenho melhor do que Angeli et al.
(2010) sobre o conjunto de dados de viagens mais barulhentos da Atis. No entanto, uma
avaliação da fluência e da correção semântica, baseada em julgamentos humanos, mostrou
que o sistema superou, por uma pequena margem, tanto Kim e Mooney (2010) quanto
Angeli et al. (2010) em ambas as medidas em todos os domínios, com exceção do
weathergov, onde o sistema de Angeli et al. teve um desempenho marginalmente melhor.
Na mesma linha, Elliott e De Vries (2015) comparam seu sistema de legenda de
imagens, baseado em relações de dependência visual, ao RNN bidirecional desenvolvido
por Karpathy e Fei-Fei (2015), em dois conjuntos de dados diferentes. Os dois sistemas
estavam próximos um do outro no conjunto de dados vlt2k, mas não no Pascal1k, resultado
que os autores afirmam ser devido ao vlt2k conter mais imagens envolvendo ações. Quanto
à relação entre métricas e julgamentos humanos, Elliott e Keller (2013) concluíram que o
meteoro se correlaciona melhor que o azul (ver El-liott & Keller, 2014, para uma comparação
sistemática de métricas automáticas neste domínio), uma descoberta também confirmada
em seu trabalho posterior (Elliott & De Vries, 2015), bem como no Desafio de Avaliação ms-
coco, que descobriu que o meteoro era mais robusto. No entanto, o trabalho de Kuznetsova
et al. (2014) apresentaram resultados variáveis; seu método de maior pontuação avaliado
pelos humanos, envolvendo a composição das árvores, foi classificado mais alto pelo bleu
do que pelo meteoro. No Desafio de Avaliação ms-coco, alguns sistemas superaram o
limite superior humano-humano quando comparados a textos de referência usando métricas
automáticas, mas nenhum sistema atingiu esse nível em uma avaliação baseada em
julgamentos humanos (ver Bernardi et al., 2016, para discussão adicional).
Alguns estudos abordaram explicitamente a relação entre métodos como uma questão
de investigação por si só. Uma contribuição importante nesta direção é o estudo de (Reiter
& Belz, 2009), que abordou a validade de métricas baseadas em corpus em relação aos
julgamentos humanos, no domínio da geração de previsões meteorológicas (um estudo
semelhante foi recentemente realizado sobre imagens legenda por Elliott & Keller, 2014).
Numa primeira experiência, centrada na qualidade linguística, os autores encontraram uma
elevada correlação entre os julgamentos dos leitores especialistas e não especialistas, mas
a correlação entre os julgamentos humanos e as métricas automáticas variou
consideravelmente (de 0,3 a 0,87), dependendo da versão do a métrica utilizada e se os
textos de referência foram incluídos na comparação
71
Machine Translated by Google
por juízes humanos. O segundo experimento avaliou a qualidade linguística, pedindo a juízes humanos
que avaliassem a clareza/legibilidade; e determinação do conteúdo, através da obtenção de julgamentos
de precisão/adequação (comparando os textos com os dados brutos). As métricas automáticas
correlacionaram-se significativamente com julgamentos de clareza, mas muito menos com precisão,
sugerindo que eram melhores em prever a qualidade linguística do que a correção.
Vários fatores podem ser aduzidos para explicar a inconsistência desses meta-
estudos de avaliação:
1. Métricas como o bleu são sensíveis à extensão dos textos em comparação. Com textos mais
curtos, as métricas baseadas em n-gramas provavelmente resultarão em pontuações mais baixas.
3. A variabilidade semântica é uma questão importante. Os textos gerados podem ser semelhantes
aos textos de referência, mas diferem em alguns quase sinônimos ou em variações sutis na ordem
das palavras. Conforme mostrado na Tabela 1, algumas métricas são projetadas para abordar
parcialmente essas questões.
4. Muitas métricas intrínsecas baseadas em corpus são projetadas para comparação com vários
textos de referência, mas isso nem sempre é possível em nlg. Por exemplo, embora os conjuntos
de dados de legendas de imagens normalmente contenham múltiplas legendas por imagem
(normalmente, cerca de 5), este não é o caso em outros domínios, como relatórios meteorológicos
ou recomendações de restaurantes.
O resultado é que as avaliações da PNL dependem cada vez mais de múltiplos métodos, uma tendência
,
que é igualmente visível em outras áreas da PNL, como a MT (Callison-Burch et al., 2007, 2008).
72
Machine Translated by Google
73
Machine Translated by Google
1. fornecer uma atualização das principais tarefas e arquiteturas no campo, com uma
ênfase em técnicas recentes baseadas em dados;
Ao longo desta pesquisa, surgiram vários temas gerais relacionados. Provavelmente, o tema
central tem sido a mudança gradual das abordagens tradicionais, baseadas em regras, para
abordagens estatísticas e baseadas em dados, o que, claro, tem sido
ocorrendo em IA em geral. Na nlg, isto teve um impacto substancial na forma como
tarefas individuais são abordadas (por exemplo, passar de tarefas dependentes de domínio para
abordagens mais gerais, independentes de domínio, confiando em vez disso nos dados
disponíveis), bem como em como as tarefas são combinadas em diferentes arquiteturas (por exemplo,
passando de abordagens modulares para abordagens mais integradas). A compensação
entre a qualidade de saída do texto gerado e a eficiência e robustez
de uma abordagem está se tornando uma questão central: abordagens baseadas em dados são indiscutivelmente
mais eficientes do que as abordagens baseadas em regras, mas a qualidade dos resultados pode
ser comprometida, pelas razões que discutimos. Outro tema importante foi
a maior interação entre a pesquisa principal da NGL e outras disciplinas, como
como visão computacional (no caso de visão para texto) e criatividade computacional
pesquisa (no caso do uso de linguagem criativa).
Na conclusão deste levantamento abrangente do estado da arte em
nlg, e dado o ritmo acelerado a que ocorrem os desenvolvimentos tanto na indústria como
74
Machine Translated by Google
academia, consideramos útil apontar algumas possíveis direções futuras, bem como levantar uma série
de questões que pesquisas recentes trouxeram à tona.
É aqui que a GNL se destaca, oferecendo uma bateria de técnicas para selecionar, estruturar e
apresentar a informação.
No entanto, a questão de saber se vale a pena usar a GNL num contexto específico também deve
ser acompanhada pela questão de como deve ser usada. A nossa pesquisa centrou-se nas técnicas de
geração de texto, mas o texto nem sempre é apresentado isoladamente. Outras dimensões importantes
incluem a estrutura e o layout do documento, um problema pouco estudado (mas ver Power et al.,
2003). Eles também incluem o papel dos gráficos no texto, uma área onde há potencial para maior
interação entre as comunidades NGL e de visualização, abordando questões como quais informações
devem ser renderizadas textualmente e quais podem ser tornadas mais acessíveis em uma modalidade
gráfica. Estas questões são de grande relevância em alguns domínios, especialmente aqueles em que
a entrega de informações precisas é um precursor da tomada de decisões em situações críticas (para
alguns exemplos, ver Elting et al., 1999; Law et al., 2005).
Em nossa seção introdutória, distinguimos a geração de texto para texto da geração de dados para
texto; esta pesquisa centrou-se principalmente neste último. As duas áreas têm características distintas,
entre as quais o fato de que as entradas do NGL tendem a variar amplamente, assim como os objetivos
dos sistemas NGL em função do domínio em consideração. Em contraste, a entrada na geração de
texto para texto, especialmente a Sumarização Automática, é comparativamente homogênea e, embora
seus objetivos possam variar amplamente, o campo também tem sido bem-sucedido na definição de
tarefas e conjuntos de dados (por exemplo, por meio das tarefas compartilhadas duc) , que
estabeleceram o padrão para pesquisas subsequentes.
No entanto, um olhar mais atento aos dois tipos de geração mostrará mais possibilidades de
convergência do que sugere a caracterização acima. Para começar, se a nlg está preocupada em
passar dos dados para o texto, então certamente a entrada textual deve ser considerada como uma
dentre uma ampla variedade de formas nas quais os dados de entrada podem ser usados.
75
Machine Translated by Google
Seja apresentado. Alguns trabalhos recentes, como Kondadadi et al. (2013) (discutido na Secção 3.3)
e McIntyre e Lapata (2009) (discutido na Secção 6) concentraram-se explicitamente em aproveitar
esses dados para gerar texto coerente. Outras abordagens para nlg, incluindo alguns sistemas que
estão em conformidade com uma arquitetura padrão e modular de dados para texto (por exemplo,
Hunter et al., 2012), tiveram que lidar com o texto como um entre uma variedade de tipos de entrada. ,
embora usando técnicas muito simples.
A geração a partir de entradas heterogêneas que incluem texto como um tipo de dados é uma direção
de pesquisa promissora, especialmente tendo em vista as grandes quantidades de dados textuais
disponíveis, muitas vezes acompanhados de números ou imagens.
A proeminência dos modelos teóricos na GNL tende a depender da tarefa em consideração. Por
exemplo, muitas abordagens à realização discutidas na Secção 2.6 baseiam-se numa teoria específica
de estrutura sintática; a pesquisa sobre reg tem sido frequentemente baseada em insights da teoria
pragmática, especialmente nas máximas griceanas (Grice, 1975); e muitas pesquisas sobre estruturação
de texto foram inspiradas na Teoria da Estrutura Retórica (Mann & Thompson, 1988). As abordagens
relativamente novas em várias tarefas de planejamento de frases – especialmente aquelas relacionadas
com estilo, afeto e personalidade – tendem a ter uma inspiração teórica, na forma de um modelo de
personalidade (John & Srivastava, 1999) ou de uma teoria de polidez (Brown & Levinson). , 1987), por
exemplo.
Na maioria das vezes, tais teorias são aproveitadas no processo de formalização de um problema
específico para alcançar uma solução tratável. Tratar a sua implementação num sistema NGL como
um teste explícito da teoria, como Mellish e Dale (1998) parecem sugerir, acontece com muito menos
frequência. Isto talvez seja um reflexo de uma divisão entre perspectivas “orientadas para a engenharia”
e “orientadas para a teoria” neste campo: a primeira perspectiva enfatiza soluções viáveis, robustez e
qualidade dos resultados; o último enfatiza a solidez teórica, a plausibilidade cognitiva e assim por
diante. No entanto, a dicotomia teoria/engenharia é indiscutivelmente falsa. Embora o objetivo da
pesquisa em GNL seja muitas vezes diferente, digamos, daquele da modelagem cognitiva (por exemplo,
poucos sistemas de GNL procuram modelar erros de produção explicitamente), também é verdade
que as implementações orientadas pela teoria são, elas próprias, contribuições valiosas para o trabalho
teórico. .
Recentemente, alguns autores argumentaram que os profissionais de GNL deveriam prestar mais
atenção aos modelos teóricos e cognitivos. As razões apresentadas a favor deste argumento são
duplas. Primeiro, os resultados psicolinguísticos e os modelos teóricos podem realmente ajudar a
melhorar os sistemas implementados, como afirmam Rajkumar e
76
Machine Translated by Google
White (2014) mostra para o caso de realização. Em segundo lugar, como argumentado, por exemplo,
por van Deemter et al. (2012b), os modelos teóricos podem beneficiar da precisão formal que é a
base da investigação linguística computacional; um caso concreto em PNL é fornecido por Poesio et
al. (2004), cuja implementação da Teoria da Centralização (Grosz et al., 1995) lançou luz sobre uma
série de parâmetros subespecificados no modelo original e modificações subsequentes do mesmo.
O nosso argumento aqui é que a GNL forneceu uma riqueza de conhecimentos teóricos que não
devem ser perdidos pela comunidade de investigação mais ampla; da mesma forma, os investigadores
da NGL beneficiariam, sem dúvida, de uma consciência dos desenvolvimentos recentes no trabalho
teórico e experimental.
Uma segunda área potencial de crescimento para a GNL está situada na geração de línguas.
O termo situado é geralmente usado para se referir ao uso da linguagem em ambientes físicos ou
virtuais onde as escolhas de produção levam explicitamente em conta propriedades físicas e
perceptivas. A pesquisa sobre processamento de linguagem situada avançou significativamente nos
últimos anos, com estruturas para produção e compreensão de linguagem em contextos virtuais (por
exemplo, Kelleher et al., 2005), bem como uma série de contribuições dentro da NGL, especialmente
para a geração de linguagem em ambientes interativos (Kelleher & Kruijff, 2006; Stoia & Shockley,
2006; Garoufi & Koller, 2013; Dethlefs & Cuay´ahuitl, 2015). O popular desafio deu ainda mais
impulso a esta pesquisa (Striegnitz et al., 2011). Claramente,
77
Machine Translated by Google
este trabalho também está ligado ao empreendimento de fundamentar a linguagem gerada no mundo
perceptivo, do qual a pesquisa discutida na Seção 4 constitui uma das tendências atuais. No entanto, existem
muitos campos onde a situação é fundamental, nos quais a GNL ainda pode fazer contribuições inovadoras.
Um deles são os jogos. Com exceção de alguns esforços para aumentar a variedade de expressões
linguísticas usadas em ambientes virtuais (por exemplo, Orkin & Roy, 2007), a tecnologia nlg é relativamente
pouco representada na pesquisa sobre jogos, apesar do progresso significativo na geração de conteúdo
dinâmico em ambientes de jogos. (por exemplo, Togelius et al., 2011).
Isto pode dever-se à percepção de que a interacção linguística nos jogos é previsível e pode basear-se em
texto “enlatado”. No entanto, com a crescente influência da gamificação como estratégia para melhorar uma
variedade de atividades além do entretenimento, como a pedagogia, bem como o desenvolvimento de
técnicas sofisticadas de planeamento para variar a forma como os mundos dos jogos se desenrolam em
tempo real, o como -a suposição de previsibilidade no que diz respeito ao uso da linguagem pode muito bem
estar sujeita a revisão.
Terceiro, há um interesse crescente na aplicação de técnicas de GNL para geração a partir de bases de
conhecimento e ontologias estruturadas (por exemplo, Ell & Harth, 2014; Duma & Klein, 2013; Gyawali &
Gardent, 2014; Mrabet et al., 2016; Sleimi & Gardent, 2016, alguns dos quais foram brevemente discutidos
na Secção 3.3.4). A disponibilidade de bases de conhecimento como a dbpedia, ou folksonomias como a
Freebase, não só constituem fontes de input por si só, mas também abrem a possibilidade de explorar
alinhamentos entre inputs estruturados e texto numa variedade mais ampla de domínios do que tem sido até
agora possível. caso.
Finalmente, embora tenha havido uma mudança significativa nos últimos anos no sentido de técnicas
baseadas em dados em nlg, muitas delas não foram testadas em aplicações comerciais ou do mundo real,
apesar do crescimento na comercialização de serviços de geração de texto personalizados observado no
seção introdutória. Normalmente, os argumentos para sistemas baseados em regras em cenários comerciais,
ou em casos onde a entrada é de alto volume e heterogênea, são que (1) sua saída é mais fácil de controlar
para sistemas sob medida; ou (2) que os dados estão, em qualquer caso, indisponíveis num determinado
domínio, tornando discutível o uso de técnicas estatísticas; ou (3) não foi demonstrado que os sistemas
baseados em dados sejam capazes de se expandir para além dos cenários experimentais (alguns destes
argumentos são apresentados, por exemplo, por Harris, 2008). A resposta ao primeiro ponto depende da
disponibilidade de técnicas que permitam ao desenvolvedor “olhar nos bastidores” e compreender as relações
estatísticas aprendidas por um modelo. Tais técnicas estão, por exemplo, sendo desenvolvidas para investigar
ou visualizar as representações aprendidas por redes neurais profundas. O segundo ponto exige mais
investimento em pesquisas sobre aquisição de dados e alinhamento de dados-texto. Técnicas de geração
que dependem de alinhamentos menos precisos entre dados e texto também são uma direção futura
promissora. Finalmente, a escalabilidade continua a ser um desafio em aberto. Muitos dos sistemas que
discutimos foram desenvolvidos em ambientes de investigação, onde o objectivo é, obviamente, expandir
as fronteiras da GNL e demonstrar a viabilidade ou correcção de novas abordagens.
Embora em alguns casos a investigação sobre dados para texto tenha abordado problemas de grande escala
– nomeadamente em alguns dos sistemas que resumem dados numéricos – uma maior preocupação com a
escalabilidade também concentraria a atenção dos investigadores em questões como
78
Machine Translated by Google
como o tempo e os recursos necessários para coletar dados e treinar um sistema e a eficiência dos
algoritmos que estão sendo implantados. É evidente que os desenvolvimentos no hardware irão
aliviar estes problemas, como aconteceu com alguns métodos estatísticos que recentemente se
tornaram mais viáveis.
9 Conclusão
Nos últimos anos, assistimos a um aumento acentuado no interesse na geração automática de
texto. As empresas agora oferecem tecnologia nlg para uma série de aplicações em domínios como
jornalismo, meteorologia e finanças. O enorme aumento nos dados disponíveis e no poder
computacional, bem como os rápidos desenvolvimentos na aprendizagem automática, criaram
muitas novas possibilidades e motivaram os investigadores da NGL a explorar uma série de novas
aplicações, relacionadas, por exemplo, com a geração de imagem para texto, enquanto as aplicações
relacionadas com as redes sociais parecem estar ao virar da esquina, como testemunha, por
exemplo, o surgimento de técnicas relacionadas com a nlg para a criação automática de conteúdos,
bem como a nlg para o Twitter e chatbots (por exemplo, Dale, 2016). Com os desenvolvimentos
ocorrendo em um ritmo constante e a tecnologia também encontrando seu caminho em aplicações
industriais, o futuro do campo parece brilhante. Na nossa opinião, a investigação em GNL deveria
ser ainda mais fortalecida através de uma maior colaboração com disciplinas afins. Esperamos que
esta pesquisa sirva para destacar alguns dos caminhos potenciais para esse trabalho multidisciplinar.
Reconhecimentos
Este trabalho beneficiou enormemente das discussões e comentários de Grzegorz Chrupala, Robert
Dale, Raquel Herv´as, Thiago Castro Ferreira, Ehud Reiter, Marc Tanti, Mariët Theune, Kees van
Deemter, Michael White e Sander Wubben. EK recebeu apoio da RAAK-PRO SIA (2014-01-51PRO)
e da Organização Holandesa para Pesquisa Científica (NWO 360-89-050), que é reconhecida com
gratidão.
Referências
Anderson, P., Fernando, B., Johnson, M. e Gould, S. (2016). SPICE: Avaliação Semântica
Proposicional de Legendas de Imagens. Em Proc. ECCV'16, pp.
Androutsopoulos, I., & Malakasiotis, P. (2010). Uma pesquisa sobre métodos de paráfrase e
implicação textual. Jornal de Pesquisa de Inteligência Artificial, 38, 135–187.
Angeli, G., Liang, P. e Klein, D. (2010). Uma abordagem probabilística simples e independente de
domínio para geração. Em Proc. EMNLP'10, pp. 502–512.
79
Machine Translated by Google
Antol, S., Agrawal, A., Lu, J., Mitchell, M., Batra, D., Zitnick, CL, & Parikh, D. (2015). VQA: Resposta visual
a perguntas. Em Proc. ICCV'15, pp.
Antol, S., Zitnick, CL e Parikh, D. (2014). Aprendizagem zero-shot por meio de abstração
visual. Em Proc. ECCV'14, pp.
Appelt, D. (1985). Planejando frases em inglês. Cambridge University Press,
Cambridge, Reino Unido.
Ballesteros, M., Bohnet, B., Mille, S., & Wanner, L. (2015). Geração de frases baseada em dados com
árvores não isomórficas. Em Proc. NAACL-HTL'15, pp.
Banaee, H., Ahmed, MU e Loutfi, A. (2013). Rumo a NLG para monitoramento de dados fisiológicos com
redes de áreas corporais. Em Proc. ENLG'13, pp.
80
Machine Translated by Google
Barzilay, R., Elhadad, N., & McKeown, KR (2002). Inferindo estratégias para
ordenação de frases no resumo de notícias multidocumentos. Journal of Artificial
Intelligence Research, 17, 35–55.
Barzilay, R. e Lapata, M. (2005). Seleção coletiva de conteúdo para geração do conceito em
texto. Em Proc. HLT/EMNLP'05, pp.
Barzilay, R. e Lapata, M. (2006). Agregação via Set Partitioning for Natural
Geração de Linguagem. Em Proc. HLT-NAACL'06, pp.
Barzilay, R. e Lee, L. (2004). Pegando a deriva: modelos de conteúdo probabilísticos, com
aplicações para geração e resumo. Em Proc. HLT-NAACL'04, pp.
Bernardi, R., Cakici, R., Elliott, D., Erdem, A., Erdem, E., Ikizler-Cinbis, N.,
Keller, F., Muscat, A. e Plank, B. (2016). Geração automática de descrição a partir de
imagens: um levantamento de modelos, conjuntos de dados e medidas de avaliação.
Jornal de Pesquisa de Inteligência Artificial, 55, 409–442.
Biber, D. (1988). Variação na fala e na escrita. Universidade de Cambridge
Imprensa, Cambridge.
81
Machine Translated by Google
Binsted, K., Bergen, B. e McKay, J. (2003). Humor com trocadilhos e sem trocadilhos na aprendizagem
de um segundo idioma. Em Proc. CHI 2003 Workshop sobre Modelagem de Humor na
Interface.
Binsted, K., Pain, H. e Ritchie, GD (1997). Avaliação infantil de enigmas de trocadilhos gerados por
computador. Pragmática e Cognição, 5 (2), 305–354.
Binsted, K. e Ritchie, GD (1997). Regras computacionais para gerar enigmas de trocadilhos. Humor:
International Journal of Humor Research, 10 (1), 25–76.
Bohnet, B. (2008). A impressão digital de expressões referenciais humanas e sua realização superficial com
transdutores gráficos. Em Proc. INLG'08, pp.
Bohnet, B., Wanner, L., Mille, S. e Burga, A. (2010). Geração de frases profundas multilíngues de
ampla cobertura com um realizador estocástico multinível.
Em Proc. COLING'10, pp.
Bollegala, D., Okazaki, N. e Ishizuka, M. (2010). Uma abordagem ascendente para ordenação de
frases para resumo de vários documentos. Processamento e gerenciamento de informações,
46 (1), 89–109.
Bouayad-Agha, N., Casamayor, G., Wanner, L. e Mellish, C. (2013). Visão geral do primeiro desafio
de seleção de conteúdo de dados abertos da Web semântica.
Em Proc. ENGL'11, pp. 98–102.
Boyer, KE, Phillips, R., Ingram, A., Ha, EY, Wallis, M., Vouk, M., & Lester, JC (2011). Investigando a
relação entre estrutura de diálogo e eficácia da tutoria: Uma abordagem de modelagem de
Markov oculta. Jornal Internacional de Inteligência Artificial em Educação, 21 (1-2), 65–81.
Brants, T. e Franz, A. (2006). Web 1T 5 gramas Versão 1. Tecnologia. rep., Consórcio de Dados
Linguísticos.
Bringsjord, S. e Ferrucci, DA (1999). Inteligência Artificial e Criatividade Literária: Por Dentro da Mente
de BRUTUS, uma Máquina de Contar Histórias. Lawrence Erlbaum Associates, Hillsdale, NJ.
Brown, JC, Frishkoff, GA e Eskenazi, M. (2005). Geração automática de perguntas para avaliação de
vocabulário. Em Proc. EMNLP'05, pp.
82
Machine Translated by Google
Callison-Burch, C., Fordyce, C., Koehn, P., Monz, C., & Schroeder, J. (2008).
Meta-avaliação adicional da tradução automática. Em Proc. StatMT'08, pp.
Caporaso, JG, Deshpande, N., Fink, JL, Bourne, PE, Bretonnel Cohen, K., & Hunter, L.
(2008). A avaliação intrínseca de ferramentas de mineração de texto pode não
prever o desempenho em tarefas realistas. Simpósio do Pacífico sobre
Biocomputação, 13, 640–651.
Carenini, G. e Moore, JD (2006). Gerar e avaliar argumentos avaliativos. Inteligência
Artificial, 170 (11), 925–952.
Carroll, J. e Oepen, S. (2005). Realização de alta eficiência para uma gramática de
unificação de ampla cobertura. Em Dale, R. (Ed.), Anais da 2ª Conferência Conjunta
Internacional sobre Processamento de Linguagem Natural (IJCNLP'05), pp.
83
Machine Translated by Google
Chi, M., Jordan, PW e VanLehn, K. (2014). Quando o diálogo tutorial é mais eficaz do que a
tutoria baseada em etapas? Em Proc. ITS'14, pp.
Colin, E., Gardent, C., Mrabet, Y., Narayan, S., & Perez-Beltrachini, L. (2016).
O desafio webnlg: Gerando texto a partir de dados dbpedia. Em Proc.
INLG'16, pp. 163–167, Edimburgo, Reino Unido.
Colton, S., Goodwin, J. e Veale, T. (2012). Geração de Poesia Full-FACE. Em Proc. ICCC'12,
pp.
Concepción, E., Mendez, G., Gervas, P., & Leon, C. (2016). Uma proposta de desafio para
geração de narrativas utilizando cnls. Em Proc. INLG'16, pp. 171–173, Edimburgo, Reino
Unido.
Cuay´ahuitl, H., & Dethlefs, N. (2011). Aprendizagem por Reforço Hierárquico e Modelos Ocultos
de Markov para Geração de Linguagem Natural Orientada a Tarefas.
Em Proc. ACL'11, pp. 654–659.
Dale, R. (2016). O retorno dos chatbots. Engenharia de Linguagem Natural, 22 (5), 811817.
Dale, R., Anisimoff, I., & Narroway, G. (2012). Hoo 2012: Um relatório sobre a tarefa
compartilhada de correção de erros de preposição e determinante. Em Proc. 7º Workshop
sobre Construção de Aplicações Educacionais Usando PNL, pp.
84
Machine Translated by Google
De Smedt, K., Horacek, H. e Zock, M. (1996). Arquiteturas para geração de linguagem natural:
problemas e perspectivas. Em Adorni, G. e Zock, M.
(Eds.), Tendências na geração de linguagem natural: uma perspectiva de inteligência
artificial, pp. Springer, Berlim e Heidelberg.
Devlin, J., Cheng, H., Fang, H., Gupta, S., Deng, L., He, X., Zweig, G., & Mitchell, M. (2015a).
Modelos de linguagem para legendagem de imagens: as peculiaridades e o que funciona.
Em Proc. ACL/IJCNLP'15, pp.
Devlin, J., Gupta, S., Girshick, R., Mitchell, M., & Zitnick, CL (2015b).
Explorando abordagens de vizinhos mais próximos para legendas de imagens. Repositório
de Pesquisa de Computação (arXiv), 1505.04467, 1–6.
Di Eugenio, B., Fossati, D., Yu, D., Haller, S., & Glass, M. (2005). A agregação melhora a
aprendizagem: Experimentos em geração de linguagem natural para sistemas de tutoria
inteligentes. Em Proc. ACL'05, pp.
85
Machine Translated by Google
Dong, D., Wu, H., He, W., Yu, D. e Wang, H. (2015). Aprendizagem multitarefa para tradução de vários
idiomas. Em Proc. ACL/IJCNLP'15, pp.
86
Machine Translated by Google
Espinosa, D., White, M., & Mehay, D. (2008). Hypertagging: Supertagging para realização
de superfície com CCG. Em Proc. ACL-HLT'08, pp.
Evans, R., Piwek, P. e Cahill, L. (2002). O que é nlg?. Em Proc. INLG'02, pp.
144–151.
Fang, H., Gupta, S., Iandola, F., Srivastava, R., Deng, L., Doll´ar, P., Gao, J., He, X.,
Mitchell, M., Platt, JC , Zitnick, CL e Zweig, G. (2015). Das legendas aos conceitos
visuais e vice-versa. Em Proc. CVPR'15.
Farhadi, A., Hejrati, M., Sadeghi, MA, Young, P., Rashtchian, C., Hocken-maier, J., &
Forsyth, D. (2010). Cada imagem conta uma história: Gerando frases a partir de
imagens. Em Proc. ECCV'10, Vol. 6314 LNCS, pp.
87
Machine Translated by Google
Farnadi, G., Zoghbi, S., Moens, M.-F., & De Cock, M. (2013). Reconhecendo traços de
personalidade usando atualizações de status do Facebook. No Relatório Técnico
AAAI WS-13-01: Reconhecimento de Personalidade Computacional (Tarefa
Compartilhada), pp.
Fass, D. (1991). met*: Um método para discriminar metonímia e metáfora por computador.
Lingüística Computacional, 17 (1), 49–90.
Feng, Y. e Lapata, M. (2010). Quantas palavras vale uma imagem? Geração automática
de legendas para imagens de notícias. Em Proc. ACL'10, pp.
Ferraro, F., Mostafazadeh, N., Huang, T.-H., Vanderwende, L., Devlin, J., Galley, M., &
Mitchell, M. (2015). Uma pesquisa de conjuntos de dados atuais para pesquisa
em visão e linguagem. Em Proc. EMNLP'15, pp.
Ferreira, TC, Krahmer, E., & Wubben, S. (2016). Rumo a mais variação na geração de
texto: Desenvolvendo e avaliando modelos de variação para escolha da forma
referencial. Em Proc. ACL'16, pp.
Ferreira, TC, Krahmer, E., & Wubben, S. (2017). Gerando referências flexíveis de nomes
próprios em texto: Dados, modelos e avaliação. Em Proc. EACL'17.
Fikes, RE e Nilsson, NJ (1971). Tiras: Uma nova abordagem para a aplicação da prova de teoremas na
resolução de problemas. Inteligência Artificial, 2 (3-4), 189–208.
88
Machine Translated by Google
Geman, D., Geman, S., Hallonquist, N., & Younes, L. (2015). Teste Visual Turing para
sistemas de visão computacional. Anais da Academia Nacional de Ciências dos Estados
Unidos da América, 112 (12), 3618–23.
Genette, G. (1980). Discurso Narrativo: Um Ensaio de Método. Universidade Cornell-
City Press, Ithaca, NY.
Gervás, P. (2001). Um sistema especialista para a composição de poesia formal espanhola.
Sistemas Baseados em Conhecimento, 14 (3-4), 181–188.
Gervás, P. (2009). Abordagens computacionais para contar histórias e criatividade. Revista
AI, outono de 2009, 49–62.
Gervás, P. (2010). Criatividade Linguística de Engenharia: Voo de Pássaros e Aviões a Jato.
Em Proc. 2º Workshop sobre Abordagens Computacionais para Criatividade
Linguística, pp.
Gervás, P. (2012). Do Velocino do Fato aos Fios Narrativos: um Modelo Computacional de Composição.
Em Proc. Workshop sobre Modelos Computacionais de Narrativa.
89
Machine Translated by Google
Goldberg, E., Driedger, N., & Kittredge, RI (1994). Usando processamento de linguagem
natural para produzir previsões meteorológicas. Especialista IEEE, 2, 45–53.
Goldberg, Y. (2016). Uma cartilha sobre modelos de redes neurais para processamento de
linguagem natural. Jornal de Pesquisa de Inteligência Artificial, 57, 345–420.
Goodfellow, I., Bengio, Y. e Courville, A. (2016). Aprendizagem profunda. Livro em preparação
para a MIT Press.
Goodman, J., Cryder, C. e Cheema, A. (2013). Coleta de dados em um mundo plano: os
pontos fortes e fracos das amostras mecânicas de turcos. Jornal de Tomada de Decisão
Comportamental, 26 (3), 213–224.
Goyal, R., Dymetman, M. e Gaussier, E. (2016). Geração de linguagem natural por meio de
RNNs baseados em caracteres com conhecimento prévio de estado finito. Em Proc.
COLING'16, pp.
Greene, E., Ave, L., Knight, K. e Rey, M. (2010). Análise Automática de Poesia Rítmica com
Aplicações à Geração e Tradução. Em Proc. EMNLP'10, pp.
90
Machine Translated by Google
91
Machine Translated by Google
Jia, Y., Shelhamer, E., Donahue, J., Karayev, S., Long, J., Girshick, R., Guadar-rama,
S., & Darrell, T. (2014). Caffe: Arquitetura Convolucional para Incorporação
Rápida de Recursos. Em Proc. Conferência Internacional ACM sobre Multimídia,
pp. ACM.
Johannsen, A., Blue, D., & Søgaard, A. (2015). Variação sintática interlingual entre
idade e sexo. Em Proc. CoNLL'15, pp. 103–112.
John, O. e Srivastava, S. (1999). A taxonomia dos cinco grandes traços: história,
medição e perspectivas teóricas. Em Pervin, L., & John, O. (Eds.), Manual de
Teoria e Pesquisa da Personalidade. Guilford Press, Nova York.
Johnson, J., Karpathy, A. e Fei-Fei, L. (2016). DenseCap: redes de localização
totalmente convolucionais para legendas densas. Em Proc. CVPR'16.
92
Machine Translated by Google
Johnson, WL, Rizzo, P., Bosma, W., Kole, S., Ghijsen, M., & Van Welbergen, H. (2004).
Gerando diálogo tutorial socialmente apropriado. Em Andre, E., Dybkjæ r, L.,
Minker, W., & Heisterkamp, P. (Eds.), Sistemas de Diálogo Afetivo: Anais do
Tutorial e Workshop de Pesquisa ADS 2004, Vol. Aula nº, pp. Springer, Berlim e
Heidelberg.
Jordan, PW e Walker, MA (2005). Aprender regras de seleção de conteúdo para gerar
descrições de objetos em diálogo. Jornal de Pesquisa de Inteligência Artificial,
24, 157–194.
Joshi, AK e Schabes, Y. (1997). Gramáticas adjacentes à árvore. No Manual de
Linguagens Formais, Vol. 3, pp. Springer, Nova York.
Kalchbrenner, N. e Blunsom, P. (2013). Modelos recorrentes de tradução contínua. Em
Proc. EMNLP'13, pp.
Karpathy, A. e Fei-Fei, L. (2015). Alinhamentos visual-semânticos profundos para gerar
descrições de imagens. Em Anais da Conferência IEEE sobre Visão
Computacional e Reconhecimento de Padrões (CVPR'15), pp.
Karpathy, A., Joulin, A. e Fei-Fei, L. (2014). Incorporações profundas de fragmentos
para mapeamento bidirecional de frases de imagens. Em Proc. NIPS'14, pp.
Kasper, RT (1989). Uma interface flexível para vincular aplicativos ao gerador de frases
do Penman. Em Proc. Workshop sobre Fala e Linguagem Natural, pp.
93
Machine Translated by Google
Kim, J. e Mooney, RJ (2010). Alinhamento Generativo e Análise Semântica para Aprendizagem com
Supervisão Ambígua. Em Proc. COLING'10, pp.
Kondadadi, R., Howald, B. e Schilder, F. (2013). Uma Estrutura Estatística NLG para
Planejamento e Realização Agregados. Em Proc. Volume 1: Artigos Longos, pp.
94
Machine Translated by Google
Kutlak, R., Mellish, C. e van Deemter, K. (2013). Desafio de seleção de conteúdo - inscrição
na Universidade de Aberdeen. Em Proc. ENGL'13, pp. 208–209.
Kuznetsova, P., Ordonez, V., Berg, AC, Berg, T., & Choi, Y. (2012). Geração Coletiva de
Descrições de Imagens Naturais. Em Proc. ACL'12, pp. 359–368.
Kuznetsova, P., Ordonez, V., Berg, T., & Choi, Y. (2014). TREETALK: Composição e
compressão de árvores para descrições de imagens. Transações da Associação para
Linguística Computacional, 2, 351–362.
Labbé, C., & Portet, F. (2012). Rumo a um resumo de opinião abstrativo de múltiplas avaliações
no domínio do turismo. Em Proc. Workshop Internacional sobre Descoberta de
Sentimentos a partir de Dados Afetivos, pp.
Lakoff, G. e Johnson, M. (1980). Metáforas pelas quais vivemos. Chicago University Press,
Chicago, Illinois.
95
Machine Translated by Google
Lebret, R., Grangier, D. e Auli, M. (2016). Geração de Texto a partir de Dados Estruturados
com Aplicação ao Domínio Biografia. Em Proc. EMNLP'16.
LeCun, Y., Bengio, Y. e Hinton, G. (2015). Aprendizagem profunda. Natureza, 521 (7553),
436–444.
96
Machine Translated by Google
Lipschultz, M., Litman, DJ, Jordan, PW e Katz, S. (2011). Previsão de mudanças no nível de
abstração nas respostas do tutor aos alunos. Em Proc.
FLAIRS'11.
Luong, M.-T., Le, QV, Sutskever, I., Vinyals, O., & Kaiser, L. (2016). Sequência multitarefa para
aprendizagem sequencial. Em Proc. ICLR'16, pp. 1–10.
Mahamood, S. e Reiter, E. (2011). Gerando linguagem natural afetiva para pais de bebês
neonatais. Em Proc. ENLG'11, pp.
Mairesse, F., Gasic, M., Jurcicek, F., Keizer, S., Thompson, B., Yu, K., & Young, S. (2010).
Geração de linguagem estatística baseada em frases usando modelos gráficos e
aprendizagem ativa. Em Proc. ACL'10, pp.
Mann, WC e Matthiessen, CM (1983). Nigel: Uma gramática sistêmica para geração de texto
(Relatório Técnico RR-83-105). Tecnologia. representante, ISI, Universidade do Sul da
Califórnia, Marina del Rey, CA.
97
Machine Translated by Google
Manurung, R., Ritchie, GD e Thompson, H. (2012). Usando algoritmos genéticos para criar texto
poético significativo. Jornal de Inteligência Artificial Experimental e Teórica, 24 (1), 43–64.
Mao, J., Huang, J., Toshev, A., Camburu, O., Yuille, A., & Murphy, K. (2016).
Geração e compreensão de descrições inequívocas de objetos. Em Proc. CVPR'16.
Mao, J., Xu, W., Yang, Y., Wang, J., Huang, Z., & Yuille, A. (2015a). Legendas profundas com redes
neurais recorrentes multimodais (m-RNN). Em Proc. ICLR.
Mao, J., Xu, W., Yang, Y., Wang, J., Huang, Z., & Yuille, A. (2015b). Aprendendo como uma
criança: conceito visual inovador e rápido aprendendo a partir de descrições de frases de
imagens. Em Proc. ICCV'15, pp.
98
Machine Translated by Google
McRoy, SW, Channarukul, S. e Ali, SS (2003). Uma abordagem aumentada baseada em modelo para
realização de texto. Engenharia de Linguagem Natural, 9 (04), 381–420.
99
Machine Translated by Google
Mitchell, M., Dodge, J., Goyal, A., Yamaguchi, K., Stratos, K., Han, X., Mensch, A., Berg,
A., Han, X., Berg, T., & Daume III, H. (2012). Midge: Gerando descrições de
imagens a partir de detecções de visão computacional. Em Proc.
EACL'12, pp.
Mitchell, M., van Deemter, K., & Reiter, E. (2013). Gerando expressões que se referem
a objetos visíveis. Em Proc. NAACL'13, pp. 1174–1184.
Mnih, A. e Hinton, G. (2007). Três novos modelos gráficos para modelagem estatística
de linguagem. Em Proc. ICML'07, pp.
Molina, M., Stent, A. e Parodi, E. (2011). Gerando notícias automatizadas para explicar
o significado dos dados do sensor. Em Gama, J., Bradley, E., & Hollm´en, J.
(Eds.), Proc. AID 2011, pp. Springer, Berlim e Heidelberg.
Montfort, N. (2007). Ordenação de eventos em narrativas de ficção interativas. Em Proc.
Simpósio de outono da AAAI sobre tecnologias narrativas inteligentes, pp.
Montfort, N. (2013). Relógio mundial. Harvard Book Store Press, Cambridge, MA.
Moore, JD e Paris, C. (1993). Planejando texto para diálogos consultivos: Capturando informações
intencionais e retóricas. Lingüística Computacional, 19 (4), 651–694.
100
Machine Translated by Google
Nirenburg, S., Lesser, V., & Nyberg, E. (1989). Controlando uma geração de linguagem
planejadores de ação. Em Proc. IJCAI'89, pág. 1524–1530.
O'Donnell, M. (2001). ILEX: uma arquitetura para um sistema dinâmico de geração de hipertexto.
Engenharia de Linguagem Natural, 7 (3), 225–250.
Ah, AH e Rudnicky, AI (2002). Geração estocástica de linguagem natural para sistemas de
diálogo falado. Fala e linguagem computacional, 16 (3-4), 387–407.
Oliva, A. e Torralba, A. (2001). Modelando a forma da cena: Uma representação holística do
envelope espacial. Jornal Internacional de Visão Computacional, 42 (3), 145–175.
Ordonez, V., Deng, J., Choi, Y., Berg, AC, & Berg, T. (2013). Da categorização de imagens em
grande escala às categorias de nível básico. Em Proc. ICCV'13, pp.
Ordonez, V., Kulkarni, G., & Berg, T. (2011). Im2text: descrição de imagens usando 1 milhão de
fotografias legendadas. Em Proc. NIPS'11, pp. Curran Associates Ltd.
Ordonez, V., Liu, W., Deng, J., Choi, Y., Berg, AC, & Berg, T. (2016).
Aprendendo a nomear objetos. Comunicações do ACM, 59 (3), 108–115.
Orkin, J. e Roy, D. (2007). O jogo do restaurante: aprendendo comportamento social e linguagem
com milhares de jogadores online. Jornal de Desenvolvimento de Jogos, 3, 39–60.
Paiva, DS, & Evans, R. (2005). Controle da linguagem natural com base empírica
geração. Em Proc. ACL'05, pp.
101
Machine Translated by Google
Papineni, K., Roukos, S., Ward, T., & Zhu, W.-j. (2002). BLEU: um método para avaliação automática de
tradução automática. Em Proc. ACL'02, pp.
Passoneau, RJ (2006). Medição de acordo em itens com valor definido (MASI) para anotação
semântica e pragmática. Em Proc. LREC'06, pp.
Pennington, J., Socher, R. e Manning, CD (2014). GloVe: Vetores Globais
para representação de palavras. Em Proc. EMNLP'14.
Perez, R.,
' Ortiz, O., Luna, W., Negrete, S., Castellanos, V., Penalosa, E., & Avila, R. (2011).
Um sistema para avaliar novidades em narrativas geradas por computador. Em Proc.
ICCC'11, pp. 63–68.
Petrovic, S. e Matthews, D. (2013). Geração de piadas não supervisionadas de grandes
dados Em Proc. ACL'13, pp. 228–232.
Pickering, MJ e Garrod, S. (2004). Rumo a uma psicologia mecanicista do diálogo. As ciências
comportamentais e do cérebro, 27 (2), 169–90; discussão 190–226.
Portet, F., Reiter, E., Gatt, A., Hunter, JR, Sripada, S., Freer, Y., & Sykes, C. (2009). Geração
automática de resumos textuais a partir de dados de terapia intensiva neonatal.
Inteligência Artificial, 173 (7-8), 789–816.
Power, R., Scott, D. e Bouayad-Agha, N. (2003). Estrutura do Documento. Com-
Lingüística putacional, 29 (2), 211–260.
Power, R. e Williams, S. (2012). Gerando aproximações numéricas. Com-
Lingüística putacional, 38 (1), 113–134.
Propp, V. (1968). Morfologia do conto popular. Imprensa da Universidade do Texas,
Austin, Texas.
Rajkumar, R. e White, M. (2011). Escolha do complementador com motivação linguística na
realização de superfície. Em Proc. UCNLG+Eval'11, pp.
Rajkumar, R. e White, M. (2014). Melhor Realização Superficial através da Psicolinguística.
Bússola de Linguagem e Lingüística, 8 (10), 428–448.
102
Machine Translated by Google
Ramos-Soto, A., Bugarin, AJ, Barro, S., & Taboada, J. (2015). Descrições linguísticas para
geração automática de previsões meteorológicas textuais de curto prazo em dados reais
de previsão. Transações IEEE em Sistemas Fuzzy, 23 (1), 44–57.
Regneri, M., Rohrbach, M., Wetzel, D., & Thater, S. (2013). Descrições de ações de aterramento
em vídeos. Transações da Associação para Lingüística Computacional, 1, 25–36.
Reiter, E. (2010). Geração de linguagem natural. Em Clark, A., Fox, C., & Lappin, S. (Eds.),
Handbook of Computational Linguistics and Natural Language Processing, pp. 574–598.
Wiley, Oxford.
Reiter, E. e Belz, A. (2009). Uma investigação sobre a validade de algumas métricas para
avaliar automaticamente sistemas de geração de linguagem natural.
Lingüística Computacional, 35 (4), 529–558.
Reiter, E. e Dale, R. (1997). Construindo sistemas de geração de linguagem natural.
Engenharia de Linguagem Natural, 3, 57–87.
Reiter, E., Gatt, A., Portet, F. e van Der Meulen, M. (2008). A importância da narrativa e outras
lições de uma avaliação de um sistema NLG que resume dados clínicos. Em Proc.
INLG'08, pp.
Reiter, E., Robertson, R. e Osman, LM (2003). Lições de um fracasso: Geração de cartas personalizadas
para parar de fumar. Inteligência Artificial, 144 (1-2), 41–58.
Reiter, E. e Sripada, S. (2002). Os corpora texts deveriam ser padrões ouro para
NLG? Em Proc. INLG'02, pp. 97–104.
103
Machine Translated by Google
Reiter, E., Sripada, S., Hunter, JR, Yu, J., & Davy, I. (2005). Escolhendo palavras em previsões
meteorológicas geradas por computador. Inteligência Artificial, 167 (1-2), 137–169.
Ritter, A., Cherry, C. e Dolan, WB (2011). Geração de resposta baseada em dados nas
mídias sociais. Em Proc. EMNLP'11, pp.
Robin, J. (1993). Uma Arquitetura de Geração Baseada em Revisão para Relatar Fatos
em seu Contexto Histórico. Em Horacek, H., & Zock, M. (Eds.), Novos conceitos
em geração de linguagem natural: planejamento, realização e sistemas, pp. Pinter,
Londres.
Rowe, JP, McQuiggan, SW, Robison, JL, Marcey, DR, & Lester, JC
(2009). STORYEVAL: Uma Estrutura de Avaliação Empírica para Geração de
Narrativas. No Simpósio AAAI Spring: Tecnologias Narrativas Inteligentes II, pp.
Roy, D. (2002). Aprender palavras e sintaxe visualmente fundamentadas para uma tarefa
de descrição de cena. Fala e linguagem computacional, 16 (3-4), 353–385.
Roy, D. e Reiter, E. (2005). Conectando a linguagem ao mundo. Inteligência Artificial, 167
(1-2), 1–12.
Rus, V., Piwek, P., Stoyanchev, S., Wyse, B., Lintean, M., e Moldovan, C.
(2011). Tarefa compartilhada de geração de perguntas e desafio de avaliação:
relatório de status. Em Proc. ENLG'11, pp.
104
Machine Translated by Google
Rus, V., Wyse, B., Piwek, P., Lintea, M., Stoyanchev, S., e Moldovan, C.
(2010). Visão geral do primeiro desafio de avaliação de tarefa compartilhada de
geração de perguntas. Em Proc. 3º Workshop sobre Geração de Perguntas, pp.
Schwartz, HA, Eichstaedt, JC, Kern, ML, Dziurzynski, L., Ramones, SM, Agrawal, M., Shah,
A., Kosinski, M., Stillwell, D., Seligman, MEP, & Ungar, LH ( 2013). Personalidade,
gênero e idade na linguagem das mídias sociais: a abordagem do vocabulário aberto.
PloS um, 8 (9), 1–16.
Schwenk, H., & Gauvain, J.-l. (2005). Treinamento de modelos de linguagem de redes
neurais. Em Proc. EMNLP/HLT'05, pp. 201–208.
Scott, D. e Sieckenius de Souza, C. (1990). Transmitir a mensagem na geração de texto
baseada em RST. Em Dale, R., Mellish, C., & Zock, M. (Eds.), Pesquisa atual em
geração de linguagem natural, pp. Academic Press Pro-fessional, Inc., San Diego, CA.
Socher, R., Karpathy, A., Le, QV, Manning, CD, & Ng, AY (2014).
Semântica composicional fundamentada para encontrar e descrever imagens
105
Machine Translated by Google
Sripada, S., Reiter, E. e Hawizy, L. (2005). Avaliação de um sistema NLG usando dados
pós-edição: lições aprendidas. Em Proc. ENLG'05, pp.
Stede, M. (2000). O problema do hiperônimo revisitado: Hierarquias conceituais e
lexicais na linguagem. Em Proc. INLG'00, pp.
Steedman, M. (2000). O Processo Sintático. MIT Press, Cambridge, MA.
Steedman, M. e Petrick, RP (2007). Planejando ações de diálogo. Em Proc.
SIGDIAL'07, pp.
Stent, A., Marge, M. e Singhai, M. (2005). Avaliar métodos de avaliação para geração
na presença de variação. Em Gelbukh, A. (Ed.), Proc.
CiCLing'05, Vol. 3406 de Notas de aula em Ciência da Computação, pp.
Springer Berlim Heidelberg.
Stent, A. e Molina, M. (2009). Avaliando a extração automática de regras para
construção do plano de sentença. Em Proc. SIGDIAL'09, pp.
Stock, O. e Strapparava, C. (2005). O ato de criar siglas humorísticas.
Inteligência Artificial Aplicada, 19 (2), 137–151.
Stock, O., Zancanaro, M., Busetta, P., Callaway, C., Kr¨uger, A., Kruppa, M., Kuflik, T.,
Not, E., & Rocchi, C. (2007) . Apresentação adaptativa e inteligente de informações
para o visitante do museu em PEACH. Modelagem de usuário e interação
adaptada ao usuário, 17 (3), 257–304.
Stoia, L. e Shockley, D. (2006). Geração de sintagmas nominais para diálogos situados.
Em Proc. INLG'06, pp. 81–88.
Pedra, M. (2000). Na identificação de conjuntos. Em Proc. INLG'00, pp.
Stone, M. e Webber, B. (1998). Economia Textual através do Acoplamento Próximo de
Sintaxe e Semântica. Em Proc. INLG'98, pág. 10.
Striegnitz, K., Gargett, A., Garoufi, K., Koller, A., & Theune, M. (2011). Relatório sobre
o segundo desafio NLG sobre geração de instruções em ambientes virtuais
(GIVE-2). Em Proc. ENLG'11, pp.
Strong, CR, Mehta, M., Mishra, K., Jones, A., & Ram, A. (2007). Geração de linguagem
natural impulsionada pela emoção para personagens ricos em personalidade em
jogos interativos. Em Proc. AIIDE'07, pp.
Sutskever, I., Martens, J. e Hinton, G. (2011). Gerando Texto com Redes Neurais
Recorrentes. Nos Anais da 28ª Conferência Internacional sobre Aprendizado de
Máquina (ICML'11), pp.
106
Machine Translated by Google
Sutskever, I., Vinyals, O., & Le, QV (2014). Aprendizagem sequência a sequência com
redes neurais. Em Avanços em Sistemas de Processamento de Informação Neural
27 (NIPS'14), pp.
Theune, M., Hielkema, F., & Hendriks, P. (2006). Realização de agregação e reticências
utilizando estruturas discursivas. Pesquisa sobre Linguagem e Computação, 4, 353–
375.
Theune, M., Klabbers, E., de Pijper, J.-R., Krahmer, E., & Odijk, J. (2001).
Dos dados à fala: uma abordagem geral. Engenharia de Linguagem Natural, 7 (1),
47–86.
Theune, M. (2003). Geração de linguagem natural para diálogo: levantamento do sistema.
Tecnologia. representante, Universidade de Twente.
Thomason, J., Venugopalan, S., Guadarrama, S., Saenko, K., & Mooney, RJ
(2014). Integrando linguagem e visão para gerar descrições de vídeos em linguagem
natural. Em Proc. COLING'14, pp.
Thompson, H. (1977). Estratégia e Tática: um Modelo para Produção de Linguagem. Em
Artigos da 13ª Reunião Regional da Chicago Linguistic Society, Vol. 13, pp.
Tintarev, N., Reiter, E., Black, R., Waller, A., & Reddington, J. (2016). Contação de histórias
pessoais: Usando a geração de linguagem natural para crianças com necessidades
complexas de comunicação, em estado selvagem. Jornal Internacional de Estudos
de Computação Humana, 92-93, 1–16.
Togelius, J., Yannakakis, GN, Stanley, KO e Browne, C. (2011). Geração de conteúdo processual baseada
em pesquisa: uma taxonomia e pesquisa. Transações IEEE sobre Inteligência Computacional e IA
em Jogos, 3 (3), 172–186.
107
Machine Translated by Google
van Deemter, K., Gatt, A., van Gompel, RPG, & Krahmer, E. (2012b).
Rumo a uma psicolinguística computacional de produção de referência. Tópicos
em ciência cognitiva, 4 (2), 166–83.
van Deemter, K., Krahmer, E., & Theune, M. (2005). Geração de linguagem natural
real versus baseada em modelo: uma falsa oposição?. Linguística Computacional,
31 (1), 15–24.
van Deemter, K., Krenn, B., Piwek, P., Klesen, M., Schr¨oder, M., & Baumann, S.
(2008). Diálogo com script totalmente gerado para agentes incorporados.
Inteligência Artificial, 172 (10), 1219–
1244. van der Sluis, I. e Mellish, C. (2010). Rumo à avaliação empírica do NLG tático
afetivo. Em Krahmer, E., & Theune, M. (Eds.), Métodos empíricos na geração de
linguagem natural, pp. Springer, Berlim e Heidelberg.
Varges, S. e Mellish, C. (2010). Geração de linguagem natural baseada em instâncias.
Engenharia de Linguagem Natural, 16 (03), 309–346.
Vaudry, PL, & Lapalme, G. (2013). Adaptando SimpleNLG para realização bilíngue
francês-inglês. Em Proc. ENLG'13, pp.
Veale, T. (2013). Mais uma vez, com sentimento! Usando metáforas afetivas criativas
para expressar necessidades de informação. Em Proc. ICCM'13, pp.
Veale, T. e Hao, Y. (2007). Compreendendo e gerando metáforas adequadas: uma
abordagem da linguagem figurativa baseada na Web e baseada em casos. Em Proc.
AAAI'07, pp. 1471–1476.
Veale, T. e Hao, Y. (2008). Uma representação fluida do conhecimento para
compreender e gerar metáforas criativas. Em Proc. COLING'08, pp.
Veale, T. e Li, G. (2015). Criatividade divergente distribuída: Agentes criativos
computacionais em escala web. Computação Cognitiva, 8 (2), 175–186.
Vedantam, R., Zitnick, CL e Parikh, D. (2015). CIDEr: avaliação de descrição de imagem
baseada em consenso. Em Proc. CVPR'15, pp.
Venigalla, H. e Di Eugenio, B. (2013). UIC-CSC: The Content Selection Challenge
Entry da Universidade de Illinois em Chicago. Em Proc. ENLG'13, pp.
Venugopalan, S., Rohrbach, M., Darrell, T., Donahue, J., Saenko, K., & Mooney, RJ
(2015a). Sequência para sequência de vídeo para texto. Em Proc. ICCV'15, pp.
A Fundação de Visão Computacional.
Venugopalan, S., Xu, H., Donahue, J., Rohrbach, M., Mooney, RJ, & Saenko, K.
(2015b). Traduzindo vídeos para linguagem natural usando redes neurais
recorrentes profundas. Em Proc. NAACL'15, pp.
Viethen, J. e Dale, R. (2007). Avaliação na geração de linguagem natural: Lições da
geração de expressões referentes. Processamento de linguagem natural, 48 (1),
141–160.
Viethen, J. e Dale, R. (2008). O Uso de Relações Espaciais na Geração de Expressões
Referentes. Em Proc. INLG'08, pp.
108
Machine Translated by Google
Walker, MA, Park, F., Rambow, O., & Rogati, M. (2001). SPoT: um treinável
Planejador de frases. Em Proc. NAACL'01, pp.
Walker, MA, Rambow, O. e Rogati, M. (2002). Treinando um planejador de frases para
diálogo falado usando reforço. Fala e linguagem computacional, 16 (3-4), 409–
433.
Walker, MA, Stent, A., Mairesse, F., & Prasad, R. (2007a). Adaptação individual e de
domínio no planejamento de frases para diálogo. Jornal de Pesquisa de
Inteligência Artificial, 30, 413–456.
Walker, MA, Stent, A., Mairesse, F., & Prasad, R. (2007b). Adaptação individual e de
domínio no planejamento de frases para diálogo. Jornal de Pesquisa de
Inteligência Artificial (JAIR), 30, 413–456.
Waller, A., Black, R., OMara, D. a., Pain, H., Ritchie, GD, & Manurung, R.
(2009). Avaliando o software de geração de trocadilhos STANDUP com crianças com paralisia
cerebral. Transações ACM em Computação Acessível, 1 (3), 1–27.
Wang, J. e Gaizauskas, R. (2015). Gerando descrições de imagens com avaliação de ouro e linhas de
Entradas visuais padrão: motivação , base. Em Proc.
ENLG'15, pp.
Wang, L., Raghavan, H., Cardie, C. e Castelli, V. (2014). Resumo de opinião com foco
em consulta para conteúdo gerado pelo usuário. Em Proc. COLING '14, pp.
109
Machine Translated by Google
Wen, T.-h., Gasic, M., Mrksi´c, N., Su, P.-h., Vandyke, D., & Young, S. (2015).
Geração de linguagem natural baseada em LSTM semanticamente condicionada para
sistemas de diálogo falado. Em Proc. EMNLP'15, pp.
Branco, M., Clark, RAJ e Moore, JD (2010). Gerar descrições comparativas personalizadas com
entonação contextualmente apropriada. Lingüística Computacional, 36 (2), 159–201.
Branco, M. e Howcroft, DM (2015). Induzindo regras de combinação de cláusulas: um estudo de caso com
o SPaRKy Restaurant Corpus. Em Proc. ENLG'15, pp.
Branco, M., Rajkumar, R. e Martin, S. (2007). Rumo a uma ampla superfície de cobertura
Realização com CCG. Em Proc. UCNLG+MT.
Williams, S. e Reiter, E. (2008). Geração de relatórios de habilidades básicas para leitores pouco
qualificados. Engenharia de Linguagem Natural, 14 (4), 495–525.
Wong, YW e Mooney, RJ (2007). Geração pela inversão de um analisador semântico que usa
tradução automática estatística. Em Proc. NAACL-HLT'07, pp.
Wubben, S., van den Bosch, A. e Krahmer, E. (2012). Simplificação de frases por tradução
automática monolíngue. Em Proc. ACL'12, pp.
Xu, K., Ba, JL, Kiros, R., Cho, K., Courville, A., Salakhutdinov, R., Zemel, RS, & Bengio, Y. (2015).
Mostre, assista e conte: geração de legendas de imagens neurais com atenção visual. Em
Proc. ICLR'15.
Yagcioglu, S., Erdem, E. e Erdem, A. (2015). Uma abordagem de expansão de consulta baseada
em representação distribuída para legendagem de imagens. Em Proc. ACL-IJCNLP'15,
pp.
Yang, Y., Teo, CL, Daume III, H., & Aloimonos, Y. (2011). Geração de frases guiadas por corpus
de imagens naturais. Em Proc. EMNLP'11, pp. 444–454.
Yao, BZ, Yang, X., Lin, L., Lee, MW e Zhu, SC (2010). I2T: análise de imagem para descrição de
texto. Anais do IEEE, 98 (8), 1485–1508.
110
Machine Translated by Google
Yatskar, M., Galley, M., Vanderwende, L., & Zettlemoyer, L. (2014). Não veja nenhum mal, não diga
nenhum mal: geração de descrição a partir de imagens densamente rotuladas.
E Proc. *EU SOU.
Young, P., Lai, A., Hodosh, M., & Hockenmaier, J. (2014). Das descrições de imagens às
denotações visuais: novas métricas de similaridade para inferência semântica sobre
descrições de eventos. Transações da Association for Computational Linguistics
(TACL), 2 (abril), 67–78.
Jovem, RM (2008). Criatividade Computacional na Geração de Narrativas: Utilidade e
Novidade Baseadas em Modelos de Compreensão de Histórias. Em Creative Intel-
ligent Systems, Artigos do Simpósio AAAI Spring de 2008 (Relatório Técnico
SS-08-03), pp.
Youyou, W., Kosinski, M. e Stillwell, D. (2015). Os julgamentos de personalidade baseados
em computador são mais precisos do que aqueles feitos por humanos. Anais da
Academia Nacional de Ciências, 112 (4), 1036–1040.
Yu, C. e Ballard, DH (2004). Uma interface de aprendizagem multimodal para fundamentar
a linguagem falada nas percepções sensoriais. Transações ACM sobre Percepção
Aplicada (TAP), 1 (1), 57–80.
Yu, H. e Siskind, JM (2013). Aprendizagem de idiomas fundamentada a partir de vídeos
descritos com frases. Em Proc. ACL'13, pp.
Yu, J., Reiter, E., Hunter, JR e Mellish, C. (2006). Escolha do conteúdo de resumos textuais
de grandes conjuntos de dados de séries temporais. Engenharia de Linguagem
Natural, 13 (01), 25.
Zaremba, W., Sutskever, I., & Vinyals, O. (2015). Regularização de Rede Neural Recorrente.
Pré-impressão arXiv, arXiv:1409.
Zarrieß, S. e Kuhn, J. (2013). Combinando geração de expressões de referência e realização
de superfície: uma investigação de arquiteturas baseada em corpus.
Em Proc. ACL'13), pp. 1547–1557.
Zarrieß, S., Loth, S. e Schlangen, D. (2015). Os tempos de leitura prevêem a qualidade do
texto gerado acima e além das classificações humanas. Em Proc. ENLG'15, pp.
111