Você está na página 1de 15

Conversando com mquinas: construindo um chatterbot

especializado em Literatura Francesa para aulas de


Francs Lngua Estrangeira
Paulo Bruno Lopes da Silva
GREat-UFC
Mardnio J de Frana
GREat-UFC

Resumo:
Este trabalho utiliza um chatterbot, ferramenta computacional
interativa que simula conversaes entre homem e mquina, no
processo de formao de aprendizes de Francs Lngua Estrangeira
(FLE), alm de anlise qualitativa dos resultados dessa interao,
visando contribuir para a anlise da conversao, rea que
sistematiza interaes verbais e dilogos, e para o desenvolvimento
de chatterbots. O artigo objetiva apresentar etapas de criao da
base de dilogos de um chatterbot especializado em literatura
francesa e verificar sua contribuio para o ensino de lnguas. Para
isso, o estudo concentra-se no conceito de Corpus Especial
(SINCLAIR, 1996) e nos princpios e mtodos da Anlise da
Conversao de Kebrat-Orecchioni (2006). A construo do
chatterbot foi estruturada nas etapas de Configurao do Perfil,
Minerao dos Dados, Gerao da Base de Dilogos, Aprendizagem
de Mquina e Interao Homem-Mquina. Nas duas primeiras, foram
escolhidas obras de 10 escritores franceses, gerando
aproximadamente 2000 registros posteriormente usados no modelo
de aprendizagem de mquina. Em seguida, essa aplicao ser
avaliada por aprendizes de FLE, que interagem e classificam as
respostas segundo sua aceitabilidade, validando a ltima etapa.
Assim, esperamos formar um chatterbot capaz de manter conversas
com alta aceitabilidade, apresentando-se como nova ferramenta
para o processo de ensino de lnguas estrangeiras.
Palavras-chave: Chatterbot, Anlise da Conversao, Aprendizagem
de Mquina.

Abstract:
This work uses a chatterbot, interactive software tool that simulates
conversations between man and machine, in the French apprentice

Universidade Federal de Pernambuco


NEHTE / Programa de Ps Graduao em Letras
CCTE / Programa de Ps Graduao em Cincias da Computao
training process as Foreign Language, as well as improving qualitative
analysis of the results of this interaction, to contribute to the
Conversation Analysis, area that systematizes verbal interactions and
dialogs, developing chatterbots. This article presents the steps of
creating the base of a specialized chatterbot in French literature and
verify its contribution to language teaching. Then, this study focuses
on the concept of Special Corpus (Sinclair, 1996) and the principles
and methods of Conversation Analysis proposed by Kebrat-
Orecchioni (2006). The construction of the chatterbot was structured
in steps: Profile Configuration, Data Mining, Dialogues Base
Generation, Machine Learning and Human Computer Interaction. In
the first two, 10 French writers and works were chosen, generating
about 2000 records later used in machine learning model. Then this
application will be evaluated by learners of FLE, interacting and
classifying answers according to their acceptability, validating the last
step. Thus, we expect form a chatterbot able to hold talks with high
acceptability, presenting itself as a new tool for foreign language
teaching process.
Keywords: Chatterbot, Conversation Analysis, Machine Learning.

Introduo

Desde os primrdios da Histria, a tecnologia tem sido um diferencial de


desenvolvimento destacado na sociedade. Aplicada a diversos contextos, surgem
diferentes ferramentas e aplicaes com o intuito de facilitar atividades e tarefas do
cotidiano.
Com o desenvolvimento de tecnologias como os computadores, os dispositivos
mveis e, sobretudo, da internet, a possibilidade de utilizao de recursos
educacionais por meio de aplicaes e ferramentas tem sido bastante estimulada.
Em se tratando do ensino e aprendizagem de Francs Lngua Estrangeira (FLE),
um problema bastante evidente gerado pela dificuldade que os aprendizes
enfrentam para praticar a lngua-alvo fora do contexto de sala de aula. Seja por falta
de acompanhamento de professor seja pela deficincia na comunicao com outros

Universidade Federal de Pernambuco


NEHTE / Programa de Ps Graduao em Letras
CCTE / Programa de Ps Graduao em Cincias da Computao
alunos e aprendizes ou a dificuldade de encontrar falantes nativos e situaes nas
quais devam utilizar a lngua estrangeira.
Para resolver tal situao, surgem diferentes aplicaes que visem incentivar o
uso de lnguas estrangeiras na comunicao, como os softwares de comunicao
instantnea (Skype, Google Hangouts etc.) e as redes sociais (Facebook, Google+ etc.).
Uma outra alternativa se encontra na utilizao de chatterbots, agentes
conversacionais virtuais, capazes de simular falantes por meio do Processamento de
Linguagem Natural (PLN).
Portanto, o objetivo deste trabalho apresentar uma proposta de metodologia de
criao de um chatterbot especializado em Literatura Francesa com o intuito de ajudar
no processo de ensino e aprendizagem de Francs Lngua Estrangeira.

Para isso, nas sees a seguir, descrevemos as etapas de criao com vis
lingustico, baseado nos princpios de interao verbal e Anlise da Conversao
propostos por Kebrat-Orecchioni (2006), bem como a anlise do chat como novo
gnero textual e sua transmutao na web (ARAJO, 2004).

1. Comunicao, interao e conversao

Nos moldes da Lingustica, vrios modelos foram propostos para explicar o


processo de comunicao, porm o mais conhecido o proposto por Jakobson (1969):

Figura 1: Modelo de Comunicao de Jakobson (1969)


CONTEXTO
MENSAGEM

REMETENTE DESTINATRIO

CONTATO
CDIGO

Fonte: Jakobson apud Barros, 2007.

Universidade Federal de Pernambuco


NEHTE / Programa de Ps Graduao em Letras
CCTE / Programa de Ps Graduao em Cincias da Computao
Segundo Barros (2007), o modelo proposto por Jakobson presume, no processo
de comunicao, os seguintes elementos:
Um remetente que envia uma mensagem a um destinatrio;
Um contexto (ou um referente) ao qual se refere a mensagem e que seja
compreensvel pelo destinatrio;
Um cdigo, total ou parcialmente comum a ambos;
Um contato, isto , um canal fsico e uma conexo psicolgica entre o
remetente e o destinatrio, que os capacitem a estabelecer e manter a comunicao.
Tais elementos acabam por caracterizar os pontos bsicos para se estabelecer
uma comunicao entre dois participantes (emissor e receptor). No entanto, o
processo de comunicao evolui em nvel de complexidade, com a alternncia de
papis entre os participantes.
De acordo com Kebrat-Orecchioni (2006, p. 27),

Em uma conversao, os participantes so chamados a ocupar, cada


um a seu turno, a posio emissora (ficando, no resto do tempo,
relegados posio receptora), ou seja, as configuraes
interlocutivas no cessam de se modificar ao longo do desenrolar da
interao.

Assim, toda troca comunicativa mostra-se mais complexa do que uma simples
transmisso de uma mensagem de um emissor para um receptor por meio de um
canal. Na verdade, necessrio que haja um engajamento por parte dos
participantes para que se estabeleam verdadeiras interaes verbais e sociais.
Por fim, a conversao se estabelece como um tipo particular, e ao mesmo
tempo prototpico, das interaes verbais. Ressalta-se tambm que para que haja uma
conversao, as interaes verbais esto regidas por regras conversacionais (KEBRAT-
ORECCHIONI, 2006, p. 14) que podem, ou no, estar associadas a um ou outro gnero
em particular.

Universidade Federal de Pernambuco


NEHTE / Programa de Ps Graduao em Letras
CCTE / Programa de Ps Graduao em Cincias da Computao
2. O Gnero Chat

Com o advento das novas tecnologias e as constantes mudanas nos meios de


comunicao, surgem novos gneros textuais caractersticos. Esses gneros
emergentes so relativamente variados, mas a maioria deles tem similares em outros
ambientes, tanto na oralidade como na escrita (MARCUSCHI, 2002).
Nesse contexto, o chat surge como um gnero textual emergente dentro dos
ambientes virtuais e, portanto, dotado de caractersticas prprias que o assemelham e
o diferenciam de outros gneros textuais existentes.
O chat ou bate-papo um gnero textual eletrnico semelhante ao e-mail
funcionando de forma sncrona, isto , destinatrio e remetente esto conectados
simultaneamente na rede, o que transforma chats em conversas (ou bate-papo) em
tempo real entre dois ou mais participantes (AMARAL; AMARAL, 2008).

Figura 2: Modelo de Comunicao no gnero Chat

REMETENTE
INTERFACE

DESTINATRIO

Fonte: Elaborada pelos autores.

A existncia do chat como gnero textual acontece, como j mencionado, pela


semelhana e pela diferena que estabelece com outros gneros existentes. O chat,
aproxima-se das caractersticas apresentadas pela conversao espontnea face a
face, porm diferencia-se por seu carter de anonimato ou distanciamento fsico entre
os participantes.

Universidade Federal de Pernambuco


NEHTE / Programa de Ps Graduao em Letras
CCTE / Programa de Ps Graduao em Cincias da Computao
Dessa forma, Marcuschi (2002) afirma que so criadas novas formas de
organizar os relacionamentos interpessoais nesse novo enquadre participativo.

3. Chatterbot

Chatterbot so softwares que tentam emular a conversao humana por meio


da demonstrao de comportamentos semelhantes aos de uma pessoa sobre um
domnio limitado. Atualmente, o principal uso dessas aplicaes contretizado em
sistemas de atendimento a clientes (SAC), mas chatterbot so utilizados em diversas
aplicaes como entretenimento (jogos e afins), ferramentas de comunicao
instantnea, e at mesmo na educao (ABU SHAWAR; ATWELL, 2007).
O objetivo do funcionamento do chatterbot fazer com que este responda a
determinados solicitaes do usurio, os inputs (saudaes, perguntas, pedidos), e as
respondem em linguagem natural, por meio dos outputs solicitados.
Como definem Ferreira e Ucha (2006, p. 24), apesar de ter um propsito
simples de definir, a implementao de um programa de computador capaz de atingir
esse propsito algo extremamente complexo. Sistemas de conversao automtica
como os chatterbot sofrem a limitao de no possurem um aprendizado to rpido e
eficiente quanto o natural.
Na literatura, h quatro geraes de Chatterbot. Cada gerao usa tcnicas e
implementaes distintas. A primeira implementao usa padres de similaridade e
regras gramaticais, representada pelo software ELIZA, a segunda usa modelos de redes
neurais para gerar respostas aos padres de input, implementadas no software Julia. A
terceira implementao usa regras de processamento de texto, como expresses
regulares (Regex) e padres, bem como o AIML (Artificial Intelligence Markup
Language), tendo como exemplo o chatterbot ALICE. A gerao mais recente utiliza
mtodos hbridos de aprendizagem de mquina, processamento de linguagem natural

Universidade Federal de Pernambuco


NEHTE / Programa de Ps Graduao em Letras
CCTE / Programa de Ps Graduao em Cincias da Computao
ontologias. Como exemplo dessa ltima fase, possvel citar o chatterbot comercial
SIRI, da Apple.

4. Metodologia Esfera

A construo de um chattebot um processo complexo, pois envolve um


grande nmero de processos, variaes de domnios de aplicao, bem como
problemas de processamento de linguagem natural.
A fim de facilitar a construo desse tipo de aplicaes, esse artigo prope a
criao de uma nova metodologia de criao de chatterbot utilizando Aprendizagem
de Mquina. A essa metodologia demos o nome de Esfera.
A Metodologia Esfera composta por seis fases distintas: Configurao do
Perfil, Minerao de Dados, Construo da Base de dilogos, Aprendizagem de
Mquina e Interao Homem-Mquina. Essas etapas so mostradas na figura 3.

Figura 2: Etapas da Metodologia Esfera

Interao Homem-
Configurao
Mquina
do Perfil

Minerao de Base de Aprendizagem de


Dados dilogos Mquina

Fonte: Elaborada pelos autores.

4.1 Configurao do perfil

A Configurao do perfil consiste em constituir a identidade do chatterbot,


levantando pontos quando sua personalidade e domnio. Esses elementos so a base

Universidade Federal de Pernambuco


NEHTE / Programa de Ps Graduao em Letras
CCTE / Programa de Ps Graduao em Cincias da Computao
para a criao da futura base de conhecimento do rob, pois, como proposto por
Franklin e Graesser (1996) o rob deve possuir um domnio (temas para o dilogo) e
autoconhecimento (capacidade de o rob falar sobre si mesmo).
Assim, por meio da Metodologia Esfera, criamos um documento com os
principais elementos caractersticos para criar o modelo de Identidade do rob
Charles, como mostrado na tabela 1.

Tabela 1: Perfil do Chatterbot Charles


Dado Modelo de Identidade

Nome Charles

Gnero Masculino

Nacionalidade Francfono

Lngua Francs

O que faz Gosta de estudar e conversar sobre Literatura


Francesa

Especialidade Especialista em 10 autores e suas respectivas


obras maiores.

Fonte: Elaborada pelos autores.

4.2 Minerao de Dados

A etapa seguinte consiste na Minerao de Dados. Durante a definio do perfil


do rob Charles, foram selecionados dez autores da Literatura Francesa e suas
respectivas obras maiores:
Molire Lavare;
Honor de Balzac Le Pre Goriot;

Universidade Federal de Pernambuco


NEHTE / Programa de Ps Graduao em Letras
CCTE / Programa de Ps Graduao em Cincias da Computao
Guy de Maupassant La parure;
Albert Camus Ltranger;
Simone de Beauvoir Le deuxime sexe;
Jean-Paul Sartre Huis Clos;
Victor Hugo Les Misrables;
Proust la recherche du temps perdu;
Baudelaire Les fleurs du mal;
J. M. G. Le Clzio Ritournelle de la faim.
O processo de minerao de dados pode ser efetuado de trs formas:
automtica, semiautomtica ou manual. Inicialmente, a coleta e seleo de materiais
foi realizada de forma manual. No entanto, o processo automatizado tende a ser uma
etapa por vir. Esses dados vo ser modelados para a etapa seguinte da metodologia.

4.3 Criao da Base de Dilogos

Aps a seleo de textos proporcionada pela etapa de minerao, os dados


foram modelados para que fossem transformados em estruturas conversacionais
(inputs e outputs) que formariam a base de conhecimentos do rob Charles.
Para a etapa de criao da base de dilogos, aplicamos a metodologia proposta
por Cunha e Silva (2015) para a gerao automtica de corpus de sentenas por meio
de gramticas livres de contexto. Nessa metodologia, utilizamos o NLTK (Natural
Language Toolkit), biblioteca de ferramentas para o processamento de linguagem
natural na linguagem Python (BIRD et al. 2009).
As entradas e sadas foram geradas simulando possveis estruturas de
conversao e, posteriormente pareadas, associando inputs aos respectivos outputs
produzidos pelo chatterbot (Tabela 2).

Universidade Federal de Pernambuco


NEHTE / Programa de Ps Graduao em Letras
CCTE / Programa de Ps Graduao em Cincias da Computao
Tabela 2: Pareamento de entradas e sadas da base de dilogo
Input Output

Bonjour Bonjour

Bonsoir Bonsoir

Bonne nuit Bonne nuit

Salut Salut

a va ? a va

Vous allez bien ? Je vais bien, merci.

Comment allez-vous ? Je vais bien, merci.

Comment vous vous appelez ? Je m'appelle Charles.

Vous parlez franais ? Oui, je parle franais et un peu de portugais.

Vous tes Franais ? Je suis un robot francophone !

Comment tu t'appelles ? Je m'appelle Charles.

Tu parles franais ? Oui, je parle franais et un peu de portugais.

Tu es Franais ? Je suis un robot francophone !

Quelle est ta profession ? J'aime parler et discuter sur la littrature franaise.

Fonte: Elaborada pelos autores.

A criao desse corpus de sentenas automticas tambm amparada pelo


conceito de corpus especial proposto por Sinclair (1996) um corpus pode ser produzido
para fins especficos e que no tm a inteno de contribuir para a descrio exaustiva
de fenmenos gramaticais.

Universidade Federal de Pernambuco


NEHTE / Programa de Ps Graduao em Letras
CCTE / Programa de Ps Graduao em Cincias da Computao
4.4 Aprendizagem de Mquina

Aps a gerao e o pareamento de estruturas de entrada e sada das possveis


interaes verbais, a Metodologia Esfera o uso de ferramentas de Aprendizagem de
Mquina para gerar padres e o modelo a ser utilizado para o processamento do
chatterbot. Nesse projeto, utilizou-se o WEKA (Waikato Environment for Knowledge
Analysis, Framework amplamente utilizado pela comunidade cientfica em problemas
de inteligncia artificial (CAVALCANTE et al., 2014).
Figura 4: Aprendizagem de Mquina na Metodologia Esfera

Fonte: Elaborada pelos autores.


4.5 Interao Homem-Mquina

Por ltimo, aps gerado o modelo de predio de respostas, foi possvel passar
para a etapa de execuo ou o momento de interao homem-mquina, na qual pode-
se analisar as relaes de conversao entre emissor e receptor por meio do gnero
chat (Figura 5).

Universidade Federal de Pernambuco


NEHTE / Programa de Ps Graduao em Letras
CCTE / Programa de Ps Graduao em Cincias da Computao
Figura 5: Interao Homem-Mquina

Fonte: Elaborada pelos autores.

5. Resultados e Discusso

Aps a aplicao das etapas adotadas pela Metodologia Esfera, obteve-se a


primeira verso do chatterbot especializado em Literatura Francesa. Por meio da
gerao automtica de sentenas foi possvel gerar uma base de dados de 4529
interaes verbais em lngua estrangeira, envolvendo 4529 sentenas de input e 45
tipos de output.
Essa disparidade entre entradas e sadas resultado das variaes gramaticais
das estruturas de pergunta do Francs, para as quais existem at trs estruturas
diferentes para sua formalizao.
Alm disso, mostra-se necessria, em uma etapa posterior, a gerao de mais
sentenas de resposta a fim de que o modelo seja aperfeioado.
Outra causa levantada para essa diferena pde ser percebida ainda durante a
etapa de criao do perfil: a polidez. Por questo de abrangncia, foram geradas no

Universidade Federal de Pernambuco


NEHTE / Programa de Ps Graduao em Letras
CCTE / Programa de Ps Graduao em Cincias da Computao
corpus, sentenas formais (estruturas com vous) e informais (estruturas com tu). Em
alguns casos, o nmero de combinaes de estruturas de entrada dobrou quando
pareadas s sadas desejadas.
Outro ponto relevante analisado na construo da base de dilogos equivale
estrutura inicial de inputs e outputs na forma de perguntas, aproximando o chatterbot,
nesse momento, a um outro tipo de sistema, chamado de Q&A (Question and Answer).
Esse modelo acaba sintetizando de forma primitiva o esquema de comunicao de
Jakobson (1969) e afastando-o da estrutura de conversao de Kerbrat-Orecchioni
(2006).

6. Concluso e Trabalhos Futuros

O Chatterbot Charles, especializado em Literatura Francesa um chattebot


experimental criado para testar estratgias envolvendo abordagens de Aprendizagem
de Mquina e PLN.
Foi possvel perceber que a utilizao de um chattebot para o ensino de Lnguas
Estrangeiras pode exercer um grande diferencial impactante sobre as novas
metodologias de educao a distncia por meio da tecnologia.
Como trabalhos futuros, percebe-se, portanto, a necessidade de ampliao da
base de dilogos e dos pares de entradas e sadas, bem como, sobretudo, a avaliao
dos outputs atravs de testes com aprendizes de Francs Lngua Estrangeira.
Esses testes so fontes tambm para a implementao de estruturas que
aproximem ainda mais os chatterbot de um sistema de conversao e ensino.

Referncias Bibliogrficas

ABU SHAWAR, B.; ATWELL, E. (2007). Chatbots: are they really useful? LDV-Forum Band
22(1), 31-50.

Universidade Federal de Pernambuco


NEHTE / Programa de Ps Graduao em Letras
CCTE / Programa de Ps Graduao em Cincias da Computao
AMARAL, Luiz H.; AMARAL, Carmem L. C. Tecnologias de comunicao e comunicao
aplicadas educao. In: Interaes virtuais: perspectivas para o ensino de Lngua Portuguesa
a distncia, So Carlos, 2008. p.11-20.

BARROS, Diana Luz Pessoa de. A comunicao humana. In: FIORIN, Jos Luiz. Introduo a
Lingustica: objetos tericos. So Paulo: Contexo, 2007. p. 25-52.

CAVALCANTE, K. B. et al. Chaterbot em Lngua Portuguesa usando Aprendizagem de Mquina.


XXXIII Encontro de Iniciao Cientfica, UFC, Fortaleza, 2015.

CUNHA, T. M.; SILVA, P. B. L. A criao de um corpus de sentenas atravs de gramticas livres


de contexto. IV Jornada de Descrio do Portugus, UFRN, Natal, 2015.
FERREIRA, Leandro Padilha; UCHA, Joaquim Quinteiro. Desenvolvimento de um chatbot para
auxiliar o ensino de Espanhol como Lngua Estrangeira. 2006. Disponvel em:
<http://repositorio.ufla.br/bitstream/1/9629/1/ARTIGO_Desenvolvimento de um chatbot para
auxiliar o ensino de espanhol como lngua estrangeira.pdf>. Acesso em: 31 out. 2015.

FRANKLIN, S; A GRAESSER,. Is it an Agent, or just a program?: A taxonomy for Autonomous


Agents. 1996. Disponvel em: <http://www.msci.memphis.edu/~franklin/AgentProg.html>.
Acesso em: 13 nov. 2015.

Galvo, A.M; Barros, F.A; Neves, A.M.M; Ramalho, G.L. (2003). Persona-AIML: uma arquitetura
para desenvolver chatterbots com personalidade. Dissertao (Mestrado em Cincia da
Computao). Universidade Federal de Pernambuco, Recife, Pernambuco.

KERBRAT-ORECCHIONI, C. Anlise da conversao: princpios e mtodos. So Paulo: Parbola


Editorial, 2006.

MARCUSCHI, L. A. Gneros textuais emergentes no contexto da tecnologia digital. In:


MARCUSCHI, L. A.; XAVIER, A. C. Hipertexto e gneros digitais. Rio de Janeiro: Editora Lucerna,
2004. p. 13-67.

MAULDIN, M. L. Chatterbots, TinyMUDs, and the Turing Test: Entering the Loebner Prize
Competition, Proceedings of Twelfth National Conference on Artificial Intelligence. Seattle:
Aaai-94, 1994

MITKOV, R. The Oxford Handbook of Computational Linguistics. University Express, 2009.

Weizenbaum, J. (1966). ELIZA A computer program for the study of natural language
communication between man and machine. Communications of the ACM, 10(8):3645.

Universidade Federal de Pernambuco


NEHTE / Programa de Ps Graduao em Letras
CCTE / Programa de Ps Graduao em Cincias da Computao
Witten,I.H ; Frank, E.; Hall, M.A. (2011). Data Minning - Practical Machine Learning Tools and
Techniques. Elsivier. USa

Harris, Zelling (1954). Distributional Structure. Word 10 (2/3): 146-62.1

Universidade Federal de Pernambuco


NEHTE / Programa de Ps Graduao em Letras
CCTE / Programa de Ps Graduao em Cincias da Computao

Você também pode gostar