Escolar Documentos
Profissional Documentos
Cultura Documentos
759 389 PB
759 389 PB
Impresso: 0104-0588
On-line: 2237-2083
V.29 - Nº 2
Editor-chefe Editoras-associadas
Gustavo Ximenes Cunha (UFMG) Ana Larissa Adorno Maciotto Oliveira (UFMG)
Carla Viana Coscarelli (UFMG)
Editores convidados Helcira Maria Rodrigues de Lima (UFMG)
Stella Esther Ortweiler Tagnin (USP)
Maria José Bocorny Finatto (UFRGS)
Guilherme Fromm (UFU)
Indexadores
Diadorim [Brazil]
DOAJ (Directory of Open Access Journals) [Sweden]
DRJI (Directory of Research Journals Indexing) [India]
EBSCO [USA]
JournalSeek [USA]
Latindex [Mexico]
Linguistics & Language Behavior Abstracts [USA]
MIAR (Matriu d’Informació per a l’Anàlisi de Revistes) [Spain]
MLA Bibliography [USA]
OAJI (Open Academic Journals Index) [Russian Federation]
Portal CAPES [Brazil]
REDIB (Red Iberoamericana de Innovación y Conocimiento Científico) [Spain]
Sindex (Sientific Indexing Services) [USA]
Web of Science [USA]
WorldCat / OCLC (Online Computer Library Center) [USA]
ZDB (Elektronische Zeitschriftenbibliothek) [Germany]
Revista de estudos da linguagem
Editor-chefe
Gustavo Ximenes Cunha (UFMG, Belo Horizonte/MG, Brasil)
Editoras-associadas
Ana Larissa Adorno Maciotto Oliveira (UFMG, Belo Horizonte/MG, Brasil)
Carla Viana Coscarelli (UFMG, Belo Horizonte/MG, Brasil)
Helcira Maria Rodrigues de Lima (UFMG, Belo Horizonte/MG, Brasil)
Conselho Editorial
Alejandra Vitale (UBA, Ciudad Autónoma de Buenos Aires, Argentina)
Didier Demolin (Université de la Sorbonne Nouvelle Paris 3, Paris, França)
Ieda Maria Alves (USP, São Paulo/SP, Brasil)
Jairo Nunes (USP, São Paulo/SP, Brasil)
Scott Schwenter (OSU, Columbus, Ohio, Estados Unidos)
Shlomo Izre'el (TAU, Tel Aviv, Israel)
Stefan Gries (UCSB, Santa Barbara/CA, Estados Unidos)
Teresa Lino (NOVA, Lisboa, Portugal)
Tjerk Hagemeijer (ULisboa, Lisboa, Portugal)
Comissão Científica
Rubens Damasceno-Morais
Universidade Federal de Goiás (UFG), Goiânia, Goiás / Brasil
r.damasceno.morais@uol.com.br
http://orcid.org/0000-0001-6245-6394
Resumo: Este artigo propõe-se a relatar uma experiência de pesquisa com corpora
complexos, a fim de compartilhar o processo e procedimentos de elaboração de um banco
de dados instituído precipuamente para pesquisa doutoral, empreendida na Université
Lumière Lyon II/França, no laboratório ICAR, cuja especialidade é, justamente, o
trabalho com a análise de corpora em diversos níveis de extensão e complexidade. A
partir de uma perspectiva etnometodológica (MONDADA, 2008; OCHS, SCHEGLOFF,
THOMPSON, 1996; SCHEGLOFF, 1999; TRAVERS, 2001; TRAVERSO, 2007), numa
imersão em território jurídico (CORNU, 2005; DUPRET, 2006; LATOUR, 2004), a
pesquisa ora relatada buscou descrever e analisar como os magistrados realizam a
gestão do desacordo, em situações, muitas vezes, acentuadamente erísticas. Sem nos
distanciarmos dos estudos teóricos acerca dos preceitos de metodologia de trabalhos
acadêmicos em geral (GIL, 2002; MOTTA-ROTH; HENDGES, 2010; SALOMON,
2014), constituímos um banco de dados balizados pela noção de situação argumentativa,
uma noção da retórica antiga retomada por Plantin (1993, 1995, 1996, 2016), a qual põe
em destaque situações de conflito de opiniões, em contextos argumentativos vários. A
partir da exaustiva e intricada transcrição dupla dos dados (BAUDE, 2006; BLANCHE-
BENVENISTE, 2008; KERBRAT-ORECCHIONI, 2006), a pesquisa culminou na
confirmação de que o discurso jurídico está longe de ser frio e asséptico e que as
interações argumentativas naquele contexto se analisadas no calor das deliberações
têm muito a nos ensinar sobre o argumentar em contexto institucional. Isso pode ser
conferido em quatro capítulos analíticos cujo planejamento e execução ora trazemos a
lume, a partir do estudo do direito em ação, isto é, em situação de interação, por meio
eISSN: 2237-2083
DOI: 10.17851/2237-2083.29.2.673-709
674 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 673-709, 2021
Abstract: This article proposes to report a research experience with complex corpora,
on the aim of sharing the backstage of elaborating a database instituted mainly for
doctoral research, undertaken at the Université Lumière Lyon II/France, in the ICAR
laboratory, whose specialty is precisely work with corpora analysis at different levels
of extension and complexity. From an ethnomethodological perspective (MONDADA,
2008; OCHS, SCHEGLOFF, THOMPSON, 1996; SCHEGLOFF, 1999; TRAVERS,
2001; TRAVERSO, 2007), in an immersion in legal territory (CORNU, 2005; DUPRET,
2006; LATOUR, 2004) , the research reported here sought to describe and analyze how
magistrates manage disagreement, in situations that are often eristic. Without distancing
ourselves from theoretical studies about the precepts of methodology of academic
works in general (GIL, 2002; MOTTA-ROTH; HENDGES, 2010; SALOMON, 2014),
we formed a database based on the notion of argumentative situation, a rhetorical
notion retaken up by Plantin (1993, 1995, 1996, 2016), which highlights situations of
conflict of opinion, in various argumentative contexts. From the exhaustive and intricate
double transcription of the data (BAUDE, 2006; BLANCHE-BENVENISTE, 2008;
KERBRAT-ORECCHIONI, 2006). The research culminated in the confirmation that the
legal discourse is far from being cold and aseptic and that argumentative interactions
in that context, if analyzed in the heat of deliberations, have much to teach us about
arguing in an institutional context. This can be seen in four analytical chapters whose
planning and execution now we bring to light, from the study of law in action, that is,
in a concrete situation, from the deliberations of magistrates in moral damages cases,
in a Brazilian court of Second Instance.
Keywords: ethnomethodology; corpora; argumentation; court; transcription of oral
data.
Introdução
Há mais ou menos vinte anos, os estudos com base em corpora
orais movimentaram o cenário dos estudos em ciências da linguagem
(BAUDE, 2006, p. 25), sobretudo em território das interações verbais. Em
se tratando de território jurídico, as pesquisas de interações argumentativas
há muito clamam por um olhar atento, devido à dificuldade da coleta de
Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 673-709, 2021 675
1
Análise da Conversa Etnometodológica (ACE) é a expressão convencionalmente
utilizada no Brasil.
676 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 673-709, 2021
2
Os dados proporcionaram-nos quatro capítulos de minuciosa descrição e análise
linguística (DAMASCENO-MORAIS, 2013) os quais relataremos de forma sumária
neste artigo.
Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 673-709, 2021 677
3
No Brasil, a ACE convencionou usar o termo “conversa”. Neste trabalho utilizaremos
indiferentemente “conversação” ou “conversa”.
4
Apesar de não trazermos um exemplo da área de Linguística, importa aqui ilustrarmos
a situação com um “bom” exemplo de pesquisa malsucedida. Como este artigo trata,
justamente, de metodologias de pesquisa, achamos válido refletir, com um exemplo
recente, que, independentemente da área, se a metodologia não é bem estabelecida, o
trabalho corre sérios riscos de ser questionado. O “fiasco” ao qual nos referimos é o
recente estudo contestado pela comunidade científica a respeito de pesquisa sobre a
eficácia do uso da hidroxicloroquina. A pesquisa foi rejeitada via carta aberta porque a
metodologia adotada na pesquisa e a integridade dos dados apresentavam falhas. A esse
propósito, ver: Cientistas questionam em carta aberta estudo sobre a hidroxicloroquina
na The Lancet (https://www.uol.com.br/vivabem/noticias/afp/2020/05/29/cientistas-
questionam-em-carta-aberta-estudo-sobre-a-hidroxicloroquina-na-the-lancet.
htm?cmpid=copiaecola) – Acesso: 19 ago. 2020.
5
O que Ochs et al (1996) chamam de “background etnográfico” refere-se a uma análise
mais aprofundada de contexto e, ainda, descrições mais detalhadas do objeto de pesquisa.
678 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 673-709, 2021
8
Apesar dessa dificuldade de acesso, tivemos autorização por escrito do tribunal que nos
forneceu os dados, desde que garantíssemos o sigilo dos participantes. Em realidade,
na tese defendida não se pode identificar nem local nem datas de seleção do corpus.
680 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 673-709, 2021
9
No ritual jurídico, um magistrado “vogal” é quem tem a primazia de votar numa
deliberação.
Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 673-709, 2021 681
Corpus TRIBUNAL
27 casos selecionados Dissecção dos dados
Caso_59 8 excertos
Caso_18, Caso_60 6 excertos
Caso_15 4 excertos
Caso_3, Caso_8, Caso_17, Caso_20 3 excertos
Caso_1, Caso_4, Caso_7, Caso_22, Caso_47, Caso_61,
2 excertos
Caso_62
Caso_9, Caso_11, Caso_16, Caso_25, Caso_26, Caso_32,
Caso_33, Caso_40, Caso_41, Caso_43, Caso_46, 1 excerto
Caso_48
Fonte: Elaboração do autor
10
Em outros momentos da pesquisa, munimo-nos de câmeras e filmamos várias sessões
de deliberação e também de julgamento. Ali ficou patente a forma não tão natural com
que as pessoas reagiam, talvez intimidadas pela câmera e pela minha presença. Não
obstante, os dados que nós mesmos registramos (vídeo e áudio) não foram selecionados
para a pesquisa aqui relatada; mas fazem parte do corpus TRIBUNAL.
690 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 673-709, 2021
11
Importante destacar que, apesar de termos “enxugado” os dados, esse “pouco” foi
exaustivamente analisado e com base em critérios metodológicos claros. Nesse sentido,
sentimo-nos à vontade para afirmar que as conclusões a que chegamos não foram
intuitivas nem superficiais, visto o rigor que apresentamos no manuseio dos dados e,
que, inclusive, foi destacado no rapport de tese, quando da defesa do trabalho.
694 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 673-709, 2021
12
Para mais informações, conferir a página do laboratório ICAR, na versão original
em francês: http://icar.cnrs.fr/recherche/recherche-thematiques_et_axes_transversaux/
Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 673-709, 2021 695
13
Aqui não há necessidade de detalharmos a tradução para o francês, visto não ser esse
o foco deste artigo.
698 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 673-709, 2021
14
Vide artigos em que apresentamos idiossincrasias do fenômeno que chamei de
“recategorização argumentativa”, por meio da apresentação de dois estudos de caso
(DAMASCENO-MORAIS, 2014a, 2014b).
700 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 673-709, 2021
15
Vide Damasceno-Morais (2016).
Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 673-709, 2021 703
16
Certamente aqui não temos tempo de explicitar minuciosamente todas essas
ocorrências e regularidades, as quais ocuparam quatro capítulos de análise da tese
aqui citada. A ilustração que fazemos de forma breve neste artigo tem a única função
de mostrar como a metodologia nos permitiu encontrar resultados, a partir de análise
exaustiva de dados complexos, como já explicamos.
704 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 673-709, 2021
17
A esse respeito, ver Damasceno-Morais (2005).
Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 673-709, 2021 705
Últimas considerações
Vimos nesta contribuição para a edição especial sobre
“Linguística de Corpus: conquistas e desafios” – e que esperamos possa
de fato contribuir para alguma reflexão – uma oportunidade não de
teorizar sobre metodologias diversas,18 mas de relatar um caso prático de
composição, organização, recorte e análise de dados complexos, a partir
da investigação de uma problemática que, aqui, se traduz pela descrição
e análise da gestão do desacordo entre desembargadores numa Corte de
justiça em Segunda Instância. O aspecto metodológico da pesquisa ora
relatada testemunha as dificuldades inerentes e específicas à pesquisa
empreendida e pode ser vista como um exemplo prático das dificuldades
e desafios de se empreender uma pesquisa com corpora complexo.
Acreditamos que a importância maior desta experiência é registrar
a forma como “o gozo da descoberta” (SALOMON, 2014, p. 154),
apesar de ser um combustível necessário para levar um pesquisador a
explorar um mundo desconhecido (lembremo-nos do espeleólogo na
caverna), não é suficiente. Nesse sentido não basta o “amor aos dados”
(como o amor do carpinteiro pela madeira), mas a construção de uma
eficaz e clara metodologia de (de)composição e análise de dados,19 sem
18
Segundo Coscarelli e Mitre (2007, p. 74), a missão do pesquisador não é teorizar sobre
metodologias, “não é ter respostas e soluções, e sim levantar perguntas interessantes”.
19
O rapport da tese defendida (espécie de ata circunstanciada da defesa) trouxe
comentários avaliativos bastante encorajadores e entusiásticos acerca da metodologia
adotada para composição do banco de dados TRIBUNAL, razão pela qual tomamos a
liberdade de aqui relatar essa experiência acadêmica neste número especial.
706 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 673-709, 2021
Agradecimentos
Agradeço imensamente a Laura Silveira Botelho pela boa vontade na
leitura (empolgada e empolgante) deste relato-recorte de pesquisa.
Referências
ATKINSON, J. M.; DREW, P. Order in Court: The Organization of Verbal
Interaction in Judicial Settings. London: Macmillan, 1979. DOI: https://
doi.org/10.1007/978-1-349-04057-5
BAUDE, O. et al. Corpus oraux, guide des bonnes pratiques. Orléans:
CNRS Editions; Presses Universitaires Orléans, 2006.
BLANCHE-BENVENISTE, C. Les unités de language écrite et de langue
parlée. Cahiers de L’Université de Perpignan, Perpignan, n. 37, p. 192-
216, 2008.
CORNU, G. Linguistique juridique. Paris: Éditions Montchrestien, 2005.
COSCARELLI, C. V.; MITRE, D. Oficina de leitura e produção de textos
(Livro do Professor). Belo Horizonte: Editora UFMG, 2007.
DAMASCENO-MORAIS, R. O eminente discurso da queda iminente:
o telejornalismo econômico em foco. 2005. 143f. Dissertação (Mestrado
em Linguística) – Faculdade de Letras, Departamento de Linguística,
Línguas Clássicas e Vernácula, Universidade de Brasília, 2005.
DAMASCENO-MORAIS, R. Le prix de la douleur: gestion des
désaccords entre magistrats, dans un tribunal brésilien de seconde
instance, 2013. 491f. Tese (Doutorado em Ciências da Linguagem) –
Faculdade de Ciências da Linguagem, Université Lumière Lyon 2, 2013.
Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 673-709, 2021 707
Nicolás Arellano
Universidad de Buenos Aires (UBA), Consejo Nacional de Investigaciones Científicas
y Técnicas (CONICET), Buenos Aires / Argentina
nicolas.a.arellano@gmail.com
http://orcid.org/0000-0002-5197-5428
Resumen: Este artículo busca analizar las ventajas de una aproximación a los datos
lingüísticos históricos a partir de la confección de corpus específicamente diseñados.
Para ello, en primer lugar, se presentan las principales limitaciones de los corpus
generales de referencia, particularmente del corde (rae) y Corpus del Español (byu),
no solamente en cuanto al acceso de sus motores de búsqueda, sino también a la
disponibilidad de los textos que los componen. En segundo lugar, se hace uso de un
caso en específico, el del origen y desarrollo de las construcciones con clítico femenino,
para ilustrar la propuesta. A continuación, se contrasta esta propuesta de abordaje de
datos con otras investigaciones que utilizan corpus generales. Se evidencia, así, que
este modo de acceso a las emisiones lingüísticas históricas favorece el estudio de
procesos gramaticales novedosos de interfaz que se circunscriben a ámbitos informales,
populares, orales y diatópicamente marginales.
Palabras clave: locuciones idiomáticas; clítico femenino; corpus generales; corpus
históricos; español rioplatense.
data is contrasted to other research that use general corpora. Thus, it is demonstrated
that this way of accessing historical linguistic utterances benefits the study of novel
grammatical interface processes that deal exclusively with informal, popular, oral, and
dialectically peripheral fields.
Keywords: idioms; feminine clitic; general corpora; historical corpora; Río de la Plata
Spanish.
1 Introducción
Con la afluencia del giro computacional de las ciencias sociales
y humanas (DE MATTEIS, 2015), el acceso y desarrollo de bases de
datos en línea, corpus electrónicos generales y de referencia, así como
la multiplicidad de nuevos géneros y prácticas discursivas en Internet
–correos electrónicos, mensajería instantánea, entradas en redes sociales,
comentarios en periódicos, intervenciones en foros, por citar algunos–,
han cobrado un lugar preponderante dentro de la investigación del
lenguaje (VELA DELFA; CANTAMUTTO, 2015). Este escenario
no es nuevo y se enmarca al mismo tiempo en una realidad histórica:
las investigaciones filológicas y de las primeras décadas del siglo
XX fueron precursoras del análisis lingüístico a partir de la evidencia
empírica directa (BERBER SARDINHA, 2000). A partir de la década
de 1960, con la incorporación de ciertas herramientas computacionales
y la progresiva pérdida de la influencia de los métodos formales en
los estudios gramaticales, el trabajo con datos lingüísticos auténticos
comenzó a ganar cada vez más terreno (BIBER, 1990; ROJO, 2008).
Si bien actualmente existe consenso en los beneficios de acercarse a las
hipótesis lingüísticas de una manera que no excluya mutuamente a las
dos corrientes (FILLMORE, 1992; LÜDELING; KYTÖ, 2008), esto
es que tenga presente tanto fuentes directas como armado de oraciones
sin necesariamente una constatación empírica, la obligación del acceso
a los datos, a los “hechos del lenguaje” (WEISSER, 2016), se hace más
evidente ante algunos tipos de fenómenos gramaticales.
Los avances, si bien importantes, con relación a los grandes
corpus de referencia no se limitan en los alcances de las herramientas
computacionales y de la lingüística de datos reales. De manera sostenida,
Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 711-737, 2021 713
1
Conviene diferenciar, así, los archivos y las bibliotecas electrónicas (los primeros,
depósitos de textos sin organización; los segundos, colecciones con algún tipo de
criterio, sobre todo de género textual o no estrictamente lingüístico) de los corpus o
los subcorpus, que constituyen una parte específica de un archivo o una biblioteca
organizadas con un diseño y unos objetivos explícitos (BERBER SARDINHA, 2000).
2
Nuevos proyectos lingüísticos orientados al análisis de discurso interaccional, las
humanidades digitales y la sociolingüística han comenzado a incluir otras variables en la
notación de sus bases de datos, al mismo tiempo que implementan medidas y decisiones
para obtener el consentimiento de sujetos y/o anonimizar la identidad de los enunciadores.
En este tipo de empresas se suele agregar la información tipológica (según el canal de
comunicación, escrito u oral), metodológica (disponible o elicitado), genérica, de la
situación de comunicación y de las características identitarias básicas de los interlocutores
(DE MATTEIS, 2015; HUNSTON, 2008; VELA DELFA; CANTAMUTTO, 2015). Los
datos que no se recuperan de corpus lingüísticos generales en la investigación fueron
sistematizados siguiendo estos lineamientos lingüísticos y éticos.
Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 711-737, 2021 715
3
Estos no constituyen los únicos dos corpus disponibles en línea, sino solo los
más importantes en cuanto a cantidad de palabras, influencia y extensión en las
investigaciones, debido a su gratuidad y las universidades e instituciones que los
desarrollan. Para trabajar con corpus que fundamentalmente se ocupan de variedades
ibéricas desde un punto de vista histórico, pero que se centren en variedades no formales,
se recomienda consultar, por ejemplo, PostScriptum (Centro de Lingüística de la
Universidad de Lisboa), que se destaca por ser un corpus histórico que incluye epístolas,
cartas y géneros escritos informales. El Corpus Diacrónico y Diatópico del Español de
América (cordiam), coordinado por la Academia Mexicana de Letras y dirigido por
Concepción Company Company, es quizá la única excepción a la tendencia peninsular.
Otros corpus históricos son relevados por Contreras Seitz (2009) y Enrique-Arias (2012).
4
Corpus diacrónico del español (CORDE). Recuperado de: http://corpus.rae.es/
cordenet.html. Acceso en: 6 set. 2020.
5
Corpus del Español Genre/Historical. Recuperado de: https://www.corpusdelespanol.
org/hist-gen/. Acceso en: 6 set. 2020.
Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 711-737, 2021 717
FIGURA 1 – Gráfico de confección propia a partir del número de obras por género en
Corpus Diacrónico del Español (corde) sección Argentina.
6
Por las similitudes en la conformación de ambos corpus, nos concentramos únicamente
en el análisis derivado del Corpus Diacrónico del Español (corde). Al igual que lo que
ocurre con este corpus, los resultados obtenidos a partir de la utilización de una base
propia presentan pocas coincidencias con las unidades que se pueden obtener a través
del motor de búsqueda del Corpus del Español (byu).
Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 711-737, 2021 723
6 Conclusiones
En la introducción identificamos la importancia de las
herramientas de la lingüística de corpus en las investigaciones actuales
y la relación de esta metodología con otras subdisciplinas dentro de los
estudios del lenguaje.
732 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 711-737, 2021
Referencias
ALBELDA MARCO, M. La intensificación en el español actual. 2004.
444f. Tesis (Doctorado en Filologia) – Departamento de Filología
Española, Facultat de Filologia, Universitat de Valencia, 2004.
ARELLANO, N. Entre la morfología y la sintaxis: una aproximación a
la creación de verbos con pronombre acusativo «la». Forma y Función,
Bogotá, v. 33, n. 2, p. 81-108, 2020. DOI: https://doi.org/10.15446/fyf.
v33n2.80194
ARIAS, J. J. Clítico inherente/marginal la en el español rioplatense: ¿de
qué la va esta construcción? Quintú Quimün, Rio Negro, Argentina, n.
2, p. 74-103, 2018.
BERBER SARDINHA, T. Lingüística de corpus: histórico e problemática.
Delta: Documentação de Estudos em Lingüística Teórica e Aplicada, São
Paulo, v. 16, n. 2, p. 323-367, 2000. DOI: https://doi.org/10.1590/S0102-
44502000000200005
BIBER, D. Methodological Issues Regarding Corpus-Bases Analyses of
Linguistic Variation. Literary and Linguistic Computing, Oxford, v. 5, n.
4, p. 257-269, 1990. DOI: https://doi.org/10.1093/llc/5.4.257
734 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 711-737, 2021
Resumo: Este trabalho apresenta um importante recorte de uma pesquisa que tem
como objetivo contribuir com os estudos terminológicos, tradutológicos e sobre corpus
ao analisar as unidades que representam e transmitem conhecimento especializado de
uma área em crescente evolução acadêmica no Brasil e que discute demandas sociais
urgentes, os Estudos de Gênero. Para isso, neste artigo, será exposta a etapa fundamental
de qualquer pesquisa com corpus: a definição da área a ser analisada e a compilação
de textos com base em critérios confiáveis e que deem conta de representar a área em
questão. Assim, o objetivo central deste artigo é mostrar por quê, como e para quê se
propôs relacionar a Linguística de Corpus com os Estudos de Gênero a partir de um
corpus, apresentando, para tal, um histórico da área selecionada que justifica a análise
proposta e sua caracterização como campo especializado. Além disso, destaca-se o
referencial teórico que sustenta o trabalho e o corpus de estudo, compilado com base
em critérios da Linguística de Corpus e composto pelos dois principais periódicos da
área de Estudos de Gênero no Brasil, a Revista Estudos Feministas e a Cadernos Pagu.
Conclui-se defendendo a importância de produzir pesquisas linguísticas e terminológicas
que dialoguem com demandas sociais contemporâneas e urgentes.
Palavras-chave: Estudos de Gênero; Linguística de Corpus; Terminologia; Revista
Estudos Feministas; Cadernos Pagu.
Abstract: This work presents an important part of a research that aims to contribute to
terminological and translational studies as well as corpus studies, upon analyzing the
units that represent and transmit specialized knowledge in a field of soaring academic
evolution in Brazil and that discusses urgent social demands, Gender Studies. To do
so, this article will expose a fundamental stage of any research regarding corpus: the
eISSN: 2237-2083
DOI: 10.17851/2237-2083.29.2.739-770
740 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 739-770, 2021
definition of the field to be analyzed and the clipping of texts based on reliable criteria
that are able to represent such targeted field of study. Accordingly, the main intent of
this article is to convey why, how and for what purpose it was proposed to relate Corpus
Linguistics with Gender Studies from the compilation of a corpus, introducing therefore
a history of the selected field that justifies the analysis proposed and its characterization
as a specialized field. In addition, the theoretical references supporting the work and the
analyzed corpus stands out, compiled based on the criteria of Corpus Linguistics and
composed by the two main journals in the field of Gender Studies in Brazil, the Revista
Estudos Feministas and Cadernos Pagu. In conclusion, it defends the importance of
producing linguistic and terminological researches that converse with contemporary
and urgent social demands.
Keywords: Gender Studies; Corpus Linguistics; Terminology; Revista Estudos
Feministas; Cadernos Pagu.
Introdução
A partir do interesse em demonstrar possibilidades de contribuição
dos estudos linguísticos e, mais especificamente, da Linguística de Corpus
para a discussão de demandas sociais contemporâneas, a autora do
presente artigo desenvolve uma pesquisa em andamento na Universidade
de São Paulo (USP) em que propõe analisar a terminologia empregada na
veiculação de conhecimento do campo de Estudos de Gênero no Brasil,
em português, contribuindo para a precisão da comunicação especializada
da área e oferecendo um glossário de termos e contextos definitórios
como produto-subsídio para tradutores e revisores de textos produzidos
com foco nesse campo. Para isso, apoia-se nos princípios teóricos da
Terminologia, particularmente da Teoria Comunicativa da Terminologia,
que entende os termos como unidades lexicais que adquirem valor
especializado em contextos reais de utilização, para identificação, análise
e tratamento das unidades terminológicas empregadas na comunicação
dos Estudos de Gênero. Conta, também, com a abordagem metodológica
oferecida pela Linguística de Corpus, a partir da qual foi compilado um
corpus de artigos acadêmicos da área escritos originalmente em português
e publicados nos dois principais periódicos de referência em Estudos de
Gênero no Brasil, a Revista Estudos Feministas (UFSC) e a Cadernos
Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 739-770, 2021 741
1
Disponível em: http://comet.fflch.usp.br/. Acesso em: 6 set. 2020
2
Disponível em: https://www.ibge.gov.br/estatisticas/multidominio/genero/20163-
estatisticas-de-genero-indicadores-sociais-das-mulheres-no-brasil.html?=&t=o-que-e.
Acesso em: 6 set. 2020. O estudo é baseado em dados elaborados pelo próprio IBGE,
como a Pesquisa Nacional por Amostra de Domicílios Contínua (PNAD Contínua), a
Pesquisa Nacional por Amostra de Domicílios (PNAD), as Projeções da População por
Sexo e Idade, as Estatísticas do Registro Civil, a Pesquisa Nacional de Saúde (PNS) e
a Pesquisa de Informações Básicas Estaduais (Estadic), além de informações de fontes
externas, como o Ministério da Saúde, o Tribunal Superior Eleitoral (TSE) e o Instituto
Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira (INEP),
742 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 739-770, 2021
3
Atribui-se a Gayle Rubin, antropóloga estadunidense, a elaboração e difusão do termo
“gênero” a partir de sua proposição de um sistema sexo/gênero e de sua articulação
com uma dimensão política.
744 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 739-770, 2021
esse movimento, desde sua origem, contou “[...] com expressivo grupo de
acadêmicas, a tal ponto que algumas versões de sua história consideram
que o feminismo apareceu primeiro na academia e, só mais tarde, teria
se disseminado entre mulheres com outras inserções sociais”. Grossi
(2004), nesse sentido, destaca a defesa da tese de livre docência de
Heleieth Saffioti, em 1967, na USP, como marco do início dos estudos
sobre as mulheres no país.
De acordo com Heilborn e Sorj (1999), alguns anos depois,
uma importante mudança terminológica e conceitual vislumbrou-se
na consagração do campo em contexto brasileiro: “A partir da década
de oitenta, observa-se uma gradativa substituição do termo mulher,
uma categoria empírica/descritiva, pelo termo gênero, uma categoria
analítica, como identificador de uma determinada área de estudos no
país” (HEILBORN; SORJ, 1999, p. 4).
Silva, ao destacar a produtiva parceria entre o meio acadêmico
e os movimentos sociais, como o feminismo, a partir de convênios,
oferecimento de cursos, seminários etc., sublinha que, assim, “[...] a
Universidade valida e valoriza as ações promovidas pelas redes, servindo
como suporte teórico e, muitas vezes, também, com sua infraestrutura,
promovendo uma maior integração entre a sociedade em geral, os
movimentos sociais e os cientistas” (SILVA, 2000).
No Brasil, segundo Heilborn e Sorj (1999, p. 3), a institucionalização
dos estudos deu-se muito em função do fato de que, desde o início, houve
um claro esforço das pensadoras e acadêmicas feministas em integrar-se
à “[...] dinâmica da comunidade científica nacional mediante a obtenção
do reconhecimento do valor científico de suas preocupações intelectuais
pelos profissionais das ciências sociais”.
Assim, a área vai se consagrando no espaço acadêmico,
formando grupos de trabalho sobre gênero que se fazem presentes em
encontros e congressos como os da ANPOCS (Associação Nacional de
Pós-Graduação e Pesquisa em Ciências Sociais), desde a sua origem, e
introduzindo em programas de pós-graduação disciplinas focadas nas
questões de gênero. A produção da área também passa a contar com o
suporte e a divulgação de revistas acadêmicas, produzidas no contexto de
programas de pós-graduação de universidades destacadas no país. Além
disso, são cada vez mais frequentes os diálogos com pesquisadores e
pensadores de diversas partes do mundo, que chegam para contribuir com
a formação da reflexão da área no Brasil a partir de traduções, mediadas
746 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 739-770, 2021
4
Ver: http://www.fazendogenero.eventos.dype.com.br/. Acesso em: 6 set. 2020.
5
Ver, por exemplo: http://www.ufpb.br/escolasplurais/contents/noticias/didaticos/
genero-e-diversidade-sexual-um-glossario. Acesso em: 6 set. 2020.
748 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 739-770, 2021
7
Foram compilados apenas os textos das seções de artigos científicos para que, na
próxima etapa da pesquisa, seja possível analisar a terminologia em empregada nesse
gênero textual especificamente.
760 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 739-770, 2021
8
Programa gratuito de ferramentas de análise de corpus para análise de texto criado
pelo Prof. Lawrence Anthony, da Universidade Waseda, no Japão.
9
Cabe ressaltar que, no Brasil, outras publicações especializadas na área de Estudos
de Gênero vêm se estruturando em distintos centros universitários, produzindo e
divulgando conhecimento, como a REF e a Cadernos Pagu. Nesse sentido, destacam-se
periódicos como “Caderno Espaço Feminino” (Qualis B2), publicação do Núcleo de
Estudos de Gênero e Pesquisa sobre a Mulher do Centro de Documentação e Pesquisa
em História (CDHIS), da Universidade Federal de Uberlândia; “Gênero” (Qualis B3),
periódico de circulação nacional, iniciativa do Núcleo Transdisciplinar de Estudos de
Gênero e que, atualmente, está vinculado ao Programa de Estudos Pós-Graduados em
Política Social da Universidade Federal Fluminense; e a Revista Ártemis (Qualis B2),
periódico semestral, interdisciplinar, vinculada aos Programas de Pós Graduação em
Sociologia e Letras da Universidade Federal da Paraíba. Considerando como critérios
Qualis segundo o sistema da CAPES, tempo de publicação e reconhecimento na área de
Estudos de Gênero, para a presente pesquisa, optou-se pela extração apenas de textos
da REF e da Pagu, embora não se descarte, como perspectiva futura, a ampliação do
corpus considerando os periódicos aqui mencionados.
Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 739-770, 2021 761
3 Para quê?
O ano de 2020, provavelmente, ficará marcado na história da
humanidade por uma série de motivos diferentes. A pandemia do novo
coronavírus, por exemplo, vem produzindo efeitos catastróficos nas vidas
e em diversos setores das sociedades ao redor do mundo inteiro. Embora,
evidentemente, chame a atenção o número de vidas perdidas e a crise
econômica que vem se alastrando aos poucos, outro problema, também
de escala global e que é preciso destacar, refere-se ao aumento, nos mais
diversos países, de violências sendo produzidas em função de questões
de gênero e no contexto do isolamento como consequência da pandemia.
Exemplos disso são facilmente encontrados: de acordo com dados
do Ministério da Mulher, da Família e dos Direitos Humanos (MMDH),
com apenas um mês de isolamento no Brasil, em abril de 2020, as
denúncias de violência contra a mulher feitas pelo canal 180 já tinham
subido 40% em relação ao ano anterior (ESTADÃO CONTEÚDO, 2020).
Não à toa, temos visto, como resposta a esse aumento, surgirem diversas
campanhas, produzidas tanto na esfera pública quanto na privada, para
orientar a população e divulgar canais de denúncia para essas violências
e de combate a esses abusos, físicos e emocionais.
Nesse sentido, a Organização das Nações Unidas (ONU) também
tem se mobilizado, estruturando parcerias para enfrentar as consequências
764 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 739-770, 2021
Referências
BERBER SARDINHA, T. Lingüística de corpus: histórico e problemática.
DELTA, São Paulo, v. 16, n. 2, p. 323-367, 2000. DOI: https://doi.
org/10.1590/S0102-44502000000200005
BOND, L. Pesquisa mostra aumento da violência contra pessoas trans no
Brasil. Agência Brasil, 28 jun. 2020. Disponível em: https://agenciabrasil.
ebc.com.br/direitos-humanos/noticia/2020-06/pesquisa-mostra-aumento-
da-violencia-contra-pessoas-trans-no-brasil. Acesso em: 5 set. 2020.
BUTLER, J. Undoing Gender. New York: Routledge, 2004. DOI: https://
doi.org/10.4324/9780203499627
CABRÉ, M. T. La terminología. Representación y comunicación.
Una teoría de base comunicativa y otros artículos. Barcelona: Institut
Universitari de Lingüística Aplicada, Universitat Pompeu Fabra, 1999.
CABRÉ, M. T. Sumario de principios que configuran la nueva propuesta
teórica y consecuencias metodológicas. In: CABRÉ, M. T.; FELIU, J.
(org.). La terminología científicotécnica: reconocimiento, análisis y
extracción de información formal y semântica: Informe DGES PB-96-
0293. Barcelona: Universitat Pompeu Fabra; Institut Universitari de
Lingüística Aplicada, 2001. p. 17-25.
CADERNOS PAGU. São Paulo, [s.d.]. Disponível em: https://www.pagu.
unicamp.br/pt-br/cadernos-pagu. Acesso em: 5 set. 2020.
COSTA, A. de O. Revista Estudos Feministas: primeira fase, locação
Rio de Janeiro. Revista Estudos Feministas, Florianópolis, v. 12 n.
especial, p. 211-221, 2004. DOI: https://doi.org/10.1590/S0104-
026X2004000300022
COSTA, C. de L. Feminismo, tradução cultural e a descolonização do
saber. Fragmentos, Florianópolis, v. 21, n. 2, p. 45-59, 2010.
DINIZ, D.; FOLTRAN, P. Gênero e feminismo no Brasil: uma análise da
Revista Estudos Feministas. Revista Estudos Feministas, Florianópolis,
v. 12, n. especial, p. 245-253, 2004. DOI: https://doi.org/10.1590/S0104-
026X2004000300026
768 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 739-770, 2021
eISSN: 2237-2083
DOI: 10.17851/2237-2083.29.2.771-803
772 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 771-803, 2021
sight. It is argued that Kimbundu and Portuguese have a historical relation that allows
the elaboration of written corpus based on the documents of its descriptive tradition that
started in the 17th century and a spoken corpus resulting from recent research projects
that deal with vernacular varieties of Portuguese and its relation to the African language
of this study. To this end, we sought to study the state of the art of the description of
Kimbundu and Portuguese in Angola in order to demonstrate the need and feasibility of
building bilingual written and spoken Kimbundu-Portuguese-Kimbundu corpora. It is
hoped that the production of these bilingual corpora may contribute to the knowledge
of the situation of contact between both Angolan languages under study, based on
empirical material necessary to understand the real situation of contact between these
languages of Angola besides to support hypothesis about an Afro-Brazilian continuum
of Portuguese.
Keywords: bilingual corpora; Kimbundu; Portuguese; Language contact; Angola.
1 Introdução
Nos meses de julho e agosto de 2013 foi realizado trabalho de
campo exploratório no município do Libolo, província do Kwanza Sul,
Angola. Foram realizadas várias entrevistas e gravações diversas com
os moradores da região e coletados basicamente dados do quimbundo e
do português local. Com o início das transcrições dessas entrevistas, em
2014, verificou-se que uma parte considerável dos dados era bilíngue
quimbundo-português, apresentando ocorrências de empréstimos e
codeswitching, trazendo para a produção do corpus específico das línguas
do Libolo a problemática de como trabalhar na produção de corpora
bilíngues quimbundo-português e português-quimbundo (a partir daqui
quimbundo-português-quimbundo) com fins de analisar adequadamente
a situação de contato linguístico entre as duas línguas explicitada nos
casos de codeswitching e de empréstimos encontrados na variedade da
língua africana ali denominada ngoya, do grupo quimbundo (H20).1
1
A tradição bantuista, desde a classificação das línguas bantas por Guthrie (PETTER,
2015, p. 60) utiliza letras e números para identificação das línguas. Uma letra indica
uma zona, por exemplo H, uma letra e número um grupo: H20 é o grupo quimbundo, já
H21 é o grupo dialetal mbundo, quimbundo. Assim, ao se fazer referência ao quimbundo
Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 771-803, 2021 773
sem a especificação dialetal será utilizada a indicação do grupo, H20, mesmo sabendo
da classificação para o dialeto ngoya como H23 (HAMMARSTRÖM, 2019, p. 39),
levando em conta que uma investigação sobre o continuum dialetal do quimbundo
ainda aguarda uma descrição mais aprofundada.
2
Na impossibilidade de dedicar uma subseção para conceituar a hipótese de um
continuum afro-brasileiro de português citado neste último parágrafo, por fugir do
escopo do trabalho, remeto o leitor aos trabalhos supracitados, reservando as próximas
seções à temática central do artigo. Da mesma forma, considerando que a literatura sobre
774 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 771-803, 2021
3
Disponível em: http://www.language-archives.org/area/africa Acesso em: 10 out. 2020.
4
Disponível em: https://corplinguistics.wordpress.com/2012/02/08/african-language-
corpora/ Acesso em: 10 out. 2020.
5
Disponível em: https://library.columbia.edu/ Acesso em: 10 out. 2020.
6
Disponível em: https://www.aflat.org/ Acesso em: 10 out. 2020.
7
Disponível em: https://www.ethnologue.com/ Acesso em: 10 out. 2020.
8
Disponível em: https://languages.oup.com/research/community/ Acesso em: 10 out.
2020.
776 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 771-803, 2021
9
Disponível em: http://llacan.vjf.cnrs.fr/ressources_en.php Acesso em: 10 out. 2020.
10
Disponível em: https://acalan-au.org/aboutus.php Acesso em: 10 out. 2020.
11
Disponível em: http://corpafroas.tge-adonis.fr/ Acesso em: 10 out. 2020.
12 Disponível em: https://metashare.csc.fi/repository/browse/helsinki-corpus-of-
swahili-20-hcs-20-annotated-version/232c1910b9eb11e5915e005056be118e59fb2e9
20f1f4c0cafc94915fc6f5cac/ Acesso em: 10 out. 2020. Outro website de interesse está
disponível em: https://www.goswahili.org/ Acesso em: 10 out. 2020.
Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 771-803, 2021 777
3.2 Pesquisas recentes sobre o grupo quimbundo H20 e sua relação com
o português
Nos últimos quase 40 anos o quimbundo tem sido objeto de
estudo de trabalhos acadêmicos, notadamente teses, como os de Huth
(1984), Pedro (1993) e Xavier (2010). Fora esses trabalhos, outros
estudos interdisciplinares mais atuais sobre a língua, em seus aspectos
históricos (VANSINA, 2001; VIEIRA-MARTINEZ, 2006) figuram
entre as publicações que tomam a língua como foco. Vem ressurgindo
também o interesse por trabalhos que discutem a situação e classificação
do grupo H20 e seus dialetos (ANGENOT, MFUWA, RIBEIRO,
2011; ANGENOT; ANGENOT; HUTA-MUKANA, 2013; SOUSA;
KUKANDA; SANTIAGO, 2011) além de análises de documentos
históricos sobre o quimbundo (ANGENOT; KEMPF; KUKANDA, 2011;
BONVINI, 2009; ROSA, 2013) e sua influência no português tanto no
Brasil como na África lusófona (LÓPEZ; GONÇALVES; AVELAR,
2018; OLIVEIRA; ARAÚJO, 2018).
Logo após essa retomada de interesse pelo quimbundo, em 2012
e 2013, tiveram início dois projetos que deram impulso ao estudo dessa
780 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 771-803, 2021
14
Disponível em: https://bv.fapesp.br/pt/auxilios/55149/a-lingua-portuguesa-no-tempo-
e-no-espaco-contato-linguistico-gramaticas-em-competicao-e-mudanca-pa/ Acesso
em: 10 out. 2020.
15
O projeto Município do Libolo, Kwanza Sul, Angola: aspectos linguístico-
educacionais, histórico culturais, antropológicos e sócio-identitários, também
conhecido como Projeto Libolo, é parcialmente financiado pela Universidade de Macau
e por entidades privadas filantrópicas de Angola. Trata-se de um projeto internacional
e multidisciplinar cujos pesquisadores intervêm, de forma articulada, em pesquisas nas
áreas de Linguística, História, Antropologia, Etnografia, Filologia e Ações Pedagógicas.
O Projeto Libolo é também membro da Cátedra UNESCO em Políticas Públicas
para o Multillinguismo e está devidamente patenteado pelo Centro de Investigação e
Desenvolvimento (R&DAO) da Universidade de Macau, sob o número de referência
SRG011-FSH13-CGF, encontrando-se, desta forma, ao abrigo da vigente proteção de
direitos autorais de propriedade intelectual designada por Copyright © 2016, R&DAO
University of Macau. O Projeto Libolo está com site em construção a ser disponível
em: https://www.projetolibolo.com/ Acesso em: 10 out. 2020.
16
Disponível em: https://www.tycho.iel.unicamp.br/home Acesso em: 10 out. 2020.
Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 771-803, 2021 781
4 Metodologia
As propostas e os dados que serão apresentados nas próximas
seções são decorrentes da minha participação em estágio de pós-doutorado
nos diferentes projetos de pesquisa elencados em 3.2, o Projeto Libolo
e o Projeto Temático “A Língua Portuguesa no Tempo e no Espaço” já
apresentados. De início a preocupação sobre os estudos do quimbundo
e do português da região do Libolo visava a entender os fenômenos de
contato linguístico entre essas duas variedades linguísticas considerando
que já havia uma equipe ocupada com a descrição da variedade do
quimbundo ngoya da região e outra equipe ocupada com a variedade
do português do Libolo. Sendo assim, seria necessário um trabalho de
interseção entre as duas equipes de modo que se contemplasse a questão
dos contatos entre a língua banta e a língua oficial angolana.
Em um workshop promovido pela FAPESP e pelo British Council,
o Researcher Links,18 propus inicialmente a ideia de construção de um
corpus anotado do português e do quimbundo como línguas em contato.
Desde essa primeira proposta, iniciei a compilação e digitalização das
diversas obras sobre o quimbundo (Cf. QUADRO 1). Paralelamente
a isso, eram realizadas reuniões de grupos de pesquisa coordenadas
pela professora Margarida Petter com o estudo da gramática escrita por
Chatelain (1888/1889). Os trabalhos de transcrição de entrevistas e contos
17
Vale mencionar a ausência ainda de uma gramática de referência do quimbundo.
Mark van de Velde (c.p.) informou que foi submetida uma proposta de capítulo sobre
o quimbundo para a segunda edição do The Bantu Languages (VELDE et al., 2019),
mas o proponente não enviou o texto a tempo. Olga Kharytonava conduz nos últimos
anos um projeto de pesquisa sobre o quimbundo. Disponível em: http://kimbundu.ca/
Acesso em: 23 nov. 2020.
18
O workshop The New Historical Linguiticss and the World of Annotated Corpora
financiado pela FAPESP (Processo 14/50501-9) em convênio com o British Council
agregou por cinco dias pesquisadores brasileiros e britânicos para discussões sobre a
construção de corpora anotados e humanidades digitais. Informações sobre o evento
estão disponíveis em: https://www.york.ac.uk/language/research/centres/clhd/nhlwac/
Acesso em: 23 nov. 2020.
782 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 771-803, 2021
19
Para uma visão sobre o referido projeto, conferir o site do C-ORAL Brasil, disponível
em: http://www.c-oral-brasil.org/ Acesso em: 23 out. 2020.
20
Disponível em: http://www.vertentes.ufba.br/ Acesso em: 10 out. 2020.
Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 771-803, 2021 783
uma língua africana como L1, sendo que um deles tinha o umbundo
como L1:21
TABELA 1 – Transcrições da Equipe do Português do Libolo22
Local/
Identificação Sexo Idade Duração L1 L2
Comuna
Mbanza da Cabuta/
[TEMALM3] feminino 38 00:25:18 Quimbundo Português
Cabuta
Mbanza do Kitondo/
[HALDOM2] feminino 20 00:10:26 Português Quimbundo
Cabuta
[JOMAJH2] masculino 15 Calulo 00:19:38 Português Quimbundo
Mbanza do Kitondo/
[HALDOM2] masculino 68 00:09:36 Português Quimbundo
Cabuta
Mbanza do Kitondo/
[DOKITHX] masculino ? 00:06:51 Quimbundo Português
Cabuta
Mbanza do Kitondo/
[MIJOMH2] masculino 20 00:08:09 Quimbundo Português
Cabuta
[LUSAMH1] masculino 8 Calulo 00:08:59 Português ?
[ALBAGH4] masculino 43 Calulo 01:00:20 Quimbundo Português
[ANPAVM4] feminino 53 Calulo 00:48:35 Português Quimbundo
Fazenda da Quitila/
[VACHIH5] masculino 67 00:51:15 Umbundo Português
Calulo
Total do tempo de gravações: 04:12:00
21
O município do Libolo é composto por quatro comunas (distritos): Calulo, sede do
município, Munenga, Cabuta e Quissongo.
22
A Tabela em questão foi organizada a partir das transcrições disponibilizadas por um
dos pesquisadores da equipe do português responsável pela organização e sistematização
do corpus do Libolo, que será acessível em uma futura webpage do Projeto.
784 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 771-803, 2021
23
Santos (2015, p. 66), em nota de rodapé, informa que o espólio do Projeto Libolo
contava com cerca de 150 horas de material para análise, entre áudios e vídeos, depois
da pesquisa exploratória ao Libolo em 2013, até aquela data. Só de áudio, cada equipe
contribuiu com as seguintes quantidades de horas: 40 horas de gravações realizadas
pelas equipes de Linguística; 50h de entrevistas realizadas pela equipe de História e
cerca de 21 horas de entrevistas realizadas pela equipe de Antropologia.
Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 771-803, 2021 785
25
Disponível em: https://humanidadesdigitais.org/edictor/ Acesso em: 23 nov. 2020.
Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 771-803, 2021 787
26
Para os exemplos em línguas africanas, utiliza-se uma transcrição ortográfica, sem
marcação tonal, apresentando primeiramente os segmentos e as glosas, em seguida uma
tradução livre entre aspas simples. Para fins de simplificação, não é indicada a numeração
das classes nominais, comum na literatura bantuista. As abreviaturas das glosas são:
1, 2, 3 sg = primeira, segunda, terceira pessoa singular; 1, 2, 3 pl = primeira, segunda,
terceira pessoa plural; CL = classe nominal; CONJ = conjunção; COM = comitativo;
COP = cópula; IDEO = ideofone; INF = infinitivo; LOC = locativo; MD = Marcador
discursivo; MS = marca do sujeito; MO = marca do objeto; NEG = negativa; RFL
= reflexivo; PPF = pré-prefixo; PRON = pronome; TAM = marca de tempo, modo e
aspecto; VF = vogal final. Para uma rápida apresentação da estrutura das línguas bantas,
sugiro o capítulo 2 de Araújo (2013).
790 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 771-803, 2021
27
É indicado com o sinal de interrogação “?” no lugar da glosa sempre que houver
alguma dúvida quanto à categoria de um morfema ou a melhor glosa para uma categoria.
O exemplo (5) foi transcrito com auxílio de colaborador falante nativo do quimbundo
e a sugestão da grafia paka e kiê indicam a acomodação do português no quimbundo
L1 dos falantes.
Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 771-803, 2021 791
6 Conclusão
Trazendo para a discussão a relação mais do que necessária
entre a Linguística Africana (PETTER, 2015) e a Linguística de Corpus
(SARDINHA, 2004) como áreas disciplinares independentes e que
podem ser mais relacionadas, este artigo tomou como foco o caso da
796 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 771-803, 2021
Agradecimentos
Agradeço a Fundação de Amparo à Pesquisa do Estado de São Paulo
(FAPESP) pela bolsa de pós-doutorado (Processo 13/20567-5), que
financiou parte dos resultados de pesquisa deste artigo decorrentes do
projeto “O português e o quimbundo (H20) do Libolo, Kwanza Sul,
Angola – avaliando modelos teórico de línguas em contato” vinculado ao
Projeto Temático “A Língua Portuguesa no Tempo e no Espaço: contato
linguístico, gramáticas em competição e mudança paramétrica” (Processo
12/06078-9). Agradeço ainda a um parecerista anônimo por suas
sugestões e observações que muito contribuíram para uma apresentação
da temática deste artigo mais acessível. Os problemas remanescentes são
de minha total responsabilidade.
Referências
ADAMOU, E. A Corpus-Driven Approach to Language Contact:
Endangered Languages in a Comparative Perspective. Berlim: de Gruyter,
2016. DOI: https://doi.org/10.1515/9781614516576
ALLWOOD, J.; HENDRIKSE, A. Spoken Language Corpora for the
Nine Official African Languages of South Africa. Southern African
Linguistics and Applied Language Studies, [S.l.], v. 21, n. 4, p. 189-201,
2003. DOI: https://doi.org/10.2989/16073610309486343
ANGENOT, J.-P.; ANGENOT, G. de L.; HUTA-MUKANA, D. M.
Comparision between the Ipala-Ngoya, Kimbundu and Umbundu Tone-
Cases Systems. Revista Língua Viva, Porto Velho, RO, v. 3, n. 1, p. 1-28,
2013.
ANGENOT, J.-P.; KEMPF, C. B.; KUKANDA, V. Arte da Lingua de
Angola de Pedro Dias (1697) sob o prisma da dialetologia Kimbundu.
Papia, São Paulo, v. 21, n. 2, p. 231-252, 2011.
ANGENOT, J.-P.; MFUWA, N.; RIBEIRO, M. A. As classes nominais do
kibala-ngoya, um falar bantu de Angola não documentado, na intersecção
dos grupos kimbundu [H20] e umbundo [R10]. Papia, São Paulo, v. 21,
n. 2, p. 253-266, 2011.
ARAÚJO, P. J. P.; PETTER, M. O português e o quimbundo do Libolo
(Angola): línguas em contato (Manuscrito).
798 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 771-803, 2021
eISSN: 2237-2083
DOI: 10.17851/2237-2083.29.2.805-828
806 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 805-828, 2021
1 Introduction
The proposal of building an inventory of Brazilian Sign Language
in the region of Rio Branco in the State of Acre is integrated to the
National Brazilian Sign Language Inventory (INDLibras), established by
Universidade Federal de Santa Catarina, as part of the National Inventory
of Linguistic Diversity (INDL), implemented by the decree 7387/10,
as a tool for identification, recognition, valuing and promotion of the
languages spoken in Brazil. In this sense, INDL stands as an instrument
of the National Program of Immaterial Patrimony (IPHAN), which
aims at embracing the semiotic, sociocultural, political specificities of
the languages spoken in Brazil, in contrast to the cultural references
encompassed by IPHAN, namely the Registration and the National
Inventory of Cultural References (INRC) (IPHAN, 2016, p. 1). The
present paper follows the proposal of methodological description in
the compilation of the Brazilian Sign Language (Libras) Inventory as
observed in the works of Quadros (2016a) with regard to the inventory of
Florianópolis region (headquarters of the original project), and Ludwig
et al (2019), regarding the inventory of Palmas region – in the State of
Tocantins.
INDL, as a whole, might be defined as follows: a) a set of
information about the languages spoken in Brazil; b) a way to support
language knowledge and heritage; c) a policy catalyzing resources as
well as governmental and non-governmental actions in order to protect
those languages (IPHAN, 2016).
Once Libras is a national language, legally recognized by
means of Law 10.436/2002 and regulated by Decree 5.626/2005, the
development of a Libras Inventory leaves room for compilation of a
corpus with information about the language and mapping of its linguistic
aspects. Furthermore, once a consistent and broad inventory is created,
one is likely to provide a Libras dataset for linguistic investigation,
cultural valuing, educational feeding, and recognition of deaf identity.
Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 805-828, 2021 807
1
“Poder-se-ia pensar que as dificuldades serão levantadas se um corpus for exaustivo [...].
Na realidade, sendo indefinido o número de enunciados possíveis, não há exaustividade
verdadeira e, além disso, grandes quantidades de dados inúteis só podem complicar a
pesquisa, tornando-a pesada. O linguista deve, pois, procurar obter um corpus realmente
significativo. Enfim, o linguista deve desconfiar de tudo o que pode tornar o seu corpus
não-representativo (método de pesquisa escolhido, anomalia que constitui a intrusão de
linguista, preconceito sobre a língua)” (DUBOIS et al., 1993, p. 158-159).
808 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 805-828, 2021
Characteristic Description
A corpus must be comprised of sufficient sampling of a language
Sampling and
or language variation to be analyzed in order to obtain maximum
representativeness
representativity of such language or language variation .
A corpus must have a finite length, e.g., 500,000 words, 1 million
Finite size
words, 10 million words – except for corpus-monitor 1.
A corpus must be comprised of digital texts, which offer the
Machine-readable following benefits: i) the corpora could be researched and
form manipulated quickly; ii) the corpora could be easily fueled with
additional information.
A corpus constitutes a standard reference for the variation of
Standard reference language that it represents and it must be available for other
researchers’(re)use.
2
“[...] tanto as línguas como as culturas são meios e a matéria para os referenciais
simbólicos e identitários de um grupo social e suas relações com outros grupos;
ambas são transmitidas através da aprendizagem, e são reconhecidas como sistemas
estruturados de símbolos e normas. Língua é veículo para a transmissão da cultura e é
também um dos elementos constituintes de vários aspectos da cultura; e vice-versa.”
3
“[...] a língua serve para demarcar posições e identidades sociais de coletividades e
indivíduos, criando o tecido simbólico e comunicativo de uma comunidade; por um
814 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 805-828, 2021
lado, as práticas sociais criam os contextos diversos de usos de uma língua, marcando
a sua evolução tanto estrutural e simbólica, quanto com relação a normas e valores da
sociedade.”
Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 805-828, 2021 815
4
According to Decree 5,626, the course in Brazilian Sign Language – Libras is not
mandatory for other undergraduate courses.
816 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 805-828, 2021
Finally, the interviews are carried out in a way that fosters the
recording of verbal expressions underlying informants’ culture based on
demonstration of words, of linguistic borrowing, as well as of utterances
illustrating elements concerning grammar, vernacular dialectal varieties
pervading the cultural background of each region and in a universal way.
5
This is the only free-access interview session made available on the corpus website.
The other interviews have limited access and are made available in case of previous
request and registration of external researchers.
820 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 805-828, 2021
program used for the Libras corpus data transcription is ELAN – software
developed for audio and video purposes. It available for free download
at http://www.lat-mpi.eu/tools/.
FIGURE 2 – Interview takes in ELAN
5 Final remarks
The creation of an Inventory of Brazilian Sign Language in
the Region of Rio Branco – Acre holds significant importance as it
encompasses not only linguistic components, but also sociocultural as
well as political aspects of Libras in the deaf community from Acre,
aligned to the National Libras Inventory. Then, Acre state becomes
part of Libras Corpus together with Santa Catarina (Florianópolis
area), described by Quadros (2016a); Alagoas (Maceió area); Ceará
(Fortaleza area); and Tocantins (Palmas area) – regarding the latter, check
description in Ludwig et al. (2019).
The corpus represents Libras in the metropolitan region of
Rio Branco as it is comprised of video recordings of both elicited and
spontaneous language use situations for research and other applied
purposes, not to mention the fact that the corpus involves the creation
of a set of guidelines for registration and storage of data and metadata
regarding Libras use to be also used in other states in Brazil. The corpus
also encompasses the creation of a form with gaps and standardized items
for systematization of the final results of the study carried out with the
Libras Corpus of the State of Acre.
All in all, the development of a Libras corpus in the scope of the
Inventory of the Libras in Rio Branco – Acre alongside the systematization
of its creation process might play a significant role in the consolidation
of both theory and practice of sign language research in Brazil, once the
linguistic data set, accurately gathered, are representative of the language
and may be available to other researchers for future studies. The data are
to be gathered from 2021 on.
Acknowledgements
This work was made possible partially by the resources of the National
Council for Scientific and Technological Development - CNPQ (# 440337
/ 2017-8), as well as partially by resources from the National Historical
and Artistic Heritage Institute (IPHAN), of the Ministry of Culture, in
partnership with the Institute of Linguistic Policies (IPOL). We are very
grateful to translator Raquel Rossini Martins Cardoso.
824 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 805-828, 2021
References
BAKER, M. Corpora in Translation Studies: An Overview and Some
Suggestions for Future Research. Target, Amsterdam, v. 7, n. 2, p. 223-
243, 1995. DOI: https://doi.org/10.1075/target.7.2.03bak
BERBER SARDINHA, T. Linguística de corpus. São Paulo: Manole,
2004.
CHACON, T. C. et al. Guia de pesquisa e documentação para o INDL:
patrimônio cultural e diversidade linguística/pesquisa. Brasília: IPHAN,
2014.
CHEN PICHLER, D. et al. Conventions for sign and speech transcription
of child bimodal bilingual corpora in ELAN. Language, Interaction and
Acquisition, [S.l.], v. 1, n. 1, p. 11-40, 2010. DOI: https://doi.org.10.1075/
lia.1.1.03che
CRASBORN, O.; VAN DER KOOIJ, E.; MESCH, J. European Cultural
Heritage Online (ECHO): Publishing Sign Language Data on the
Internet. In: CONFERENCE ON THEORETICAL ISSUES IN SIGN
LANGUAGE RESEARCH, 8th., 2004, Barcelona. Proceedings […]
Barcelona: ECHO, 2004. p. 33-37.
DUBOIS, J. et al. Dicionário de Linguística. São Paulo: Cultrix, 1993.
EFTHIMIOU, E.; FOTINEA, S. E. Creation and Annotation of a
Greek Sign Language corpus for HCI. Universal Access in Human
Computer Interaction: Coping with Diversity. In: INTERNATIONAL
CONFERENCE ON UNIVERSAL ACCESS IN HUMAN-COMPUTER
INTERACTIONS, 4th., 2007, Beijing. Proceedings […]. Beijing: ILSP,
2007. p. 657-666.
Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 805-828, 2021 825
Moving_Heads_and_Moving_Hands_Developing_a_Digital_Corpus_
of_Irish_Sign_Language. Access on: Mary. 13, 2019.
LEITE, T. A. A segmentação da língua de sinais brasileira (Libras): um
estudo linguístico descritivo a partir da conversação espontânea entre
surdos. 2008. 280f. Tese (Doutorado em Letras) – Faculdade de Filosofia,
Letras e Ciências Humanas, Universidade de São Paulo, São Paulo, 2008.
LEITE, T. de A.; QUADROS, R. M. de. Línguas de sinais do Brasil:
reflexões sobre o seu estatuto de risco e a importância da documentação.
In: QUADROS, R. M.; STUMPF, M. R.; LEITE, T. A. (org.). Estudos da
Língua de Sinais II. Florianópolis: Editora Insular, 2014. p. 15-27.
LUDWIG, C. R. et al. Inventário da Língua Brasileira de Sinais da Região
de Palmas – Tocantins: Metodologia de Coleta e Transcrição de Dados.
Porto das Letras, Porto Nacional, TO, v. 5, n. 1, p. 59-74, 2019. Available
from: https://sistemas.uft.edu.br/periodicos/index.php/portodasletras/
article/view/6489/14835. Access on: Dec. 14, 2020.
McENERY, T.; WILSON, A. Corpus Linguistics. Edinburgh: Edinburgh
University Press, 1996.
MILLER, C. Some Reflections on the Need for a Common Sign Notation.
Sign Language and Linguistics, Amsterdam, 4, n. 1/2, p. 11-28, 2001.
DOI: https://doi.org/10.1075/sll.4.12.04mil
NISHIO, R. et al. Elicitation Methods in the DGS (German Sign
Language) Corpus Project. In: DREUW, P.; EFTHIMIOU, E.; HANKE,
T.; JOHNSTON, T.; MARTÍNEZ RUIZ, G.; SCHEMBRI, A. (ed.)
Corpora and Sign Language Technologies. 4th Workshop on the
Representation and Processing of Sign Languages. Paris: ELRA, 2010.
p. 178-185
QUADROS, R. M. As categorias vazias pronominais: uma análise
alternativa com base na língua de sinais brasileira e reflexos no processo
de aquisição. 1995. 141f. Dissertação (Mestrado em Letras) – Instituto
de Letras e Artes, PUCRS, Porto Alegre, 1995.
QUADROS, R. M. Phrase Structure of Brazilian Sign Language. 1999.
279f. Tese (Doutorado em Linguística) – Instituto de Letras e Artes,
PUCRS, Porto Alegre, 1999.
Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 805-828, 2021 827
Débora Borsatti
Universidade de Santa Cruz do Sul (UNISC), Santa Cruz do Sul, Rio Grande do Sul
/ Brasil
deborsatti@gmail.com
http://orcid.org/0000-0003-1486-0047
Abstract: This paper presents a proposal for pedagogical use of MT in English for
Specific Purpose (ESP) courses, aiming at investigating the efficiency of this technology
as a support for reading scientific texts in English as a FL. The theoretical approach is
on ESP, reading and comprehension and a proposal to use MT in ESP courses, aiming to
understand the processing of MT and how this knowledge can raise benefits on reading
comprehension for academic purposes. In addition, we discussed corpus linguistics and
its relation to language teaching as well as its role in MT. The analysis shows that, due
to the hybrid system that utilizes the rule-based system and the corpus-based system,
Google Translate produces relatively understandable and readable texts. Despite its
evident limitations, the tool can provide linguistic awareness when pedagogically
explored by ESP teachers in academic context.
Keywords: Machine Translation; pedagogical tool; reading; English for Specific
Purposes.
eISSN: 2237-2083
DOI: 10.17851/2237-2083.29.2.829-858
830 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 829-858, 2021
Resumo: Este artigo apresenta uma proposta de uso pedagógico de tradução pela
Máquina (MT) em cursos de inglês para fins específicos (ESP), com o objetivo de
investigar a eficiência dessa tecnologia como suporte para a leitura de textos científicos
em inglês como L2/ LE. A abordagem teórica é sobre ESP, leitura e compreensão e uma
proposta de uso de MT em cursos de ESP, com o objetivo de entender o processamento
da MT e como esse conhecimento pode trazer benefícios na compreensão da leitura
para fins acadêmicos. Também, discute-se a linguística de corpus e sua relação tanto
com o ensino de línguas quanto seu papel na MT. Por fim, a partir da análise que se
faz, devido ao sistema híbrido que utiliza o sistema baseado em regras com o sistema
baseado em corpus, o Google Translate produz textos relativamente compreensíveis e
legíveis. Apesar de suas limitações evidentes, essa tecnologia pode fornecer consciência
linguística quando explorada pedagogicamente pelos professores de ESP no contexto
acadêmico
Palavras-chave: Tradutor Automático; ferramenta pedagógica; leitura; Inglês para
Propósitos Específicos.
Introduction
In Brazil, English for Specific Purpose (ESP) courses are
commonly offered in Universities, and they are basically focused
on reading skill practice. Recently, a number of Higher Education
Institutions (henceforth HEI) in the country has been developing actions
for internationalization, which aim to allow Brazilian universities to take
part in the international academic community, and part of this process
involves foreign language learning, specially English, which is considered
a Lingua Franca (lato sensu) in the scientific context. One of the
actions worth mentioning is the International Mobility Program Science
Without Borders which aimed at developing science in Brazil by funding
undergraduate and graduate members of the academic community to
study in universities abroad. In fact, a discussion on internationalization
and language policies in Brazil has already been published by Sarmento;
Baumvol, Martinez (2019) on a special issue of the journal Organon by
the Federal University of Rio Grande do Sul-URFGS.
Among the methods for teaching ESP in the academic
environment in Brazil, developing reading strategies is the most frequent
Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 829-858, 2021 831
1
English as a Medium of Instruction into Practice. Oral Presentation. 27th Annual
Conference of the Brazilian Association for International Education, Cuiabá, 2015.
Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 829-858, 2021 833
2 Machine translation
If we are to investigate the introduction of MT in ESP classes we
have to keep in mind that Foreign Language tutors do not necessarily need
to know much about the working MT software, but they should know
these tools are available, how to use them, and their general strengths and
weaknesses. Therefore, it is important for this paper to present some of
the basis of the systems for MT, because the teacher as a researcher may
be limited by the performance of the tool. As it was stated previously in
this study, MT may provide linguistic awareness as a source of knowledge
much more efficiently once it is explored pedagogically.
Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 829-858, 2021 837
are machine readable. The Latin term corpus refers to a body because it
is formed by a variety of relevant linguistic information which display
both oral and written language behavior.
In this study that discusses the use of online Google translate
it is implicit we are talking about electronic corpora, since information
is changed into digits that are machine readable, as we stated before.
A traditional corpus can be a collection of physical texts, for instance,
the indigenous talk of some Amazon region annotated by ethnographic
research. As for Google translate it utilizes all the written texts that
were translated by humans and published on the web. For this reason, its
database is giant, as such, it can extract linguistic items which are able
to generate new translation in the target language.
It is also worth saying in the case of MT that Google corpora
can be either Comparative or Parallel. They both approximate; however,
comparative corpora contrast the linguistic items of each language, they
deal with at least two languages (2 monolingual texts) that are contrasted.
An example of this corpus is Compara seen at http://portugues.mct.pt/
COMPARA/, it is made up of literary work in its original language by
the side of its translation that was once published by a human translator.
A slight difference to Parallel corpora is that there is a linguistic corpus
in the first language and in parallel the engine displays encountered
translations (MCENERY; XIAU; TONO, 2006). Basically, Google
deals with parallel corpora, but as it will be studied next it actually uses
a hybrid system.
In terms of language teaching, which is the focus of this article,
parallel corpora have been much used to a diversity of pedagogical
objectives. They can be used to teach technical vocabulary in ESP
classes; Berber Sardinha (1998)2 for example, presents the Business
English corpus that is fruitful if the teacher needs a good source for
instructional material. In addition, Riess e Gabriel (2019) analysed lexical
disambiguation during reading in English as FL/L2 using the Webcorp,
a linguistic corpus of general English. The authors investigated how a
reader disambiguated the word mind in its different contexts of meaning.
In 2015 a special issue of the Brazilian journal Domínios da
linguagem was published in which the editors focused on linguistic
2
Size of a representative corpus. Summary of discussion on CORPORA email discussion
list, 26 August 1998.
Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 829-858, 2021 841
will make it difficult to access prior knowledge in order to fill in the text
gaps. Thus, the use of MT can be beneficial for beginner learners of FL,
providing a general idea of the text so that the reader will be able to raise
hypotheses about the text.
Another important aspect pointed by Grabe (1991) is that L1
readers usually have a wide vocabulary before they begin to read,
while FL readers generally have a restricted vocabulary added to less
experiences in the target language. The author argues that, although
the reader has a good master of syntax in the FL, he is unlikely to be
familiar with pragmatic and cultural knowledge, which are related to
social interaction that is common for native speakers and it can hinder
the perception of these aspects in the texts.
Due to the complexity involved in reading comprehension, there
are many strategies that can be used for reading successfully. Strategies
are behaviors that are consciously selected to facilitate understanding
(NORDIN; RASHID; ZUBIR; SADJIRIN, 2013). For example, readers
may decide how much time to spend looking at a word, whether to reread
a section or to skip a section. They must decide when to summarize,
question the text, or make predictions and in order to do so, readers
depend on their executive control abilities (ARRINGTON; KULESZ;
FRANCIS; FLETCHER; BARNES, 2014; CARTWRIGHT, 2012).
However, reading strategies are not only conscious and they can
be divided into cognitive or metacognitive (KATO, 2007). They work as
support to construct the textual coherence through the relations established
between the elements of the text, such as syntactic segmentation
strategies, and anaphoric retrieval. Proficient readers tend to use strategies
more automatically, but when some new aspect arises interrupting the
comprehension process, it makes the reader act consciously, slowing
down his reading process in a reflected or metacognitive way.
These strategies function as fault detection mechanisms and
result from increased processing capacity effort. Perception of reading
failure is a part of comprehension monitoring, as the reader needs to
know what to do when the failures occur, and this is where strategic
decisions must be made. Furthermore, it has been postulated that good
readers are more metacognitively aware of their own strategies than less
proficient readers, as they tend to monitor comprehension better, being
more aware of the characteristics of the text and the strategies they use
while reading (NUTTALL, 1996).
846 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 829-858, 2021
There are several different types of reading strategies that are not
going to be explored in this paper because it is not the main point. In
summary, reading strategies play a special role in both NL and FL reading,
as they are cognitive mechanisms for comprehension and therefore can
be taught or develop language awareness, especially in reading.
One of the goals of ESP in Brazil, in the HEI context, is to
assure that students will be able to read and comprehend academic texts
in English as a foreign language. This paper proposes the use of MT in
ESP courses for reading academic texts in EFL. Based on the studies
cited in this paper it is possible to bring these practices into the reality
of ESP in Brazil and adapt the activities suggested as well as design new
possibilities.
Another relevant aspect of ESP courses is that dictionary use is an
example of a conscious reading strategy for solving a lexical difficulty.
From the same perspective, MT can be a support reading strategy. Riess
(2015), in her PhD dissertation on reading strategies and the use of
Google translator, discusses the use of MT as a reading strategy. The
author claims that:
The idea is not to exclude the tool from the class, on the contrary, it
is to include it and point out to failures and strengths of translation.
We suggest the use of Google translate as a strategy that benefits
reading comprehension, because the reader can search for
translation to what is unknown, at the various levels- from the
lexicon to the sentence till the whole text. (RIESS, 2015, p.104)
translate sentences more than words. In the verbal protocols they say
word order is one of the most difficult for them.
In this paper, we propose working with MT in ESP courses
that focus on academic reading because, in Brazil, using dictionary is a
common support strategy in these courses, since the majority of students
show low level proficiency and need this resource for comprehension.
Thus, MT can be an important tool as a reading strategy. Therefore,
meanings can be searched through online dictionaries, but also through
Google Translate, which is proved to be widely explored among students.
Therefore, ESP teachers can use it for pre-editing and postediting
activities using MT in different levels of search, such as word meaning,
sentences or even entire texts. Abstracts can be used as an example of
text, being short texts, which summarize scientific papers, these texts are
suitable for academic reading classes. It is important to emphasize that
scientific language can be quite predictable, being more direct by using
objective language and avoiding language aspects which normally appear
in literary texts and usually result in mistakes for MT such as metaphors
and other figures of speech.
In this article we suggest teachers three tasks to be used in ESP
lessons. They are theoretically founded in the subjects already described
previously, they are 1) Translating and discussing, 2) Reading and
translating, 3) Checking mistakes. In the first case an abstract translated
from English to the student’s native language could be read and discussed
in class focusing on the linguistic issues. The teacher, then, counts on
the student´s linguistic awareness, because discussions will probably be
raised by the student´s view. The second activity is reading an abstract
in the FL using strategies and then have the Google translation to check
the ideas. In such a circumstance monitoring reading is at stake because
students have to compare their comprehension either by using strategies
or by the language translated by the machine. The third suggestion we
give has to do with the efficiency of machine translation. This is because
discussing the possible mistakes made by MT is a different way of
teaching grammar rules and structures. In addition to these linguistic
items, teachers can also explore vocabulary. The role of the teacher is
more active in this case, because it is him/her who points out where
idiosyncrasies are. It is different from using parallel bilingual corpora,
for example, because in this situation the student counts more on his/ her
intuition to infer meaning, whereas with MT the teacher is, to a certain
848 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 829-858, 2021
Final remarks
Technology has been used in education all over the world in
different types of subjects and there are several online tools available
for pedagogical practices in language learning. Among various resources
for foreign language studies through technology, this study demonstrates
that MT systems have been improved over the last decades and that new
methodologies are being employed on a linguistic and interdisciplinary
basis. Research show that Google translate is the most accessed free
online MT tool by students. Google translate is processed by a hybrid
system that combines rule-based and corpus-based systems, in quite
coherent texts.
Reading comprehension requires lexical knowledge, consequently,
low proficient readers in a foreign language usually struggle to
comprehend FL texts due to lack of vocabulary and language structure.
ESP courses in universities in Brazil are generally focused on reading
skill development. Assuming that English is a global language in science,
undergraduate and graduate students should be able to read in English
in order to access international research.
Based on a number of studies conducted by researchers from
different parts of the world, MT can be used in FL classes for pedagogical
purposes. There are different approaches and activities that can be carried
out with learners, such as post-editing and analytical tasks that have been
proved to help students to raise language awareness and knowledge.
Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 829-858, 2021 849
Acknoledgements
We gratefully acknowledge the support of CAPES for the split doctorate
both authors were funded at the University of Pittsburgh at the Learning
Research and Development Center-LRDC.
Authors’ Contributions
Débora Ache Borsatti is a PhD student at the University of Santa Cruz do
Sul (UNISC). The author has been researching about the use of machine
translation in ESP courses, focusing on reading in English for Academic
Purposes. This paper was written as an assignment for the course “Second
Language Acquisition”, lectured by author 2.
Adriana Blanco Riess is a co-author in the paper. As an assistant professor
at UNISC, Adriana Adriana read, reviewed, and added important
contributions for the proposed discussion.
References
ANDERSON, N. J. Individual Differences in Strategy Use in Second
Language Reading and Testing. Modern Language Journal, [S.l.], v. 75,
n. 4, p. 460-472, Winter 1991. DOI: https://doi.org/10.2307/329495
850 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 829-858, 2021
Ariani Di Felippo
Universidade Federal de São Carlos (UFSCar), São Carlos, São Paulo / Brasil
arianidf@gmail.com
http://orcid.org/0000-0002-4566-9352
1 Introduction
Multi-document Summarization (MDS) is an important area of
Natural Language Processing (NLP). It aims at automatically producing
a unique summary for a set of source texts on the same topic (MANI,
2001; NENKOVA; MCKEOWN, 2011). It currently has attracted a lot of
attention in the scientific community because of the increasing incredible
amount of available textual information nowadays, mainly on the web.
It is a consensus that a good summary should contain the most
relevant information in the texts, and the area has achieved significant
progress in producing summaries that are more informative. The progress
is the result of both linguistically poor and rich summarization methods,
such as the empirical/statistical approaches (see, e.g., ANDO et al., 2000;
CARBONELL et al., 1997; HAGHIGHI; VANDERWENDE, 2009;
MIHALCEA; TARAU, 2005; RIBALDO et al., 2016) and the deep
ones (CARDOSO; PARDO, 2016; CASTRO JORGE; PARDO, 2010;
MCKEOWN; RADEV, 1995; RADEV, 2000; ZHANG et al., 2002).
Automatic summaries must also present the information to
the reader in a cohesive and coherent way. According to Koch (1998),
cohesion is related to the surface organization of a text. It may be
expressed by successive links among elements in the superficial structure
of the text. For example, anaphoric pronouns, which refer back to
textual antecedents, are elements of cohesion. Coherence is related to
the meaning of a text; related to the possible interpretation of the text
(KOCH; TRAVAGLIA, 2002). Beaugrande and Dressler (1981) claim
that the continuity of meaning is what keeps the text coherent. Thus,
coherence is the combination of concepts and relations of textual elements
and, sometimes, it is necessary to make use of world knowledge and
knowledge about the interlocutors and the situation itself for the text to
make sense. For example, coherence can be created between sentences
through repetition of words, which helps to reiterate the same ideas.
Although current summarization methods are still limited
on such aspects, since most of the systems only produce extractive1
instead of abstractive summaries2 (which are still hard to achieve and
not fully understood, systematized and formalized). Trying to evaluate
1
Summaries produced by concatenating sentences taken exactly as they appear in the
source texts.
2
Summaries that allow rewriting operations over the original material.
862 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 859-907, 2021
3
The LQ problems are generic and may be applied to any language.
Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 859-907, 2021 863
2 Automatic Summarization
In this section, we present an overview of basic concepts in
Automatic Summarization and methods developed specifically for
generating summaries in Brazilian Portuguese.
4
In this case, a robust method is applicable to very different testing data, e.g., different
genre or domain.
5
The scalability represents the ability of the method to deal with large amount of data.
Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 859-907, 2021 865
[S1] The crimes happened in the city of Muttur, in which during the last two
weeks, there were severe conflicts between the troops of the Sri Lanka army and
the guerrillas of the Liberation Tigers of Tamil Eelam (LTTE).
[S2] The director of ACF in Sri Lanka, Benoit Miribel, confirmed the death of its
employees and said that the NGO “did not suffer a similar loss in over 25 years of
existence.”
[S3] The violent conflict started on July 26, when government air troops bombed
positions of the guerrillas after the rebels blocked a dam located in its territory for
more than a week, hindering the supply of water in places under the government
control.
[S4] The special envoy for the peace in Sri Lanka from Norway, Jon Hanssen-
Bauer, arrived in the island last week and met the two parties, attempting to reduce
the tension and to avoid a new start of the civil war.
[S5] The crimes happened in the city of Muttur, in which, during the last two
weeks, there were severe conflicts between the troops of the Sri Lanka army and
the guerrillas of the Liberation Tigers of Tamil Eelam (LTTE).
[S6] The director of ACF in Sri Lanka, Benoit Miribel, confirmed the death of its
employees and said that the NGO “did not suffer a similar loss in over 25 years of
existence.”
[S7] The special envoy for the peace in Sri Lanka from Norway, Jon Hanssen-
Bauer, arrived in the island last week and met the two parties, attempting to reduce
the tension and to avoid a new start of the civil war.
[S8] Fifteen local employees of a French charity institution in Sri Lanka were
found dead in the city of Muttur in the north of the country.
One may see that the summary has several problems, such as
redundant information (S1 with S5, S2 with S6, and S4 with S7), noun
phrases without explanation (e.g., “the crimes” in S1 is not specified or
explained), and acronyms without explanation (“ACF” and “NGO” in
S2). Such problems occur due to the simplicity of GistSumm, whose
866 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 859-907, 2021
[S1] The special envoy for the peace in Sri Lanka from Norway, Jon Hanssen-
Bauer, arrived in the island last week and met the two parties, attempting to reduce
the tension and to avoid a new start of the civil war.
[S2] Fifteen local employees of a French charity institution in Sri Lanka were
found dead in the city of Muttur in the north of the country.
[S3] The crimes happened in the city of Muttur, in which, during the last two
weeks, there were severe conflicts between the troops of the Sri Lanka army and
the guerrillas of the Liberation Tigers of Tamil Eelam (LTTE).
[S1] Fifteen volunteers from the French NGO “Action Contre la Faim” (ACF)
were killed in northeastern Sri Lanka today, said a spokeswoman
[S2] According to a representative of the group Action Contre la Faim, the bodies
were found in the organization office.
[S3] The director of ACF in Sri Lanka, Benoit Miribel, confirmed the death of its
employees and said that the NGO did not suffer a similar loss in over 25 years of
existence.
[S4] Up to now, the Sri Lankan authorities did not confirm the deaths or clarified
what happened in the city of Muttur.
[S5] The rebels said that they will consider a new bombing of the army.
This summary is much better than the others, but it still presents
some problems, such as lack of connection between the S5 content and
the rest of the summary, and occurrence of the noun phrases “The rebels”
and “a new bombing of the army” that do not have their respective
referents in the summary.
The last summarizer is based on a statistical method (CASTRO
JORGE, 2015). It captures summarization patterns by estimating the
occurrence probability of some features in human summaries, including,
e.g., discourse (following the RST and CST models) and sentence position
information. The features represent strategic characteristics that indicate
the salience of a sentence among a set of sentences. The probabilistic
model is based on a generative learning approach (the noisy-channel
framework), where the task is formulated with probabilistic components,
including probabilities for content selection during the transformation
process and for coherence of the produced summary, and a decodification
step (i.e., the production of the final summary). This summarization
method is referenced by MTRST-MCAD (Method of Transformation with
RST and Model for Coherence evaluation After Decodification). Figure 4
shows an example of a summary created by the MTRST-MCAD method.
868 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 859-907, 2021
[S1] It is unclear who committed the murders of the employees of the French
organization.
[S2] The rebels said that they will consider a new bombing of the army.
[S3] Up to now, the Sri Lankan authorities did not confirm the deaths or clarified
what happened in the city of Muttur.
[S4] “We tried to send a team to Muttur to check what is going on, but the soldiers
did not allow us to enter the city, which is totally blocked”, he said.
[S5] The director of ACF in Sri Lanka, Benoit Miribel, confirmed the death of its
employees and said that the NGO did not suffer a similar loss over 25 years of
existence.
One may see that the summary also has some problems that
affect its quality, such as the lack of connection between S2 content and
the rest of the summary, and the occurrence of the definite noun phrases
“the murders of the employees” and “the French organization” in S1
that do not have their respective referents. The same occurs with the
definite noun phrase “The rebels” and “the army” in S2. Besides these
problems, the explanations for the “ACF” and “NGO” acronyms in S5
are not present in the summary.
The RC-4 system (in the deep approach) is currently the best
method for Portuguese, followed very closely by RSumm (in the shallow
approach). With some distance, we have MTRST-MCAD and, finally,
GistSumm. The evaluations of these methods have so far been guided by
summary informativeness criteria, mainly using ROUGE (LIN, 2004), a
standard n-gram-based measure that is automatically computed, allowing
for fast and easily reproducible evaluation. Despite the importance of
informativeness, the examples in this section show that this criterion is
not enough for assuring that good summaries are produced and provide
evidence that the systems need to treat problems that affect the LQ of
their summaries, as they severely harm the summary quality. For this, we
believe that the definition and the identification of problems related to
LQ will guide the summarizers in possible solutions for these problems.
In what follows, we present and discuss important issues and
previous initiatives related to defining and characterizing linguistic
problems in summaries, proposing, in the end, a synthesized and
comparative view of them. This forms the basis of the study that we
conduct in our corpus.
Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 859-907, 2021 869
[S1] In order to assist the ongoing investigation as the cause of the crash, the U.S.
team from the National Transportation Safety Board will join experts...
Source: Otterbacher et al. (2002)
[S1] However, according to reports on CNN, the control tower was concerned
with the speed and altitude of the plane and had discussed these concerns with the
pilot.
Source: Otterbacher et al. (2002)
Besides this, the verb tenses may be changed to represent the condition.
Figure 9 is an example of this use.
FIGURE 9 – Example of conditional sentence with improved cohesion
[S1] If the proposed measures were implemented, they would ensure broadly the
same registration standard to be applied to all drug treatment centers.
Source: Otterbacher et al. (2002)
[S1] Mrs. Clarie Lo, the Commissioner of Narcotics, said the proposal would be
introduced to non-medical drug treatment centers.
Source: Otterbacher et al. (2002)
[S1] Two days later, a second eruption appeared to be smaller than scientists had
anticipated.
Source: Otterbacher et al. (2002)
[S1] Mount Pinatubo is likely to explode again in the next few days or weeks.
Source: Otterbacher et al. (2002)
[S1] Lt. Col. Ron Rand announced at 5 a.m. Monday that all personnel should
begin evacuating the base.
[S1] Meanwhile, dawn skies over central Luzon were filled…
Source: Otterbacher et al. (2002)
[S1] (Volcanoes such as Pinatubo arise where one of the earth’s crust plates is
slowly diving beneath another.)
Source: Otterbacher et al. (2002)
[S1] Three bodies were lain before the faithful in the Grand Mosque in Manama,
Bahrain during a special prayer…
Source: Otterbacher et al. (2002)
[S1] Meanwhile, in the same area, search teams sifted through the wreckage.
Source: Otterbacher et al. (2002)
874 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 859-907, 2021
[S1] Taylor’s attorney could not be reached for comment Friday night.
[S2] Tony Taylor, 34, of Hampton, Va., has a plea-agreement hearing scheduled
for 9 a.m.
[S1] The renouncement may not stop the investigation because the process was
already started.
[S2] He will establish the process against the deputies involved with the
Sanguessugas Mafia.
Source: Cardoso et al. (2011)
[S1] At the 27 minutes, Kaká kicked the ball and Ronaldinho diverted the kick.
[S1] 20 cm from the end line, he gave two humiliating dribbles in the Ecuadorian
defender and crossed the ball to Elano, who scored the fourth goal, at 37 minutes.
[S1] It is popularly known as the ‘pink city’ because of the ochre-pink hue of its
old buildings and crenellated city walls.
[S2] He said there was no justification for such killings.
Source: Friedrich et al. (2014)
[S1] The suspect apparently called his wife from a cell phone shortly before the
shooting began, saying he was “acting out in revenge for something that happened
20 years ago”, Miller said.
[S2] The gunman, a local truck driver Charles Roberts, was apparently acting in
“revenge for an incident that happened to him 20 years ago.
Source: Friedrich et al. (2014)
Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 859-907, 2021 877
[S1] Taylor’s attorney could not be reached for comment Friday night.
[S2] And the person who cooperates first gets the biggest reward.
Source: Friedrich et al. (2014)
from the source text. This category also occurs for the following cases:
Noun phrases, Proper names, and Pronouns.
The authors report that the most significant problems are:
Erroneous anaphoric reference related to pronoun, Absent cohesion or
context, Broken anaphoric references related to noun phrases and Broken
anaphoric references related to pronouns.
For evaluating summaries in summarization contests, TAC
(DANG, 2005) developed classical guidelines to evaluate LQ in
summaries related to 5 features: Grammaticality, No Redundancy,
Referential Clarity, Textual Focus, and Textual Structure and Coherence.
Grammaticality verifies whether there are format and grammar
problems in the summaries, including capitalization (e.g., whether proper
names start with a capital letter). In relation to no redundancy, a good
summary should present the maximum amount of unique information
that is possible in respect to the compression rate. Thus, a summary is
weighted by the unnecessary repetition of information. This analysis must
happen in different levels, such as the redundant data/fact of an event,
sentences, and names (entities should be, whenever possible, referenced
by pronouns). A summary presents referential clarity when text references
are not ambiguous. A summary has focus when all sentences are related
to the addressed issue. The last feature of TAC suggests that a summary
is also evaluated by its good structuring and coherence. For example,
a summary should not present divergent information on the same fact
or event.
These 5 criteria that were proposed in TAC (actually, when it was
named Document Understanding Conference (DUC)) are widespread
in the area and used by most of the works that attempt to check LQ in
summaries.
more agnostic). This shows the relevance and the complexity of these
studies, which support summarization and other tasks.
In Table 1, we synthesized the LQ problem sets, showing the
similarities and differences based on 5 classes: (i) errors related to
inappropriate formatting and metadata inclusion; (ii) problems with
grammatical origin; (iii) inadequacies that come from style/grammar
choices; (iv) problems related to inadequacies in the use of entities and,
therefore, also related to cohesion; and (v) errors related to discourse and
coherence. We indicate with an “X” when a study treats the respective
LQ issue.
It is clear that some problem types cause problems in other levels
(e.g., a grammar error of missing subject/agent in a sentence also results
in lower cohesion), but we focused on the origin of the problems when
categorizing them. It is also interesting to notice that such categorization
may not be completely fair to the listed works, as they report different
problem specificity levels: while Otterbacher et al. (2002) and Friedrich et
al. (2014) present much more refined error catalogues, Kaspersson et al.
(2012) and Dang (2005) are more worried with general level problems.
TABLE 1– Synthesis of LQ problems in summaries
Grammar, style
run-on sentence x
awkward syntax x
missing/omitted article x
Entities, cohesion
first mention without explanation x x x x
acronyms without explanations x x x x
subsequent mention with explanation x x x
repeated entity x x
definite noun phrase without
x x x x
reference to previous mention
indefinite noun phrase with
x x x x
reference to previous mention
misused quantifier x x x
pronoun with missing antecedent x x x x
noun phrase with missing antecedent x x
proper noun with missing antecedent x x
pronoun with misleading antecedent x x x
noun phrase with misleading
x x
antecedent
proper noun with misleading
x x
antecedent
not clear identification of who
or what the pronouns and noun x
phrases are referring to
Discourse, coherence
occurrence of redundancy x x x
occurrence of contradiction x x
not explicit conditional sentences x x x
lack of purpose for a sentence x x x
lack of place specification for
an event (including collocation, x x x
change of location)
Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 859-907, 2021 881
4 The Corpus
The corpus used in this work was the CSTNews corpus
(CARDOSO et al., 2011). This corpus has been specially created for
multi-document summarization. It is composed of 140 texts (with an
average of 334 words and 14.9 sentences per text) distributed in 50
sets/clusters of news texts written in Brazilian Portuguese6 from various
domains. Each cluster has 2 or 3 texts from different sources that address
the same topic. These sources are important Brazilian online newspapers,
as Folha de São Paulo, Estadão, O Globo, Jornal do Brasil, and Gazeta
do Povo.
According to the authors, the choice of these news agencies was
due to their popularity, to publish the main current news, to the use of a
clear and everyday language, and because they make available different
6
The adoption of a corpus in Portuguese was due to the facts that (i) it was possible
to have access to the several different summaries that we needed for this investigation
and (ii) the annotators were native speakers of this language, which allowed for a more
refined and reliable annotation.
882 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 859-907, 2021
Others (errors that are different from the two first categories) (TABLE
3). The Entity and Clause categories have several types.
TABLE 3 – The typology of LQ problems
[S1] The president of the Ethics Council of the Senate, Leomar Quintanilha
(PMDB-TO), said to be contrary to the unification of the processes against the
Senator Renan Calheiros (PMDB-AL).
[S2] <e TYPE=SM+EXP SENT=S1 TEXT= “The president of the Ethics Council
of Senate, Leomar Quintanilha (PMDB-TO)”> The president of the Ethics
Council of Senate, Leomar Quintanilha (PMDB-TO)</e>, said that he is against
the union of representations, however that he will propose to a vote.
[S1] At least 17 people died after the crash of a passenger plane in the Democratic
Republic of Congo.
[S2] According to an ONU spokeswoman, the plane, Russian-made, was trying to
land in the Bukavu airport in the midst of a storm.
[S3] <e TYPE=DNP-REF>The spokesman</e> informed that the plane, a Soviet
Antonov-28 of Ukrainian-made and owned by a Congolese company, Trasept
Congo, also carried a cargo of minerals.
886 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 859-907, 2021
[S1] In São Paulo, on Tuesday (17), the Airbus-A320 of TAM presented a defect
in the reverse of the right turbine for the last 13 days.
[S2] The problem would have been detected by the electronic system of the plane,
but the plane, <e TYPE=INP+REF SENT=S1 TEXT= “the Airbus-A320”> an
Airbus A320</e>, continued flying with the right reverse off.
[S1] At 27 minutes, Kaká kicked from far away and Ronaldinho diverted the kick.
[S2] 20 cm from the end line <e TYPE=PRO_MIS ANT=”Kaká,
Ronaldinho”>he</e> dribbled the Ecuadorian defender and crossed the ball to
Elano, who scored the fourth goal at 37 minutes.
[S1] The other suspect is graffiti man and, according to <e TYPE=ACR-
EXP>Deic</e>, he has been arrested for theft, but has already been released.
[S2] The <e TYPE = ACR-EXP CS = “Federal Police”> PF </ e> did not know
how to inform if this kind of reward is paid to law enforcement agencies.
[S1] A homemade bomb was thrown against the building of the Public Ministry, in
the center of the capital, but nobody was injured.
[S2] <e TYPE=RED SENT=S1> A homemade bomb exploded outside the
building of the State Public Ministry and nearby shops were hit by shrapnels. </e>
[S1] The Egyptian Minister of Health Hatem, El-Gabaly, said on Monday that 57
people died and 128 were injured in the collision between two passenger trains in
the Nile Delta, north of Cairo.
[S2] <e TYPE=CONTR SENT=S1> At least 80 people died and over 165 were
injured on Monday after the collision of two passenger trains in the Nile Delta,
north of Cairo, according to the police and the medical sources. </e>
[S1] As expected, the athlete Fabiana Murer won the gold medal in the pole vault
at the Pan American Games in Rio, on Monday, at the João Havelange Stadium.
[S2] <e TYPE=INC_SENT>Murer won the highest place of the podium with the
4m60 mark against 4M40 of the American April Steiner.</e>
[…] [S4] Until the end of the game, Bruno and Anderson did not enter the court
anymore.
[S5] <e TYPE=DM CONEC=”But”>But, after that, everybody in the gymnasium
screamed the lifter name.</e> [...]
[S1] In addition to Rafael Nadal, the tournament will have three more athletes
among the 20 best of ATP ranking: the Spanish Nicolás Almago (11th place and
3 times champion of Brasil Open), the Argentinian Juan Mônaco (12th) and the
Swiss Stanilas Wawrinka (17th).
[S2] The organization of <e TYPE=Other EXPLANATION=“reference in
Portuguese for the term introduced in English”>Aberto do Brasil 2013</e>
announced this Tuesday morning that the Spanish Rafael Nadal will be returning
to the tournament to be disputed in February.
890 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 859-907, 2021
FIGURE 38 – Example of the Other problem: distinct spelling for the same entity
[S1] Israeli military forces in south of Lebanon also reported that, on Sunday,
30 militants of Hesbollah were killed, while an officer and two soldiers were
wounded in Oiled.
[S2] The Israeli air force attacked 150 targets early this morning in Lebanon as
the Jewish state soldiers killed 10 <e TYPE=Other EXPLANATION=”Distinct
spelling for the same entity”>Hezbollah</e> militiamen in the Bint Djebeil and
Kafr Hula Lebanese villages, according to military sources.
works with different summaries per day. In this work, the duration of the
annotation task was approximately 150 days.
Some problems are interesting to comment. The No semantic
relationship error was the error that required more attention and
refinement in its interpretation, due to the high degree of subjectivity
involved in this problem identification. Thus, this interpretation involved
discussions among annotators until the reconciliation process, i.e., the
final decision for marking the problem, as suggested by Hovy and Lavid
(2010). The Acronym without explanation problem required that every
annotator had the same background knowledge in order to fill the CS
(common sense) field. This background knowledge may be different
among the annotators and this may cause the inadequate identification
of the problem. Therefore, the annotation approach used in this work
may have avoided this type of problem.
Even with all the annotators working together, we periodically
verified the agreement among them. In such case, each annotator
separately worked with the same summaries, and, after this, we calculated
the agreement by the Kappa measure (CARLETTA, 1996). Kappa is
a classic agreement measure in NLP, which indicates the correlation
between annotators while it discounts the agreement by chance. In
the literature, there are some suggestions that guide the decision on
the minimum agreement value that is expected: a value less than 0.4
may indicate an unreliable annotation; if it is between 0.4 and 0.75,
the annotation is satisfactory; and if it is higher than 0.75, it is very
good. This value, however, changes according to the subjectivity of the
phenomenon and the difficulty of the annotation task. We consider our
annotation task as a very difficult and subjective one. Thus, we expect
lower kappa values.
We present the results of the annotation in the following section.
Annotated problems
Systems
Quantity %
GistSumm 521 38.33
MTRST-MCAD 421 30.97
RC-4 220 16.20
RSumm 197 14.50
Problems
Systems
Quantity %
GistSumm 160 61.30
RC-4 55 21.08
MTRST-MCAD 23 8.81
RSumm 23 8.81
[S1] A new series of criminal attacks was recorded early on Monday, the 7th, in
São Paulo and municipalities in the countryside of the State of São Paulo.
[S2] A homemade bomb was thrown against the building of the Public Ministry, in
the state capital.
[S3] The criminal actions may have been ordered by the leaders of the Primeiro
Comando da Capital (PCC), which had promised to return the attacks in São Paulo
on Father’s Day on Sunday.
[S4] At ABC Paulista, at least ten buses were set on fire - seven in Mauá and three
in Santo André.
[S5] <e TYPE=RED SENT=S2><e TYPE=INP+REF SENT=S2 TEXT=”A
homemade bomb”> A homemade bomb </e> was thrown against <e TYPE=
SM+EXP SENT=S2 TEXT = “the Public Ministry”> the Public Ministry (MP)</
e> headquarters. </e>
[S6] The building of the Treasury secretary, in the center, was hit by three
homemade bombs.
[S7] <e TYPE=RED SENT=S3> The leaders of the criminal gang PCC had
promised <e TYPE=INP+REF SENT=S1 TEXT=”A new series of criminal
attacks”> A new wave of attacks </e> will happen if the Public Ministry of São
Paulo deny the temporary exit of prisoners because of Father’s Day. </e> [...]
[S17] <e TYPE=RED SENT=S1,S3> Members of PCC had promised <e
TYPE=INP+REF SENT=S1 TEXT=”A new series of criminal attacks”> a new
wave of attacks </e> will happen if the Public Ministry of São Paulo deny the
temporary exit of prisoners because of Father’s Day.</e> [...]
[S1] <e TYPE=DNP-REF>In the second round</e>, the vote intentions for
President Lula fell from 53% in June to 50% in July, while candidate Alckmin
increased from 29% to 36%.
[S2] <e TYPE = ACR-EXP>CNI</e> explains that the research does not provide
a comparison with the previous survey for the first round, because it is the first
time that <e TYPE=ACR-EXP> Ibope </e> uses the official list of candidates for
president.
[S3] Although it does not allow comparisons, it is worth remembering that, in
June, Lula had 48% of the votes; Alckmin 18% and <e TYPE=1M-EXP>Heloisa
Helena </e> 5%.
[S4] The margin of error is two percentage points upwards or downwards.
[S5] <e TYPE=Other EXPLANATION=“Phrase with ambiguous referent”>The
research</e> was held between 29 and 31 July and was registered in <e
TYPE=ACR-EXP>TSE</e> under number 12197/2006.
noun phrase without reference to the previous mentions, being the most
frequent error for this summarizer.
Except for the pronouns with misleading antecedents problem,
which was not identified in the summaries generated by MTRST-MCAD
and RSumm systems, all the other errors happened at least in 1 summary
of each summarizer. This shows that the summarizers did not treat or
inadequately treated the problems that affect LQ.
TABLE 8 – Occurrence of each problem in the corpus per summarizer
Systems
Problems
MTRST-MCAD GistSumm Rsumm RC-4
RED 5.46% 30.71% 11.68% 25.00%
ACR-EXP 12.83% 18.62% 27.92% 22.27%
DNP-REF 25.42% 3.45% 18.78% 9.09%
SM+EXP 5.23% 16.51% 6.60% 14.09%
No_SEM 19.95% 4.22% 8.63% 5.91%
Other 9.50% 11.71% 4.06% 6.36%
1M-EXP 10.69% 4.03% 12.18% 5.91%
CONTR 0.95% 4.80% 1.02% 4.55%
DM 3.56% 1.73% 4.57% 1.82%
PRO-ANT 4.75% 0.77% 1.52% 1.36%
INP+REF 0.95% 2.30% 2.03% 2.27%
INC_SENT 0.71% 0.96% 1.02% 0.45%
PRO_MIS 0.00% 0.19% 0.00% 0.91%
Cluster Kappa
C12 0.409
C22 0.641
C32 0.578
C42 0.324
Average 0.488
Clusters % of sentences
C12 100
C22 100
C32 91.89
C42 81.25
Average 93.28
% of sentences
Problems
C12 C22 C32 C42
1M-EXP 54.54 90.00 91.89 81.25
SM+EXP 81.81 76.66 84.48 90.62
DNP-REF 63.63 93.33 83.78 53.12
INP+REF - - 89.18 -
PRO-ANT - - - 96.87
ACR-EXP 100 96.66 94.59 93.75
No_SEM 81.81 76.66 75.67 75.00
DM - - 91.89 96.87
RED - 83.33 89.18 81.25
CONTR - 86.66 94.59 -
Other - 96.66 81.08 90.62
Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 859-907, 2021 901
7 Final remarks
This paper reported the study, an annotation task and the
characterization of linguistic problems in multi-document summaries
automatically produced by systems of varied paradigms, from shallow
to deep approaches, including classic and state of the art methods. The
corpus consisted of summaries composed by four automatic summarizers,
and it was possible to verify that (i) some problems deserve more attention
from the automatic summarizers, as problems related to redundancy and
introduction of definite noun phrases and acronyms, which accounted for
more than 50% of the errors, and (ii) that the summarizers with the best
summary informativeness results (according to standard informativeness
measures) also produce a lower quantity of problems. Our results may
be used as a guide to treat errors in future summarizers.
The literature review and organization and the methodology used
for the problem annotation process are also contributions to the area. In
particular, the annotation strategy was interesting because the problem
annotation involves difficult and fuzzy aspects as subjectivity and world
knowledge, which may affect the consistency of the annotation. The
agreement values confirmed that such annotation strategy is worthy
following.
As future work, we consider to study error correlation in the
summaries, as well as automatic methods for detecting and properly
dealing with them, improving the summary quality.
902 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 859-907, 2021
For the interested reader, the corpus that was produced, the
summarization systems that we used and other related information about
this work may be found at the SUCINTO project webpage.7
Acknowledgements
The authors are grateful to FAPESP (Fundação de Amparo à Pesquisa
do Estado de São Paulo), USP Research Office (PRP 668) and Federal
University of Goiás for supporting this work.
References
ANDO, R.; BOGURAEV, B.; BYRD, R.; NEFF, M. Multi-document
Summarization by Visualizing Topical Content. In: ANLP/NAACL
WORKSHOP ON AUTOMATIC SUMMARIZATION, 2000,
New Brunswick. Proceedings […]. New Brunswick: Association
for Computational Linguistics, 2000. p. 79-88. DOI: https://doi.
org/10.3115/1117575.1117584
7
Available on: http://conteudo.icmc.usp.br/pessoas/taspardo/sucinto/resources.html.
Retrieved at: Feb. 10, 2019.
Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 859-907, 2021 903
Abstract: The present work aims to describe the methodological procedures of the
research entitled “ToGatherUp: a prototype of a tool for corpora construction” that
verified the effect of incorporating ToGatherUp in necessary time and effort invested
eISSN: 2237-2083
DOI: 10.17851/2237-2083.29.2.909-958
910 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 909-958, 2021
1 Introdução
O desenvolvimento de pesquisas com base na observação
empírica de dados da língua favoreceu o surgimento e o crescimento
da Linguística de Corpus, doravante LC, que é “uma nova metodologia
(que utiliza textos naturais e ferramentas informáticas para descrever
a língua) e uma nova disciplina (no sentido de uma nova abordagem
à descrição linguística)” (FRANKENBERG-GARCIA, 2012, p. 12).
Conforme esclarece Berber Sardinha (2004), para que seja possível o
uso prático da LC, o interessado precisa de “um ingrediente essencial:
o corpus” (BERBER SARDINHA, 2004, p. 45).
A construção de corpora de pequenas extensões1 pode não
representar um desafio complicado, mas a de corpora compostos por
grande volume de dados tem sido reportada como uma das partes
mais difíceis do desenvolvimento de uma pesquisa (cf. KÜBLER;
ASTON, 2010; ATKINS; CLEAR; OSTLER, 1992; BAKER, 2010;
BIANCHI, 2012; EDWARD, 2015; MACMULLEN, 2003; MCENERY;
HARDIE, 2011; MCENERY; XIAO; TONO, 2006; MINSHALL, 2013;
1
A extensão ou o tamanho de um corpus representa o volume de dados linguísticos
disponíveis para análise. Na seção Fundamentação teórica, discutimos sobre a extensão
de corpora.
Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 909-958, 2021 911
2 Fundamentação teórica
A Linguística é a área em que se desenvolve o estudo científico
da linguagem humana com base em fatos linguísticos (MARTINET,
1978). De acordo com Widdowson (1996), de modo geral, os fatos
linguísticos podem ser inferidos por meio da introspecção, da elicitação
e da observação de dados provenientes do uso real da língua pelos
seus usuários. Widdowson (1996) esclarece que os fatos linguísticos
apreendidos por meio da introspecção e da elicitação não revelam o uso
2
Do ponto de vista dos autores da pesquisa retratada por nós, as ferramentas que
oferecem suporte à construção manual de corpora são aquelas que oferecem recursos que
facilitam as atividades e o gerenciamento do projeto de construção manual de corpora.
3
Disponível em: www.ileel.ufu.br/togatherup. Acesso em: 1 mar. 2019.
912 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 909-958, 2021
efetivo da língua, pois partem das intuições que os seus usuários têm
sobre ela. Já a observação de dados linguísticos decorrentes do uso real
da língua e que refletem o comportamento linguístico de seus usuários
constitui-se como uma forma mais segura para a realização de inferências
sobre a língua. Nesse sentido, as análises linguísticas com base na LC
podem ser consideradas altamente confiáveis, uma vez que partem da
observação de corpora compostos por dados linguísticos reais.
Sinclair (2005) afirma que a construção de um corpus deve ser
realizada de acordo com critérios bem definidos e eficientes o bastante
para que o seu delineamento final possa garantir que o conjunto de
textos seja representativo. O conceito de representatividade na LC está
associado à capacidade que um corpus tem de representar uma língua
ou uma variedade dela e ao modo como foi construído. Podemos dizer
que um corpus é representativo quando, a partir da análise do conjunto
de textos provenientes das várias situações comunicativas reais de uma
comunidade linguística, é possível obter conclusões, a respeito de suas
propriedades, que permitam generalizações sobre a língua ou sobre a
variedade de língua em estudo.
A fase de construção de um corpus em que são definidos os seus
critérios tem sido referenciada pelos autores da LC como o “desenho
do corpus”.4 Firmar o desenho de um corpus não é uma tarefa simples,
pois, conforme Berber Sardinha (2004), não existem critérios objetivos
para isso. Segundo Blecha (2012), a delimitação do desenho de um
corpus deve ser orientada em consonância com os objetivos da pesquisa.
Tagnin (2010) coaduna com Blecha (2012) e afirma que cabe ao criador
do corpus a responsabilidade de definir os critérios que possam garantir
sua representatividade. Dentre os critérios para a construção de corpora,
na pesquisa aqui relatada, os fundamentos e implicações referentes à
extensão do corpus ganham importância.
A extensão do corpus representa o volume de dados linguísticos
que ele dispõe para análise. Na literatura da LC, não encontramos
a definição exata do tamanho necessário para que um corpus seja
representativo. No entanto, para estudos que consideram a chavicidade5
4
Na literatura da LC, em língua inglesa, encontramos o termo corpus design.
5
De acordo com Fromm (2007), a chavicidade (keyness) informa o quanto uma
palavra se destaca na relação entre a sua frequência no corpus de estudo e no corpus
de referência.
Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 909-958, 2021 913
6
Aluísio e Almeida (2006) definem o balanceamento como o equilíbrio entre as
categorias atribuídas aos textos que compõem um corpus.
7
Original: “any attempt at corpus creation is therefore a compromise between the
hoped for and the achievable”.
914 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 909-958, 2021
8
OCR é um software de reconhecimento ótico de caracteres. A sigla OCR vem do
inglês Optical Character Recognition.
Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 909-958, 2021 923
9
Consoante Rubi (2009), a revocação “pode ser mensurada por meio da relação entre
o número de documentos relevantes sobre determinado tema, recuperados pelo sistema
de busca, e o número total de documentos sobre o tema, existentes nos registros do
mesmo sistema” (RUBI, 2009, p. 85). A precisão “pode ser mensurada por meio da
relação entre os documentos relevantes recuperados e número total de documentos
recuperados” (RUBI, 2009, p. 85-86).
10
Por exemplo, os conteúdos patrocinados.
926 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 909-958, 2021
11
Original: “suitable for a wide variety of purposes”.
12
Original: “values the amount of available data more highly than the cleanliness of
a corpus”.
13
Original: “the benefits of abundant data outweigh most of the perceived disadvantages
of web corpora”.
928 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 909-958, 2021
3 Metodologia
Como explicado na introdução deste artigo, o objetivo principal
da pesquisa nele descrita é determinar os efeitos da incorporação
do ToGatherUp no esforço necessário para a construção manual de
corpora. A forma encontrada pelos autores para atingirem esse propósito
foi a realização de um experimento de comparação entre os esforços
necessários para a construção de duas versões idênticas do CoCLI, sendo
que o projeto de elaboração de uma delas contou com a incorporação
do ToGatherUp e o outro não. Para que a confrontação fosse possível,
em um primeiro momento, eles estabeleceram um critério objetivo e um
método para a medição do esforço das atividades de cada um dos projetos
de construção de corpora. Na sequência, à medida que executaram
a construção dos corpora, tabularam os esforços necessários para a
realização de cada uma das atividades dos projetos. Por fim, realizaram
o experimento por meio de um teste estatístico para a comparação dos
dados tabulados. Nos tópicos desta seção, explanamos cada um desses
passos.
14
Os atributos são as características ou propriedades das entidades.
15
As entidades são representações de objetos e eventos do mundo real. Por exemplo: uma
pessoa, um lugar, um objeto, uma ideia, um produto, um processo ou uma atividade. Do
mesmo modo que uma pessoa (entidade) pode ser descrita a partir de suas características
(por exemplo: altura, sexo e idade), as atividades podem ser descritas a partir de seus
atributos (por exemplo: duração, inputs e outputs).
Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 909-958, 2021 929
16
As regras ditam como a medição deve ser realizada.
17
Original: “Measurement is the process by which numbers or symbols are assigned to
attributes of entities in the real world in such a way so as to describe them according
to clearly defined rules”.
18
Os inputs são as entradas necessárias para a realização de uma atividade. No caso,
realizamos um recorte nas entradas que considerou apenas o tempo despendido pelo
criador do corpus na execução da atividade.
19
Os outputs são os produtos ou entregas (resultados) de uma atividade.
20
Métricas são unidades de medidas criadas a partir de medições.
21
Apesar de utilizarem somente o tempo do pesquisador como input da atividade,
os autores estão cientes da existência de outros inputs necessários para a realização
de uma tarefa, como o conhecimento do pesquisador. A decisão pelo uso do tempo
do pesquisador justifica-se pelo fato de o tempo ser, geralmente, reportado como o
recurso primário para a execução de uma atividade. Ademais, o tempo do pesquisador
apresenta-se como um input quantificável e de fácil mensuração em relação aos inputs
mais abstratos, como o conhecimento.
22
De acordo com o raciocínio aplicado, a não completude da atividade corresponderia
ao número 0 (zero).
23
A completude de uma atividade pode ser compreendida como a finalização de 100%
de suas tarefas.
930 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 909-958, 2021
24
A completude de um projeto pode ser compreendida como a finalização de 100%
das suas atividades.
Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 909-958, 2021 931
25
O ETP1 diz respeito ao projeto não intervencionado pelo ToGatherUp.
26
As atividades a, b, c e d são comuns aos dois projetos. As atividades de salvamento,
nomeação de arquivos e enriquecimento dos dados foram automatizadas pelos recursos
do ToGatherUp e, por isso, não geraram seus respectivos EAs. Portanto, não as incluímos
no cálculo do projeto intervencionado pelo ToGatherUp.
27
O cadastramento de texto é uma atividade específica da construção de corpora no
ToGatherUp.
932 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 909-958, 2021
3.2 O ToGatherUp
O ToGatherUp30 é uma ferramenta on-line (http://www.ileel.ufu.
br/togatherup) desenvolvida pelos autores da pesquisa aqui retratada
que oferece suporte a projetos de construção manual de corpora. As
principais funcionalidades da ferramenta são a inserção automática
de cabeçalho de metadados nos arquivos do corpus, a nomeação do
28
O ETP2 alude ao projeto intervencionado pelo ToGatherUp.
29
O tempo decorrido entre o início e o fim da atividade. Ou seja, a duração da atividade.
30
O nome ToGatherUp surgiu da associação entre o ato de construir um corpus e o verbo
frasal gather up, da língua inglesa, que, de acordo com o Macmillan Dictionary significa
“pegar coisas de lugares diferentes e colocá-las juntas”, no original “to pick up things
from several different places and put them together” (MACMILLAN DICTIONARY,
2018). Para reforçar a associação, no design da logomarca da ferramenta, os autores
incluíram o símbolo 輯, um ideograma da língua japonesa que, conforme Jisho (http://
jisho.org), um dicionário japonês on-line, pode ser traduzido para as seguintes palavras
da língua inglesa: a) gather; b) collect; c) compile.
Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 909-958, 2021 933
Fonte: ToGatherUp.
31
Os campos citados foram estabelecidos para o projeto do CoCLI. Os campos do
Cadastro de Textos podem ser definidos pelo pesquisador no momento da configuração
do projeto no ToGatherUp. A data de publicação do texto e a sua autoria são exemplos
de informações que podem ser incluídas durante a configuração do projeto.
Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 909-958, 2021 935
Fonte: ToGatherUp.
32
Na realidade, o que ocorre é uma renomeação, porque, para que seja possível a
sua submissão no ToGatherUp, o arquivo precisa ter sido previamente salvo pelo
pesquisador. O ToGatherUp desconsidera qualquer que seja o nome dado a um arquivo
submetido a ele e procede com a sua renomeação em conformidade com os metadados
do texto e com a convenção de nomeação de arquivos do projeto.
936 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 909-958, 2021
Metadados Descrição
(a) Subárea Informa a subárea do texto.
(b) Título Informa o nome dado para o texto.
(c) Língua Informa o idioma em que o texto foi escrito.
(d) Fonte Informa a origem do texto.
(e) Gênero textual Informa o gênero textual do texto.
(f) Tipos textuais Informa o tipo textual do texto.
(g) Meio de distribuição Informa o meio em que o texto foi divulgado.
Informa o esforço total referente à soma de todos os EAs
(h) ETCT
realizados para a inclusão de uma unidade textual no corpus.33
33
A obtenção do ETCT depende do registro do EA de cada uma das atividades
necessárias para a coleta do texto. É importante lembrar que o ToGatherUp não
apresenta uma forma de registro para cada um dos EAs. O software tem somente um
cronômetro que pode ser utilizado para a captura da duração de cada atividade, que
pode ser registrada em um tipo de controle escolhido pelo pesquisador.
Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 909-958, 2021 937
Metadados Descrição
Informa o domínio do texto (área do conhecimento/
(a) Domínio
especialidade a qual pertence).34
(b) Número de palavras Informa o número de palavras do texto.35
Informa a data e a hora em que o texto foi incluído no
(c) Data da inclusão
corpus.36
Informa o número de identificação do texto no banco
(l) Identificador do arquivo (ID)
de dados do ToGatherUp.37
34
O domínio do texto é estabelecido durante as configurações do projeto no ToGatherUp.
Por essa razão, o ToGatherUp é capaz de incluí-lo, automaticamente, como um metadado.
35
O ToGatherUp possui um algoritmo que contabiliza a quantidade de palavras do texto.
36
O ToGatherUp considera a data e a hora do servidor em que o sistema está instalado.
Por isso, o pesquisador não precisa informar esses dados.
37
O ID é gerado de forma incremental e automática pelo ToGatherUp.
938 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 909-958, 2021
Fonte: ToGatherUp.
Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 909-958, 2021 941
Fonte: ToGatherUp.
Critério Definição
Recuperar informações, extrair termos, definir termos e identificar
Objetivo
exemplos de uso de termos.
Domínio:38 Textos restritos às áreas e subáreas da Computação.
Especializado (composto por textos das áreas e subáreas da
Tipo
Computação).
Tempo Sincrônico (contempla textos publicados no período de 2000 a 2018).
Língua Monolíngue (apenas textos escritos na língua inglesa).
Textos científicos (artigos científicos, capítulos/seções de livro, teses,
dissertações, monografias e livros), informativos (artigos, notícias,
Gênero e tipo
relatórios e reportagens) e instrucionais ou normativos (apostilas,
textual
perguntas e respostas de fóruns, guias, manuais, decretos, normas
técnicas, notas técnicas, portarias, tutoriais e documentos).
Cada campo nocional da CSS deverá contar com, no mínimo, 100 mil
Tamanho
palavras.39
Modalidade Escrita.
Público-alvo Pesquisadores, aprendizes e profissionais da Computação.
Estado natural Formato eletrônico e sem a necessidade de reconhecimento de seus
dos textos caracteres.40
38
Assunto do corpus.
39
Os autores da pesquisa não identificaram, na literatura da LC, um número padrão
estabelecido para um corpus ou para as ramificações de uma Árvore de Domínio. Por
essa razão, estabeleceram o número de 100 mil palavras como padrão para a pesquisa,
partindo do pressuposto de que esse valor é suficiente para a recuperação de informações
em uma pesquisa terminológica
40
Essa condição dos textos facilita a captura deles.
944 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 909-958, 2021
Procedimentos
(a) Remoção de cabeçalhos e rodapés de páginas.
(b) Remoção de elementos gráficos (figuras, imagens e gráficos).
(c) Remoção de imagens.
(d) Remoção de notas de rodapé e fim.44
(e) Remoção de números de página.
(f) Remoção de referências bibliográficas.
41
Instituto de Letras e Linguística.
42
Universidade Federal de Uberlândia.
43
Grupo de Pesquisa e Estudos em Linguística de Corpus.
44
Optamos por excluir esses elementos dos textos por julgarmos o restante das
informações das produções escritas suficiente para os objetivos da pesquisa
Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 909-958, 2021 945
Procedimentos
(a) Remoção de hifens no final de linha.
(b) Remoção de quebras de linhas/parágrafos/páginas/seções.
(c) Remoção de espaços em branco duplicados.
(d) Remoção de marcas de parágrafos/recuos.
(e) Remoção de linhas em branco.
(f) Padronização de hifens, apóstrofos, traços e aspas.
Fonte: ToGatherUp.
3.4 O experimento
O experimento realizado na pesquisa consistiu na realização de
um teste estatístico que comparou os ETP de cada um dos projetos de
construção do CoCLI. O objetivo do experimento foi testar a hipótese de
que a incorporação do ToGatherUp em projetos de construção manual de
corpora poupa o tempo e minimiza o esforço do pesquisador dispensados
à execução das atividades de elaboração de corpora, de modo semelhante
ao que ocorre com as atividades de análise de corpora mediadas pelo
uso de computadores (criação automática de listas de palavras e linhas
de concordância, evidenciação de padrões linguísticos e etiquetagem
de corpora). Para a realização do experimento foi necessário realizar a
tabulação manual dos EAs, fornecidos pelo cronômetro do ToGatherUp
(Instrumento 1), em uma planilha do Google (Instrumento 2), para cada
uma das atividades de cada um dos projetos de construção do CoCLI.
Desses conjuntos de dados (dataset) foram extraídas amostras aleatórias
referentes aos mesmos 50 textos de cada corpus. Os dados das amostras
foram submetidos a um teste estatístico que permitiu determinar o efeito
da incorporação do ToGatherUp na construção manual das duas versões
do CoCLI.
De acordo com Rumsey (2010), testar uma hipótese é uma
tentativa de se “confirmar ou negar uma declaração sobre uma população45
a partir dos dados de sua amostra”46 (RUMSEY, 2010, p. 87).47 Para
45
Para Correia (2003), população é “uma coleção completa de todos os elementos a
serem estudados” (CORREIA, 2003, p. 9).
46
Consoante Correia (2003), uma subcoleção de elementos extraídos de uma população”
(CORREIA, 2003, p. 9).amostra é “uma subcoleção de elementos extraídos de uma
população” (CORREIA, 2003, p. 9).
47
Original: “trying to confirm or deny a claim about a population using data from a
sample”.
948 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 909-958, 2021
48
Segundo Correia (2003), um teste de hipóteses é “técnica para se fazer inferência
estatística. Ou seja, a partir de um teste de hipóteses realizado com os dados amostrais,
pode-se fazer inferências sobre a população” (CORREIA, 2003, p. 100).
49
Segundo Correia (2003), um teste de hipóteses é “técnica para se fazer inferência
estatística. Ou seja, a partir de um teste de hipóteses realizado com os dados amostrais,
pode-se fazer inferências sobre a população” (CORREIA, 2003, p. 100).
50
O SSPS foi escolhido por realizar os cálculos estatísticos de forma automática.
Disponível em: https://www.ibm.com/br-pt/products/spss-statistics. Acesso em: 23
fev. 2019.
51
Os registros que compuseram o conjunto de dados analisados foram criados de forma
automática e aleatória pelo SSPS.
52
De acordo com Rumsey (2010), as amostras que são expostas a condições normais
(não recebem tratamento ou recebem um tratamento falso, também chamado de placebo)
denominam-se Grupo de Controle. Já as amostras sujeitas a tratamento que afeta seus
atributos são chamadas de Grupo Experimental.
Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 909-958, 2021 949
53
Na estatística, a hipótese nula é representada por H0 e a hipótese alternativa, por H1.
54
Para Correia (2003), a hipótese estatística “trata-se de [i.e. trata de] uma suposição
quanto ao valor de um parâmetro populacional, ou quanto à natureza da distribuição
de probabilidade de uma variável populacional” (CORREIA, 2003, p. 100).
55
Autores como Rumsey (2010) também usam a expressão “hipótese de pesquisa” para
referenciar a hipótese alternativa.
56
De acordo com Rumsey (2010), um p-value de 0.05 e um p-value de 0.01 indicam,
respectivamente, que em 95% e 99% das vezes os resultados da amostra poderão se
repetir caso o experimento seja realizado novamente com outras amostras aleatórias
da mesma população sob as mesmas condições. Para Rumsey (2010), outros valores
podem ser assumidos para o p-value e essa determinação depende de cada pesquisador.
950 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 909-958, 2021
4 Resultados
A execução do T-Test no SSPS gerou o resultado apresentado
na Tabela 1.
TABELA 1 – Resultado do T-Test5758
Paired Differences
95% Confidence
Sig.
Mean Interval of the t df
Std. Std. Error (2-tailed)
Difference
Deviation Mean
Lower Upper
ETCT 157
Pair 1 & 131,140 4,333 613 129,909 132,371 214,003 49 0,000
ETCT 258
57
Referente ao Método 1.
58
Referente ao Método 2.
Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 909-958, 2021 951
6 Considerações finais
A pesquisa retratada neste artigo é o resultado de um trabalho
sistemático para a determinação do efeito da incorporação do ToGatherUp
em projetos de construção manual de corpora e, até onde pudemos
verificar por meio da revisão bibliográfica da LC, consiste em um dos
primeiros trabalhos a propor uma forma de mensurar o esforço necessário
para a realização de projetos de elaboração manual de corpora e a
propor uma sistematização do trabalho de criação manual de corpora,
respeitando princípios e métodos da LC e da área de Gerenciamento de
Projetos.
O uso do ToGatherUp que, no momento da redação deste artigo,
está passando por ajustes para que possa ser disponibilizado em 2021 e
utilizado, gratuitamente, em outras pesquisas é outro ponto de destaque da
pesquisa. Acreditamos que a disponibilização da ferramenta irá contribuir
para o preenchimento da lacuna59 existente na LC referente à carência de
ferramentas voltadas para o suporte das atividades de construção manual
de corpora compostos por grande volume de dados.
Além dessas contribuições, a pesquisa traz uma importante
discussão sobre possíveis complicações do uso de web corpora nas
pesquisas em que existe a preocupação quanto à precisão de análises,
visto que as ferramentas de coleta automática de textos, no estágio atual
da tecnologia, não conseguem lidar com os problemas apontados na
fundamentação teórica deste artigo. Essa discussão ganha mais relevância
ao considerarmos o fato identificado na pesquisa de que o percentual do
EALND, em ambos os métodos de construção do CoCLI, foi maior do que
todos os demais esforços somados juntos, atingindo 83,29% no Método 1
e 90,02% no Método 2, corroborando a ideia de Dasu e Johnson (2003)
de que a limpeza e a normalização podem ocupar cerca de 80% do tempo
compreendido entre a obtenção de um texto e sua análise. Se o maior
esforço de um projeto de construção de corpora está nas atividades de
limpeza e normalização e as ferramentas de coleta automática de textos
negligenciam essas atividades, as análises feitas a partir de corpora
coletados automaticamente correm o risco de serem postas em xeque.
59
A referida lacuna foi identificada por meio de um levantamento realizado durante a
pesquisa em que foram analisadas dez ferramentas da LC apontadas para a criação de
corpora pelo projeto Corpus Analysis (KLEIBER; BERBERICH, 2018), desenvolvido
por Ingo Kleiber e Kristin Berberich, da Universidade de Heidelberg, na Alemanha.
952 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 909-958, 2021
Referências
ALUÍSIO, S. M.; ALMEIDA, G. M. B. O que é e como se constrói um
corpus? Lições aprendidas na compilação de vários corpora para pesquisa
linguística. Calidoscópio, São Leopoldo, v. 4, n. 3, p. 156-178, 2006.
Disponível em: http://revistas.unisinos.br/index.php/calidoscopio/article/
view/6002. Acesso em: 2 abr. 2019.
ALVES, R. C. V. Metadados como elementos do processo de catalogação.
2010. 132f. Tese (Doutorado em Ciência da Informação) – Faculdade de
Filosofia e Ciências, Universidade Estadual Paulista, 2010. Disponível
em: https://repositorio.unesp.br/handle/11449/103361. Acesso em: 2
abr. 2019.
ANTHONY, L. EncodeAnt. Version 1.2.0. [Computer Software]. Tokyo:
Waseda University, 2016. Disponível em: http://www.laurenceanthony.
net. Acesso em: 2 abr. 2019.
ATKINS, S.; CLEAR, J.; OSTLER, N. Corpus design criteria. Literary
and Linguistic Computing, Oxford, v. 7, n. 1, p. 1-16, 1992. DOI: https://
doi.org/10.1093/llc/7.1.1. Disponível em: https://academic.oup.com/dsh/
article-abstract/7/1/1/1028498?redirectedFrom=fulltext. Acesso em: 17
abr. 2019.
BAKER, P. Corpus Methods in Linguistics. In: LITOSSELITI, L. (ed.).
Research Methods in Linguistics. New York: Continnum International
Publishing Group, 2010. p. 93-113.
BARONI, M.; BERNARDINI, S. BootCaT. Version 1.08. [Computer
Software]. Trento/Forlì: Universities of Bologna, 2004. Disponível em:
http://bootcat.dipintra.it. Acesso em: 2 abr. 2019.
BARONI, M. et al. WebBootCaT: A Web Tool for Instant Corpora.
In: EURALEX INTERNATIONAL CONGRESS, 12th., 2006, Torino.
Proceedings […]. Torino: Edizioni dell’Orso s.r.l., 2006. p. 123-131.
Disponível em: https://euralex.org/publications/webbootcat-a-web-tool-
for-instant-corpora/. Acesso em: 2 abr. 2019.
BARREAU, D.; NARDI, B. Finding and Reminding: File Organization
from the Desktop. ACM SIGCHI Bulletin, New York, v. 27, n. 3, p. 39-
43, 1995. DOI: https://doi.org/10.1145/221296.221307. Disponível em:
https://dl.acm.org/citation.cfm?id=221307. Acesso em: 17 abr. 2019.
Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 909-958, 2021 953
eISSN: 2237-2083
DOI: 10.17851/2237-2083.29.2.959-998
960 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 959-998, 2021
Abstract: The aim of this research is to collate data from intelligibility and
conventionality in health-related expository texts in Portuguese to investigate their
appropriateness to Brazilians. To this end, we rely on Corpus Linguistics for the
compilation and processing of a parallel corpus, comprising texts originally written
in English and their translations into Portuguese, and a comparable corpus, composed
of texts translated into Portuguese and texts originally written in that language. Our
methodology combines quantitative analysis – to assess readability, keyness, and
collocation – and qualitative analysis – to investigate words in context. Regarding
readability, the tools pointed out that texts written in Portuguese are ‘difficult’ for
the average Brazilian reader, with a level of education lower than High School. The
translated texts were considered ‘fairly difficult’, according to this same evaluation
criterion, which classified the originals in English as ‘fairly easy’, considering its target
audience, that is, the average American reader. The qualitative analysis pointed out that
the translated texts may compromise conventionality, revealing a preference for prima
facie equivalents, not always consistent with the patterns observed in original Brazilian
Portuguese counterparts. Although the accessibility evaluation tool indicates that both
the texts originally written in Portuguese and those translated into Portuguese do not
prove to be entirely suitable for the Brazilian target reader of medical expository texts,
we believe that, by breaking conventionality, the translated texts may hinder even more
the average reader’s comprehension of results of scientific research.
Keywords: expository texts; translation; conventionality; readability.
1 Introdução
Os textos de divulgação são de suma importância, já que visam
ao compartilhamento, com o público geral, de resultados de pesquisas
desenvolvidas por especialistas em diversas áreas do conhecimento.
Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 959-998, 2021 961
1
Este artigo apresenta resultados de pesquisa de Mestrado desenvolvida no âmbito do
Programa de Pós-Graduação em Letras da Universidade Federal do Rio Grande do Sul.
Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 959-998, 2021 963
2 Abordagem teórica
Para o desenvolvimento desta pesquisa, apoiamo-nos nos
pressupostos da inteligibilidade textual, da tradução e da Linguística
de Corpus para analisarmos textos de divulgação da área médica em
português. Abaixo relatamos os conceitos de cada área julgados relevantes
para o estudo.
2
Corpus paralelo bidirecional de português e inglês. Disponível em: https://www.
linguateca.pt/COMPARA/Bem-vindos.html. Acesso em: 25 ago. 2020.
3
No original: “translations tended to be longer than source texts in both the English-
Portuguese and the Portuguese-English directions.”
4
No original: “third code”.
5
No original: “a recognizable communicative event characterized by a set of
communicative purpose(s) identified and mutually understood by the members of the
professional or academic community in which it regularly occurs.”
Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 959-998, 2021 967
gênero textual também devem ser reconhecidas pelo leitor. Ou, segundo
Zamboni (2001 apud ANDREETTO, 2013), para essa tarefa, deve-se
transformar o discurso científico em discurso do “cotidiano”.
3 Metodologia
Conforme mencionado na Introdução deste artigo, para este
estudo foram realizadas análises quantitativas, por meio dos índices
de inteligibilidade e chavicidade, e também análises qualitativas,
auxiliadas por ferramentas de Linguística de Corpus, pois, para esgotar
o objetivo da investigação proposta, a pesquisa não poderia se manter
apenas no âmbito estatístico, mas sim tomá-lo como base para uma
investigação mais aprofundada. Afinal, de acordo com Biderman (1967),
os “primeiros senões facilmente apreensíveis são constituídos pelos dois
aspectos irredutíveis da realidade linguística: o elemento qualitativo e
o quantitativo”, reiterando a importância de se analisarem os textos por
esses dois vieses. Nesta seção, explicaremos a construção dos corpora de
estudo, bem como as ferramentas utilizadas nas análises desses corpora.
4 Análises e discussão
Nesta seção, explicitaremos as análises quantitativas e qualitativas
realizadas a partir dos corpora de estudo, e apresentaremos e discutiremos
os resultados dos levantamentos, que nos guiaram na reflexão sobre a
adequação dos textos de divulgação da área médica para o público-alvo,
ou seja, a população de não especialistas.
7
Disponível em: http://ucrel.lancs.ac.uk/llwizard.html. Acesso em: 15 maio 2020.
978 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 959-998, 2021
médico
21 the 53 o 25 um
8 baby’s 8 ao 23 seu
médico
6 um 17 pelo
7 ao
6 atendimento
6 do
8
Disponível em: https://www.dicio.com.br/usar/. Acesso em: 26 set. 2020.
9
Disponível em: http://www.aulete.com.br/usar. Acesso em: 26 set. 2020.
Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 959-998, 2021 981
4.3 Discussão
Retomando as médias de Índice Flesch, para o corpus comparável,
obtiveram-se índices de 57,659 para o subcorpus do MedlinePlus (PT)
e 39,115 para o do Ministério da Saúde; para a língua inglesa, a média
observada foi de 74,845 para o subcorpus do MedlinePlus (EN) –
lembrando que índices mais próximos de 100 apontam para maior grau
de facilidade, enquanto mais próximos de 0 demonstram maior grau
de dificuldade. Com base nos níveis de escolaridade das populações
estadunidense e brasileira, o índice de inteligibilidade dos textos em
português não estão adequados para o seu público geral, ao passo que
até mesmo o norte-americano com pouca escolaridade seria capaz de
compreender os textos em inglês. O intervalo mais adequado dos índices
para os textos em português seria de classificação ‘fácil’, entre 70 e
100. Já os textos em inglês, para serem acessíveis à maior parcela da
população estadunidense, poderiam apresentar inteligibilidade ‘difícil’,
com índices entre 30 e 60.
Enfatizamos que o levantamento quantitativo de inteligibilidade
parte de noções superficiais do texto, quais sejam, o comprimento
médio de palavras e de sentenças. Por esse motivo, o Índice Flesch
Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 959-998, 2021 991
5 Considerações finais
No que diz respeito aos resultados quantitativos, foi possível
traçar algumas conclusões em relação aos levantamentos de palavras-
chave e n-gramas. A partir dos levantamentos de colocados das
palavras-chave, concluímos que os textos traduzidos apresentavam, em
diversos momentos, quebras de convencionalidade (TAGNIN, 2013),
distanciando-se dos padrões utilizados nos textos escritos originalmente
em português. Essas quebras de convencionalidade ocorrem devido ao
uso de palavras cognatas do inglês e de traduções prima facie, fugindo
dos padrões esperados para o português.
Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 959-998, 2021 993
Referências
ANDREETTO, M. D. Por que os textos de divulgação são mais difíceis
para aprendizes de leitura com necessidades específicas do que textos
científicos? Um estudo direcionado pelo corpus. 2013. 172f. Dissertação
(Mestrado em Estudos Linguísticos e Literários em Inglês) – Faculdade
de Filosofia, Letras e Ciências Humanas, Universidade de São Paulo,
São Paulo, 2013.
Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 959-998, 2021 995
Abstract: This paper aims to describe some linguistic properties found in Enem
essays graded to 1000 points, the maximal score. It considers that this genre has its
own characteristics, such as the relation between exposition and argumentative types,
a wide repertoire, as well as a large use of connectives and modal elements, all of them
eISSN: 2237-2083
DOI: 10.17851/2237-2083.29.2.999-1032
1000 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 999-1032, 2021
contribute to characterize this genre. In this research, by considering the strict evaluation
process, it has been considered that these essays graded to 1000 points prototypically
represent the genre, once that they meet the criteria required by the evaluation panel.
The corpus consists of 95 essays that got 1000 points in 2014, 2018 and 2019 exams. It
has been analyzed by means of Tropes, a computational tool that verifies the frequency
of lexical items group them in categories and repertoire. The results show that such
essays follow what the literature proposed by the genre, especially, the impersonality
(third person only), the vast repertoire extension (universe of reference), the range
of connectives and modal elements, besides the recurrence of stative verbs, such as
ser (‘to be’). Consequently, one concludes that both the tool contributes to the genre
description, and the results put forward the debate around the standardization of the
Enem essay structure.
Keywords: textual genre; computational tool; Enem essay; linguistic properties.
1 Introdução
Trabalhar com textos argumentativos requer do pesquisador
a capacidade de refletir sobre estratégias linguísticas que amarram as
ideias num todo capaz de defender uma tese. Em outras palavras, exige
que ele seja capaz de descrever os elementos textuais que apontam para
uma determinada conclusão argumentativa. Assim, a argumentação tem
sido colocada em foco nos estudos em linguagem, esta encarada como
meio de produção de interações sociais. Levando em conta esse caráter
da linguagem, Koch (2011, p. 15) defende o trabalho com o tema por
considerar que a argumentação caracteriza a ação linguística “dotada
de intencionalidade”. Além disso, para a autora, é pelo trabalho com
a argumentação que se pode desenvolver “a capacidade de refletir, de
maneira crítica, sobre o mundo”, por meio da linguagem (KOCH, 2011,
p. 15). De maneira mais completa, Koch (2011, p. 17, grifos da autora)
assinala que
a interação social por intermédio da língua caracteriza-se,
fundamentalmente, pela argumentatividade. Como ser dotado
de razão e vontade, o homem, constantemente, avalia, julga,
critica, isto é, forma juízos de valor. Por outro lado, por meio do
Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 999-1032, 2021 1001
1
Apesar de não ser foco desta pesquisa, é igualmente válido considerar a subjetividade
da banca de avaliação, conforme sugerem Cançado et al. (2020), ou o fato de a mesma
banca ter se tornado mais rígida quanto à atribuição da nota máxima. Mesmo assim,
esperava-se que mais candidatos tirassem a nota máxima ao longo do tempo, em razão
de a preparação para o texto ser beneficiada pela recorrência do gênero no Exame.
Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 999-1032, 2021 1003
2
Seguindo a correta orientação de um parecerista anônimo, não faremos uma
comparação em relação ao texto de Silva (2018), uma vez que o objetivo não é comparar
nossa descrição com a análise da autora, cujo corpus é diverso daquele analisado na
presente pesquisa (ela analisa textos considerados mediados, com notas abaixo de 700).
Por isso, deixamos ao leitor interessado no tema a referência para leitura adicional.
1004 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 999-1032, 2021
3
Entre os exemplos está o portal G1: Redações nota 1000: Disponível em: <http://
g1.globo.com/educacao/enem/2015/noticia/2015/05/leia-redacoes-do-enem-que-
tiraram-nota-maxima-no-exame-de-2014.html > Acesso em: 17 jul. 2018.
1014 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 999-1032, 2021
Fonte: Tropes.
4
O aplicativo oferece subdivisões do Universo de referência; aqui, apresentaremos a
mais geral, intitulada “Universo de referência 1”.
Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 999-1032, 2021 1015
5
Para mais informações sobre o aplicativo, sugerimos Araújo (2017) e Bertucci (2020).
1016 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 999-1032, 2021
3.2.2 Conectivos
A Tabela 1 resume o resultado obtido com a análise das 95
redações nota 1000.
TABELA 1 – Ocorrência de conectivos
6
Uma rápida pesquisa no site “Corpus do Português”, com a entrada “e”, devolveu mais
de 34 milhões de ocorrências no termo (num corpus de mais de 1 bilhão de palavras).
A título de comparação, a conjunção “mas” apareceu em mais de 3 milhões de casos,
o que corresponde a apenas 10% de “e”.
1020 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 999-1032, 2021
3.2.3 Modalizadores
A Tabela 2 resume o resultado sobre os modalizadores.
TABELA 2 – Ocorrência de modalizadores
Afirmação 08 3 12 3,2 19 3 39 3
3.2.4 Verbos
Na Tabela 3 são apresentados os dados relativos à frequência
dos tipos de verbos.
TABELA 3 – Frequência de verbos
Geral
Verbo Total % (do total de 5114)
tornar 92 1,8
TOTAL 1278 25
3.2.5 Adjetivos
O resultado da análise sobre adjetivos pode ser visto na Tabela 5.
TABELA 5 – Frequência de adjetivos
3.2.6 Pronomes
Finalmente, a última categoria sob análise é dos pronomes. O
Tropes destacou uma única referência à primeira pessoa do singular e
observamos nos textos que se referia ao trecho seguinte, presente na
redação 3 da cartilha referente ao Exame de 2018.
Em segundo lugar, o ser humano perde a sua capacidade de
escolha. Conforme o conceito de “Mortificação do Eu”, do
sociólogo Erving Goffman, é possível entender o que ocorre na
internet que induz o indivíduo a ter um comportamento alienado.
(FELPI, 2019, p. 11, grifos nossos)
4 Considerações finais
Os resultados da presente pesquisa nos permitem defender que
ferramentas computacionais contribuem na descrição de gêneros textuais/
discursivos, porque são capazes de analisar volumes de dados maiores do
que aqueles que se faz manualmente (impensáveis para um pesquisador
ou professor). Nesse sentido, pensamos ter justificado a importância da
relação entre linguagem, tecnologia e um estudo de corpus com gêneros
escolares, uma vez que pode ter impacto no modo como se analisam e
se produzem os textos em ambientes de letramento.
Isso não significa, obviamente, que o ensino de produção textual
deva ser comparado a uma receita pronta, uma vez que a ação linguística
é extremamente complexa. No entanto, compreender as recorrências
de um gênero pode contribuir para ampliar a capacidade de reflexão de
professores e estudantes a respeito do fazer linguístico, especialmente de
textos que se mostram bastante formatados, como a redação do Enem. Por
isso, tentamos discutir os dados à luz dos materiais oficiais referentes à
prova, além de outras pesquisas, como uma forma de vincular os dados
ao modo como se interpreta (ou avalia) o texto escrito no Exame.
A partir da proposta de utilizarmos o Tropes para análise dos
dados, podemos concluir que ele apresentou um panorama geral relativo
às propriedades linguísticas das redações nota 1000 que são coerentes
1026 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 999-1032, 2021
com aquilo que se vê na literatura sobre esse tipo de texto. Com isso,
concordando com Araújo (2017) e Bertucci (2020), pensamos que o
Tropes contribui para a identificação de elementos linguísticos que
caracterizam um gênero. Deixamos em aberto, no entanto, pesquisas
que possam analisar suas limitações e possíveis inconsistências de
análise. Entre as que identificamos, há a marcação dos artigos o e a como
pronomes oblíquos de terceira pessoa, o que, no entanto, não prejudica
as conclusões gerais apresentadas, em especial porque o número de
pronomes de primeira e segunda pessoa foi nulo no corpus.
No presente trabalho, também não tratamos de questões a respeito
do debate sobre a padronização do gênero, nem de como essa descrição
realizada pode contribuir para o ensino de produção textual, ou seja, para
a discussão do “saber-fazer” que a tecnologia metalinguística abarca
na escola, uma vez que não era nossa intenção fornecer um manual
de ensino do gênero, mas analisar um conjunto significativo de textos
prototípicos do Enem e mostrar que a ferramenta Tropes pode contribuir
para a descrição de textos. Ao leitor interessado nesse tópico, no entanto,
a divulgação do material de apoio para avaliadores, divulgado em 2017
pelo Inep (GARCEZ; CORRÊA, 2017), e dos materiais para formação
de avaliadores (INEP, 2020), recentemente disponibilizados, podem
auxiliar a entender as minúcias desse gênero textual/discursivo exigido
no Enem, com ênfase na produção e avaliação dos textos.
Por fim, entendemos que será uma grande contribuição, tanto
para a área acadêmica, quanto para a pedagógica, que profissionais se
debrucem sobre questões como as apresentadas aqui e desenvolvam
estratégias que contribuam para um ensino da língua que, realmente,
ajudem os alunos a fazer escolhas linguísticas relevantes na construção
de seus textos. Reiteramos que isso não significa haver uma receita, mas
pode ser um olhar diferente para a constituição do gênero. Igualmente
relevantes são pesquisas com aplicativos como o aqui usado e com
corpora similares, a fim de se contribuir para o entendimento de gêneros
e para sua instrumentalização.
Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 999-1032, 2021 1027
Referências
ALVES, W. M.; BESSA, J. C. R. Orientações para escrita da redação do
Enem em vídeos do Youtube. Hipertextus, Recife, v. 19, n. 1, p. 1-23,
2018. Disponível em: https://periodicos.ufpe.br/revistas/hipertextus/
article/view/247974/36463. Acesso em: 1 out. 2020.
ARAÚJO, L. S. de. O gênero entrevista radiofônica em comunidades
hispânicas: um aporte da Análise Textual Automática. Domínios de
Linguagem, Uberlândia, v. 11, n. 2, p. 289-312, 2017. Disponível em:
https://doi.org/10.14393/DL29-v11n2a2017-2. Acesso em: 1 out. 2020.
ARAÚJO, F. de C.; CUNHA, M. A. F. da. A estrutura argumental dos
verbos de ação. PublICa, Natal, v. 3, n. 1, p. 28-35, 2009. Disponível
em: https://periodicos.ufrn.br/publica/article/view/106. Acesso em: 1
out 2020.
AUROUX, S. A revolução tecnológica da gramatização. 3. ed. Campinas:
Editora da UNICAMP, 2014.
AZEVEDO, I. C. M. Organização de textos dissertativo-argumentativos
em prosa: o que se percebe em dez anos de realização do Enem? In:
SILVA, L. R. da; FREITAG, R. M. K. (org.). Linguagem, interação e
sociedade: diálogos sobre o Enem. João Pessoa: Editora do CCTA, 2015.
p. 33-50.
BARROS, M.; ALBUQUERQUE, M. G. As técnicas argumentativas e
a construção de sentidos em redações do Enem. In: SEMINÁRIO DE
ESTUDOS SOBRE DISCURSO E ARGUMENTAÇÃO, 2., 2015, Belo
Horizonte. Anais... Belo Horizonte: Editora Fale, 2015. p. 545-559.
BARTON, D.; LEE, C. Linguagem online: textos e práticas digitais. Trad.
Milton Camargo Mota. 1. ed. São Paulo: Parábola Editorial, 2015.
BERTUCCI, R. A. Aplicação de ferramentas para coleta e análise de
dados em Linguística. Diacrítica, Braga, Portugal, v. 32, n. 3, p. 129-155,
2020. DOI: https://doi.org/10.21814/diacritica.576
BERTUCCI, R. A. Análise do argumento por definição em redações do
Enem. Acta Scientiarum, Maringá, PR. (no prelo).
1028 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 999-1032, 2021
NTATIVOS/7809ef0d-5a4a-4c24-9a03-9db15e0bdacf?version=1.0.
Acesso em: 28 set. 2020.
INEP disponibiliza material inédito sobre correção da redação do Enem.
Portal do MEC, Brasília, 2020. Disponível em: http://portal.mec.gov.br/
pronatec/oferta-voluntaria/418-noticias/enem-946573306/90611-inep-
disponibiliza-material-inedito-sobre-correcao-da-redacao-do-enem.
Acesso em: 28 set. 2020.
KOCH, I. G. V. Argumentação e linguagem. 13. ed. São Paulo: Cortez,
2011.
LIMA, L. I. Mapeamento semântico da construção de autoria no Ensino
Médio. 2019. 163f. Tese (Doutorado em Letras) - Setor de Ciências
Humanas, Letras e Artes, Universidade Federal do Paraná, 2019.
Disponível em: http://www.prppg.ufpr.br/siga/visitante/trabalhoConcl
usaoWS?idpessoal=29931&idprograma=40001016016P7&anobase=2
019&idtc=1533. Acesso em: 01 out. 2020.
MAGALHÃES, M. M. A argumentação em redações escolares. In:
SILEL – SIMPÓSIO NACIONAL E INTERNACIONAL DE LETRAS
E LINGUÍSTICA, 2013, Uberlândia. Anais... Uberlândia: EDUFU, 2013,
p. 1-13. Disponível em: http://www.ileel.ufu.br/anaisdosilel/wp-content/
uploads/2014/04/silel2013_645.pdf. Acesso em: 8. Jun. 2020.
OLIVEIRA, F. C. C. de. Um estudo sobre a caracterização do gênero
redação do ENEM. 2016. 166f. Tese (Doutorado em Linguística) – Centro
de Humanidades, Universidade Federal do Ceará, 2016.
OLIVEIRA, W. R. de. Planejamento de escrita em meio digital e
analógico. 2018. 175f. Dissertação (Mestrado em Estudos de Linguagens)
- Departamento Acadêmico de Linguagem e Comunicação, Universidade
Tecnológica Federal do Paraná, 2018. Disponível em: http://repositorio.
utfpr.edu.br/jspui/handle/1/3319. Acesso em: 1 out. 2020.
OLIVEIRA, M. I. S.; CABRAL, A. L. T. Política de Língua Portuguesa
para o ensino de Redação no nível médio da educação brasileira: o texto
argumentativo dos PCN’s à redação do Enem. Verbum, São Paulo, v. 6, n.
2, p. 6-30. 2017. Disponível em: https://revistas.pucsp.br/verbum/article/
view/30274. Acesso em: 1 out. 2020.
Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 999-1032, 2021 1031
Cláudia Freitas
Pontifícia Universidade Católica do Rio de Janeiro (PUC-Rio), Rio de Janeiro, Rio
de Janeiro / Brasil
claudiafreitas@puc-rio.br
https://orcid.org/0000-0001-6807-8558
Elvis de Souza
Pontifícia Universidade Católica do Rio de Janeiro (PUC-Rio), Rio de Janeiro, Rio
de Janeiro / Brasil
elvis.desouza99@gmail.com
https://orcid.org/0000-0001-9373-7412
eISSN: 2237-2083
DOI: 10.17851/2237-2083.29.2.1033-1058
1034 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1033-1058, 2021
1 Introdução
A articulação entre o Processamento (automático) de Linguagem
Natural (PLN) e os estudos linguísticos vem ganhando força nos últimos
anos, alterando um pouco o quadro descrito em 2007 por Karen Sparck-
Jones quando constata o distanciamento entre a linguística e a linguística
computacional. Muito dessa reaproximação se deve ao trabalho de
anotação de corpora que, como já apontado em Sampson (2001), é,
também, um trabalho de descrição linguística.
Neste artigo, contribuímos com mais um elemento na aproximação
entre os dois campos, e o fazemos não pelo viés da anotação, mas partindo
de corpora já anotados para a descrição de um fenômeno linguístico
de grande relevância para uma série de tarefas de PLN em português:
o sujeito oculto. Após uma caracterização linguística do fenômeno,
voltamo-nos para o PLN, a fim de medir o quanto a ausência de sujeitos
em uma oração pode dificultar o processamento sintático automático.
Uma das áreas de atuação do PLN é a extração de informação
(EI). Ainda que, tradicionalmente, a extração de informação consista na
detecção automática de informações relativa a certos atores pré-definidos,
como pessoas, lugares e organizações para indicar, simplificadamente,
quem faz o quê, tomada em um sentido amplo, várias tarefas do PLN podem
Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1033-1058, 2021 1035
1
Ao longo do texto, usamos a palavra unidade como uma tradução do inglês token, isto
é, uma unidade mínima de anotação, já tendo sido separadas as contrações de verbos
e pronomes, preposições e artigos, etc.
Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1033-1058, 2021 1037
2
Todos os exemplos foram retirados do corpus Bosque, a parte revista do projeto
Floresta Sintá(c)tica (AFONSO et al., 2002; FREITAS et al., 2008).
1038 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1033-1058, 2021
3 Trabalhos relacionados
O trabalho de Hartmann et al. (2014) é o único que conhecemos
que se debruça sobre o sujeito oculto em português no contexto do PLN.
Tendo como foco principal a anotação humana de papéis semânticos,
os autores exploram a inserção de elementos artificiais para representar
sujeitos omitidos. O objetivo da inserção é preencher algumas lacunas
na estrutura sintática das frases, a fim de facilitar a atribuição de papéis
semânticos e, assim, melhorar o material de treinamento da tarefa. O
corpus utilizado foi o PropBank-BR (DURAN; ALUÍSIO, 2012), que
foi então analisado pelo anotador PALAVRAS (BICK, 2000). A partir
da observação do texto anotado pelo PALAVRAS, os autores criaram
regras para inserção automática dos elementos nulos.
Assim como no presente trabalho, o processo de criação de regras
foi exploratório e incremental. Os elementos nulos foram preenchidos
com pronomes pessoais retos levando em conta a forma flexional
do verbo (“eu”, “nós”, e um genérico SUBJ (sujeito) para os demais
casos). No entanto, ao que parece, o trabalho considerou uma sintaxe
linear, sem informação da dependência, o que dificultou sensivelmente
a identificação dos sujeitos (ou de sua ausência), haja vista a quantidade
de itens intervenientes que podemos encontrar entre o sujeito e o verbo e
também a posição do sujeito em português, que pode estar anteposto ao
verbo (posição preferencial) ou posposto. A partir da análise de erros de
uma amostra de 200 frases, os autores relatam que a estratégia funcionou
em cerca de 80% dos casos e que, quando considerada a inserção por
tipo do sujeito, os resultados são heterogêneos: a inserção do sujeito
oculto é bem-sucedida em 88% quando o verbo corresponde às primeiras
pessoas, mas corresponde a apenas 55.8% dos demais casos, o que se
deve, sobretudo, a erros anteriores decorrentes da análise automática.
Do ponto de vista descritivo, a situação não é diferente, e isto
certamente se deve à ausência de material com as características técnicas
necessárias para o estudo: um corpus sintaticamente anotado e uma
interface de busca em árvores que permita procurar pela ausência, já que
não temos a tradição de anotar elementos nulos em corpora – o Penn
Treebank o faz, e trataremos dele a seguir.
Apesar de já dispormos de bons corpora em língua portuguesa,
nem sempre estão anotados sintaticamente. O vasto material do projeto
AC/DC (SANTOS; BICK, 2000) é uma saudável exceção, mas a interface
1040 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1033-1058, 2021
10. Go away!
11. Johni seems to PROi like Mary
12. Johni promised Mary PROi to write the book
13. John persuaded Maryi PROi to write the book
3
Milhafre. Disponível em: https://www.linguateca.pt/Floresta/milhafre. Acesso em:
8 out. 2020.
Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1033-1058, 2021 1041
4 Metodologia
O principal desafio deste trabalho está na metodologia – como
encontrar algo sem materialidade, dado que não temos anotação de elementos
nulos nos corpora. Neste trabalho, usamos a abordagem gramatical do
projeto Universal Dependencies (UD). O projeto, cujo objetivo é facilitar
o desenvolvimento de parsers multilíngues e a pesquisa linguística, propõe
esquemas de anotação compartilháveis entre línguas para a anotação de
classes de palavras, de informação morfológica e sintática. Atualmente,
UD conta com mais de 150 florestas (treebanks) em 90 línguas diferentes.
Como mencionamos na seção 3, o tagset de UD conta com uma etiqueta
específica para certos casos de omissão de sujeito, e apenas eles. Nos demais
casos já mencionados aqui – que correspondem aos exemplos (1-2) e (5-
9) – não há uma etiqueta especial. Uma vez que nosso interesse está em
medir os casos de omissão de sujeito, não abordaremos, neste momento,
as diferenças entre os casos 10-13. Com o auxílio de uma ferramenta
desenvolvida especialmente para lidar com corpora anotados seguindo o
formalismo UD, fomos iterativamente desenvolvendo estratégias e filtros
até identificar as frases que nos interessam.
4.1 Os corpora
A pesquisa foi realizada em três corpora com características
distintas. O primeiro deles é o já referido corpus Bosque, mas dessa vez
em sua versão UD, o Bosque-UD (versão 2.6). Trata-se de um corpus
4
“(…) a verb or an adjective is a predicative or clausal complement without its own
subject – [this] does not mean that a clause is an xcomp just because its subject is not overt.
The subject must be necessarily inherited from a fixed position in the higher clause.”
Universal Dependencies guidelines. Disponível em: https://universaldependencies.
org/u/dep/xcomp.html. Acesso em: 8 out. 2020.
1042 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1033-1058, 2021
5
A criação do Bosque-UD está detalhadamente descrita em Rademaker et al. (2017).
6
Disponível em: https://www.linguateca.pt/acesso/desc_dhbb.html. Acesso em: 8 out.
2020.
7
O OBRAS se encontra disponível em: https://www.linguateca.pt/OBRAS/OBRAS.
html, e o DHBB, em https://www.linguateca.pt/acesso/desc_dhbb.html. Acesso em:
8 out. 2020.
Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1033-1058, 2021 1043
8
O formato CoNLL-U é uma adaptação do formato CoNLL-X. As anotações são
codificadas em arquivos de texto simples, com um token por linha, e colunas (no
máximo 10) que codificam diferentes informações linguísticas, como lema, pos etc. Uma
explicação detalhada do formato pode ser encontrada em https://universaldependencies.
org/format.html. Acesso em: 8 out. 2020.
9
Disponível em: http://ufal.mff.cuni.cz/udpipe/models#universal_dependencies_25_
models_publications. Acesso em: 8 out. 2020.
10
Especificamente, as medidas UAS e LAS (unlabeled attachment score e labeled
attachment score, respectivamente) se referem aos acertos de encaixe das dependências
sintáticas, sendo que, na segunda métrica, além do encaixe (isto é, além de saber qual
o núcleo sintático de um determinado elemento), a relação de dependência sintática
também deve estar correta.
11
Disponível em: https://github.com/UniversalDependencies/UD_Portuguese-Bosque.
Acesso em: 8 out. 2020.
1044 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1033-1058, 2021
12
Comum em manchetes jornalísticas ou interjeições.
Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1033-1058, 2021 1045
13
Notamos que a forma de buscar as construções no corpus (isto é, o filtro) não
corresponde, necessariamente, a uma análise correta. Neste exemplo, o se é exatamente
do mesmo tipo do filtro d1, mas, como mencionamos, nem sempre podemos contar
com uma análise sintática perfeita no caso do se. A forma de buscar indica apenas que,
nesse caso, as ocorrências que gostaríamos de encontrar estão anotadas, na grande
maioria das vezes, dessa maneira.
1046 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1033-1058, 2021
5 Resultados e análise
Anterior à apresentação dos resultados, precisamos garantir que
aquilo que recuperamos com as buscas e os filtros é o que desejamos.
Esta validação é crucial no contexto do processamento automático,
sobretudo porque em dois dos corpora analisados estamos lidando com o
resultado de uma análise sintática que não foi revista. Procedemos a uma
verificação manual de uma amostra, a fim de medir o grau de confiança
que podemos ter nos resultados, já que apenas o Bosque-UD foi revisto.
Foram analisadas até 20 frases por filtro (alguns filtros devolveram menos
de 20 ocorrências), considerando cada corpus, totalizando 572 frases. A
Tabela 1 traz os resultados da análise e a Tabela 2, complementar, indica
a quantidade total de casos recuperados por filtro, bem como o quanto
esses casos representam considerando o total de orações principais e
subordinadas em cada corpus. Chamamos de busca ingênua a busca
por qualquer frase que não tenha um sujeito. A coluna Aval (avaliados)
da Tabela 1 indica o total de ocorrências de cada filtro; a coluna Corr
indica a quantidade de ocorrências corretas, isto é, que atendem às
especificações da busca/filtro.
A partir da Tabela 1, vemos que os resultados dos filtros variam
por corpus, e o primeiro dado que chama a atenção é a importância de
um material revisto, já que os números do Bosque superam os dos demais
corpora em todos os cenários, e no que se refere às orações principais,
isto é ainda mais evidente. Nos demais corpora, os resultados indicam
que o que capturamos, quando tentamos encontrar o sujeito omitido, está
correto em pouco mais da metade das vezes. Vemos, também, que é mais
difícil acertar a procura nas orações subordinadas que nas principais,
e isso se deve igualmente a limitações do processamento automático.
Quando nos detemos nos resultados de cada um dos filtros, temos uma
imagem mais nítida do que recuperamos.
14
O único filtro não replicado nas orações subordinadas foi o 2b, relacionado às frases
sem verbo, uma vez que há uma série de construções que atendem a essa especificação,
como adjuntos adverbiais, que nada têm a ver com a omissão do sujeito.
Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1033-1058, 2021 1047
Aval. Corr Aval. Corr Aval Corr Aval Corr Aval Corr Aval Corr
Busca ingênua 20 20 20 20 20 20 20 20 20 20 20 20
V. haver 20 20 20 20 20 17 20 20 20 20 20 20
Nominais 20 15 -- -- 20 14 -- -- 20 20 -- --
V. Natureza 0 0 4 4 20 20 20 20 1 1 2 2
D 1 (SE) 20 7 20 1 20 9 20 2 20 18 5 4
D 2 (SE) 20 5 20 1 20 4 20 1 2 2 20 3
D 3 (SE) 20 1 20 3 20 11 20 6 20 15 20 11
Busca ingênua 226122 47% 190381 56% 172124 48% 156040 49% 2777 29% 2617 38%
V. Haver 1083 0,2% 861 0,2% 5181 1,5% 4395 1,4% 124 1% 148 2%
Nominais 31599 6,5% 735 0,2% 43326 12% 2766 0,8% 1145 12% 50 0,7%
15
Como em Transferindo-se para o Partido Social Cristão (PSC), em novembro de
1986 concorreu a deputado federal constituinte.
Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1033-1058, 2021 1049
Fenômenos da
0 4 100 127 1 2
natureza
Filtro “tratar-se
181 163 150 123 Não se aplica Não se aplica
de”
16
Comum em manchetes jornalísticas, como em “PT no poder”.
1052 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1033-1058, 2021
17
A divisão de um corpus (ou de um dataset) em partições de treino (train),
desenvolvimento (dev) e teste (test) são próprias para o aprendizado de máquina, e
indicam respectivamente o conjunto de dados que será usado para treinar (ou aprender),
para realizar ajustes e para avaliar o modelo criado.
Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1033-1058, 2021 1053
Agradecimentos
Agradecemos ao Conselho Nacional de Desenvolvimento Científico e
Tecnológico (CNPq) pela bolsa de Iniciação Científica concedida a Elvis
de Souza no âmbito do projeto “Construção de datasets para o PLN de
Língua Portuguesa”. Número do processo da bolsa: 128693/2019-3.
Referências
AFONSO, S.; BICK, E.; HABER, R.; SANTOS, D. Floresta sintá(c)tica:
A Treebank for Portuguese. In: INTERNATIONAL CONFERENCE
ON LANGUAGE RESOURCES AND EVALUATION (LREC 2002),
3rd, 2002, Las Palmas de Gran Canaria. Proceedings […]. Las Palmas de
Gran Canaria: ELRA, 2002. p. 1698-1703.
19
Disponível em: https://github.com/alvelvis/desocultando-sujeitos. Acesso em: 30
nov. 2020.
1056 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1033-1058, 2021
1 Introdução
As pesquisas na área de Linguística de Corpus (doravante, LC)
têm se dedicado a estudar fenômenos linguísticos a partir de textos
produzidos, em sua maioria, por humanos. Assim, derivam-se os estudos
em Terminologia (TAGNIN; BEVILACQUA, 2015), em Linguística
Aplicada (VIANA; TAGNIN, 2011), em Linguística Descritiva
(RODRIGUES, 2019) ou em Processamento de Automático de Línguas
Naturais (PLN) (CASELI, 2015).
Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1059-1087, 2021 1061
(1)
S1: Confrontos entre o Exército e o grupo rebelde Tigres Tâmeis
eclodiram na região de Muttur há duas semanas, após a guerrilha
ter cortado o suprimento de água para alguns vilarejos.
S2: Os rebeldes afirmaram que consideram o novo bombardeio do
Exército equivalente a “uma declaração de guerra”.
(2)
S1: A seleção brasileira de vôlei voltou a fazer bonito, desta vez na
final da Liga Mundial, disputada contra a Rússia neste domingo
no ginásio de Spodekna, em Katowice, na Polônia.
S2: Sua última derrota em finais da Liga Mundial, aliás, ocorreu em
2002, coincidentemente para a Rússia.
(3)
S1: O ministro da Saúde egípcio, Hatem El-Gabaly, informou nesta
segunda-feira que 57 pessoas morreram e 128 ficaram feridas no
choque entre dois trens de passageiros no delta do Nilo, ao norte
do Cairo.
S2: <HB>A maior tragédia ferroviária da história do Egito ocorreu
em fevereiro de 2002, após o incêndio de um trem que cobria o
trajeto entre Cairo e Luxor, lotado de passageiros, e que deixou
376 mortos</HB>, segundo números oficiais.
1
Durante a anotação foram utilizados delimitadores para identificar a informação
complementar nos pares de sentenças e, posteriormente, em análises computacionais,
dinamizar a recuperação automática dos trechos, já que as marcações foram feitas com
base em XML. Assim, foram utilizadas as siglas HB, para Historical Background, FU,
para Follow-up e ELAB, para Elaboration.
1074 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1059-1087, 2021
(4)
S1: A Igreja Católica chegou a um acordo financeiro estimado em
US$ 660 milhões (aproximadamente R$ 1,2 bilhão) com mais
de 500 pessoas que alegam ter sido vítimas de abuso sexual por
padres em Los Angeles, nos Estados Unidos.
S2: <HB>Este seria o maior pagamento já feito pela Igreja desde que
surgiu o escândalo de abuso sexual envolvendo religiosos em 2002
e elevaria o total de indenizações pago pela Igreja desde 1950,
nos Estados Unidos, a US$ 2 bilhões (R$ 3,7 bilhões).</HB>
(5)
S1: Um acidente aéreo na localidade de Bukavu, no leste da República
Democrática do Congo (RDC), matou 17 pessoas na quinta-feira à
tarde, informou nesta sexta-feira um portavoz das Nações Unidas.
S2: <HB>Acidentes aéreos são frequentes no Congo,</HB> onde 51
companhias privadas operam com aviões antigos principalmente
fabricados na antiga União Soviética.
(6)
S1: Aos 27min, Kaká arrancou e chutou de fora da área.
S2: <FU>Kaká acertou um belíssimo chute de longe no ângulo aos
31 e fez 3 a 0.</FU>
(7)
S1: De acordo com a pesquisa, Lula (PT) tem 44% das intenções de
voto, contra 25% de Geraldo Alckmin (PSDB) e 11% de Heloísa
Helena (PSOL).
S2: <FU>O presidente teria 53% das intenções de voto contra 30%
de Heloísa.</FU>
(8)
S1: O ministro da Defesa, Nelson Jobim, deve encaminhar o nome
da economista Solange Vieira para assumir uma das diretorias da
Agência Nacional de Aviação Civil (Anac).
S2: <FU>O ministro da Defesa, Nelson Jobim, informou no fim da
noite desta terça-feira que a economista Solange Vieira, de 38
anos, será a nova presidente da Agência Nacional de Aviação
Civil (Anac).</FU>
(9)
S1: Um dia antes do acidente, na segunda-feira, 16, o avião também
teria apresentado problemas ao aterrissar em Congonhas,
durante o voo 3215, procedente de Belo Horizonte (Confins), só
conseguindo parar muito próximo do final da pista.
S2: O problema teria sido detectado pelo sistema eletrônico de
checagem do próprio avião, <FU>e ainda assim a aeronave da
TAM, um Airbus A320, continuou voando, com o reverso direito
desligado.</FU>
1078 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1059-1087, 2021
(10)
S1: Nenhuma partida ou chegada internacional, segundo os painéis
da Infraero, estavam fora do horário, o que não ocorria com os
voos domésticos.
S2: <ELAB>As informações da Infraero não batem com as do painel
das companhias aéreas, são 20 partidas atrasadas e 24 pousos
atrasados.</ELAB>
(11)
Anáfora Associativa 50 31 0 81
Referenciação Anáfora
Anáfora Nominal 132 89 20 241
-------- Estrutural Leitura do Cluster 48 60 14 122
Numeral 11 35 2 48
Expressão Nominal 2 15 0 17
Classe de palavras
Expressão
7 0 17 24
Morfológico Preposicional
Temporal Tempo verbal 12 134 3 149
Verbos de
Verbos de elocução 26 51 0 77
elocução
Adjunto adverbial 31 40 2 73
Período simples
Expressão superlativa 0 0 26 26
Discurso reportado 67 52 0 119
Oração aditiva 26 2 0 28
Sintático
Período composto Oração explicativa 37 5 7 49
Oração objetiva direta 22 7 0 29
Oração reduzida 12 3 0 15
Deslocamento Tema-Rema 108 1 2 111
Campo semântico Campo semântico 29 34 0 63
Causa-Efeito 12 23 0 35
Relações
Hiponímia 16 4 0 20
semânticas
Semântico Parte-Todo 42 15 0 57
Temporal Expressão temporal 4 109 57 170
Sentido de
Semântica Lexical 27 42 8 77
acréscimo
5 Considerações finais
Neste trabalho, aprofundou-se a descrição do fenômeno da
complementaridade que ocorre em conjuntos de textos jornalísticos
Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1059-1087, 2021 1083
Agradecimentos
Em tempos em que a ciência é atacada, seus investimentos são cada vez
mais limitados e professores são desvalorizados, é importante destacar
o auxílio financeiro empenhado nesta pesquisa pela Coordenação de
Aperfeiçoamento de Pessoal de Nível Superior (CAPES) e a orientação
atenciosa da Profa. Dra. Ariani Di Felippo ao projeto de doutoramento,
do qual se deriva este artigo: certamente o destino deste estudo poderia
ter sido outro sem o financiamento e a dedicação de minha orientadora.
Muito obrigado!
Referências
ALEIXO, P.; PARDO, T. A. S. CSTNews: um corpus de textos
jornalísticos anotados segundo a teoria discursiva multidocumento
CST (Cross-document Structure Theory). São Carlos: USP; UFSCar;
UNESP, 2008. (Série Relatórios Técnicos do Núcleo Interinstitucional
de Linguística Computacional - NILC)
BIBER, D. Representatividade em planejamento de corpus. Tradução
de Paula Marcolin. Cadernos de Tradução, Porto Alegre, v. 1, n. 30, p.
11-45, 2012.
Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1059-1087, 2021 1085
Giovani Santos
Mary Immaculate College, University of Limerick, Limerick / Irlanda
giovani.santos@mic.ul.ie
http://orcid.org/0000-0003-4116-5613
Mateus Miranda
Mary Immaculate College, University of Limerick, Limerick / Irlanda
mateus.desouza@mic.ul.ie
http://orcid.org/0000-0003-2575-8769
Resumo: Este trabalho objetiva apresentar um novo campo que emergiu a partir da
intersecção entre a Linguística de Corpus e a Pragmática: a Pragmática de Corpus.
Para tanto, através de uma revisão da literatura como ponto de partida, traçamos um
panorama que abarca a origem, os aspectos teórico-metodológicos, e os desafios da
nova área. Ademais, introduzimos as abordagens forma-função e função-forma, dois
modelos investigativos que integram a disciplina. Finalmente, por meio de um estudo de
caso, a fim de ilustrar um dos possíveis percursos de análise, investigamos o marcador
pragmático kind of por meio da filtragem, método que compõe a abordagem forma-
função, no discurso oral de brasileiros universitários. Os subcorpora que subsidiam
a pesquisa são o Spoken Corpus of Brazilian Portuguese and L2-English (SCoPE²)
e o Brazilian Spoken English Learner Corpus (BraSEL). Os resultados apontam que
quando usado pragmaticamente, mesmo em contextos linguísticos distintos, kind of
ocorre em seus três domínios funcionais (atitudinal, interpessoal, textual) e como parte
constituinte de marcadores de linguagem vaga.
Palavras-chave: pragmática de corpus; forma-função; função-forma; kind of.
Abstract: This work aims to present a new field which has emerged from the intersection
between Corpus Linguistics and Pragmatics: Corpus Pragmatics. To do so, through a
literature review as a starting point, we offer an overview that encompasses the origin,
eISSN: 2237-2083
DOI: 10.17851/2237-2083.29.2.1089-1135
1090 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1089-1135, 2021
the theoretical and methodological aspects, and the challenges of the new field. In
addition, we introduce the form-to-function and function-to-form approaches, two
investigative models which integrate the discipline. Finally, by means of a case study
in order to illustrate one of the possible analytical routes, we investigate the pragmatic
marker kind of by employing sifting, a method which comprises the form-to-function
approach, in the oral discourse of Brazilian university students. The subcorpora which
support the research are the Spoken Corpus of Brazilian Portuguese and L2-English
(SCoPE²) and the Brazilian Spoken English Learner Corpus (BraSEL). The results
show that when used pragmatically, even in different linguistic contexts, kind of occurs
in its three functional domains (attitudinal, interpersonal, textual) and as a constituent
part of vague language markers.
Keywords: corpus pragmatics; form-to-function; function to form; kind of.
1 Introdução
A linguagem para Firth (1957), segundo Sinclair (2004, p. 103),
está atrelada ao contexto que integra fatores como a ação verbal e sofre
influência das pessoas, coisas e eventos. Com base em postulados como
os de Firth, a Linguística de Corpus (doravante LC), a qual conhecemos
hoje, foi desenvolvida por neo-firthianos como Sinclair, que contribuíram
para sua expansão, desenvolvendo estudos por meio da observação da
linguagem em seu contexto real (McENERY; HARDIE, 2012). Tomando
a definição de Sinclair (2005, p. 16), um corpus “é uma coleção de textos
em formato eletrônico, selecionados de acordo com critérios externos para
representar, o melhor possível, uma língua ou sua variação como fonte de
dados para a pesquisa linguística”.1 Nos anos 1960, o Brown Corpus, em
formato eletrônico e com um milhão de palavras, foi um marco na área,
inspirando, posteriormente, a compilação de outros. Hoje, corpora com
milhões de palavras não são incomuns, como o Corpus of Contemporary
American English (COCA), o Corpus do Português NOW, o British
1
Nossa tradução para: “[A corpus] is a collection of pieces of language text in electronic
form, selected according to external criteria to represent, as far as possible, a language
or language variety as a source of data for linguistic research.”
Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1089-1135, 2021 1091
2
Cf. Tagnin (2010) para uma lista de corpora nas línguas alemã, espanhola, francesa,
inglesa, italiana e portuguesa.
1092 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1089-1135, 2021
2 Linguística de Corpus
Estudos no campo da LC têm aumentado de maneira consistente
e substancial nos últimos 30 anos, e os resultados confirmam que a LC é
um meio eficiente para se fazer análises da linguagem em uma vasta gama
de contextos linguísticos (cf. BERBER SARDINHA, 2000; McCARTHY;
O’KEEFFE, 2010 para uma perspectiva histórica).
Segundo McCarthy e O’Keeffe (2014, p. 271), “[a] evidência
estatística e contextual que pode ser obtida através do uso de um software
[de LC] nos permite fazer interpretações confiáveis das intenções
comunicativas dos falantes e escritores.”3 Esta combinação estatística e
contextual permite que pesquisadores analisem seus dados em termos
qualitativos e quantitativos, através, por exemplo, do estudo empírico
de listas de frequência e de concordância, reduzindo significativamente
o risco de se introduzir quaisquer inclinações pré-concebidas.
3
Nossa tradução para: “[the] statistical and contextual evidence the [CL] software
can provide us with enables us to make more reliable interpretations of speakers’ and
writers’ communicative purposes.”
Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1089-1135, 2021 1093
4
Nossa tradução para: “[i]f we study instances of usage, we find that the surrounding
words and phrases help a lot in determining the meaning.”
Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1089-1135, 2021 1095
3 Pragmática
Como mencionado na Seção 1, definir pragmática não é tarefa
fácil. Em seu nível mais fundamental, podemos definir a pragmática como
o estudo da língua em uso real, e que considera as relações entre contexto
de uso e sentido intencionado. O termo pragmática, como conhecemos
hoje, é atribuído a Morris (1938), a partir da obra Fundamentos de uma
5
Nossa tradução para: “the ability to examine large text corpora in a systematic manner
allows access to a quality of evidence that has not been available before.”
1096 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1089-1135, 2021
6
Destacamos que o silêncio, a prosódia e a linguagem corporal também são fenômenos
pragmáticos que auxiliam na interpretação do significado e, especialmente em corpora
multimodais, são também relevantes para os propósitos da PC.
7
Nossa tradução para: “Pragmatics is the study of the relationship between linguistic
forms and the users of those forms. [...] The advantage of studying language via
pragmatics is that one can talk about people’s intended meanings, their assumptions,
their purposes or goals, and the kinds of actions (for example, request) that they are
performing when they speak”.
Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1089-1135, 2021 1097
4 Pragmática de Corpus
A PC pode ser definida como o campo linguístico de investigação
da linguagem autêntica e em uso real com o auxílio de corpora, com
vista à interpretação contextual da linguagem escrita ou falada. Tal
campo linguístico dá-se pela intersecção entre os campos da LC e
da Pragmática (RÜHLEMANN; AIJMER, 2015) e, embora o termo
em si seja de cunhagem recente, esta é uma junção que tem evoluído
consideravelmente na última década (cf. ROMERO-TRILLO, 2008b
para uma introdução à trajetória científica que uniu as duas áreas de
conhecimento).
Estudos de fenômenos pragmáticos baseados em corpora têm
sido realizados desde os anos 90 (JUCKER; TAAVITSAINEN, 2014),
com o interesse em tal abordagem aumentando gradativamente através
dos anos e afirmado, posteriormente, com a publicação de um volume
dedicado à LC no ‘Journal of Pragmatics’ em 2004, com a edição da
Conferência da IPrA (International Pragmatics Association) em 2007,
também com foco na LC, e com a edição da Conferência ICAME
(International Computer Archive of Modern and Medieval English) com
foco em pragmática e discurso em 2008. Contudo, foi com a influente
publicação de Romero-Trillo (2008a) que a atenção se voltou para o
fato de que há um relacionamento de interesses mútuos entre a LC e a
Pragmática, o que poderia ser proveitosamente explorado quando estas
duas disciplinas eram fundidas. Pragmatics and Corpus Linguistics:
a mutualistic entente (ROMERO-TRILLO, 2008a) é o primeiro livro
1098 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1089-1135, 2021
8
Nossa tradução para: “[…] the area is ripe with research opportunities.”
Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1089-1135, 2021 1099
9
Nossa tradução para: “corpus linguistics and pragmatics are two versions of the same
phenomenon: the mechanics – the subject-matter – (corpus studies), and its interpretation
and explanation (pragmatics).”
Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1089-1135, 2021 1101
10
O conceito de pequeno corpus é abstrato, uma vez que ainda não há uma concordância
entre os linguistas de corpus a esse respeito. Pode-se dizer que um pequeno corpus é
um que contenha menos que um milhão de palavras. Contudo, no âmbito da Pragmática
de Corpus, um pequeno corpus que permita etiquetamento manual, processamento e
análise de dados, varia entre 50 e 500 mil palavras. Há ainda estudos pragmáticos de
corpus que utilizam corpora menores que 50 mil palavras, como Vaughan e Clancy
(2013) e McAllister (2015).
Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1089-1135, 2021 1103
11
Nossa tradução para: “Corpus-based pragmatic studies are generally form-based and
they start by mapping words or constructions onto a range of functions.”
1104 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1089-1135, 2021
12
Nossa tradução para: “[metacommunicative expressions are] words and phrases
that can be used to talk about aspects of communication, in the sense that they name
a particular speech act, such as compliment, greet, insult or thank, or a particular type
of behaviour, such as polite or impolite”
1114 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1089-1135, 2021
Buysse (2010), por sua vez, analisa o inglês falado por aprendizes
avançados e nativos da língua holandesa. O autor investiga o uso de uma
seleção de alguns dos MPs mais comuns da língua inglesa: so, well, you
know, like, kind of/sort of, e I mean. Este é um estudo quantitativo e
apresenta resultados de frequências de ocorrências de cada um dos MPs
investigados de maneira comparativa entre os corpora LINDSEI-DU e
LOCNEC. Os resultados apresentados mostram que os aprendizes do
LINDSEI-DU raramente fazem uso de MPs com funções interpessoais
(you know, like, kind of/sort of, I mean), enquanto aqueles com funções
textuais são usados em demasia. Apesar da importância funcional dos
MPs de funções interpessoais, o autor argumenta que um motivo para
sua baixa frequência no LINDSEI-DU, quando comparado ao LOCNEC,
é o fato de tais MPs serem relacionados à linguagem informal e, muitas
vezes, serem estigmatizados.
Finalmente, Miranda (2020) investiga o uso de marcadores de
linguagem vaga por brasileiros aprendizes de inglês em nível avançado e
americanos nativos da língua inglesa. Comparando os corpora LINDSEI-
BR e SBCSAE (Santa Barbara Corpus of Spoken American English),
o autor faz uma análise quantitativa de vários marcadores de linguagem
vaga, destacando o MP kind of/sort of por ser o mais frequente em
ambos os corpora. Contudo, e interessantemente, apesar de os aprendizes
brasileiros não fazerem uso da forma sort of, enquanto os falantes
americanos o fazem com ambas as formas, LINDSEI-BR apresenta uma
frequência maior do que no SBCSAE quando somados kind of e sort of
juntos. Na etapa qualitativa de seu estudo, Miranda (2020) identifica as
funções pragmáticas exercidas pelo MP kind of em ambos os corpora, e
nota que a função mais usada pelos aprendizes brasileiros é atitudinal,
marcando inexatidão do material linguístico que o sucede, seguida da
função interpessoal de mitigação. No SBCSAE, contudo, a mitigação
marcada pelo kind of é mais frequente que no LINDSEI-BR, e casos
de kind of marcando vocabulário técnico ou complexo, como também
linguagem vulgar, são encontrados apenas no SBCSAE.
O que estes estudos sobre o uso de MPs na linguagem do aprendiz
revelam é que, apesar de algumas limitações, MPs são também presentes
no discurso oral do aprendiz e têm um papel importante na L2. Por
equiparem falantes de L2 em um nível interpessoal quando usados com
sucesso, e por limitarem a contribuição destes falantes em conversação
quando ausentes, MPs são indispensáveis para uma comunicação bem
1118 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1089-1135, 2021
SCoPE² BraSEL
Número de participantes 7 7
Gênero 5 mulheres, 2 homens 5 mulheres, 2 homens
Nacionalidade Brasileiros Brasileiros
Contexto de L2 Universitários na Irlanda Universitários no Brasil
C1-C2 CEFR; SUEs
Nível de proficiência B2 CEFR
(Prodromou, 2008)
Gravações de áudio de
Gravações de áudio de bate-
Tipo de dados tarefas comunicativas
papos informais
informais
Um a um (pesquisador e Um a um (entrevistador e
Tipo de interação
participantes) participantes)
Número de tokens 43,596 20,890
5.2 Resultados
Apesar de kind of e sort of performarem as mesmas funções
pragmáticas como MPs, apenas o primeiro é utilizado pelos brasileiros
nas amostras analisadas. Considerando que kind of é mais comumente
relacionado com o inglês americano, e sort of com o inglês britânico,
a ausência do segundo pode ser justificada pelo fato de brasileiros
terem mais contato com o inglês americano, seja através de instrução
formal em sistemas de ensino de língua inglesa, ou através de mídias de
entretenimento. Quando o número de ocorrências é quantitativamente
comparado entre SCoPE² e BraSEL, kind of ocorre 16 vezes no BraSEL
(frequência normalizada de 11.6 por cada 10,000 palavras) e 35 vezes
no SCoPE² (13 por cada 10,000 palavras). Contudo, como apresentado
na Figura 2 abaixo, a dispersão do MP em ambos os subcorpora não é
nivelada. No SCoPE², dois participantes não usam o MP de maneira
alguma, enquanto um participante sozinho faz uso do MP 19 vezes (cada
participante é identificado por um círculo na figura, ou boxplot, abaixo).
No BraSEL, por sua vez, três participantes não fazem uso do MP, enquanto
outros dois fazem uso do MP 5 vezes, e outro o utiliza 4 vezes, não
apresentando nenhum caso fora da curva (ou outlier; BREZINA, 2018).
FIGURA 2 – Dispersão de kind of nos subsorpora SCoPE² e BraSEL
(5) Aprendiz_4: … how people talk about wh= what what stuff
happens in BH. Everybody just mention oh the north area it’s
dangerous, don’t don’t go there. It’s kind of common sense.
(6) Aprendiz_4: Because it, like, when you live in BH you, the society
kinda mm not the society but how people talk about wh= what
what stuff happens in BH.
(7) SUE_3: ... actually, not now but before during the the year
<$E> pause </$E> uhm every Tuesday a woman came to see if
everything was clean this kind of things.
(8) SUE_3: And because we know we have this kind of things in
Brazil and I travel a lot with my parents.
indica que SUE_3 pode manter uma dependência, ou preferência, por tais
funções de kind of para compensar possíveis insuficiências linguísticas.
Este estudo confirma o valor pragmático do MP kind of em
conversação e aponta para o fato de que, mesmo em contextos linguísticos
distintos, os dois grupos de brasileiros fazem uso das funções de kind of
em seus três domínios funcionais. Contudo, nem todos os participantes de
ambos os subcorpora utilizam kind of pragmaticamente. Seria, contudo,
equivocado concluir que os participantes que não fazem uso do MP kind of
sofram de uma deficiência pragmática em seus processos comunicativos,
uma vez que estes participantes podem lançar mão de outras formas que
performam as mesmas funções pragmáticas apresentadas neste estudo.
De fato, em outro estudo de caso preliminar, Santos (2019) nota que os
participantes sob investigação, também de uma amostra do SCoPE²,
apoiam-se significativamente no MP like e em suas funções textuais de
reestruturação do discurso.
6 Considerações finais
As considerações finais aqui apresentadas se remetem ao título
deste trabalho. Propusemos, como objetivo principal, expor o estado
da arte da Pragmática de Corpus, ponto de contato que se originou a
partir de duas áreas que, apesar de lidarem com investigações sobre a
linguagem em uso, possuem metodologias distintas – a Linguística de
Corpus e a Pragmática. Ao fazer isso, inicialmente, contextualizamos
a Linguística de Corpus e a Pragmática. Em seguida, apresentamos o
percurso da Pragmática de Corpus a partir de seu contexto histórico,
discursando sobre sua metodologia de dupla direcionalidade, além de
suas limitações e desenvolvimentos. Nesta mesma senda, introduzimos
duas abordagens profícuas da nova área, forma-função e função-forma.
Finalizamos, então, com um estudo de caso ilustrativo sobre o marcador
pragmático kind of em dois corpora orais, aplicando o método de filtragem
pela abordagem forma-função.
É evidente que diferentes áreas da linguística buscam incorporar,
com o passar dos anos, exemplos autênticos da linguagem às suas análises.
Vimos que a Linguística de Corpus, por meio de seu desenvolvimento
nas últimas décadas e rigor metodológico, dispõe de grande potencial
para se comunicar com outros campos do conhecimento, considerando
o que estes tradicionalmente já estabeleceram, introduzindo formas
Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1089-1135, 2021 1127
Agradecimentos
Agradecemos à Prof. Dra. Anne O’Keeffe, do Departamento de Língua
Inglesa e Literatura da Mary Immaculate College, Irlanda, pelo contínuo
apoio e pela disponibilidade e confiança em nos providenciar a literatura
necessária para a escrita deste artigo.
Também agradecemos aos pareceristas por suas avaliações, sugestões e
comentários que muito contribuíram para a versão final deste trabalho.
Referências
ÄDEL, A.; REPPEN, R. The Challenges of Different Settings: An
Overview. In: ÄDEL, A.; REPPEN, R. (org.). Corpora and Discourse:
The Challenges of Different Settings. Amsterdam; Philadelphia: John
Benjamins, 2008. p. 1-6. DOI: https://doi.org/10.1075/scl.31
1128 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1089-1135, 2021
Rove Chishman
Universidade do Vale do Rio dos Sinos (Unisinos), São Leopoldo, Rio Grande do Sul
/ Brasil
rove@unisinos.br
https://orcid.org/0000-0003-2287-5548
Resumo: Este artigo vincula-se a uma tese doutoral cujo objetivo foi compreender,
por meio da identificação de diferentes instanciações de frames semânticos, as redes
de significado que (re)enquadram os direitos humanos e reprodutivos das mulheres
no contexto das audiências públicas que debateram a Sugestão Legislativa (SUG)
nº 15/2014 – tal proposta visou a regular o aborto nas primeiras doze semanas de
gestação (SANTOS, 2020). Especificamente, o texto trata de alguns desdobramentos
analíticos possibilitados pela integração da ferramenta de análise qualitativa NVivo
ao recurso Sketch Engine, tendo em vista a necessidade de segmentação do corpus em
unidades temáticas para posterior processamento dos dados no concordanciador. De
modo a abordar tal percurso, o artigo discute a identificação de frames no discurso dos
defensores da proposta da SUG nº 15, cujas escolhas lexicais refletem a conceptualização
do abortamento como questão de saúde pública e de justiça social. Como resultados,
o artigo destaca que o uso integrado de diferentes ferramentas de análise empírica
permite uma descrição baseada em corpus que evidencia a dimensão multifacetada do
eISSN: 2237-2083
DOI: 10.17851/2237-2083.29.2.1137-1189
1136 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1137-1189, 2021
1 Introdução
Os caminhos da Linguística de Corpus (LC) e da Semântica de
Frames (FILLMORE, 1982, 1985) têm seus pressupostos epistemológicos
entrecruzados desde os primórdios da teoria fillmoriana. Afinal, a
Semântica de Frames, muito antes de integrar oficialmente o escopo
da Linguística Cognitiva, constituiu-se como proposta que visava a
compreender estruturas sintáticas por meio de “requisitos contextuais”1
(FILLMORE, 1975, p. 130) que evidenciam o continuum entre léxico,
sintaxe e semântica. Em tal percurso, a teoria do autor rompeu com
postulados gerativistas que relegavam o léxico ao “asilo dos fora da
1
“contextual requirements”.
Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1137-1189, 2021 1137
2
“system of linguistic choices”.
1138 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1137-1189, 2021
3
“[…] in perceiving, thinking, and communicating”.
4
“[…] an awareness of the importance of the social functions of language, a concern
with the nature of the speech production and comprehension processes, and an interest
in the relationships between what a speaker says and the context in which he says it.”
Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1137-1189, 2021 1139
6
“[…] to attempt to manipulate one another’s intentional and mental states for various
cooperative and competitive purposes.”
7
“[…] depending on her communicative goal”.
Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1137-1189, 2021 1141
3 Percurso metodológico
Conforme abordamos na seção anterior, a noção de frame
semântico é central ao nosso escopo analítico, bem como a sua integração
aos chamados modelos baseados no uso (BYBEE, 2012; LANGACKER,
2008; TOMASELLO, 2003), que defendem “[...] a natureza dialética
da relação entre o uso da língua e seu sistema. [...] De acordo com essa
visão, é possível adquirir conhecimentos sobre o sistema linguístico por
meio da análise de eventos de uso que o instanciam”8 (GEERAERTS;
KRISTIANSEN; PEIRSMAN, 2010, p. 4). É a partir de tal postulado
que frames semânticos são descritos com base na Linguística de Corpus
como metodologia que propicia a identificação de “formas linguísticas”
que ativam “estruturas cognitivas – os frames” (FILLMORE; BAKER,
2010, p. 314).
Com base nesses pressupostos, a próxima subseção descreve
nosso corpus de estudo e apresenta as ferramentas computacionais
que utilizamos para explorá-lo – nomeadamente, o NVivo e o Sketch
Engine. Na segunda subseção, delineamos as etapas de análise que são
empregadas para atingirmos o objetivo proposto.
8
“[…] the dialectic nature of the relation between language use and the language
system. […] According to this view, one can gain insight into the language system by
analyzing the usage events that instantiate it.”
1142 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1137-1189, 2021
A1_PS_1_MV_Med – A3_AS_2_EG_Pol
Nesses dois casos, temos a seguinte notação: A1 e A3 = audiência
pública 1 e audiência pública 3 (a numeração vai até 5); PS e AS = pró-
SUG e anti-SUG; MV e EG = iniciais das respectivas participantes; e Med
e Pol = iniciais do grupo socioprofissional que representam – médico(a)
e político(a) – ao se manifestarem na respectiva audiência, conforme as
credenciais incluídas nas atas e reproduzidas pelos próprios painelistas.
Assim, trata-se dos papéis institucionais (LANGLOTZ, 2015) que os
participantes desempenham nesse âmbito.
FIGURA 3 – Segmentação do corpus por audiência pública, participante,
posicionamento e papel institucional
11
Uma licença para estudantes foi adquirida pelo Grupo SemanTec, a qual tem validade
de dois anos.
1146 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1137-1189, 2021
13
Por questões de espaço, no caso de frames mais frequentes, elegemos os exemplos
anotados mais ilustrativos para compor os quadros no corpo do texto.
14
Neste estudo, não adotamos o termo “definição” de uma perspectiva lexicográfica;
trata-se de uma breve contextualização de cada frame que complementa a respectiva
lista de Elementos de Frame.
1162 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1137-1189, 2021
Frame Desigualdade:
Definição: Este EFs e definições:
frame designa uma Agente em desvantagem Agente em posição de desvantagem
comparação desigual Agente em vantagem Entidade em posição de vantagem
entre dois agentes, de Situação Contexto no qual se estabelece a
modo que um está em desigualdade
desvantagem em relação Meio Meio pelo qual se estabelece a
ao outro no que se refere desigualdade
a algum atributo
Evocadores: desigualdade, apartheid, desiguais, dominação, dominar
Excertos do corpus:
[A1_PS_1_AC_Med] não é uma escolha da civilização que mantém esse apartheid
de direitos entre mulheres e homens, entre mulheres ricas e não ricas quando se trata da
questão do aborto.
[A1_PS_1_RT_Rel] Os dados têm mostrado que são as mulheres negras e pobres as que têm
sofrido as consequências da criminalização do aborto, porque as mulheres que têm dinheiro vão
para fora do País fazer a interrupção em um país onde é legalizado ou mesmo em clínicas onde
elas podem pagar o preço estipulado
funcionam dentro de padrões de higiene adequados, e elas abortam seguramente, enquanto
[A2_PS_1_LM_Acad] Todos deveriam pensar nas mulheres pobres, negras, em Salvador,
no Norte e no Nordeste, que têm que enfrentar condições de vida desiguais, menos acesso às
políticas públicas, às condições de trabalho, à oportunidade educacional
1164 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1137-1189, 2021
Frame Danos:
Definição: Um agente ou uma causa EFs e definições:
afetam um paciente de tal maneira que Causa Causa do dano ao paciente.
o paciente fica em um estado anômalo, Paciente Parte afetada pelo agente,
geralmente não desejado. sofrendo danos.
Evocadores:
morrer, mutilação, hemorragia, infecções, perfuração uterina, hemorragia, infecção, choque
séptico, perfuração de vísceras, traumatismos genitais, dor pélvica, infertilidade
Excertos do corpus:
[A2_PS_1_SV_Med] As taxas de complicação por aborto, ou seja, os motivos da
complicação nessas mulheres são hemorragia e infecções. IN [aborto inseguro]
[A3_PS_2_JW_Pol] E o aborto é quarta causa de mortalidade materna hoje no Brasil e
a primeira entre mulheres pobres e negras. Ou seja, esse é um problema de saúde pública
colocado aqui. IN [aborto inseguro]
[A5_PS_1_MA_Med] São complicações de abortos mal feitos, de abortos inseguros,
de abortos clandestinos, com métodos obsoletos, que não se utilizam mais; métodos
perigosíssimos que deveriam ser proibidos [...]. Incluem, além de perfuração uterina,
hemorragia, infecção, choque séptico, perfuração de vísceras, traumatismos genitais, e
as mulheres podem sobreviver com sequelas [...].
Fonte: Elaborado pelas autoras.
15
Exemplo de concordância: “[...] o Estado brasileiro é responsável pelas mortes das
mulheres em situação de risco, em abortamento inseguro”.
16
Exemplo de concordância: “[...] dentro da mortalidade materna, temos de pensar nas
mortes evitáveis.”
Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1137-1189, 2021 1167
Frame Assassinato:
Definição: EFs e definições:
Um assassino ou Assassino Agente responsável pela morte da vítima
causa ocasiona a Instrumento Usado para matar a vítima
morte da vítima. Vítima Morre como resultado do assassinato
Meio Método ou ação que resulta na morte da vítima
Evocadores: eliminar, matar, interromper a vida, assassinado, roubar a vida, sacrificar
Excertos do corpus:
[A1_PS_1_IT_Adv] os corpos que escolhemos deixar morrer, as mulheres que escolhemos
deixar morrer em decorrência de procedimentos malsucedidos de abortamento.
[A4_PS_1_MN_Rel] a ilegalidade do aborto como instrumento de morte. É essa morte das
mulheres brasileiras que eu não quero que continue a acontecer na escala em que acontece,
entre outras razões, mas muito fortemente, pela ilegalidade do aborto em nosso País.
[A5_PS_2_PV_Ativ] Nós queremos que vocês dos pró-morte, com seus dogmas religiosos
e violadores do Estado laico, que promovem a tortura diária das mulheres, que promovem
a morte das mulheres, que promovem mais e mais abortos clandestinos e inseguros, sejam
responsabilizados por isso.
[A3_PS_1_MT_Acad] Fácil criminalizá-las, fácil matá-las, fácil para o Estado não se
responsabilizar por essa pena de morte contra mulheres pobres.
Fonte: Elaborado pelas autoras.
Frame Responsabilidade
Definição: uma parte EFs e definições:
responsável é requerida a Parte responsável Pessoa que deve cumprir um dever
cumprir um dever. Responsabilidade Dever a ser cumprido, ou evento/entidade
Origem: frame Being_ pela qual a parte é responsável
Obligated (FrameNet)
Evocadores: assumir a responsabilidade, responsáveis, assumir as consequências, obrigação,
responsabilização
[A5_PS_1_LL_Adv] Esse é um dado importante quando nos damos conta da pouca
responsabilização dos homens na vida reprodutiva. Cai somente nos ombros das
mulheres, nos úteros das mulheres essa responsabilidade
[A5_PS_2_PV_Ativ] Nós queremos que vocês dos pró-morte, com seus dogmas
religiosos e violadores do Estado laico, que promovem a tortura diária das mulheres,
que promovem a morte das mulheres, que promovem mais e mais abortos clandestinos e
inseguros, sejam responsabilizados por isso.
[A3_PS_1_MT_Acad] Fácil criminalizá-las, fácil matá-las, fácil para o Estado não se
responsabilizar por essa pena de morte contra mulheres pobres.
Fonte: Elaborado pelas autoras.
17
Concordância: “Então, queria chamar a atenção e a responsabilidade dos nossos
Parlamentares, das Casas Legislativas e das Lideranças políticas [...]”.
18
Concordância: “[...] coloca também a responsabilidade do Senado Federal em fazer
este debate [...]”.
19
Concordância: “[...] atenção humanizada ao abortamento. É da responsabilidade do
Ministério da Saúde fazer isso.”
Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1137-1189, 2021 1169
Frame Criminalização_do_Aborto
Definição: Ato de EFs e
criminalizar um definições:
agente ou uma ação. Protagonista Parte criminalizada
Ação Ato criminalizado
Avaliação Avaliação do processo de criminalização referido
Base Base jurídica para a criminalização
Evocadores: criminalização, criminalizar, tratamento criminal, aplicação da lei penal
Excertos do corpus:
[A1_PS_1_IT_Adv] tratamento criminal que se dá à questão do aborto no Brasil, reflete
certo anacronismo da nossa legislação, um descompasso existente entre a legislação penal que
criminaliza a mulher que pratica o aborto e a nossa realidade social
[A1_PS_1_IT_Adv] tratamento criminal que se dá à questão do aborto no Brasil, reflete
certo anacronismo da nossa legislação, um descompasso existente entre a legislação penal que
criminaliza a mulher que pratica o aborto e a nossa realidade social
[A5_PS_1_MA_Med] A segunda razão é que o principal fator para impedir o acesso ao
aborto seguro é a criminalização.
[A1_PS_1_IT_Adv] nós estamos afirmando que a perspectiva é de o Brasil querer
criminalizar essas mulheres
[A5_PS_1_EA_Adv] Portanto, e aí o argumento tem uma reviravolta, criminalizar
é inconstitucional.
[A3_PS_1_SC_Ativ] a aplicação da lei penal é seletiva, afetando de maneira mais drástica
as mulheres pobres, negras e socialmente excluídas.
Fonte: Elaborado pelas autoras.
20
Exemplo de concordância: “É essa morte das mulheres brasileiras que eu não quero
que continue a acontecer na escala em que acontece, entre outras razões, mas muito
fortemente, pela ilegalidade do aborto em nosso País.”
21
Exemplo de concordância: “[...] reúne todas as evidências que levaram a Federação
Internacional dos Ginecologistas e Obstetras a defender a descriminalização do aborto
como uma medida de saúde pública [...].”
Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1137-1189, 2021 1171
Frame Direito:
Definição: Um EFs e definições:
protagonista é Protagonista Agente revestido do direito
revestido do direito Direito Direito de ter ou fazer algo de acordo com a Lei
de exercer algum Base Base jurídica para o direito concedido
poder concedido pela Dimensão Extensão ou limite do direito concedido
Lei.
Evocadores: direito, proteção jurídica, garantir direito, exercício, exercer
Excertos do corpus:
[A5_PS_1_EA_Adv] E o Tribunal faz uma afirmação enfática, que é muito relevante para esta
Comissão: a inviolabilidade do direito à vida, que está escrito no art. 5º da nossa Constituição
Federal, se refere exclusivamente a um ser já personalizado.
[A5_PS_1_EA_Adv] E se estou falando que o aborto é um direito, um direito com base na
dignidade humana, com base na autonomia, com base na liberdade, significa que alguém tem
a obrigação de garantir esse direito.
[A5_PS_1_LL_Adv] mesmo que haja um conflito de direitos entre os direitos da mulher e os
direitos do embrião, esse conflito tem que ser decidido levando em consideração que a mulher
já é uma vida plena, que a mulher já é o sujeito de direito e que o embrião no máximo tem
uma expectativa de direitos.
[A3_PS_1_SC_Ativ] A perspectiva feminista, que é a minha, que reivindica o direito
de decisão reprodutiva às mulheres, repudia, de maneira forte, as leis e políticas de aborto
compulsório
Fonte: Elaborado pelas autoras.
Frame Autonomia
Definição: estado ou condição EFs e definições:
de um ser autônomo para se Protagonista Pessoa que tem direito a autonomia
autogovernar. Avaliação Avaliação da autonomia
Extensão Extensão da autonomia
Evocadores: autonomia, autônomo, autodeterminação
[A1_PS_1_HS_Med] deixamos muito bem claro e frisamos que não se decidiu serem os
Conselhos de Medicina favoráveis ao aborto, mas, sim, discutimos a autonomia da mulher e
do médico, o que é nossa obrigação.
[A2_PS_1_JB_Ativ] o interesse das mulheres que tomam decisões autônomas, concentradas
no seu cotidiano, na sua vida e na sua livre consciência.
[A5_PS_1_EA_Adv] que permitam que essa escolha seja feita com segurança e com
preservação da autonomia da mulher
[A5_PS_1_LL_Adv] nossa proposta é uma política de respeitar a autonomia reprodutiva
das mulheres, a autodeterminação das mulheres
Fonte: Elaborado pelas autoras.
1174 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1137-1189, 2021
Frame Escolha
Definição: um EFs e definições:
cognoscente faz Agente Pessoa que faz a escolha
uma escolha dentre Escolha Escolha realizada
uma série de Alternativa Alternativas disponíveis para escolha
possibilidades. Circunstância Circunstância em que a escolha é realizada
Evocadores: escolha, escolher, decidir, optar, desistir, pseudoescolha, não querer
[A5_PS_2_GC_Ativ] legitimamente, exercemos a nossa autonomia de decisão sobre quando
e se queremos parir.
[A5_PS_2_GC_Ativ] Nós somos solidárias com as mulheres na hora em que elas decidem
pela maternidade e não têm o apoio do Estado.
[A1_PS_1_RT_Rel] Então, se a mulher decidir por uma interrupção da gravidez, é ela e sua
consciência.
[A4_PS_2_PV_Ativ] Nós queremos que as mulheres possam escolher. Apoiamos a Regiane
ou quem for que queira escolher manter sua maternidade, seguir com sua maternidade,
com qualidade de vida.
[A5_PS_1_EA_Adv] “A gravidez não deve ser forçada, deve ser escolha”
Fonte: Elaborado pelas autoras.
22
Concordância: “[...] o exercício da sua liberdade de escolha.”
23
Concordância: “[...] que você tenha essa possibilidade do exercício da escolha de ter
ou não ter filhos.”
24
Concordância: “Então, a questão da escolha difícil, pois ninguém é a favor do aborto.”
25
“[...] a necessidade de se garantir autonomia, direito de escolha às mulheres [...].”
1176 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1137-1189, 2021
Frame Maternidade_não_Hegemônica
Definição: condição vista EFs e definições:
como uma opção à mulher, Mulher Mulher que tem a opção de ser mãe
que pressupõe igualdade entre Características Características da maternidade não
homens e mulheres nas relações hegemônica
de trabalho, bem como partilha
da responsabilidade parental.
Frame Coação:
Definição: Ato de coagir um EFs e definições:
agente, impondo que ela aja Coagente Responsável pela coação
contra sua vontade Coagido Ser coagido
Resultado Resultado da coação
Evocadores: coagir, coação, forçado, obrigar, pressionar
[A3_PS_1_SC_Ativ] A perspectiva feminista, que é a minha, que reivindica o direito de
decisão reprodutiva às mulheres, repudia, de maneira forte, as leis e políticas de aborto
compulsório, assim como também medidas estatais que coagem as mulheres à procriação
compulsória
[A5_PS_1_LL_Adv] Nenhuma mulher deve ser obrigada a fazer um aborto, nenhuma
mulher pode ser coagida a fazer um aborto, como nenhuma mulher deve ser obrigada e
coagida a não interromper a gestação
[A2_PS_1_LM_Acad] Nesse sentido, a coação para as mulheres não pode vir do seu
namorado, não pode vir da sua família e não pode vir do Estado.
Fonte: Elaborado pelas autoras.
Frame Planejamento_Reprodutivo
Definição: política EFs e definições:
pública de saúde que Cidadão Pessoa que deve ter acesso ao
desenvolve ações que planejamento reprodutivo
possam propiciar o Ação Ações realizadas por políticas de
planejamento reprodutivo planejamento reprodutivo
da população Circunstância Circunstâncias em que ocorrem as ações
de planejamento reprodutivo
Evocadores: planejamento reprodutivo, planejamento familiar
[A1_PS_1_AC_Med] todos os métodos contraceptivos devem estar disponíveis para todas
as mulheres, em todas as idades
[A1_PS_1_RT_Rel] Então, o planejamento reprodutivo deve estar à disposição da
população. Todos os métodos que a ciência conseguiu até hoje elaborar devem estar
disponíveis à população.[A5_PS_1_LL_Adv] nós temos direitos ao planejamento familiar
sem coação e com o dever do Estado de fornecer os métodos e os meios necessários para o
exercício desse direito.
Fonte: Elaborado pelas autoras.
Frame Contracepção_de_Emergência:
Definição: trata da pílula EFs e definições:
do dia seguinte e de Contraceptivo Pílula do dia seguinte
perspectivas sobre seus Usuária Usuária da pílula do dia seguinte
efeitos Características Atributos da pílula do dia seguinte
Evocadores: pílula do dia seguinte, anticoncepção de emergência
Excertos do corpus:
[A1_PS_1_MS_Acad] e, muitas vezes, nem a pílula do dia seguinte, que poderia evitar um
conjunto de danos e decisões conflituosas às mulheres, como a situação de aborto, mesmo
essa medida mínima a gente nem sempre consegue.
[A1_PS_1_MV_Med] Nós temos que ampliar a atenção integral às mulheres em situação
de violência sexual, [...] através da pílula de emergência, que é um grande dispositivo para
reduzir a gravidez indesejada e o aborto inseguro.
Fonte: Elaborado pelas autoras.
5 Considerações finais
Este artigo teve como objetivo principal discutir alguns
desdobramentos analíticos de um estudo que investigou frames
semânticos em audiências públicas da Sugestão Legislativa n.º 15/2014.
Por meio de um recorte voltado à identificação de frames no discurso dos
defensores da proposta da SUG nº 15, buscamos elucidar as possibilidades
analíticas viabilizadas pela integração de uma ferramenta de análise
qualitativa de dados – o NVivo – ao recurso Sketch Engine. A opção por
tal articulação foi realizada tendo em vista a necessidade de segmentação
do corpus em unidades temáticas para posterior processamento dos dados
no concordanciador e no Sketch Difference.
Ponderamos que esta proposta possa ser considerada uma
abordagem middle-out de exploração dos dados (CHISHMAN et al.,
2018), ou seja, busca-se o “caminho do meio” entre análises bottom-up
(que têm como único ponto de partida léxico) e as top-down (que se valem
de aspectos macrocontextuais como base inicial para a análise). Assim,
a partir de uma segmentação em subcorpora de temas possibilitada pelo
recurso NVivo (direcionamento metodológico top-down), realizamos
uma descrição preliminar dos frames semânticos, a qual foi revista e
consolidada por meio do processamento de listas de palavras-chave na
ferramenta Sketch Engine (direcionamento bottom-up), da análise de
concordâncias e da anotação semântica de excertos que evocavam os
respectivos frames. Nesse percurso, utilizamo-nos também do recurso
Sketch Difference, que permite a comparação entre usos linguísticos nos
subcorpora selecionados, para observar a ocorrência de combinatórias
lexicais peculiares ao corpus pró-SUG.
Na seção dedicada à análise dos dados, descrevemos frames
instanciados no corpus que vão ao encontro da intenção legislativa da
Sugestão, verificando que os participantes pró-SUG não se ativeram
ao tema do abortamento como questão de saúde pública – via frames
como Aborto_Clandestino, Desigualdade, Perfil_da_Mulher_que_
Aborta, Assassinato e Criminalização_do_Aborto. O abortamento
também foi conceptualizado como questão de autonomia da mulher,
por meio da evocação do frame homônimo, do subframe Escolha e do
enquadramento Maternidade_não_Hegemônica. Tais evidências refletem
a conceptualização do abortamento não apenas como questão de saúde
pública – aspecto que motivou a pauta da SUG –, mas também de justiça
1182 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1137-1189, 2021
Agradecimentos
Agradecemos à Coordenação de Aperfeiçoamento de Pessoal de
Nível Superior (CAPES), que concedeu à primeira autora uma bolsa
de doutorado CAPES/PROSUC (Código de Financiamento 001); e
à Fundação de Amparo à Pesquisa do Estado do Rio Grande do Sul
(FAPERGS), que financiou a aquisição de uma licença de uso do software
NVivo.
26
Para conferir as aproximações e os distanciamentos entre nossa proposta metodológica
e estudos anteriores, sugerimos a leitura de Santos (2020).
Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1137-1189, 2021 1183
Referências
BELTRAME, P. B. Aborto: a controvérsia das feminilidades. 2016. 106f.
Dissertação (Mestrado em Antropologia) – Programa de Pós-Graduação
em Antropologia, Universidade Federal de Pernambuco, Natal, 2016.
BERBER SARDINHA, T. Linguística de Corpus: Histórico e
Problemática. D.E.L.T.A., São Paulo, v. 16, n. 2, p. 323-367, 2000. DOI:
https://doi.org/10.1590/S0102-44502000000200005. Disponível em:
http://www.scielo.br/pdf/delta/v16n2/a05v16n2.pdf. Acesso em: 25 set.
2020.
BOOTH, K. J. The Meaning of the Social Body: Bringing George Herbert
Mead to Mark Johnson’s Theory of Embodied Mind. William James
Studies, [S.l.], v. 1, n. 1, p. 1-18, 2016. Disponível em: https://www.jstor.
org/stable/26203794?seq=1#metadata_info_tab_contents. Acesso em:
17 fev. 2020.
BRASIL. Constituição (1988). Constituição da República Federativa do
Brasil, 1988, Brasília, DF: Presidência da República, 1988. Disponível
em: http://www.planalto.gov.br/ccivil_03/constituicao/constituicao.htm.
Acesso em: 11 set. 2020.
BRASIL. Ministério da Saúde. Atenção Humanizada ao Abortamento:
Norma Técnica. Brasília: Ministério da Saúde, 2011.
BRASIL. Senado Federal. Sugestão n° 15, de 2014. Atividade Legislativa.
Brasília, 2014. Disponível em: https://www25.senado.leg.br/web/
atividade/materias/-/materia/119431. Acesso em: 1 mar. 2020.
1184 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1137-1189, 2021
Ariel Novodvorski
Universidade Federal de Uberlândia (UFU), Uberlândia, Minas Gerais / Brasil
arivorski@ufu.br
http://orcid.org/0000-0003-1370-8334
eISSN: 2237-2083
DOI: 10.17851/2237-2083.29.2.1191-1228
1192 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1191-1228, 2021
Abstract: The following paper provides an analysis of soccer terms and specialized
phraseological units in metaphorization processes with the target area of politics.
The research uses a monolingual journalistic corpus in Spanish rio-platense, from
the politics section Humor Político of the Argentinean newspaper Clarín. The use of
computer programs for lexical analysis typical of Corpus Linguistics research has made
it possible to identify and extract terms and specialized phrases found in the corpus.
The analysis of units in context pointed to the metaphorical construction of the most
abstract field of politics by means of more concrete figures of the soccer environment.
The corpora consultation available online corroborated the premises and findings in
the corpus of study.
Keywords: terminology; specialized phraseological units; metaphor; corpus linguistics;
journalistic corpus.
1 Introdução
Este artigo é um recorte da pesquisa de Pós-doutorado do primeiro
autor deste texto, junto ao PPG-Letras da UFRGS, com conclusão
prevista para dezembro de 2020. Essa pesquisa nasce da exploração
de diferentes corpora, monolíngues, comparáveis e paralelos, no par
linguístico espanhol/português, compilados a partir da seção de opinião
de jornais argentinos e brasileiros, com a trama política desses países
como tema principal e a observação das características lexicais, como
objeto de estudo. A motivação para a escolha da temática e consequente
compilação dos corpora partiu de nosso interesse, por um lado, pelo
acompanhamento da situação e trama política na região, enquanto leitores
de diferentes jornais de ampla circulação e de livre acesso on-line e,
por outro lado, pela análise das combinatórias lexicais identificadas a
partir de unidades terminológicas, em uma perspectiva contrastiva e
comparável.1 Apresentamos parte desse material e dos resultados em
1
Do ponto de vista da Metáfora Conceptual, das características do corpus e da utilização
de ferramentas da Linguística de Corpus, os trabalhos de Berber Sardinha (2007a,
2008, 2010) e de Sperandio (2009, 2010) são pontos de contraste relevantes com esta
pesquisa, como será observado na seção teórica, por abordarem o estudo empírico
de metáforas no plano da política brasileira, entre outros, do ex-presidente Lula e do
Movimento dos Trabalhadores Rurais Sem Terra (MST).
Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1191-1228, 2021 1193
2
Disponível em: https://www.clarin.com/autor/alejandro-borensztein.html. Acesso
em: 10 ago. 2020.
1194 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1191-1228, 2021
bola] abajo del arco” e “tirarla [la pelota/a bola] por arriba del travesaño”)
metaforizam, por meio de uma imagem mais concreta, uma situação
mais abstrata do meio político, em que um candidato perdeu as eleições
presidenciais, em circunstâncias que estariam bastante facilitadas,
pois teriam deixado todo o caminho pronto para que fosse eleito. Em
linguagem futebolística, deixaram na cara do gol, deram o gol servido,
só faltava chutar para o gol.
Realizamos a exploração do Corpus AleBores em diversas
direções, antes mesmo de encontrar o rumo que passou a conduzir a
pesquisa, por meio da utilização das ferramentas WordList, KeyWords
e Concord, do programa para análises lexicais WordSmith Tools
(WST), versão 7,0 (SCOTT, 2016), em suas diferentes funcionalidades.
Também recorremos ao suporte de recursos disponíveis on-line para
consulta, a saber, o Corpus del Español (DAVIES, 2016, 2018), em sua
versão dialetal, e o Sketch Engine (KILGARRIFF, 2019), utilizados
fundamentalmente como corpora de consulta e contraste, para corroborar
ou reformular hipóteses, a partir dos achados em nosso corpus. Como
objeto de estudo tomamos, num primeiro momento, o gênero textual
artigo de opinião, pelo prisma da Linguística de Corpus (LC). Num
segundo momento, as Unidades Fraseológicas Especializadas (UFEs),
caracterizadas pela presença de unidades léxicas que adquirem um
valor especializado na área do futebol, enquanto candidatos a termos,
mas utilizados metaforicamente em referência ao domínio da política.
Ambos os trabalhos foram feitos na perspectiva das análises descritivas e
empírico-dedutivas, com suporte tecnológico dos recursos anteriormente
mencionados.
Por meio da extração e análise da lista de palavras-chave com a
ferramenta KeyWords do WST, a pesquisa sobre o gênero possibilitou
a identificação de características que apontam para a estabilidade e
organização interna dos diferentes textos que compuseram o corpus.
Algumas das características apontadas por Berber Sardinha (2009, p. 25-
26) foram observadas, como o fato de os gêneros serem social, cultural
e historicamente definidos, sequenciados internamente e compostos
por uma lexicogramática distinta. No entanto, o maior destaque foi
a identificação de áreas temáticas que se mostraram salientes nos
resultados, em especial, o domínio do futebol, pela recorrência de termos
do meio futebolístico.
Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1191-1228, 2021 1195
3
A política pela ótica do futebol: uma análise término-fraseológica em corpus jor-
nalístico de humor político. Trabalho apresentado no V Congresso Internacional de
Fraseologia e Paremiologia, em São Paulo, 2018.
4
Humor político: o gênero pelo prisma da Linguística de Corpus.Trabalho apresentado
no XIV ELC./IX EBRALC, em Porto Alegre, 2017.
1196 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1191-1228, 2021
2 Fundamentação teórica
A presente pesquisa engloba as seguintes fontes bibliográficas,
conforme cada uma das respectivas áreas teóricas: (1) Terminologia
(CABRÉ, 1993, 2002, 2005; KRIEGER; SANTIAGO; CABRÉ, 2013);
(2) Fraseologia Especializada (BEVILACQUA, 1998, 1999, 2004;
CABRÉ; ESTOPÀ; LORENTE, 1996; ORENHA, 2009; ORENHA;
CAMARGO, 2009); (3) Fraseologia (CORPAS PASTOR, 2010); (4)
Metáfora (BERBER SARDINHA, 2007a, 2008, 2010; SPERANDIO,
2009, 2010, DEIGNAN, 2005, 2012; LAKOFF; JOHNSON, 1980); (5)
Gramáticas Descritivas e Dicionários de Usos da língua espanhola e
portuguesa (ANANÍA, 2005; BORBA, 2002; BOSQUE; DEMONTE,
1999; FONTANARROSA; SANZ, 1994; GOVERNATORI; LAROCCA,
2014; HOUAISS, 2009; MOLINER, 2008) e (6) Linguística de Corpus
(BERBER SARDINHA, 2004, 2009; PARODI, 2008, 2010).
5
Disponível em: https://www.ovaciondigital.com.uy/futbol/voces-lenguaje-cancha-
presente-todos-dias.html. Acesso em: 14 out. 2020.
Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1191-1228, 2021 1199
6
Disponível em: https://lexically.net/LexicalAnalysisSoftware/. Acesso em: 3 ago. 2020.
7
Disponível em: https://www.corpusdelespanol.org/web-dial/. Acesso em: 10 ago. 2020.
8
Disponível em: https://www.corpusdelespanol.org/now/. Acesso em: 10 ago. 2020.
9
Disponível em: https://www.sketchengine.eu/. Acesso em: 30 jul. 2020.
1200 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1191-1228, 2021
de, pelo menos, duas palavras, cujo limite superior será o sintagma ou
a oração composta e apresentará como traços inerentes a fixação ou a
idiomaticidade por si mesmas, ou uma combinação de ambos os critérios
(CORPAS PASTOR, 2010, p. 126).
Acerca da consideração do fator frequência e, em particular, pelo
fato de definir as UFEs como “unidades que adquirem valor especializado
pelo e no texto em que são utilizadas” (BEVILACQUA, 2004, p. 44),
a autora destaca que, na seleção das unidades no corpus, há outros
fatores que já seriam suficientes para “mostrar o valor especializado das
unidades extraídas” (idem). Ou seja, o critério frequência não deveria
ser conclusivo para a seleção das UFEs. Essa observação é de vital
importância para nossa pesquisa, uma vez que, a depender da extensão
do corpus de estudo, itens de baixa frequência ou que reportam uma
única ocorrência (hapax legomena) poderiam ser desconsiderados,
mesmo apresentando caráter especializado. Desse modo, assumimos
que a frequência será observada, mas não como fator determinante para
a constatação de que uma unidade seja considerada UFE, como será
descrito na seção de Corpus e Metodologia.
A taxonomia proposta (CORPAS PASTOR, 2010, p. 127-136)
para classificação das UFs define um primeiro nível de estruturação
em três esferas: (1) as colocações, fixadas pelo uso, com algum grau
de restrição combinatória; (2) as locuções, fixadas no sistema; e (3)
os enunciados fraseológicos (parêmias e fórmulas), fixados na fala,
formam parte do acervo sociocultural da comunidade do falante. Estes
últimos se diferenciam das colocações e locuções pelo fato de chegarem
a formar enunciados completos em si mesmos e a realizarem atos de
fala, independente da combinação com outros elementos no discurso.
Já encerrando esta breve introdução e complementando o
enquadramento teórico da pesquisa proposta, enfocamos o estudo da
Metáfora pela visão cognitiva, como um recurso natural e intrínseco ao
ser humano, por meio do qual se busca entender o mundo, processando
mentalmente conceitos abstratos, partindo de conceitos concretos. Nesse
sentido, mais do que se caracterizar como um traço da linguagem, a
metáfora estabelece relações entre dois conceitos diferentes, que se unem
por associação para compreendermos um deles a partir das características
do outro. Portanto, “a essência da metáfora é entender e experimentar
um tipo de coisa em termos de outra” (LAKOFF; JOHNSON, 1980, p.
41). Esses autores chegaram à conclusão de que nossa vida cotidiana está
1204 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1191-1228, 2021
como uma resposta, ainda que parcial, à crítica de que a LC teria pouca
capacidade de teorizar a respeito da linguagem.
No âmbito da pesquisa nacional, em português brasileiro, são
diversos os trabalhos que guardam relação direta com nossa pesquisa e
que servem de motivação como pontos de contraste e de comparação,
tanto pelo viés empírico da exploração de metáforas conceptuais à luz
da LC, quanto pelo uso de corpora jornalísticos. A abordagem das
questões culturais implicadas também é relevante, por se tratar de países
vizinhos, Brasil e Argentina, com histórias e relações sócio-políticas
muito próximas. Como exemplo, Berber Sardinha (2007b) indica
que as metáforas são culturais, portanto, relacionadas a determinada
cultura, civilização ou ideologia, não havendo, nesse sentido, verdades
absolutas para a Teoria da Metáfora Conceptual. Nesse texto (BERBER
SARDINHA, 2007b, p. 168) e em referência às metáforas do presidente
Lula à época, o autor destaca que ao dizer que “vamos vestir a camisa de
um setor da sociedade, estamos conceituando e entendendo a sociedade
como um esporte, as pessoas como jogadoras, outros grupos como
adversários, a convivência como uma partida e a conduta desejada como
as regras do jogo, observadas por um árbitro”. Como bem observa o autor,
todos esses mapeamentos ficam subentendidos pelo campo conceitual do
jogo em si, pelo fato de haver um conhecimento compartilhado do que
seja uma partida, talvez de futebol, e das partes implicadas. Tudo isso
possibilita o entendimento da expressão como metáfora.
Também destacamos Berber Sardinha (2007a), que descreve
diferentes métodos e analisa as metáforas da imprensa de modo geral, em
corpus do jornal Folha de São Paulo, e as metáforas de um jornalista em
particular, Joelmir Beting. As metáforas do ex-presidente Lula também
se fazem presentes em outras publicações de Berber Sardinha (2008,
2010), em relação à conquista e ao desenvolvimento, respectivamente.
Para tornar mais ilustrativas as inferências resultantes dos mapeamentos,
denominadas desdobramentos na teoria, o pesquisador apresenta, no caso
do jogo em equipe “Se a partida é o comércio exterior, a vitória seria o
superávit nas contas dos países do bloco econômico. Uma derrota, por
outro lado, seria um déficit nas contas” (BERBER SARDINHA, 2008,
p. 99). Ainda mencionamos, aqui, as pesquisas de Sperandio (2009,
2010), em que a autora analisa, no primeiro trabalho, usos metafóricos
em discursos do ex-presidente Lula, relacionados ao Programa Fome
Zero e, no segundo, metáforas com relação ao Movimento dos Sem-Terra
Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1191-1228, 2021 1207
3 Corpus e Metodologia
O corpus de estudo de nossa pesquisa, que denominamos Corpus
AleBores, está formado por grande parte dos textos publicados na seção
de opinião Humor Político, do jornal argentino Clarín, escritos em
espanhol rio-platense pelo colunista e arquiteto Alejandro Borensztein,
especificamente, por todos os textos aos quais foi possível ter acesso, no
período entre 2009 e 2019. Tal como é mencionado em encontro on-line
com o autor (29/05/2020), no âmbito do Ciclo de Diálogos com Clarín,10
a coluna começou a ser escrita em 2007, completando em 2020 treze
anos de publicações dominicais. Como aponta o autor, sua verdadeira
formação universitária e profissional é em Arquitetura, por ter feito a
carreira acadêmica, de graduação e pós-graduação, nessa área. A respeito
do ofício de escrita semanal de um texto a ser publicado num dos jornais
de maior circulação no país, Borensztein observa que surgiu de modo
11
Disponível em: https://www.clarin.com/autor/alejandro-borensztein.html. Acesso
em: 17 jun. 2020.
1212 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1191-1228, 2021
12
As análises dos fragmentos que compõem o recorte da pesquisa apresentado neste
artigo serão desenvolvidas na próxima seção.
Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1191-1228, 2021 1217
4 Análise
Dos dados obtidos e classificados sob o campo semântico Locais
para a prática do futebol, selecionamos cancha e um de seus derivados
para esta análise. Pela análise das linhas de concordância, o item lexical
cancha reportou 79 ocorrências no Corpus AleBores, das quais 70
foram corroboradas como UTs, no escopo de nossa pesquisa, pelo fato
de fazerem referência específica ao futebol. As demais dizem respeito
a campos de Tênis, Rugby, Polo ou Golfe, esportes também populares
na Argentina.
(01) No permita que ninguna Diana Conti le amargue la vida cuando sugiere
que hay que tirar la Constitución a la basura. Defendamos la democracia,
aplaudamos una buena jugada, pero marquemos la cancha y gritemos
¡penal! cuando el Gobierno (o algún opositor) hace un foul dentro del área.
(02) La Compañera Jefa acaba de declarar “a este gobierno nadie le marca
la cancha”. Lamento avisar que está equivocadísima.
(03) Todos le marcamos la cancha.
(04) Hasta mi hija de un año y medio, mi Minina!!!, en cuanto se despierta y
antes de tomar su mema lo primero que hace es marcarle la cancha al
gobierno.
(05) Porque ella, como todos nosotros, nació en suelo argentino, bajo la
tutela de un librito que se llama Constitución Nacional donde está toda
la cancha marcadita. Les guste o no les guste.
(06) En el momento más duro de su gobierno, después de aprobar a la fuerza
el acuerdo con Irán, les salió una bolilla impensada: Francisco. Nadie se
avivó que en la esquina de la Casa Rosada vivía un potencial Papa (de
hecho, había salido segundo en la votación anterior), y de un día para
el otro apareció un argentino con mucho más poder que Ud. marcando
la cancha y frenando por peso propio ciertos aires de descontrol.
14
Disponível em: http://www.elgrafico.com.ar/2012/04/25/C-4186-amadeo-carrizo-aun-
no-concibo-a-river-en-la-b-llore-mucho-con-el-descenso.php. Acesso em: 17 mai. 2020.
Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1191-1228, 2021 1223
5 Considerações
Encerrando este trabalho, depois da fundamentação teórica,
descrição metodológica e das análises feitas a partir de um recorte de
nossa pesquisa, fundamentalmente a partir do termo cancha, enquanto
local para a prática de futebol, podemos traçar algumas considerações.
A pertinência a esta pesquisa dos pressupostos teóricos sobre
os quais discorremos, na abordagem da Terminologia, em especial das
UFEs, da Teoria da Metáfora Conceptual e da LC, ficou demonstrada
pelo estabelecimento de diversos pontos de convergência. A recorrência
de termos do domínio fonte mais concreto do futebol, em referência
ao domínio alvo mais abstrato da política, a presença de um núcleo
enquanto UT nas UFEs, a formação das metáforas linguísticas com
tópicos do âmbito político e veículos do meio do futebol, tudo mediado
pela exploração empírica de um corpus com os recursos, ferramentas
e princípios de pesquisa da LC, dão conta desse ponto de confluência
dessas diversas vertentes teóricas. Por outro lado, a presença da cultura
do futebol na vida diária da sociedade, observada nos trabalhos brasileiros
revistos assim como nesta pesquisa, provavelmente fazendo parte em
alguma medida do vocabulário popular, acaba sendo invocada por meio
de expressões típicas desse domínio, tanto pela imprensa quanto no meio
político, com diversos propósitos, mas funcionando para metaforizar
situações abstratas em diversos âmbitos.
1224 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1191-1228, 2021
Referências
ALVES, M. A representação do Brasil no ensino de espanhol: um estudo
diacrônico baseado em corpus de textos acadêmicos. 2013. Relatório
(Iniciação Científica) – Instituto de Letras e Linguística da Universidade
Federal de Uberlândia, Uberlândia, 2013.
ANANÍA, P. Diccionario inmoral de los argentinos. Buenos Aires:
Vergara, 2005.
BERBER SARDINHA, T. As metáforas do presidente Lula na perspectiva
da Linguística de Corpus: O caso do Desenvolvimento. D.E.L.T.A., São
Paulo, v. 26, n. 1, p. 163-190, 2010. DOI: https://doi.org/10.1590/S0102-
44502010000100007
BERBER SARDINHA, T. Pesquisa em Lingüística de Corpus com
WordSmith Tools. Campinas: Mercado das Letras, 2009.
1226 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1191-1228, 2021
eISSN: 2237-2083
DOI: 10.17851/2237-2083.29.2.1229-1252
1230 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1229-1252, 2021
Abstract: Authors from different countries have published their papers in English,
aiming to promote their research results widely and to become internationally known
by their peers. It is also true that, although they are aware of the English terminology
used in their respective field, some authors still struggle with some features of
academic writing such as collocations. Thus, this paper presents a discussion on the
underuse and overuse traces of academic collocations by Brazilian authors who had
their articles published in English on an open electronic library of scientific journals.
In order to analyse the collocations used by these researchers, we compiled a 906,035-
word corpus from eight different academic areas. The collocations observed were
statistically compared to those from an academic corpus of English writings which
contains texts produced by English-speaking authors. Results showed that there are
more collocations underused than overused by the authors. The analysis proved that the
collocation repertoire of researchers could be broadened by being pointed out during
academic writing workshops.
Keywords: academic collocations; research paper writing; corpus linguistics.
Resumo: Autores de vários países têm publicado seus artigos científicos em inglês com
o intuito de promover amplamente os resultados de suas pesquisas dentre a comunidade
científica internacional. É verdade que, embora estejam cientes da terminologia utilizada
no respectivo campo de pesquisa, alguns autores ainda apresentam dificuldade em lidar
com certas características da escrita acadêmica, como o uso das colocações. Este artigo
apresenta uma discussão sobre traços de sobreuso e subuso de colocações acadêmicas
utilizadas por autores brasileiros que têm seus artigos publicados em inglês numa
plataforma eletrônica aberta de artigos científicos. Para analisar as colocações utilizadas
por estes pesquisadores, compilamos um corpus de 906.000 palavras a partir de oito
áreas científicas. As colocações analisadas foram comparadas estatisticamente com as
colocações de um corpus acadêmico de inglês que contém textos escritos por autores
anglófonos. Os resultados mostraram que há mais traços de subuso que sobreuso de
colocações acadêmicas utilizadas pelos pesquisadores e este repertório poderia ser
ampliado se fossem destacadas durante cursos de escrita acadêmica em língua inglesa.
Palavras-chave: colocações acadêmicas; escrita de artigos científicos; linguística de
corpus.
1 Introduction
Authors worldwide recognise the importance of publishing
academic articles in English. Although there may be some debate over
Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1229-1252, 2021 1231
2 Academic collocations
Previous studies have revealed that clusters, lexical bundles and
collocations have been investigated in different genres of academic writing
such as Master’s thesis, Doctorate dissertations and research articles
(ACKERMANN, CHEN, 2013; CORTES, 2004; FRANKENBERG-
GARCIA et al., 2019a, 2019b; HYLAND, 2008; SILVA et al., 2017).
Hyland (2008, p. 42) states that clusters are “words which follow each
other more frequently than expected by chance, helping to shape text
meanings and contribute to our sense of distinctiveness in a register” such
as a result of or it should be noted that in academic writing. According
to the author, mastering the use of these group of words, or “clusters”
(SCOTT, 1996) will help non-native writers to overcome linguistic
barriers which prevent their papers from reaching other members of the
international community. At the same time, Cortes (2004, p. 400) states
that “lexical bundles are extended collocations, sequences of three or
more words that statistically co-occur in a register. Some examples of
these word combinations in academic prose are: on the other hand, in
the case of, the context of the, and it is likely to.”
Firth (1951), in turn, was responsible for making collocations well-
known and for the famous quote “you shall judge a word by the company
it keeps” (apud PARTINGTON, 1998, p. 15). Besides, according to Nation
(2001), “the term ‘collocation’ is used to refer to a group of words that
belong together, either because they commonly occur together like take
a chance, or because the meaning of the group is not apparent from the
meaning of the parts, as with by the way or to take someone in. A significant
problem in the study of collocation is determining, in a consistent way,
what should be classified as a collocation” (NATION, 2001, p. 317).
1234 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1229-1252, 2021
1
English for Academic Purpose (EAP).
Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1229-1252, 2021 1235
3 Methodology
The methodology followed in this study was composed of two
steps: 1) compilation of the Brazilian Academic Corpus of English
(BrACE); 2) selection of the most frequent academic collocations used
by Brazilian researchers in comparison to frequent academic collocations
in native English speakers’ writings.
We present these steps in the following sections:
2
SciELO.org – Scientific Electronic Library Online. Available from: www.scielo.org.
Retrieved: May 23, 2018.
1236 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1229-1252, 2021
We did this process during the time we had access to the database
of the Collocaid project (FRANKENBERG-GARCIA et al., 2019a) in
which these lists had been used. The ColloCaid project is dedicated to
developing a text-editing tool to help writers with collocations during
the writing process. The research involves “investigating user needs, the
visualisation of lexicographic data and human-computer interaction, and
compiling an extensive database of collocation suggestions using state-
of-the-art e-lexicography tools and resources”.3
We started the selection of lexical words with nouns as base
forms to observe how they would collocate most frequently in the BrACE
corpus. The most frequent nouns in the list were studied. To illustrate the
steps taken, we made a query with study as search word using a tool called
WordSketch, which is a “one-page summary of a word’s grammatical
and collocational behaviour” (KILGARRIFF et al., 2014, p. 9):
3
Available from: https://www.collocaid.uk/.
Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1229-1252, 2021 1239
FIGURE 1 – Screenshot of the query for “study” as a noun in the BrACE corpus
Source: Authors
Source: Authors
Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1229-1252, 2021 1247
5 Discussion
The discussions presented in this section seek to answer the three
research questions stated at the beginning of this paper. The first one
was “To what extent do the collocations used by Brazilian authors differ
from the ones in international journals?”. Although Brazilian researchers
have had their papers published in high-impact academic journals, we
could see that there are significant differences regarding underused
collocations, which outnumber the overused ones. This result shows that
these writers were not aware of some of the collocations mostly used
by scholars in international journals. These extracts are not so different
to Brazilian Portuguese such as a detailed (adj.) + analysis, restrict +
analysis (obj.), extensive (adj.) + use, widespread (adj.) + use, describe
+ process (obj.) and begin + process (obj). We did not expect some of
the results such as the underuse of collocations as collect + data and
data + suggest which are not so different from the Brazilian Portuguese.
Because of that, further studies will be carried out as soon as we have
more articles added to the BrACE corpus so that we can confirm or not
the lack of some collocations in those articles.
The previous result leads us to the second and third questions,
which are: “Do Brazilian authors use collocations influenced by their
native language (Brazilian Portuguese)?” and “Are there traces of overuse
or underuse of specific collocations?”.
We could find evidence that indicates the influence of Brazilian
Portuguese in the choice of collocations which called our attention.
This is the case of study (obj. of) + corroborate and study (subj. of) +
corroborate which were overused by the Brazilian researchers and have
the equivalent in Portuguese “estudo (obj of) + corroborar” and “estudo
1248 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1229-1252, 2021
6 Final Remarks
The primary aim of this study was to identify the most frequent
collocations used by Brazilian authors who had their research papers
published in the eight major areas of SciELO. After identifying these
collocations, we compared them to the most frequent academic ones used
Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1229-1252, 2021 1249
Acknowledgements
We would like to thank Dr. Ana Frankenberg-Garcia and Dr. Geraint Rees
for all valuable suggestions during the development of this research work
at the University of Surrey. The authors would also like to acknowledge
funding from the São Paulo Research Foundation (FAPESP/16/25198-6).
Authorship statement
This study reports on data from Dr. Paula Tavares Pinto’s Post-Doctoral
research at the University of Surrey. The first author was in charge of
gathering data, transferring the data to spreadsheets for data analysis,
and writing the first draft of the article. The four authors collaborated on
interpreting results and revising the essay and the data analysis, including
the statistics.
References
ACKERMANN, K.; CHEN, Y. H. Developing the Academic Collocation
List (ACL). A Corpus-Driven and Expert-Judged Approach. Journal of
English for Academic Purposes, [S.l.], v. 12, n. 4, p. 235-247, 2013. DOI:
https://doi.org.10.1016/j.jeap.2013.08.002
BABINI, M.; SILVA, E. B. A terminologia acadêmica nos textos científicos
em língua inglesa uma abordagem baseada em corpus. In: ISQUERDO,
A. N.; SEABRA, M.C.T.C. (org.). As ciências do léxico: lexicologia,
lexicografia, terminologia. Campo Grande: UFMS, 2012. p. 415-427.
CORTES, V. Lexical Bundles in Published and Student Disciplinary
Writing: Examples from History and Biology. English for specific
purposes, [S.l.], v. 23, n. 4, p. 397-423, 2004. DOI: https://doi.
org.10.1016/j.esp.2003.12.001
DAYRELL, C. A Quantitative Approach to Compare Collocational
Patterns in Translated and Non-Translated Texts. International Journal
of Corpus Linguistics, [S.l.], v. 12, n. 3, p. 375-414, 2007. DOI: https://
doi.org.10.1075/ijcl.12.3.04day
DAYRELL, C. Corpora no ensino de inglês acadêmico: padrões léxico-
gramaticais em abstracts de pós-graduandos brasileiros. In: VIANA, V.;
TAGNIN, S. (org.). Corpora no Ensino De Línguas Estrangeiras. São
Paulo: HUB Editorial, 2011. p. 131-172.
Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1229-1252, 2021 1251
Leticia Presotto
Escola Superior de Propaganda e Marketing – Câmpus ESPM Sul, Porto Alegre,
Rio Grande do Sul / Brasil
letipresotto@gmail.com
http://orcid.org/0000-0001-8130-8450
eISSN: 2237-2083
DOI: 10.17851/2237-2083.29.2.1253-1288
1254 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1253-1288, 2021
Abstract: The aim of this paper is to investigate how the emergence of conceptual
metaphors reveals subjective experiences in the narratives of patients who developed
and treat breast cancer and their coping strategies. Therefore, an adaptation of a method,
based on Corpus Linguistics, is proposed to identify these metaphors found in these
women’s discourse based on the identification and in the extraction of candidate terms
for possible conceptual domains. Texts were collected from 31 freely accessible blogs
on the subject under study, constituting a corpus of 2036 texts. One of the blogs,
consisting of 23 posts, was chosen as a reference to assess whether the chosen tool and
the adapted methodology combined with the study. Based on this, a list of keywords
was created to extract candidate terms for conceptual domains, constituting a reference
list for the analysis of the other texts. Among the most frequent conceptual domains,
the following emerged: entity, strength of nature, game, container, travel, monetary
value and war. Also, to a lesser extent, elements linked to religion and spirituality
eventually emerged. From the analysis undertaken, it is highlighted that the realization
of metaphors in the narratives act as coping strategies, given that they are evidence of
the conceptual elaboration of these experiences.
Keywords: conceptual metaphor; corpus linguistics; coping; breast cancer.
1 Introdução
A escrita em blogs se apresenta como espaço de compartilhamento
não só de ideias, mas de expressão de sentimentos. Essa ferramenta, hoje em
grande parte substituída pelas redes sociais, permite a expressão de ideias
e percepções para diversas pessoas, que são, por vezes, desconhecidas.
Desde seu surgimento, os blogs tornaram-se sistemas de publicação na
internet em que qualquer pessoa pode escrever baseada nos princípios de
microconteúdo: textos curtos, com informações que considera relevantes,
seguindo determinado padrão, e atualizados frequentemente (PRIMO;
RECUERO, 2008). Em muitos casos, elaborar textos nesse gênero revela-
se uma estratégia também para lidar com dificuldades, como é o caso
das vivências com o luto (KARKAR; BURKE, 2020) ou da descoberta
e do tratamento do câncer (SEMINO et al., 2018). Neste trabalho, nós
exploramos como mulheres que desenvolveram câncer de mama relatam
suas experiências com a doença e com o tratamento por meio da análise
de seus textos postados em blogs abertos ao público. Tratam-se de escritas
de si, direcionadas a um público imaginado, possivelmente com o intuito
de encontrar estratégias para elaborar suas trajetórias e de enfrentar a
doença e o tratamento – que, aqui, chamaremos de estratégias de coping
(ANDRADE et al., 2020; GUSTAFSSON et al., 2019; SEMINO et al.,
2015; STUMM, et al., 2009).
Pacientes que recebem o diagnóstico do câncer têm a tendência
de sentirem-se inseguras em relação à sua condição pela crença de
que o diagnóstico está relacionado à dor, a tratamentos invasivos e à
morte (ANDRADE et al., 2020, p. 5882). Essa doença é percebida
com medo e preocupação pelas pacientes por estar ligada a sentimentos
de incapacidade, incurabilidade e fatalidade, sendo também temida e
estigmatizada tanto pela paciente como por sua família (RIBEIRO et
al., 2019). Nesse sentido, as pacientes tendem a desenvolver estratégias
cognitivas para lidar com emoções e sentimentos que desenvolvem
a partir da descoberta e no tratamento da doença. Coping refere-se à
resposta emocional, cognitiva ou comportamental ao estresse ou a uma
crise (GUSTAFFSON et al., 2019, p. 2), isto é, o conjunto de esforços que
a pessoa utiliza para confrontar determinada situação geradora de estresse
(STUMM et al., 2009). As estratégias para lidar com situações difíceis
podem variar entre dor, sofrimento, negação, medo, sublimação, aceitação
(STUMM et al., 2009). Essas estratégias são também conhecidas como
1256 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1253-1288, 2021
1
Os exemplos foram extraídos do corpus deste estudo. Foram apagados dados que
pudessem identificar as autoras das postagens.
2
Costumeiramente, utiliza-se o rótulo viagem para um domínio conceptual que reflita
movimentos de trajetória ou caminhar, por exemplo. Manteremos esta notação.
3
A notação dos domínios e do mapeamento metafórico conceptual é realizada no
formato versalete.
Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1253-1288, 2021 1259
3 Percurso metodológico
Nossa pesquisa está baseada na análise qualitativa de um corpus
constituído por 2.036 textos coletados na íntegra em 31 blogs de livre
acesso, contendo relatos de mulheres a respeito do desenvolvimento e do
tratamento do câncer de mama. Pelo fato de utilizarmos dados abertos da
internet, houve a preocupação de seguir alguns princípios éticos básicos
no tratamento dos dados textuais. Nesse sentido, informações sensíveis,
que pudessem identificar as autoras dos posts, foram apagadas, tais como
nomes próprios e a identificação do blog.
A análise preliminar, de caráter quantitativo, demonstrou que
esses textos totalizam 303.088 palavras (tokens) e 31.343 types. Nesse
cálculo, não foram consideradas as palavras gramaticais constantes da
stoplist.4 Dado o objetivo proposto, consideramos que tal amostragem
cumpre com os requisitos de representatividade, uma vez que o corpus é
composto por textos de autoria diversa (multiautoral), em que cada blog
corresponde a uma autora, e os textos coletados compreendem períodos
distintos de tempo, de acordo com aqueles em que cada autora esteve em
tratamento – o que pode nos mostrar se houve, ou não, variação temporal
no tipo de metáfora produzida pelas autoras (ALUÍSIO; ALMEIDA,
2006; BERBER SARDINHA, 2000; BIBER, 1993).
4
A stoplist foi baixada no endereço http://miningtext.blogspot.com/2008/11/listas-de-
stopwords-stoplist-portugues.html e editada pelas pesquisadoras.
Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1253-1288, 2021 1263
5
Os títulos para cada conjunto de textos coletados fazem referência a uma palavra-
chave eleita para nomear cada blog. Neste caso, o blog principal recebeu este título.
1264 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1253-1288, 2021
Pesquisadora 1: types 1 a 9;
Pesquisadora 2: types 10 a 27;
Pesquisadora 3: types 28 a 53;
Pesquisadora 4: types 54 a 94.
4 Resultados e discussão
Nesta seção, descrevemos, a partir da análise dos veículos, isto
é, das palavras que fazem emergir a metáfora subjacente, os domínios
conceptuais mais frequentes, os principais exemplos ligados a esses
domínios e as metáforas conceptuais subjacentes. Esses aspectos estão
distribuídos em seis quadros,6 os quais são comentados em termos de
percepções e estratégias de coping pelas autoras dos blogs, bem como
se essas refletem valores semânticos que tendem a ser mais positivos
ou negativos (que chamaremos aqui de valências), e a função cognitiva
da metáfora que se explicita nessa escrita: se a metáfora subjacente é
ontológica ou estrutural, isto é, se as experiências são compreendidas
em termos de entidades ou substâncias ou se um conceito é estruturado
em termos de outro, respectivamente (LAKOFF; JOHNSON, 1980).
Adiantamos que não foram salientados exemplos de metáforas
orientacionais, as quais organizam um sistema todo em relação a um
outro sistema (por exemplo, de orientação espacial).
6
Os quadros referem-se aos seguintes domínios: entidade, força da natureza, jogo,
container, viagem e guerra.
1266 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1253-1288, 2021
DOMÍNIO: entidade
Keyword
Exemplo Metáfora subjacente
(veículo)
“Porque o doencinha maledita. Rouba além de nossa saúde,
doença é pessoa que rouba
nosso sossego, nossa vida, nosso sono”
doença é pessoa que avança
“Não se pode ficar esperando… e a doença avançando sem
doença é pessoa que não
dó nem piedade”
tem dó
Agradeço a Deus pela doença e por tudo que ganhei com ela doença é pessoa que dá
“por alguma razão tememos muito ter que sair de nossa zona câncer é pessoa que
de conforto e o câncer sabe melhor do que qualquer outra arranca da zona de
coisa arrancar a gente de lá!” conforto
“Eu gosto de repetir a palavra câncer muitas vezes ao dia, câncer é pessoa que vai
até ele encher o saco e ir embora” embora
DOMÍNIO: jogo
Keyword
Exemplo Metáfora subjacente
(veículo)
“Num quero brincar mais disso não”
Brinc* “Não tem jeito, é uma dança com a morte, um bailar a doença é um jogo
“R. é uma pessoa admirável e sei que torceu muito pela minha
recuperação, obrigada”
“Obrigada, mil vezes obrigada pela torcida e já peço para todas
Torcida o tratamento é um jogo
rezarem por mim!”
“O simples fato de tentar de novo já será sua primeira vitória.” a vida é um jogo
Vitória “milagres na minha recuperação teve , tumor sumiu isso é o tratamento é um jogo
VITÓRIA.”
“Mas antes de tudo dar certo tenho que passar nesta primeira
fase de descobrir a doença novamente e acreditar que o plano
aprovará a quimioterapia”
4.4 container: “[...] mas no meu coração não tinha espaço pra medo”
Para o domínio container, identificamos 34 usos metafóricos
a partir de 21 veículos, dos quais os mais produtivos foram: ‘vida’,
‘transbordar’, ‘encher’ (‘cheio’), ‘esvaziar’ (‘vazio’), ‘jorrar’, ‘despejar’,
‘corpo’, ‘dentro’ e ‘fora’. As metáforas identificadas foram corpo é
container, pessoa é container, coração é container e mente é container,
como é possível ver nos exemplos a seguir (QUADRO 4). Essa metáfora,
de caráter ontológico, é compreendida como realização de que um
elemento de domínios do corpo e da pessoa, visualmente perceptíveis,
e dos domínios da mente e do coração, relacionados a fenômenos
intangíveis, se tornem objetos metafóricos.
QUADRO 4 – A vida/O corpo/A mente é um container
DOMÍNIO: container
Keyword Metáfora
Exemplo
(veículo) subjacente
“gota a gota, nos preenche a vida” vida é
Vida
“Quero uma vida mais plena, com mais significado” container
“mas esse blog serve também para que eu coloque para fora o que me aflige mente é
Para fora
a alma.” container
“faz nascer e jorrar de mim toda energia necessária para tocar a vida nos corpo é
Jorrar
momentos mais difíceis do tratamento.” container
“E aí, quando se faz o silêncio dentro, a gente começa a ouvir coisas que mente é
Dentro
não ouvia.” container
coração é
Espaço “mas no meu coração não tinha espaço pra medo.”
container
“quais as drogas que vão habitar o seu corpo durante um bom tempo e que
infelizmente não dão onda nenhuma”
“AMIGAS DO BLOG AGRADEÇO IMENSAMENTE A VOCÊS,
blog é
Despejar PORQUE QUANTAS VEZES VIM AQUI DESPEJEI LITERALMENTE
container
MINHAS ANGUSTIAS”
corpo é
Tirar “faça o que for necessario para tirar a doença de mim”
container
DOMÍNIO: VIAGEM
Keyword
Exemplo Metáfora subjacente
(veículo)
“estava nas andanças da vida” a vida é uma viagem /
Vida
caminhada/ caminho
“Ainda nos encontraremos na estrada da vida”
“Desculpem as reclamações..rs já deu para perceber que to
meio caída né? Faz parte da caminhada humana.”
Caminh* “Isso tudo faz parte do caminho da cura” tratamento é
caminhada/ caminho
“esta semana faço a quinta quimioterapia. Ufa... está passando
do meio do caminho”
“medo de voltar, de ter que passar por isso de novo, acho que
todo mundo que passa deve sentir, ou não?”
o câncer é uma viagem
“Só quem passa por essa doença sabe da importância de todo
Passar esse apoio”
“Estou focada é na cura, passar bem pelo tratamento e crescer
com tudo isso!” tratamento é uma
“Antes de passar pela quimioterapia, achei que tudo poderia ser viagem
levado tranquilamente.”
a vida é uma
caminhada.
“graças a Deus é possível recomeçar de novo, fazendo diferente
Recomeçar
desta vez.” recomeçar algo na
vida é recomeçar a
caminhada.
7
Mapeamento caracterizado como uma extensão do mapeamento básico câncer é uma
viagem.
Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1253-1288, 2021 1275
4.6 valor monetário: “[...] como se fizéssemos uma poupança pela vida”
A partir dos 10 veículos ‘vida’, ‘ganhar’, ‘dar’, ‘valor’,
‘investimento’, ‘saldo’, ‘doar’, ‘perder’, ‘dinheiro’ e ‘guardar’,
identificamos 28 usos metafóricos que fazem parte do domínio valor
monetário. Com base nisso, detectamos as metáforas conceptuais tempo
é dinheiro; amor é dinheiro/valor monetário; vida é dinheiro/valor
monetário; saúde é valor monetário; e momentos da vida são valores.
O Quadro 6 explicita esses mapeamentos.
QUADRO 6 – Tempo/Vida/Amor é dinheiro
VALOR MONETÁRIO
Keyword
Exemplo Metáfora subjacente
(veículo)
“como se fizéssemos uma poupança pela vida” vida é valor
Vida
monetário
“as coisas de outro modo dando valor a vida”
Ganhar “orgulho por não ter usado a doença para ganhar amor” amor é valor
monetário
Preço “muitas manifestações de carinho e amor que não tem preço”
“Até emprestar um útero, doar um órgão, dar a própria vida se
vida é dinheiro
Dar preciso for.”
“Receber e dar amor.” amor é dinheiro
“Só assim para dar valor a coisas que não damos importância”
momentos da vida são
“depois do câncer a gente aprende a dar valor as pequenas coisas, valores
Valor
é dar valor a tudo mesmo”
“aprendemos a dar valor em nossa própria saúde”
“Femana lança Outubro Rosa 2010 com foco em investimento na saúde é valor
DOMÍNIO: guerra
Keyword Metáfora
Exemplo
(veículo) subjacente
“Ao longo de um ano e dois meses acompanhei sua luta contra
um câncer, sua batalha pela vida.”
“Eu lutando pela vida e ela atentando contra a dela.”
Vida “Amigos tem muitos casos de câncer de mama consultório cheio, ter câncer é lutar
Encarar “Diante dessas perdas se faz necessário encarar a vida de outra batalha
forma,”
vida é batalha
“Tenho o desafio de encarar uma vida mais simples.”
“todos encaramos cirurgias, quimio, efeitos colaterais e afins”
“Onde já se viu usar argila como forma de combate ao câncer, em
vez da quimioterapia?”
“Os remédios usados na quimioterapia para combater as células
doentes”
“porque to sem idéias pra post e como fiz quimio na sexta, estou tratamento é
Combater meio que fora de combate” combate
“se caso os nodulos forem a doença, já estará sendo combatido
pela quimio”
“A nossa mente sempre está ocupado, o nosso corpo sempre
sendo utilizado pra combater essa doença e o nosso coração
sempre apreensivo com tudo!!”
“é um dos efeitos colaterais da quimioterapia, pois ela ataca as
células que estão crescendo ativamente”
Atacar tratamento é ataque
“É evidente que quanto mais cedo essa doença for atacada, maior
a chance de cura”
“lutando contra as mazelas da quimioterapia,”
“Um beijo para todas mulheres guerreiras que estão lutando tratamento é luta /
Lutando contra esta doença” doença é luta
“peço força para continuar lutando contra esta maldita doença e
por tudo que ela me trouxe de ruim.”
Vencer “acabar a quimioterapia é vencer a pior parte dessa batalha”
“acabar a quimioterapia é vencer a pior parte dessa batalha”
“Foi uma batalha e tanto, são sintomas dificílimos de explicar mas
tratamento é
só quem já os sentiu pode entender o que se passa dentro de nós.”
Batalha batalha
“Fiz porque venci a guerra, e celebro a vitória da batalha, fiz
porque outras guerras virão, sejam do tipo que for,”
“Só mulheres fortes conseguem vencer essa árdua batalha!!”
“Eu sei que o post ta confuso, confuso como eu, que não sei e
nem quero ir contra mim e minha natureza de guerreira”
“Guerreiras de verdade não andam sozinhas!”
“Guerreiras não desistem facilmente.” pacientes são
Guerreira
“Bem foi uma manhã, muito interessante, e repleta de mulheres guerreiras
corajosas e guerreiras.”
“Não tem como não emocionar em ver a luta de tantas mulheres
fortes, guerreiras, batalhadoras que venceram esse temido câncer
de mama.”
1280 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1253-1288, 2021
“não temos tido trégua faz tempo, estamos vindo de muitas lutas
faz algum tempo e quando parece que as coisas vão melhorar lá
Trégua vem outra” vida é uma batalha
“tem aquelas horas que a alma silencia e a dor está lá, latente,
sem dar trégua.”
“E com certeza, desta guerra ambos sairão mais fortes e prontos Tratamento é
Guerra
para enfrentar o resto das suas existências.” guerra
5 Considerações finais
O desenvolvimento de um percurso metodológico baseado em
LC para identificar metáforas que pudessem evidenciar estratégias de
enfrentamento ao câncer de mama permitiu um olhar apurado para os
contextos de ocorrência dessas metáforas, tornando possível observar os
elementos co-ocorrentes, bem como o tipo de vocabulário relacionado
a cada domínio conceptual.
As análises a partir de domínios conceptuais mais frequentes
demonstraram que as autoras tendem a se valer de metáforas para falar
sobre suas experiências, sentimentos e momentos, expondo, assim, da
forma mais concreta possível, o enfrentamento da doença e tudo o que
está relacionado a isso. O uso efusivo de metáforas por essas mulheres
pode ser considerado como uma forma de externalizar o que se passa
nesse momento de suas vidas, tanto situações positivas quanto negativas,
conseguindo, desse modo, compartilhar essa experiência com outras que
estão vivendo o mesmo.
Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1253-1288, 2021 1283
Nota
Este trabalho foi realizado apesar das dificuldades econômicas e do pouco
investimento em ciência no Brasil. Ainda assim, resistiremos.
Referências
ALUÍSIO, S. M.; ALMEIDA, G. M. B. O que é e como se constrói um
corpus? Lições aprendidas na compilação de vários corpora para pesquisa
linguística. Calidoscópio, São Leopoldo, RS, v. 4, n. 3, p. 156-178, 2006.
Disponível em: http://revistas.unisinos.br/index.php/calidoscopio/article/
view/6002. Acesso em: 5 set. 2020.
Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1253-1288, 2021 1285
eISSN: 2237-2083
DOI: 10.17851/2237-2083.29.2.1289-1324
1290 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1289-1324, 2021
Abstract: This paper addresses the frequency and distribution of Brazilian Portuguese
irregular plurals, within the scope of the word, in a descriptive approach. The data
come from the Corpus Brasileiro and are divided into two samples: (i) pluralized
nouns ending, in spelling, with vowel+is (eg papéis ‘papers’), vowel+us (eg chapéus
‘hats’), and is (eg funis ‘funnels’), and (ii) those ending with ões (eg vilões ‘villains’),
ãos (eg irmãos ‘brothers’), and ães (eg cães ‘dogs’). The phonological and lexical-
morphological variables analyzed – number of syllables, stress, phonological context,
morphological affiliation and lexical frequency – allowed to define the main contexts
for the minority alternants of each sample, in opposition to the prevalent ones, vowel+is
and ões, respectively.
Keywords: plural; allomorphy; morphology; morphophonology; Corpus Brasileiro.
1 Introdução
Neste artigo, tratamos da frequência e da distribuição das
realizações de plural de nomes do português brasileiro (PB) terminados,
em sua forma singular, nas sequências ortográficas vogal+u/l e ão, a partir
de dados do Corpus Brasileiro.1
Por conveniência metodológica, as alternantes de plural são
abordadas neste estudo a partir de uma tipologia que considera as rimas
das sílabas que comportam a informação morfológica de plural (isto é,
a porção fonológica que inclui o núcleo silábico e todos os segmentos
que o sucedem). São Vis, Vus e is, para vogal+u/l, e ões, ãos e ães, para
ão, como se exemplifica em (1) e (2), respectivamente.
1
http://corpusbrasileiro.pucsp.br/cb/Inicial.html
Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1289-1324, 2021 1291
2
Optamos neste texto, como estratégia de simplificação, por nos referirmos aos ditongos
em análise por sua representação ortográfica. Nos exemplos de (2), no que diz respeito
especificamente aos casos de ão e seus plurais, adotamos uma representação fonética que
considera uma sequência de vogal e glide nasalizados. Sabemos, contudo, que a questão
não é tácita entre fonólogos e foneticistas. Alguns estudiosos defendem a realização
da consoante nasal em coda, plena ou secundária, seguindo esse glide. O português
parece situar-se, em relação à pronúncia dessa nasal, numa posição intermediária, se
considerarmos, num extremo, línguas como o inglês ou o espanhol, que no mais das
vezes realizam a nasal plenamente em coda silábica (ex. bu[m] ‘bum’; co[n], ‘com’),
e, noutro, línguas como o francês, que parece exibir uma assimilação completa da
nasalidade (ex. av[ã] ‘avant’). Esse fato contribuiria para a defesa da hipótese de
articulação secundária na língua (ex. irmãw̃ŋ). A consoante nasal é, como discutimos
neste texto, subjacente para muitos autores e funcionaria como gatilho para a nasalização
do ditongo, em princípio oral na origem. Não sendo apagada, isto é, preservando-se
plena ou secundariamente em coda, após o espraiamento, torna-se alvo da assimilação
do ponto de articulação do segmento que a sucede ou mesmo do glide que a precede,
a depender do contexto.
1292 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1289-1324, 2021
Plurais em u/l
Em relação a palavras terminadas em u/l, Huback (2010a)
realiza um estudo envolvendo a aplicação de um teste de reação a 36
falantes nativos do PB, contando com 53 palavras-alvo distribuídas em 3
categorias relativas a frequência lexical. Com base na amostra do Corpus
NILC/São Carlos, as palavras-alvo são classificadas nas frequências de
ocorrência baixa, média e alta. Com foco teórico no Modelo de Redes
(BYBEE, 2001), está em jogo a hesitação ou não hesitação do falante
ao produzir o plural. Os resultados mostraram que 12,8% dos itens
terminados em l foram pluralizados como se pertencessem aos itens
terminados em u, ou seja, contando somente com a adição da expressão
fonológica de plural -s. A autora observou favorecimento em particular
Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1289-1324, 2021 1295
de altura entre vogal e glide (ex. [ej, ew, oj, ow]), apesar de sua forte
presença no léxico. Esse fato também é interpretado na perspectiva de
uma restrição violável, que milita pela maior dispersão de altura em
ditongos.
Gomes, Prado e Amaral (2021, no prelo) também realizam um
experimento psicolinguístico valendo-se de pseudopalavras, além de
um teste de produção com palavras de baixa frequência. Participaram
54 voluntários, sendo 25 com ensino superior, cursando a graduação
da Faculdade de Letras na UFRJ, e 28 de um curso de Educação para
Jovens e Adultos de Niterói, a fim de controlar o papel da escolaridade.
Os resultados apontam para prevalência da forma de plural s em
monossílabos para ambos os níveis de escolarização. Em relação a essa
variável, entretanto, constataram divergência quanto à vogal [e] no núcleo
da última sílaba tônica, que se mostrou significativa apenas para o grupo
de participantes de nível superior, desfavorecendo o plural js.
Plurais em ão
No âmbito do ditongo nasal, Huback (2010a) verifica também
a disponibilidade de ões, ãos e ães no léxico dos informantes quando
perguntados a respeito do plural de vocábulos como escrivão, por
exemplo. Os resultados obtidos a partir do experimento, descrito
anteriormente, apontam para uma migração direcionada no uso das
alternantes de plural do ditongo nasal: 32,5% dos vocábulos cujo étimo
prevê ãos e 20,9% dos vocábulos cujo étimo prevê ães foram pluralizados
pela alternante ões no experimento. Há, portanto, influência da frequência
de tipo da alternante ões em sua produtividade, visto que ões participa
da pluralização de um maior grupo de palavras terminadas pelo ditongo
nasal em PB de acordo com dados do dicionário Houaiss observados por
Huback (2010a, p. 19). A migração no sentido contrário não foi atestada
de maneira expressiva: 4,1% de itens etimologicamente pluralizados
pela alternante ões optaram por ãos para expressar plural, por exemplo.
Houve, entretanto, hesitação nas respostas obtidas no experimento.
Na análise de regressão binária, vocábulos para os quais se supõe ãos
no étimo e vocábulos de baixa frequência de ocorrência se mostraram
favorecedores de hesitação na obtenção de seus plurais, apontando para
influência significativa de efeitos de frequência de tipo e de ocorrência no
fenômeno em questão. Huback (2010b) apresenta resultados semelhantes
a partir de outro experimento, incluindo agora a leitura de frases e figuras
Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1289-1324, 2021 1297
4 Procedimentos metodológicos
Nesta seção apresentamos a constituição e a organização de
duas subamostras extraídas a partir de uma amostra-base de 3.744.513
types e 691.758.151 tokens disponível para download no site do
Corpus Brasileiro – doravante CBras. O CBras é um banco de dados
alimentado por diferentes fontes, incluindo fala e escrita. A análise
que empreendemos neste estudo tem como base principalmente os
types oferecidos pela amostra-base; recorremos, contudo, aos tokens na
discussão sobre frequência lexical.
1298 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1289-1324, 2021
3
https://www.linguateca.pt/acesso/corpus.php?corpus=CBRAS
Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1289-1324, 2021 1299
Número de sílabas
Nas duas amostras, os vocábulos foram classificados quanto ao
número de sílabas da palavra. A primeira classificação incluiu palavras
de 1 a 9 sílabas. Uma reorganização, entretanto, foi proposta, seja
porque dados de 5 a 9 sílabas se mostraram escassos, seja porque não se
observou, numa rodada preliminar, relevância na distinção entre palavras
com 4 sílabas e palavras maiores. A classificação analisada, assim, foi
1 sílaba (ex. réus, cães), 2 sílabas (ex. quartéis, irmãos), 3 sílabas (ex.
mausoléu, capitães), 4 ou mais sílabas/polissílabas (ex. governamentais,
nacionalizações).
Acento
Palavras terminadas em vogal+u/l e ão apresentam acento final
na maioria dos casos e, em proporção consideravelmente reduzida, são
acentuadas na penúltima sílaba, justificando a seguinte classificação:
acento final (ex. quintais, sabões) e acento pré-final (ex. móveis,
órgãos).
Contexto fonológico
Neste grupo foram classificados os segmentos que precedem a
porção fonológica comum às três alternantes estudadas em cada amostra.
Assim, na Amostra L, abordamos a vogal do núcleo da sílaba envolvida
no plural, a que antecede o glide no ditongo (ex. p[a]us, c[ɛ]us, anz[ɔ]
is, vin[i]s, az[u]is). No caso de [i], estão contempladas as possibilidades
de não ditongação, de ditongação homorgânica ou de alongamento (ex.
vin[i]s ~ vin[ij]s ~ vin[i:]s). Na Amostra N, abordamos a consoante do
onset da sílaba que contém o ditongo nasal. Uma classificação inicial
considerando todos os segmentos individualmente foi reinterpretada na
perspectiva de modo de articulação: oclusiva (ex. capi[t]ães), fricativa
(ex. se[s]ões), líquida (ex. sa[l]ões) e nasal (ir[m]ãos). Também foram
considerados casos de hiato (ex. pe.ões).
Afiliação morfológica
Neste grupo de fatores, analisamos a localização morfológica da
terminação da base que dá origem aos plurais investigados. Interessa-nos
dizer se as porções fonológicas u ou l, na Amostra L, e ão, na Amostra N,
Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1289-1324, 2021 1301
Frequência lexical
A frequência lexical dos itens pluralizados em análise é a
informada na amostra disponibilizada pelo CBras e foi analisada como
uma variável contínua.
Outras variáveis, como padrão de terminação da base, classe
gramatical, lema e frequência do lema, também foram codificadas e
aparecem nesta análise como subsidiárias à descrição das 5 que tomamos
como nucleares.
5 Resultados e discussão
Nesta seção fazemos uma apresentação dos resultados da análise
das duas subamostras investigadas. Como antecipamos, essa exposição
se dá, sempre que possível, de forma combinada, ainda que as análises
tenham sido computadas independentemente.
Os resultados aqui apresentados são produto de estatística
descritiva fazendo-se uso da Plataforma R. Cada resultado é acompanhado
de discussão, considerando-se os achados de trabalhos anteriores e o
potencial de cada grupo de fatores para uma futura análise de natureza
preditiva.
Começamos por apresentar a frequência geral das alternantes de
plural para cada uma das amostras analisadas. Na sequência, tratamos
das 5 variáveis que consideramos nucleares na ordem em que foram
apresentadas na metodologia. As variáveis subsidiárias são chamadas
quando necessárias à discussão dos resultados obtidos para as categorias
nucleares.
Amostra L Amostra N
% Ocor. % Ocor.
Vis 98,0 9.061 papéis ões 92,8 5.472 balões
is 1,0 88 funis ãos 5,2 307 irmãos
Vus 1,0 96 chapéus ães 2 120 capitães
Total 9.245 Total 5.899
Amostra L Amostra N
Lemas/ Lemas/
% %
Ocor. Ocor.
sais, réis, géis,
Vis 29,6 8/27 méis, sóis, grais, ões 100 2/2 chões, vões
gois, móis
graus, maus, réus, mãos, grãos,
Vus 32,1 9/28 céus, paus, naus, ãos 23,3 7/30 vãos, sãos, chãos,
véus, vaus, tchaus nãos, pãos
is 100 1/1 vis ães 28,6 2/7 cães, pães
5.3 Acento
Formas terminadas em vogal+u/l e ão ortográficos são
predominantemente oxítonas em português. Na Amostra L, 70% dos itens
apresentam acento final, contra 30% de paroxítonas. Na Amostra N, quase
a totalidade dos itens é de oxítonas, com apenas 0,4% de paroxítonas. Em
4
Por se tratar de uma grande base de dados, alimentada por diferentes fontes, não se
descarta a possibilidade de esses e outros itens excepcionais atestados nesta análise
constituírem meros erros de registro. Não nos cabe, contudo, decidir por descartá-los,
tanto porque não apresentam marcas incontroversas de lapsos de grafia quanto porque,
apesar de atípicos, apresentam-se como possibilidades na língua. A frequência lexical,
por outro lado, figura, em nosso entendimento, como regulador – necessário, se não
suficiente – na interpretação dessa ambiguidade.
1306 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1289-1324, 2021
% Lemas/Ocor.
Vus 76 73/96 graus, maus, réus, céus, degraus, chapéus
is 53,5 46/86 civis, perfis, infantis, juvenis, barris, estudantis
% Lemas/Ocor.
a 74,5 38/51 maus, degraus, paus, naus, saraus, mingaus
Vus
ɛ 77,8 35/45 réus, céus, chapéus, troféus, véus, mausoléus5
5
Desses itens frequentes de base éu que listamos, apenas troféu apresenta dado de plural
com a alternante Vis, troféis, com frequência 4, contra troféus, com frequência 913.
1310 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1289-1324, 2021
Lemas/
%
Ocor.
hiato 100 14/14 anciãos, aldeãos, anfitriãos, aviãos
s 98,4 61/62 infecçãos, condiçãos, informaçãos, alteraçãos
6
Embora a busca do item dentro da frase seja acessível aos usuários do CBras por meio
do site Linguateca, não recorremos a esse expediente para checar se nomes de classe
dúbia haviam sido empregados como substantivos ou como adjetivos, por consideramos
essa informação, operacionalmente custosa, pouco relevante para os fins de nossa
pesquisa. Essa checagem restringiu-se à desambiguação, como mencionamos na
metodologia, de nomes com outras classes apenas (como verbos ou advérbios, por ex.).
Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1289-1324, 2021 1313
Lemas/
%
Ocor.
Limite Limite
Alternante 25% 50% 75% 100% Média
inferior superior
Vis 1 1 4 24 58,5 710.897 722,2
Vus 1 2 4 21,3 50,3 41.745 692,3
is 1 2 26,5 354,8 884 25.373 900.64
Limite Limite
Alternante 25% 50% 75% 100% Média
inferior superior
ões 1 1 5 57 141 284.580 1.183,9
ãos 1 1 2 6 13,5 80.948 906,7
ães 1 1 2 4 8,5 18.386 342,8
6 Considerações finais
Neste texto apresentamos resultados de um estudo descritivo
sobre a expressão fonológica de formas de plural irregular em português,
no âmbito da palavra, com base em dados do Corpus Brasileiro. Duas
amostras foram consideradas: Amostra L, relativa ao plural de nomes
terminados, no singular, em vogal+u/l ortográficos, a que correspondem
as alternantes Vis, Vus e is, e Amostra N, relativa ao plural de nomes
terminados em ão ortográfico, a que correspondem as alternantes ões, ãos
e ães. Variáveis fonológicas e léxico-morfológicas foram quantificadas
em relação a cada uma dessas alternantes.
O estudo confirmou a prevalência, amplamente relatada na
literatura, das variantes Vis e ões, respectivamente, para as Amostras
L e N. Dedicamos, por isso, nossa maior atenção às variantes menos
frequentes. Em relação a essas variantes, merecem destaque os aspectos
a seguir resumidos.
(i) Em relação ao número de sílabas, monossílabos mostram
comportamento diferenciado nas duas amostras, como relatado por
Huback (2010a, 2010b); Becker et al. (2018), Rizzato (2018), entre
1320 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1289-1324, 2021
Agradecimento
Agradecemos ao Conselho Nacional de Desenvolvimento Científico
e Tecnológico (CNPq), processos PQ 310921/2018-0 e PIBIC
154093/2020-3, e à Fundação de Amparo à Pesquisa do Estado do Rio
Grande do Sul (FAPERGS), processo PROBIC 20/2551-0000315-9, pelo
fomento em forma de bolsas. Agradecemos aos colegas Pedro Surreaux,
Rodrigo Mahfuz e Júlia Ricardo.
Referências
ABAURRE GNERRE, M. B. M. Alguns casos de formação de plural em
português: uma abordagem natural. Cadernos De Estudos Linguísticos,
Campinas, v. 5, p. 127-156, 1983.
BAUER, L. A Glossary of Morphology. Edinburgh: Edinburgh University
Press, 2004.
BECKER, M. et al. The Acquisition Path of [w]-final Plurals in Brazilian
Portuguese. Journal of Portuguese Linguistics, Lisboa, v. 17, n. 4, p. 1-17,
2018. DOI: https://doi.org/10.5334/jpl.189. Disponível em: https://jpl.
letras.ulisboa.pt/articles/10.5334/jpl.189/. Acesso em: 11 set. 2020.
BECKER, M.; NEVINS, A.; LEVINE, J. Asymmetries in Generalizing
to and from Initial Syllables. Language, Washington, DC, v. 88, n. 2, p.
231-268, 2012. DOI: https://doi.org/10.1353/lan.2012.0049. Disponível
em: https://becker.phonologist.org/projects/english/becker_nevins_
levine_english_2012.pdf. Acesso em: 11 set. 2020.
BISOL, L. O ditongo na perspectiva da fonologia atual. DELTA, São
Paulo, v. 5, n. 2, p. 185-224, 1989.
BISOL, L. A nasalidade, um velho tema. DELTA, São Paulo, v.14,
nº especial, p. 27-46, 1998. DOI: https://doi.org/10.1590/S0102-
44501998000300004. Disponível em: https://revistas.pucsp.br/delta/
article/view/43390/28850. Acesso em: 11 set. 2020.
BISOL, L. A nasalidade fonológica no português e suas restrições.
Diadorim, Rio de Janeiro, v. 18, p. 116-126, 2016. DOI: https://doi.
org/10.35520/diadorim.2016.v18n0a4050. Disponível em: https://
revistas.ufrj.br/index.php/diadorim/article/view/4050. Acesso em: 11
set. 2020.
BISOL, L. Sufixos de duas faces. Revista da Abralin, Aracaju, v. 19, n.
1, p. 1-12, 2020. DOI: HTTPS://doi.org/10.25189/rabralin.v19i1.1380.
Disponível em: https://revista.abralin.org/index.php/abralin/article/
view/1380. Acesso em: 11 set. 2020.
BONET, E.; LLORET, M. R.; MASCARÓ, J. The Prenominal Allomorphy
Syndrome. In: ______. (org.). Understanding Allomorphy. Perspectives
from Optimality Theory. Bristol: Equinox Publishing, 2015. v. 5, p. 1-44.
Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1289-1324, 2021 1323
Kícila Ferreguetti
Universidade Federal de Minas Gerais (UFMG), Belo Horizonte, Minas Gerais / Brasil
Kfo2008@ufmg.br
http://orcid.org/0000-0002-1919-0073
Adriana S. Pagano
Universidade Federal de Minas Gerais (UFMG), Belo Horizonte, Minas Gerais / Brasil
apagano@ufmg.br
http://orcid.org/0000-0002-3150-3503
Abstract: Objective: Drawing on Pearson (1998) and using corpus linguistics tools
available for Brazilian Portuguese, we report on a study aimed at exploring to what
extent the concepts of technical term, nominal group and lexical item are coextensive in
Brazilian Portuguese. Method: A corpus of academic articles on the experiential domain
of Diabetes Mellitus self-care was compiled and queried in AntConc, a concordancing
software (ANTHONY, 2019). Using as a reference corpus CALIBRA (FIGUEREDO;
PAGANO; FERREGUETTI, 2014), three keywords were extracted analysed with
AntConc tool clusters/n-grams, considering clusters/n-grams with a minimum number
of ten occurrences. Results: Analysis of clusters/n-grams to the right and left of each
of the selected keywords showed that technical term, nominal group and lexical item
cannot always coextensive. The use of cluster/n-grams tool can be considered effective
to search for lexical items that are coextensive to the order of the nominal group,
due to the existence of at least one nominal group in each cluster/n-gram analyzed.
Conclusion: Although the programs used by Pearson (1998) are not fully available to
Brazilian Portuguese, a systemic-functional approach to nominal group and lexical
item together with the tools of the concordancing software used in this paper proved
to be efficient for the analysis herein proposed.
Keywords: lexical item; nominal group; technical term; corpus linguistics; systemic
functional theory; coextensiveness.
1 Introdução
O registro de uso de corpus é antigo. Na Grécia Antiga, foi criado
o Corpus Helenístico de Alexandre, o Grande. Na Antiguidade e Idade
Média, os corpora com citações da Bíblia foram desenvolvidos. No
século XX, muitos pesquisadores utilizavam os corpora para trabalhos
de descrição da linguagem. No entanto, apesar desses registros, o uso de
corpora nessas fases era restrito ao aprendizado de línguas, sendo que
todo o processo de elaboração dos corpora era feito de forma manual em
razão da inexistência de recursos tecnológicos (SARDINHA, 2004, p. 3).
Os corpora como conhecemos hoje, com milhões de palavras, com
textos compilados, majoritariamente, de forma automática, construídos
para suprir diversas demandas linguísticas e sendo viabilizados por
softwares de diferentes origens tem início com o lançamento do corpus
Brown (Brown Corpus of Standard American English) no início da década
de 1960 (SARDINHA, 2004). Desde essa época até os dias atuais, a
Linguística de Corpus tem evoluído muito, principalmente a partir do
uso de computadores pessoais nos anos de 1980.
Hoje em dia já existem corpora compilados para uma grande
variedade de línguas, corpora utilizados para diferentes finalidades,
como, tradução, criação de dicionários e gramáticas, processamento de
linguagem natural, terminologia, etc. Há também softwares livres, como
o AntConc (ANTHONY, 2019), por exemplo, que auxiliam pesquisadores
no desenvolvimento de estudos que utilizam corpora. Contudo, a
evolução tecnológica no âmbito da Linguística de Corpus não pode ser
vista de forma homogênea para todas as línguas. No âmbito da língua
inglesa, por exemplo, sobretudo no contexto britânico, a Linguística
de Corpus tem uma disponibilidade maior de recursos tecnológicos em
razão de investimentos financeiros em pesquisas dessa área, bem como
pelo fato dos estudos de corpora, como conhecemos hoje, terem iniciado
no contexto dessa língua. Esse investimento em tecnologia pode ser
observado com clareza no trabalho de Pearson (1998), que serviu de
base para o estudo do presente artigo, haja vista o desenvolvimento de
um anotador morfossintatico (CLG tagger) e de um programa de padrão
de correspondência para aquele trabalho.
Apesar dessas limitações, este artigo tem como principal objetivo
apresentar soluções que podem ser utilizadas como forma de diminuir
o abismo existente entre os recursos tecnológicos disponíveis para o
1328 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1325-1379, 2021
2 Fundamentação teórica
2.3 O termo técnico realizado por grupo nominal sob a perspectiva da TSF
No âmbito da teoria sistêmico-funcional (TSF), a gramática é
organizada em uma escala de ordens hierárquicas em que cada ordem
é formada pelas ordens que estão imediatamente abaixo. O português
brasileiro conta com quatro ordens: oração, grupo, palavra e morfema.
Nesse sentido, a oração é constituída por grupos, que por sua vez,
são constituídos por palavras, que são constituídas por morfemas (cf.
FERREGUETTI, 2018; FIGUEREDO, 2007).
Ainda com relação ao sistema linguístico do português, em
um primeiro nível de delicadeza (delicacy), há grupos de cinco tipos:
nominal, verbal, adverbial, conjuntiva e preposicional (FIGUEREDO,
2007). Isso significa dizer que para cada grupo as palavras que os
constituem são, geralmente, da classe correspondente, ou seja, as palavras
que constituem o grupo nominal, por exemplo, são, na sua maioria, da
classe de palavras nominal. A Figura 1 apresenta a distribuição de classes
de palavra de acordo com as concepções da TSF.
Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1325-1379, 2021 1333
1
De acordo com a Teoria Sistêmico-funcional, a frase preposicional corresponde à
ordem localizada entre a palavra e oração na escala de ordem da gramática. Ela é
constituída por uma preposição + um grupo nominal (cf. FERREGUETTI, 2018;
HALLIDAY; MATTHIESSEN, 2014).
Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1325-1379, 2021 1335
3 Metodologia
A metodologia deste artigo é dividida em duas partes. A primeira
parte aborda a compilação do corpus utilizado, bem como descreve o
corpus que serviu como corpus de referência para a presente pesquisa. A
segunda explica como se deu a adaptação do trabalho de Pearson (1998)
para o português brasileiro, uma vez que o presente estudo foi baseado
na obra Terms in Context de Jennifer Pearson.
3.1 O corpus
Os textos selecionados para constituírem o corpus utilizado
nesta pesquisa compreendem artigos acadêmicos que retratam pesquisas
desenvolvidas no âmbito do Diabetes Mellitus tipo II. O domínio
experiencial (HALLIDAY; MATTHIESSEN, 1999; HAO, 2015) desses
1336 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1325-1379, 2021
2
É importante mencionar que este artigo faz parte de uma pesquisa de doutorado
em desenvolvimento pela primeira autora deste artigo, a partir do apoio financeiro
da Fundação de Amparo à Pesquisa do Estado de Minas Gerais – FAPEMIG. Tal
pesquisa está localizada na área de Estudos Linguísticos no escopo do Programa de
Pós-graduação em Estudos Linguísticos da Faculdade de Letras da UFMG e também no
âmbito do Projeto Empoder@ – Protótipo conceitual e metodológico para avaliação de
intervenções orientadas ao autocuidado em diabetes, uma parceria entre o Laboratório
Experimental de Tradução (LETRA) da FALE/UFMG, a Escola de Enfermagem da
UFMG e o Departamento de Estatística do ICEx/UFMG.
3
Disponível em: https://scholar.google.com.br/?hl=pt.
Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1325-1379, 2021 1337
4 Resultados
Como detalhado nas seções de metodologia e de referencial
teórico, o presente trabalho se baseia na pesquisa apresentada em Pearson
(1998), a qual propõe uma metodologia para auxiliar terminologistas,
lexicógrafos e aqueles que se dedicam à linguística de corpus a identificar
termos técnicos por meio de ferramentas da linguística de corpus
utilizando três corpora diferentes (cf. seção 3 Metodologia).
Na obra, a autora relata que a pesquisa se inicia quando os textos
dos corpora são importados para um anotador morfossintático (P.O.S.
tagger), desenvolvido especialmente para aquele trabalho, a fim de isolar
os itens da classe de palavras nominal4 e, posteriormente, verificar se
eles formavam padrões, isto é, se aqueles itens nominais extraídos do
anotador morfossintático eram frequentemente encontrados juntos nos
corpora. A hipótese apresentada nesse estudo sugere que esses padrões
4
Para a teoria Sistêmico-funcional (HALLIDAY; MATTHIESSEN, 2014, p. 75), há
três classes de palavras – nominal (nominal), verbal (verbal) e adverbial (adverbial) – a
classe nominal, sobre a qual o presente artigo enfoca, engloba os adjetivos (adjective);
numerais (numeral), determinantes (determiner) e os substantivos (noun) que, por sua
vez, podem ser comum (common), próprio (proper) ou pronomes (pronoun).
Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1325-1379, 2021 1341
5
Segundo os pressupostos da teoria sistêmico-funcional, a metáfora gramatical é
frequentemente encontrada em textos científicos, como os artigos acadêmicos, uma
vez que é nesse tipo de texto em que a linguagem especializada pode ser identificada.
Uma das formas possíveis de se analisar e compreender a metáfora gramatical é por
meio das mudanças de ordem, isto é, uma oração é metaforizada e torna-se um grupo
nominal (cf. HALLIDAY; MATTHIESSEN, 2014).
1346 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1325-1379, 2021
2º grupo
unidades de saúde da família
nominal
Ente Qualificador Qualificador
adesão às práticas de
autocuidado/práticas
de autocuidado em
diabetes
autocuidado de
pacientes com
diabetes
5 Conclusão
Este artigo buscou mostrar como a linguística de corpus, no que
concerne o uso das ferramentas disponíveis no software concordanciador
AntConc, pode funcionar como um recurso acessível para extração de
candidatos a termos técnicos em textos especializados, mesmo quando
não se tem para o português brasileiro todos os artifícios mencionados
no estudo de Pearson (1998), como, por exemplo, o programa de
padrão de correspondência e o anotador morfossintático (CLG tagger)
desenvolvidos para aquela pesquisa. Contudo, é relevante destacar que
o conhecimento e a aplicação dos pressupostos teóricos da linguística
sistêmico-funcional acerca do grupo nominal em português brasileiro
foram imprescindíveis para suprimir a ausência desses artifícios
detalhados em Pearson (1998).
Considerando a ferramenta de geração de clusters/N-grams do
AntConc por meio da seleção de palavras-chave de uma lista gerada
pela ferramenta de Keywords do mesmo software concordanciador,
os resultados obtidos indicam que a coextensividade existente entre
cluster/N-gram, termo técnico, grupo nominal e item lexical nem sempre
funciona de maneira exata, apesar da presença de pelo menos um grupo
nominal dentro de todos os clusters/N-gram gerados. Mas, por se tratar de
uma forma semiautomática de extração de termos técnicos coextensivos
ao grupo nominal, a utilização dessa ferramenta pode ser avaliada como
um recurso útil para a busca por termos técnicos em textos especializados,
como artigos acadêmicos, por exemplo.
A análise dos grupos nominais que apareceram nos clusters/N-
grams revelou que o tipo de texto, artigo acadêmico, bem como o domínio
dos textos, diabetes mellitus, selecionados para constituírem o corpus
utilizado no presente estudo podem ter influenciado nos tipos de grupos
nominais encontrados. Muitos dos grupos nominais examinados faziam
parte de outro grupo nominal maior, como, por exemplo, o grupo nominal
“Questionário de atividades de autocuidado com o diabetes” formado
1376 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1325-1379, 2021
Declaração de autoria
Júlia Santos Nunes Rodrigues: compilação do corpus utilizado na
pesquisa, anotação da pesquisa, escrita das seções metodologia e
resultados, escrita resumo e abstract e revisão do artigo.
Kícila Ferreguetti: auxílio na compilação do corpus de referência, escrita
da seção de fundamentação teórica, formatação do artigo nos moldes da
revista, incluindo a formatação das referências e revisão do artigo.
Adriana S. Pagano: supervisão da pesquisa, escrita das seções introdução
e conclusão e revisão do artigo.
Referências
ALMEIDA, G. M. D. B.; CORREIA, M. Terminologia e corpus: relações,
métodos e recursos. In: TAGNIN, S. E. O.; VALE, O. A. (org.). Avanços da
Linguística de Corpus no Brasil. São Paulo: Humanitas, 2008. p. 67-90.
ALMEIDA, L. B. Identidade científica da Terminologia. In: ______.
Curso básico de Terminologia. São Paulo: Edusp, 2004. p. 25-96.
ANTHONY, L. AntConc Homepage, Laurence Anthony Website, Tokyo,
Version 3.5.8, 2019. Disponivel em: https://www.laurenceanthony.net/
software/antconc/. Acesso em: 22, Fevereiro, 2019.
1378 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1325-1379, 2021
Abstract: The ICAO Language Proficiency Rating Scale offers parameters for
aeronautical English teaching and assessment focused on oral skills. It assists
governments worldwide in assessing pilots and air traffic controllers’ English proficiency,
licensing them for international operations. This paper addresses two of the six linguistic
areas listed in the Rating Scale, namely fluency and interaction, to understand what
conversational elements are present in pilot-controller communications with a view to
informing pedagogical material. The analysis is based on a corpus of pilot-controller
radio communications in abnormal situations, revealing a more spontaneous code as
opposed to the documented Standard Phraseology mandated for routine situations.
Corpus Linguistics is the methodology chosen for this investigation, concentrated on
the top frequent three-word clusters extracted from the corpus. Investigation of these
clusters reveals that fluency and interaction are interconnected and should be considered
in a broader perspective that takes into account language in use. To illustrate, ‘we’d like’
and ‘if you can’ are commonly employed as requests in this specific register. The paper
concludes by suggesting that learners’ awareness of pragmatic aspects of language is
pivotal in the aviation English classroom.
Keywords: Plain Aviation English; fluency; interaction; Corpus Linguistics; Pragmatics.
eISSN: 2237-2083
DOI: 10.17851/2237-2083.29.2.1381-1414
1382 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1381-1414, 2021
duas das seis áreas linguísticas elencadas na Escala, quais sejam, fluência e interação,
para compreender quais elementos conversacionais estão presentes nas comunicações
entre pilotos e controladores com o objetivo de subsidiar materiais pedagógicos. A
análise se baseia em um corpus de comunicações via rádio entre pilotos e controladores
em situações anormais, revelando um código mais espontâneo, diferentemente da
Fraseologia Padrão oficial mandatória nas situações rotineiras. A Linguística de Corpus
é a metodologia utilizada nesta investigação, concentrada nos mais frequentes blocos
de linguagem de três palavras evidenciados no corpus de estudo. A investigação desses
blocos de linguagem revela que fluência e interação são interconectadas e deveriam ser
consideradas a partir da perspectiva da língua em uso. Para ilustrar, ‘we’d like’ e ‘if
you can’ são normalmente empregados como solicitações. Conclui-se sugerindo que
a conscientização dos aprendizes sobre aspectos pragmáticos da língua é fundamental
na sala de aula do inglês aeronáutico.
Palavras-chave: Plain Aviation English; fluência; interação; Linguística de Corpus;
Pragmática.
1 Introduction
Even following the spread of the communicative approach and
the stimulus in promoting authentic language in the language classroom,
research shows a different scenario (RÜHLEMANN, 2008). This may
be a result of a lack of understanding of the characteristics of language
use, in particular of the importance usually given to language form
rather than language use (MCCARTHY; CLANCY, 2018). On one hand,
authenticity in the classroom is sometimes criticized over certain features
found pedagogically difficult to deal with, such as hesitation, false starts,
and speed of delivery (cf. WIDDOWSON, 1998). On the other hand,
promoting strategies that help the learner tackle authentic language use
may contribute to the learning process from the start (FIELD, 2009).
In language testing, particularly in the field of English for
Specific Purposes (ESP), Douglas (1999) argues that real-life tasks
should be implemented in language proficiency tests as a means of truly
and fairly analyzing the candidates’ production. This has shown to be
highly relevant in aviation English studies such as Kim (2018), which
compares the language production of both novice and experienced air
Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1381-1414, 2021 1383
traffic controllers and pilots: the more experienced the professional, the
better the performance when assessed in real-life tasks.
Increasing attention has been drawn to aviation English since
pilots and air traffic controllers were required to show sufficient English
language proficiency to operate internationally. This proficiency
requirement is described in the Manual of Implementation of the
Language Proficiency Requirements (ICAO, 2004, 2010), which also
specifies the Language Proficiency Rating Scale (Scale henceforth) that
guides raters responsible for granting licenses to the above-mentioned
professionals. The Scale is divided into six language areas: pronunciation,
structure, vocabulary, fluency, comprehension, and interaction distributed
across six different levels of proficiency.
Some studies have criticized the Scale by questioning its
authenticity, particularly when considering radio communications held
between pilots and controllers in abnormal situations, an avowed interest
of the International Civil Aviation Organization (ICAO), as noted in
the second edition of the Manual (ICAO, 2010). ICAO documents
recommend that Standard Phraseology, a specialized and rehearsed
register, be used in all routine situations of a flight. However, when
abnormalities occur, such as engine failures or bird strikes, pilots and
controllers need to resort to what is referred as “Plain Aviation English”,
a more spontaneous language placed between the documented Standard
Phraseology and everyday conversations (BIESWANGER, 2016, p. 83).
Both Standard Phraseology and Plain Aviation English belong to the
realm of aeronautical English and are equivalent to the language used
by pilots and controllers on the radio; all other portions of language
(produced by crew members, mechanics, flight attendants) go under the
umbrella of Aviation English (TOSQUI-LUCKS; SILVA, 2020). For the
purposes of this paper, I aim to study the Plain Aviation English, that is,
a sub-register of aeronautical English.
In aviation, any minor problem can become a disaster (cf.
FRIGINAL, MATHEWS; ROBERTS, 2020; WEIR, 1999), and all areas
of communication therefore deserve attention. Many studies, including
those listed in Doc 9835 (ICAO, 2010), draw on accidents to which
miscommunications were a contributory cause (FRIGINAL, MATHEWS;
ROBERTS, 2020). Nevertheless, Mathews (2012, 2020) claims that there
may be more incidents and accidents to which language is a contributing
factor than we are aware of, given that accident investigations often fail
1384 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1381-1414, 2021
corpora. The methodology and the corpus used for this investigation
are then presented, followed by the analysis of the data highlighted.
I conclude by raising the importance to intercultural pragmatics and
communicative strategies in the pedagogy of Aviation English and
offer suggestions for how to approach these in the aeronautical English
classroom.
4 Method
This study’s chosen methodology derives largely from Corpus
Linguistics (CL). CL’s starting point is the compilation of a corpus, a
computer-stored bank of texts collected mostly with research purposes
in mind (TAGNIN, 2013) – although more and more uses of corpora are
now seen in areas such as glossary making or teaching (CHENG, 2015).
To be included in a corpus, texts must meet certain conditions such as
emerging from naturally occurring environments, whether in written or
spoken form or belonging to any specific genres, among others.
Two key principles underlie CL research: the open-choice
principle, and the idiom principle (SINCLAIR, 1991). The first
corresponds to the creative use of language, whereas the latter regards
the storage of semi-structured language available to the user. The idiom
principle is the interest of the present research as it conceptualizes
language as socially produced, through entrenchments cognitively stored
and conventionalized through common use by a given community; these
strings of language, or clusters, spare the speaker the burden of producing
new language on every occasion (O’KEEFE et al., 2011). Because the
interest of CL is conventionalized patterns, analysis usually starts from
generating lists based on the frequency of occurrence in the corpus,
which in turn highlight the most frequent words. Researchers then look
at them more deeply, using tools such as keyword lists (by comparing
two corpora, the researcher can extract those words that are exclusive
to or more commonly used in the corpus), but also cluster lists (frequent
two-, three-, four- or more strings of words), and concordance lines (the
lines of text excerpts in which a node word appears centrally so that it
may be observed in its surroundings), among others. The choice of tools
depends on the research question.
I now turn to the methodology used in this study. In the
investigation of spoken phraseology, that is, patterns commonly used in
oral speech, Altenberg (1998) generated two-, three-, four-, five- and six-
word clusters and compared their frequency with single word lists in the
London-Lund Corpus of Spoken English (http://www.helsinki.fi/varieng/
CoRD/corpora/LLC). Through this comparison, the researcher identified
clusters corresponding to up to 80% of the corpus. Apart from functional
or grammar words such as in, the, or of, the most frequent single words
were not as frequent as many of the two-, three- and four-word clusters.
The researcher then grouped these clusters under grammatical categories
1390 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1381-1414, 2021
Some interesting findings emerge from this list, the first to call
attention being the high presence of modal verbs and personal pronouns,
two of the language items that according to ICAO (2007) must not be
employed in radio communications, but are also common in general
English spoken corpora (MCCARTHY; CARTER, 2002). An analysis
of each of these clusters first in concordance lines and then in the text
they are taken from show that the modal verbs function as mitigators
(CAFFI, 1999, p. 882), that is, features related to the management of the
interaction that weaken risks such as “self-contradiction, refusal, losing
face, conflict, and so forth”. Given the problem-solving purpose that
oriented this corpus compilation, pilots and controllers seem to attenuate
their speech acts, which also change in this scenario as, for example,
controllers start to offer alternatives rather than stating commands. The
following extract illustrates the mitigation identified in the expression
“would/’d like to”.
Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1381-1414, 2021 1397
Extract 1:
ATCO Aircraft seven thirty-six / roger the pan pan / are you ready for the turn here for me? //
Pilot Uh we’d uh we’d like to solve up the problem and we’d like uh to return into Sydney / it’s
better //
ATCO Aircraft seven thirty-six / would you like to return now? //
Pilot Uh affirm //
ATCO Aircraft seven thirty-six / turn left heading two one zero / maintain five thousand feet //
Pilot Left turn heading two one zero / maintaining five thousand / Aircraft seven seven thirty-six //
ATCO Would you like to hold somewhere or are you ready to land now? //
Pilot We’ll keep you advised and tell you later / okay? //
ATCO Aircraft seven thirty-six / roger / if you’d like to hold / what place would you like to hold at?
//
Pilot Uuh / we’ll advise to you later / we are trying to solve up the problem and we are now
<break> engine number one is on idle power / and we are uh <pause> and uuh determing [sic]
whether to dump some fuel or uh just check the performance / okay? //
N Concordande
1 tihad four five one // understood // and uh we’ ll give you five minutes’ notice
2 of course all over the windscreen / and uh we’ caught one of them on one of the
3 tors / fly heading zero niner zero / and uh we’ ll expect runway two eight center
4 ‘re at the process of slowing down / and uh we’ ll call the base circuit at one e
5 op on the runway for an inspection / and uh we’ re gonna evaluate the situation t
6 tially was fire / there is no fire / and uh we’ are waiting for your notification
7 s // They’ve got the longer runway / and uh we’ re gonna get you uh the most uh a
8 / we’re having landing gear issues / and uh we’ need to sort it out / we’re gonna
9 the fuel remaining in pounds? // Uh and uh we’ have it in kilos // Alright / wha
10 re just starting the checklist now / and uh we’ try just to uh if that’s the whol
N Concordande
1 wo two left approach and let me know if you need anything di
2 ou // Romeo Oscar Mike / let me know if you want lower than
3 lot one five one heavy / let me know if you get the age of t
4 orth of alpha? // Okay / let me know if that changes i’ll ke
5 two two left localizer / let me know if you need me to put y
6 y // it’s no big deal // let me know if you need any more as
7 a minute // Okay / just let me know if you can maneuver all
8 ck to you here // Okay / let me know if you need anything //
9 n as we are // could you let me know if there’s any change t
10 can sixteen forty / just let me know if you need any lower t
we’re gonna
we’d like to Report
I’m gonna other’s
State instructions
gonna have to that’s what
decisions / decisions
re going to made
we’ll be previously
would like to
don’t have
we have a
you have a Request do you have
Inform of the we’ve got information uh do you
problem we don’t about a you have the
we have uh problem can you tell me / give me
it’s a
appear to be
Extract 6:
Pilot Kennedy Tower / Aircraft eight zero eight zero / reporting balloon / final four right //
ATCO Say again? //
Pilot Eight zero eight two heavy / reporting balloon / four right //
ATCO Aircraft eight zero eight two heavy / I’m having trouble understanding you / you are cleared
to land four right / can you say again / please speak up //
Pilot Okay / no problem // cleared to land four right / Aircraft eight zero eight two / reporting
hot balloon uh final runway four right about five hundred feet //
ATCO Reporting a bird? / Is that what you’re saying? // tell me when you get on the ground //
Pilot Okay //
ATCO The wind is three two zero at one zero // eight zero eight two heavy / turn left on foxtrot
bravo //
Did you have windshear / is that what you are saying? //
Pilot No / leaving on fox bravo / Aircraft eight zero eight two / reporting hot air balloon on
final four right about five hundred feet //
ATCO Balloon / you said? //
Pilot Balloon //
N Concordande
1 void a balloon / we have a balloon right now on our right ha
2 ow turning left to avoid a balloon / we have a balloon right
3 e seven / disconnecting / balloon now on the right / uh sir
4 e seven / there is another balloon at uh UTBUR at uh flight
5 way just to go around the balloon // Roger / report back on
6 blished // We uh we got a balloon right in the way / we’d l
1406 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1381-1414, 2021
6 Conclusion
The objective of this paper was to identify what linguistic
elements constitute fluency and interaction in the Plain Aviation English
of air-ground radio communications in abnormal situations. These
two linguistic areas were taken from the ICAO Language Proficiency
Rating Scale and compared against a corpus built with a two-fold
purpose: researching Plain Aviation English and informing pedagogical
materials. Corpus Linguistics was shown to be useful in identifying
patterns in the Plain Aviation English used in radio communications.
Generating cluster lists enabled the analysis of the pragmatic functions
of the clusters, identified as pragmatic routines and as items that assist
in organizing the conversation. However, these conclusions were not
drawn from mere frequencies. Instead, each cluster was examined one
by one in concordance lines and in the transcripts, where information
about the source was also displayed. These clusters were then grouped
into a total of 12 functions, verifying that fluency and interaction can be
interconnected into the broader perspective of Pragmatics.
Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1381-1414, 2021 1407
References
ADOLPHS, S. Corpus and Context: Investigating Pragmatic Functions
in Spoken Discourse. Amsterdam: John Benjamins, 2008. DOI: https://
doi.org/10.1075/scl.30.
ALTENBERG, B. On the Phraseology of Spoken English: The Evidence
of Recurrent Word Combinations. In: COWIE, A. (org.) Phraseology:
Theory, Analysis, and Applications. Oxford: Oxford University Press,
1998. p. 101-122.
BARDOVI-HARLIG, K. Formulas, Routines, and Conventional
Expressions in Pragmatics Research. Annual Review of Applied
Linguistics, Cambridge, v. 32, p. 206-227, 2012. DOI: https://doi.
org/10.1017/S0267190512000086.
BHATIA, V. K. Analyzing Genre: Language Use in Professional Settings.
London: Longman, 1993.
BIESWANGER, M. Applied Linguistics and Air Traffic Control: Focus
on Language Awareness and Intercultural Communication. In: HANSEN-
SCHIRRA, S.; MAKSYMSKI, K. (org.). Aviation Communication:
Between Theory and Practice. Frankfurt-am-Main: Peter Lang, 2013.
p. 15-31.
BIESWANGER, M. Aviation English: Two Distinct Specialized
Registers? In: SCHUBERT, C.; SÁNCHEZ-STOCKHAMMER, C.
(org.). Variational Text Linguistics: Revisiting Register in English. Berlin:
de Gruyter, 2016. p. 67-85.
BOROWSKA, A. Avialinguistics: The Study of Language for Aviation
Purposes. Frankfurt-am-Main: Peter Lang, 2017. DOI: https://doi.
org/10.3726/b11037.
CAFFI, C. On Mitigation. Journal of Pragmatics, [S.l.], v. 31, n. 7, p.
881-909, 1999. DOI: https://doi.org/10.1016/S0378-2166(98)00098-8.
CARTER, R; MCCARTHY, M. Cambridge Grammar of English: A
Comprehensive Guide. Cambridge: Cambridge University Press, 2006.
CARTER, R.; MCCARTHY, M. Spoken Grammar: Where Are We and
Where Are We Going? Applied Linguistics, Oxford, v. 38, n. 1, p. 1-20,
2017. DOI: https://doi.org/10.1093/applin/amu080.
Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1381-1414, 2021 1409
curve.carleton.ca/0b65cc09-37d2-449f-804d-a6f804917927. Accessed
on Sep. 5, 2020.
MORROW, D.; RODVOLD, M.; LEE, A. Nonroutine Transactions in
Controller-Pilot Communication. Discourse Processes, [S.l.], v. 17, p.
235-258, 1994. DOI: https://doi.org/10.1080/01638539409544868.
O’KEEFE, A.; CLANCY, B.; ADOLPHS, S. Introducing Pragmatics in
Use. London: Routledge, 2011.
PFEIFFER, A. Inter-Rater Reliability in an Aviation Speaking Test. 2009.
64f. Dissertation (Masters in Linguistics) – Faculty of Linguistics and
English Language, Lancaster University, Lancaster, 2009.
PRADO, M. A relevância da Pragmática no ensino do inglês aeronáutico:
um estudo baseado em corpora. 2019. 336p. Tese (Doutorado em Letras)
– Faculdade de Filosofia, Letras e Ciências Humanas, Universidade de
São Paulo, 2019.
PRADO, M.; TOSQUI-LUCKS, P. Designing the Radiotelephony Plain
English Corpus (RTPEC): A Specialized Spoken English Language
Corpus Towards a Description of Aeronautical Communications in Non-
Routine Situations. Research in Corpus Linguistics, [S.l], v. 7, p. 113-128,
2019. DOI: https://doi.org/10.32714/ricl.07.06.
RÜHLEMANN, C. A Register Approach to Teaching Conversation:
Farewell to Standard English? Applied Linguistics, Oxford, v. 29, n. 4, p.
672-693, 2008. DOI: https://doi.org/10.1093/applin/amn023.
SACKS, H.; SCHEGLOFF, E.; JEFFERSON, G. A simplest systematics
for the organization of turn-taking for conversation. Language,
Washington, DC, v. 50, n. 4, p. 696-735, 1974. DOI: https://doi.
org/10.1353/lan.1974.0010.
SCOTT, M. Wordsmith Tools (Version 7). Stroud: Lexical Analysis
Software, 2016.
SINCLAIR, J. Corpus, Concordance, Collocation: Describing English
Language. Oxford: Oxford University Press, 1991.
SINCLAIR, J.; M. COULTHARD. Towards an Analysis of Discourse.
Oxford: Oxford University Press, 1975.
1414 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1381-1414, 2021
Aline Pacheco
Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS), Porto Alegre,
Rio Grande do Sul / Brasil
aline.pacheco@pucrs.br
http://orcid.org/0000-0003-1638-0215
Abstract: This article aims to analyze the use of personal pronouns in aeronautical
communications based on CORPAC, a specialized corpus. Pronouns can play an
important role in multitasking communicative scenarios such as the one featured in
aviation and therefore it is of paramount importance that identities be clearly set in
operations. In light of Neville’s (2004) study about cockpit’s identities, this investigation
addresses the frequency and patterns of usage of personal pronouns – especially I,
we and you, using corpus linguistic tools. The corpus exploration provides evidence
that such pronouns are indeed very frequently used, despite official orientations
that do not recommend their use in order to avoid problems such as ambiguity. The
examination reveals consistent and interpretable patterns associated to Neville’s (2004)
assumptions and has significant implications for training and testing purposes in the
field of Aeronautical English.
Keywords: aeronautical communications; personal pronouns; corpus linguistics.
Resumo: Este artigo tem como objetivo analisar o uso de pronomes pessoais na
comunicação aeronáutica a partir do CORPAC, um corpus especializado. Pronomes
podem desempenhar um papel de destaque em cenários comunicativos multitarefa,
tais como observados na aviação. Nesse sentido, faz-se importante que as identidades
eISSN: 2237-2083
DOI: 10.17851/2237-2083.29.2.1415-1442
1416 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1415-1442, 2021
sejam claramente definidas nas operações. À luz do estudo de Neville (2004) sobre
identidades no cockpit, esta investigação aborda a frequência e os padrões de uso de
pronomes pessoais – especialmente “I”, “we” e “you”, por meio do uso de ferramentas
linguísticas de corpus. A exploração do corpus fornece evidências de que tais pronomes
são de fato usados com muita frequência, apesar de orientações oficiais que não
recomendam seu uso, a fim de evitar problemas como a ambiguidade. A análise revela
padrões consistentes e interpretáveis associados às suposições de Neville (2004) e tem
implicações significativas para fins de treinamento e teste na área de Inglês Aeronáutico.
Palavras-chave: comunicação aeronáutica; pronomes pessoais; linguística de corpus.
1 Introduction
Communication is a critical human factor in aviation operations
and the effects of poor communications are acknowledged to have highly
impacted aviation safety (CUSHING, 1997; DIETRICH; MELTZER,
2002; MATHEWS, 2019; NEVILLE, 2004). Sexton and Helmreich
(2000, p. 63) say that “The role of language has been neglected and
researchers have recognized the need for a deeper understanding of
its roles, characteristics and how it impacts in aviation.” More recent
research has shown that language specialists have been trying to widen
the scope of studies in the field and have successfully managed to shed
light on topics which need to be tackled. (SILVA; TOSQUI-LUCKS,
2020; PACHECO, 2019).
Corpus-based research on Aviation English (AE) has become of
increasing interest as it enables the researcher to analyze real language
occurrences from a variety of tools (BOCORNY, 2011; PRADO, 2019;
SARMENTO, 2008; TOSQUI-LUCKS, 2018). It is known that the
dialogues between pilots and air traffic controllers (ATCOs) are recorded
and available from the Cockpit Voice Recorder (CVR) whenever there
is the need for that and especially when there is an event with negative
outcomes. Nevertheless, this material is not easily made available for
research by airline companies or governmental institutions, and informal
or non-authorized recordings can be a problem or can compromise data
reliability.
Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1415-1442, 2021 1417
4
https://commons.erau.edu/db-lhuft/
Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1415-1442, 2021 1421
5
https://www.english-corpora.org/coca/
1422 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1415-1442, 2021
to, have, it, I, that, for, you, he, with, on, do, say, this, and they”. Among
the differences, they highlight the appearance of numbers in the aviation
corpus (a peculiar trait of aeronautical communications, to inform flight
level, heading, runways and taxiways, call signs, procedures etc.), only
three prepositions – “of”, “on”, and “at”, the appearance of only three
pronouns – “you”, “it” and “we”, not “he”, “they”, and “I”, as in the
general Corpus.
Prado (2010) also presents a list of the ten most frequent words
in a corpus based on aeronautical communications, which are “you”,
“the”, “to”, “I”, “and”, “we”, “a”, “on”, “it”, “that”. Her list displays
three personal pronouns at the top, two articles and a preposition.
Sexton and Helmreich (2000) discuss the relationship of language
use and flight outcome measures through the application of a “new”
computer-based linguistic method for text analysis, a program called
LIWC (Linguistic Inquiry and Word Count). Eighty-five language
dimensions were analyzed, including personal pronouns, we, our, us, I,
among others. One of their research questions was “how does language
use vary across position and or level of workload?”. The data were from
a NASA study involving a three-person crew: a captain (C), a first officer
(FO) and a flight engineer (FE), flying a simulated aircraft for a period
of three days.
The conclusions point to the fact that individuals tend to
communicate more along periods of high workload, much probably due
to the multi-tasking involved in flight deck management. Specifically
on the use of pronouns, some of their conclusions were that captains
tend to use “we” (the first person plural) more often than FO’s and FE’s,
especially in stressful situations, which could be due to the status and role
of the captain. “This role requires more than active team building, and
the status affords the right to use the first-person plural (‘we need to…,
our problem…, let’s get out …’) when briefing, planning or addressing
the crew in conversation” (SEXTON; HELMREICH, 2000, p. 66).
Additionally, there was an increase in the use of this pronoun by the three
crew members as the familiarity increased along the three days. The use
of the first-person plural was highly correlated with performance and
could be a marker of familiarity or a more collective orientation towards
the crew. Language use of pilots varies as a function of who is talking
(C, FO or FE) and as a function of workload (SEXTON; HELMREICH,
2000, p. 66).
Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1415-1442, 2021 1423
6
“Pilot Monitoring” has been used more recently because it seems to be more appropriate
in describing the actual function of the pilot when not performing the actual tasks to
fly the plane – as described by the Federal Aviation Administration (FAA), the US
Aviation Agency. (https://www.faa.gov/other_visit/aviation_industry/airline_operators/
airline_safety/safo/all_safos/media/2015/SAFO15011.pdf) In this article, PNF (pilot
not-flying) will be used in accordance with what is used by Neville (2004).
1424 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1415-1442, 2021
1 (0.9)
2 C/PNF: I have three three five(.) course bar three five five heading bug,
3 (0.7) A:SEL ADF, (0.2) it’s your go.
4 (0.8)
5 FO/PF: my go.
6 (0.5)
7 FO/PF: go-around(.) flight level one eight zero (0.4) with ASEL (0.5)
8 right (of the) the pilot in command info: briefing as discussed.
9 (0.3) (NEVILLE, 2004, p. 40).7
7
The reader can refer to the original source for further understanding of the symbols
used to transcribe the conversations.
1426 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1415-1442, 2021
1 (13.4)
2 FO/PF:okay we need to plan hh- so the plan shall be:::, (3.4) go downhill
3 at (0.2) f::orty: (0.3) eight (0.4) mi::les:: er::: (0.4) south of
4 Destination (0.3) on DME on the GPS, (1.6) we’ll expect to be
5 visual within twentyfive miles make a visual approach:, (1.7) to
6 join left downwind for left circuit landing runway one ei::ght::.
7 (0.3) the airfield elevation is eighteen (.) circuit height a thousand
8 feet is bugged on the altimeter. (0.9) visual procedures left circuit:.
9 (1.9) we’ll be landing flap twentyfi::ve with a:: ah
10 (2.2) Vref of ninety:ni:ne and (0.2) seventeen point seven (ton),
11 (1.2) carry ten for a hundred and ni::ne (0.9) and Vfr Vel’s a
12 hundred and nine and fourtee:n. (1.3) <and they’re all se:t:.>
13 (0.8)
14 C/PNF:0 Set” ecrosschecked).
15 (0.8)
16 FO/PF:the fuel on board’ll be: six forty, (1.2) it’s about an hour and a
17 quarter’s holding, (1.3) not really enough to go anywhere but er
18 we shouldn’t have a problem getting on the ground in an hour.
19 (3.4)
20 FO/PF:and ah radio aids we got both the NAYs on Destination no::w we
21 might as well stick both the AD er ADFs up to Destination too.
22 (0.7)
23 ((repeating alert tone))
24 FO/PF:number one ADF identified on Destination now as well.0
25 (4.3)
26 C/PNF:that’s all understood (NEVILLE, 2004, p. 53).
7 FO/PNF: yep.
8 (1.4)
9 FO/PNF:>bravojul<iet:: ()tango ready.
10 (1.6)
11 FO/PNF:[((coughs))
12 Tower: [bravo juliet tango.
13 (1.2) (NEVILLE, 2004, p. 73).
Here, the choices for “I”, “we” and “you” seem to portray each
one’s identities and tasks in the procedure.
Neville (2004) also analyzes what he calls impromptu pronouns,
a category that refers to forms that are also non-prescribed, but which
occur as “embellishments of prescribed wordings. That is, pilots’ talk
may include personal pronouns where there are none in the officially
prescribed wordings. The personal pronouns are not in the script but are
impromptu” (NEVILLE, 2004, p. 76).
For instance, when pilots are running checklists, the prescribed
wording would be only “set”, or “selected” or received”. Instead, in his
data, pilots responded like “we’ve got that”, or “you’ve got flaps ten”.
To the author, these pronouns do important interactional work as they
emerge as part of pilots’ accomplishment of their work and “help pilots
to make explicit distribution of duties and responsibilities, and the control
of various cockpit technologies” (NEVILLE, 2004, p. 77).
As we can see, the investigation proposed by Neville (2004)
is significantly contributing insofar it explores a more social aspect
comprehended by the use of certain personal pronouns in aeronautical
communications. Nevertheless, it does not bring information about the
frequency of those structures or a more in-depth exploration of other
elements such as lexical items that accompany specific pronoun choices.
Our study, then, intends to bridge this gap.
5 Method
CL is an empirical research approach to language use from
the exploration of a corpus (a collection of texts as database) through
computer-based tools. Our study aims to investigate the use of pronominal
forms in a specialized corpus, CORPAC, presented below.
Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1415-1442, 2021 1429
5.1 CORPAC
CORPAC (Corpus of Pilot and Air Traffic Controller Communication)
is a corpus that I started to compile in 2017 with the help of two monitor
students (not simultaneously) in the Aeronautical Science Program of
the Pontifical Catholic University of Rio Grande do Sul. The project
originally intended to be a joint work with monitor students in the Letters
Program, so that we could have the collaboration of different perspectives
in the compilation and analysis of the material – a more technical view
on behalf of student pilots and a specialized linguistic contribution from
the Letters Program students.8 A minimum of 100000 words is the target.
This paper is based on a preliminary version of the corpus, from
its first stages of compilation – with around 35000 words.
The corpus has been entirely built from emergency situations in
aviation extracted from the videos freely made available by VASAviation,
which is a Youtube channel that features selected situations from live
ATC Emergency Situations/LiveATC). The videos are animations and
contain the transcription of the audio. The criteria for the selection are
basically about the emergency degree of the event and the availability
of the transcription. That is, the video is watched by a student pilot, who
then verifies if it actually portrays an emergency situation in aviation and
if the transcription corresponds to what is being said.
Student-monitors were briefed about corpus research – its
assumptions, entailments and impact and were instructed to:
1. Choose an episode featured on the channel, watch it and check if it actually
presented an emergency situation.
2. Fill out a short form in the file “CORPAC INFO” with information about
the episode, such as URL, title/ nature of the problem, date, flight/company/
aircraft, where (from/ to), English as a firs/ foreign language, phase of
flight, duration of transcripts, and summary of the event.
3. This information can be essential to account for a number of variables in
the analysis, such as the nature of the problem, the phase of the flight or
if English is being used as a first or foreign language.9
8
Currently, the project is on hold due to a number of reasons, but I expect to restart it
as soon as possible.
9
As information about the professionals is not disclosed in the source, it is not possible
to accurately claim if the subject is a native speaker of English or not. Student-monitors
1430 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1415-1442, 2021
4. Write the transcription of the exchange in the same file, between “ATC-
Pilot Transcripts and “End of transcript –”, as shown above.
5. Transfer ONLY the transcripts to another Word File, “CORPAC”, adding
just the corresponding number of the event in the INFO file so that we
can have access to background information about the event.
were asked to fill out the form based on the company and other factors such as language
proficiency and accent. As I evolve with the project and counting on the help of Student-
monitors from the Letters program, I intend to conduct a more detailed categorization
of this feature considering other factors and sources.
10
https://lexically.net/wordsmith/
Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1415-1442, 2021 1431
the article “the” tops the rank in both corpora and preposition “to” is
also commonly frequent. Our results also resemble Prado’s (2010) – her
top ten list features the same pronouns in CORPAC, and article “the”.
Most are closed class words – determiners, prepositions,
pronouns, conjunctions. Open class words are represented by items such
as “runway”, “twr” (tower), “right”, and “app”.11
The following graph presents an overall picture of pronominal
occurrences in our corpus, taking into account first, second and third
person pronouns.
GRAPH 1 – Pronominal Occurrence in CORPAC
11
Additional analyses combining the most frequent open and closed class words would
be interesting insofar it could determine more precisely the association between the
most frequent pronouns and nouns in the corpus. Although this proposal goes beyond
the scope of this article, it should be considered as forthcoming research following
this investigation.
Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1415-1442, 2021 1433
“You”, “we” and “I” top the rank of frequency. They correspond,
respectively, to 2,13%, 1,66% and 0,74% of the words in CORPAC.
“You” had a +365.69 keyness12 value and “we”, a +282.17, coming in
second and third position, only behind the article “the”, with a value
of +399,13, which is significant compared to all the other words in the
corpus.
Having in mind the orientations not to use pronouns in
aeronautical communications (as seen previously), we could say these
numbers can be considered representative. Especially acknowledging
Neville’s (2004) assumptions that analyze the importance of these
personal pronouns in assigning identities. In other words, the use of
personal pronouns is not encouraged in aeronautical communications to
avoid ambiguity and still “we”, which is more likely to cause ambiguity
than “I”, is used almost three times more. Pilots seem to need to resort
to it to optimize communication.
A further analysis of the two-word clusters in CORPAC show
pronouns and prepositions topping the occurrences.
12
The “keyness” value of a word can be obtained through the tool Keyword, uploading
the target corpus and another reference corpus for comparison. In this study, the reference
corpus used was BNC Spoken corpus, retrieved from http://www.natcorp.ox.ac.uk/
using/index.xml?ID=freq
1434 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1415-1442, 2021
(2000) have also mentioned that the use of “we” seems to reinforce the
idea of “team-building” and that this use may be increased along the
time shared in the cockpit by a sense of familiarity of the crew members.
As for the pronoun “you”, data form CORPAC show that they
are significantly frequent and used to assign clear identity in terms of
pilots performance in operations, as in “If you can”, “Do you want”
and “you have the” – the last one associated with examples provided by
Neville (2004) mentioned previously. The form “you” can be a singular
or a plural pronoun and this flexibility probably accounts for its high
occurrence and for possible ambiguities as well. An ATCO can use “you”
addressing a pilot of a specific flight or and, depending on the content of
the utterance, such as weather warning, other pilots can interpret it as a
general remark. This is why other indications, such as the call sign (the
identification of the flight) have to be used in order to mitigate possible
ambiguities.
The following examples are extracted from CORPAC and
illustrate the use of “we” in real emergency situations. Example (1)
below features communicative strategies used in order to clarify the
identity of “we”:
(1) “We are not clear of the runway, we are on the runway. Cathay
Zero-Seven-One is on the runway, crossing.”
The pilot uses “we” twice, and the call sign right after it to make
sure that the ATCO understands “we” as the crew in that specific flight, not
another aircraft. A similar strategy can be observed in the next example.
(2) “(JFK APP) \x96 Delta 1888, it seems like the rate of turn is a little
bit slower. Am I right to assume it\x92s gonna take you longer to
turn?
(DAL 1888) \x96 We\x92re working on it, Delta 1888, we can
tighten it up.
(JFK APP) \x96 Endeavour 3323, turn right heading 130, vectors
for an emergency aircraft inbound.”
The repetition of the callsign, that is, the code that identifies the
flight – in this case, “Delta 1888”, appears to confirm information about
who “we” is referring to.
1436 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1415-1442, 2021
7 Final Considerations
The aim of the study presented in this article was to analyze the use
of personal pronouns in aeronautical communication based on CORPAC,
a specialized corpus which is under compilation. To accomplish this
goal, some concepts involved in the discussion were reviewed as were
some studies that address the use of pronouns in exchanges in aviation,
which appear to be significant despite orientations to avoid their use due
to possible ambiguity.
Results from CORPAC about information regarding frequency
and clusters associated with “I”, “you”, and “we” demonstrate that
personal pronouns are frequent and seem to appear in constructions that
are relevant for identities to be clearly assigned in such a high-stakes
domain as aviation operations. After our preliminary analysis, the actual
use of pronouns appears to mirror this communicative necessity.
It should be noted that, in accordance with the non-prescriptive
approach of CL, this study is not meant to investigate the use of pronouns
to assign rules in which they have to be employed in aviation. It is
intended to describe the occurrence of some pronouns in real, spontaneous
source of aviation language use. On that matter, CL showed to be a
1438 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1415-1442, 2021
References
BIBER, D.; JOHANSSON, S.; LEECH, G.; CONRAD, S.; FINEGAN,
E.; HIRST, G. The Longman Grammar of Spoken and Written English.
Harlow: Pearson Education, 1999.
BIESWANGER, M. Aviation English: Two Distinct Specialized
Registers? In: SCHUBERT, C.; SANCHEZ-STOCKHAMMER, C.
(ed.). Variational Text Linguistics: Revisiting Register in English. Berlin:
Mouton de Gruyter, 2016. p. 67-85.
Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1415-1442, 2021 1439
Patrícia Tosqui-Lucks
University of São Paulo (USP), São Paulo, São Paulo / Brazil
Airspace Control Institute (ICEA), São José dos Campos, São Paulo / Brazil
patricialucks@gmail.com
https://orcid.org/0000-0001-9104-2123
Abstract: Weather events affect air traffic control (ATC) in many ways, for there
are many situations that need to be reported in pilot-controller communication. This
paper attempts to analyze the language used to express the impact of meteorological
phenomena to air traffic operations, particularly in regard to aeronautical English, that
is, the communication used during radiotelephony by air traffic controllers in training
situations. For that, two types of analyses will be carried out: one regarding the formulaic
structure of lexical units using 11 Aeronautical Meteorology terms within the ATC
context (phase 1); and another one concerning the use of these terms by students in three
ATC courses (for TWR, ACC and APP facilities) and how it affects their performance
during communication activities in a learning environment (phase 2). These analyses
will be based on rationales of lexical semantics for terminology; corpus linguistics (CL),
comprising English for Specific Purposes (ESP) and learner corpora; and considerations
about vocabulary assessment on aeronautical English exams. Results suggest that
terminological patterns discussed in this paper show how meaning is dependent on
eISSN: 2237-2083
DOI: 10.17851/2237-2083.29.2.1443-1484
1444 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1443-1484, 2021
context, and how lexical semantic analysis of terms may contribute to reveal nuances
of language used in a specialized context. In this way, it indicates courses have been
efficient in teaching and practicing the use of the main meteorological terms related to
aeronautical English and that, despite some mistakes students make, evidence points
out that they are able to report weather conditions to pilots and to understand pilots’
requests in a proficient level concerning vocabulary.
Keywords: meteorology; aeronautical English; terminology; learner corpus; language
assessment.
1 Introduction
The extent of weather events affecting air traffic control (ATC)
is generally taken for granted, but it varies greatly, from the amount of
Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1443-1484, 2021 1445
water film on the runway on a rainy day to volcanic ashes coming from
another country as situations that need to be reported in pilot-controller
communication. In this way, this paper attempts to analyze the language
used to express the impact of meteorological phenomena to air traffic,
particularly when it occurs in international traffic, and these professionals
need to use English to communicate.
After a few fatal accidents which had communication problems
as contributing factors, the International Civil Aviation Organization
(ICAO) issued, in 2004 (with a reviewed second edition in 2010), the
Manual of Language Proficiency Requirements, known as Doc 9835,
in order to establish some parameters for English language proficiency,
involving listening and speaking skills, for international pilots and air
traffic controllers (hereafter, we will use the term ‘controllers’) who
work in multilingual environments. According to this document, these
professionals should be able to communicate through a highly specific
code for aviation purposes, i.e. aeronautical standard phraseology,1 and
plain language whenever phraseology does not suffice to communicate
in non-routine situations. The concepts of standard phraseology and plain
language, which constitute the essence of the aeronautical English, are
explained in Table 1, as follows:
TABLE 1 – Definitions of phraseology and plain English.
Term Definition/Conceptualization
It is a code used by pilots and air traffic controllers, in a limited number
Phraseology
of restrict and predictable communicative events characterized by short
(standard
phrases and reduced vocabulary which allows a concise, precise and
phraseology)
efficient transmission of information related to a flight.
It is the use of the English language in radiotelephony communication
that exceeds the use of standard phraseology, when it is not sufficient,
Plain English,
but that should mirror phraseology, keeping its characteristics and
plain language
specificities, as well as the same critical safety requirements such as
intelligibility, non-ambiguity and concision.
Source: Adapted and translated from Scaramucci; Tosqui-Lucks; Damião (2018, p. 300).
1
ICAO recommendations for the use of standard phraseology can be found in Doc
9432, Manual of Radiotelephony (ICAO, 2007) and Doc 4444, Air traffic management
(ICAO, 2016).
1446 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1443-1484, 2021
2
In Portuguese, EPLIS stands for Exame de Proficiência em Inglês Aeronáutico do
Sistema de Controle do Espaço Aéreo Brasileiro.
1448 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1443-1484, 2021
2 Theoretical Foundation
2.1 Phraseological patterns: a lexical semantic approach to terminology
For the study of terminology, it is paramount to verify the patterns
of language, as how they relate to other terms in a language. According to
Hunston (2010, p. 158), “observing pattern involves identifying similarity
and forming notional categories.” In this sense, a word or term with the
same meaning may be considered to have a different pattern, as it related
differently to other collocates or its cotext.
To exemplify this perspective, Hunston (2010) analyzes verbs
in a corpus used in her research to identify objective-subjective nature
based on collocates, arguments and cotext, and for the verb react, she
lists eight patterns:
(1) REACT followed by a subordinate clause indicating stimulus;
[…]
(2) REACT followed by the preposition to; […]
(3) REACT followed by an adverb and then by the preposition
to; […]
(4) REACT followed by a to-infinitive clause indicating
consequence; […]
(5) REACT followed by the preposition with answering the
question ‘how?’; […]
(6) REACT followed by the preposition with answering the
question ‘what?’; […]
(7) REACT followed by a full stop; […]
(8) Other lines:
4 two-thirds of the radical pairs reacting (in a field of typically
only [...]
13 efforts you may find the magician reacting too early or late.
Also bear in. (HUNSTON 2010, p.160.)
# Label Description
It refers to the trait, quality or property of the
01 CHARACTERISTIC meteorological condition.
E.g. ‘cold ~’
CHARACTERISTIC / It is a label which combines the labels characteristic and
02
INTENSITY intensity.
It refers to the size or dimension of the meteorological
03 DIMENSION condition
E.g. ‘small ~’
It refers to the time elapsed since the beginning of the
04 DURATION meteorological condition or continuously.
E.g. ‘~ during the night’
It refers to an occurrence as an episode or instances of the
05 EPISODE meteorological condition.
E.g. ‘~ registration’
EPISODE /
06 It is a label which combines the labels episode and intensity.
INTENSITY
It refers to a forecast, observation or notification of a
07 FORECAST meteorological condition.
E.g. ‘observed ~’
It refers to the objective form of the meteorological
08 FORM condition, generally of concrete nature.
E.g. ‘~ pellets’
It refers to an information or data factor with the purpose of
INFORMATION quantifying the meteorological condition in some way.
09
FACTOR
E.g. ‘~ data’
It refers to instruments or devices used to measure or
10 INSTRUMENT forecast a meteorological condition.
E.g. ‘~ sensors’
It refers to the level of intensity of a meteorological
11 INTENSITY condition, generally associated with another feature (label).
E.g. ‘strong ~’
It refers to the layout or arrangement of the meteorological
12 LAYOUT condition in the overall scenario.
E.g. ‘~ vertical profile’
It refers to the location where the meteorological condition
takes place, which can range from a cardinal direction or a
13 LOCATION geographical position, to a city or an airport.
E.g. ‘~ no aeroporto’ [‘~ at the airport’]
1454 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1443-1484, 2021
2.2 Corpus Linguistics: English for Specific Purposes and learner corpora
Many authors attest the benefits of CL to research and
teach vocabulary (BERBER-SARDINHA, 2011; SCHMITT, 2000;
STEFANOWITSCH, 2020; TAGNIN, 2006; TOSQUI-LUCKS; PRADO,
in press). According to Schmitt (2000), corpus evidence has shown two
important things: (i) that a very limited number of high-frequency words
do the bulk of the work in language, and it is crucial that students master
them; and (ii) that words tend to collocate, that is, multiword strings seem
to act as a single lexeme. In fact, the author says that a major direction in
vocabulary studies today is “researching these multiword units through
corpus evidence to establish their frequency and behavior” (SCHMITT,
2000, p. 89).
This is part of a move from lexis as individual words to be
considered in isolation toward viewing them as integral parts of a larger
discourse, and it is valid to general English and English for Specific
Purposes (ESP) discourse too. In this matter, Stefanowitsch (2020, p.
215) complements that all corpora consist of orthographically represented
language, and this makes it easy to retrieve word forms. To him, the focus
on words is also due to the fact that the results of research using CL
have proved that words (individually and in groups) are more interesting
and show a more complex behavior than traditional, grammar-focused
theories of language. As an example, we can consider the word ‘wind’,
which has different uses and meanings depending on the impact it has for
aircraft landing, and can be expressed in multiwords such as ‘crosswind’,
‘tailwind’, ‘downwind leg’, etc.
Still considering CL for teaching vocabulary, Berber-Sardinha
(2011) states that most pedagogical tasks focus on concordances, and
presents some text-centered and multi-genre alternatives. The author
also highlights some areas that may deserve attention in the larger
context of Brazilian educational CL. Some of them are represented in
this study: more research about it on academic level, more integration
with diverse areas, more application on educational contexts, more
pedagogical materials and teaching resources based on corpora and more
1456 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1443-1484, 2021
3
In this paper, we are referring to the second edition of Doc 9835 (2010), which was
revised and included a great part of Cir 318 (2009) about Aviation English assessment –
but the first edition of Doc 9835 was published in 2004, thus, earlier than Cir 323 (2009).
Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1443-1484, 2021 1459
Vocabulary range and accuracy are usually sufficient to communicate effectively on common,
concrete, and work related topics. Can often paraphrase successfully when lacking vocabulary
in unusual or unexpected circumstances.
Vocabulary range and accuracy are often sufficient to communicate on common, concrete,
or work related topics but range is limited and the word choice often inappropriate. Is often
unable to paraphrase successfully when lacking vocabulary..
3 Methodology
As mentioned before, this paper has two phases: the first one,
based on lexical semantics applied to terminology, to analyze formulaic
structure of lexical units using Aeronautical Meteorology terms within
the ATC context; and the second one, to analyze the use of these terms
by students in three ATC courses (for TWR, ACC and APP facilities)
and how it affects their performance during communication activities
in a learning environment. For that, we selected some key aeronautical
meteorology (AER MET) terms particularly used in ATC phraseology,
1462 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1443-1484, 2021
4
As our aim in this paper is analyzing discourse patterns concerning aeronautical
meteorology terms used within the air traffic control context, ‘occurrence’ of terms refer
to different instances of use of a term, i.e. the exact same instance of use was not counted
as another occurrence. For example, in spite of the fact ‘heavy rain’ appears many times
in the learner corpus, this was only considered one occurrence; but ‘moderate rain’,
even though similar in structure, was considered another occurrence of the term ‘rain’.
Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1443-1484, 2021 1463
100-16 (BRAZIL, 2018) and ICA 105-12 (BRAZIL, 2014). They were
selected because they are guidelines which specifically address the use of
phraseology within the ATC context, as published by official institutions
dealing with aviation regulations also comprising meteorological
instructions: the International Civil Aviation Organization (ICAO),
the World Meteorological Organization (WMO), the Federal Aviation
Administration (FAA, United States) and the Department of Airspace
Control (DECEA, Brazil).
In this sense, Doc 4444 (ICAO, 2016) prescribes rules for Air
Traffic Management; Annex 3 (ICAO, 2018) focuses on guidelines for
the provision of Meteorological Service for International Air Navigation;
Doc 732 (WMO, 2003) is a Guide to Practices for Meteorological Offices
serving Aviation; Order JO 7110.65W (UNITED STATES, 2015) is an
Air Traffic Organization Policy on phraseology and procedures; MCA
100-16 (BRAZIL, 2018) is the institutional documentation for ATC
Phraseology within the Brazilian Airspace Control System (SISCEAB);5
and ICA 105-12 (BRAZIL, 2014) prescribes VOLMET Phraseology to
be used in the SISCEAB system as well. As it can be visualized in Figure
1, the Brazilian/SISCEAB subcorpus is much shorter because it mostly
comprises ATC phraseology used within Brazilian specific situations, by
following standardized phraseology in English, originally prescribed by
ICAO and WMO.
Regarding the learner corpus, it was compiled from evaluated
activities that are part of a series of distance learning courses offered to
Brazilian Controllers, called “Go4it”. There are three different courses:
for area control center (ACC); approach control (APP) and tower (TWR).
In each activity, the student must record an audio about the topics studied
on that module, followed by the respective script. Since the activities
were produced by students, it is only natural that they make mistakes.
We opted for using the scripts with errors, not the versions corrected by
the teachers, because the corrections could affect the results. So, we kept
the problems with spelling, grammar or vocabulary. Considering that the
courses have emphasis on speaking and not writing, some students do
not worry too much about reviewing spelling mistakes on the scripts,
because they will be graded mostly for their oral performance.
5
In Portuguese, SISCEAB stands for “Sistema de Controle do Espaço Aéreo Brasileiro”.
Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1443-1484, 2021 1465
6
The learner corpus was compiled within an ATC military organization and its use is
allowed only for previously authorized research, because of national safety reasons.
In order to follow the recommended practices of the Committee on Publication Ethics,
students signed a term of consent agreeing on the use of the data collected from their
production within the course for research purposes, regarding that their identities are
preserved.
1466 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1443-1484, 2021
# Activity Description
7
The International Civil Aviation Organization (ICAO) has recently issued some
guidelines to address the types of runway contamination: the New Global Reporting
Format (GRF) for Runway Surface Conditions (2019), based on the Takeoff and
Landing Performance Assessment (TALPA) model issued by the Federal Aviation
Administration (FAA) in 2016. ICAO Member States were demanded to implement the
GRF grid assessment by November 2020; however, due to the COVID-19 pandemics,
the deadline was postponed to November 2021. More information on GRF guidelines
can be found at <https://www.icao.int/safety/Pages/GRF.aspx>.
Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1443-1484, 2021 1467
TABLE 7 – Profile of semantic labels for each term in the reference corpus
contained in the learner corpus. In that sense, most of those adjective uses
are intensifiers, with other occurrences with ‘dense’, ‘intense’, ‘light’,
‘moderate’ and ‘severe’.
As the learner corpus is also representative of the aeronautical
language in use, it also contains more verbs, due to the intent to comprise
more situated communication, with higher reference to location as well.
In our study, there is a varied range of verbs which were used with
‘turbulence’ and ‘lightning’, a pattern which was not specifically explored
in the semantic labels in this paper but is relevant to be mentioned. In
the case of ‘turbulence’, verbs such as ‘passing through’, ‘flew through’,
‘went through’, ‘passed through’, ‘suffering’, ‘facing’ and ‘experiencing’
were used in many instances and also indicate some level of interference
from Portuguese. For ‘lightning’, verbal constructions were mostly
based on verbs ‘strike’ and ‘hit’, in both active and passive voices, with
constructions such as [verb in passive voice + direct object]; [verb in
passive voice + indirect object]; [verb in active voice + direct object];
and [verb in active voice + indirect object]. Some examples are
‘striked8 by a ~’; ‘a strong ~ struck the engine’; ‘a strong ~ struck us’’;
a ~ has struck us’; ‘a ~ has struck my left engine’; ‘~ stroke our landing
equipment’; ‘hit by a ~’; ‘a ~ hit our left wing’; ‘a ~ hit us’; ‘we were
hit/struck by a ~’; and ‘I had my right wing hitted for a ~ strike’. The
consequences are sometimes reported and usually related to some kind
of technical failure as in “We was hit for a lightning strike and had an
electric system failure”.
Concerning the term ‘conditions’, likewise in the reference
corpus, there are occurrences which are directly related to meteorological
phenomena and some others which comprise a broader scope regarding
runway conditions. There is one special example which is in the
“crossroads” of this differentiation: instrument meteorological conditions
(IMC) and instrument flight rules (IFR) conditions, both found in the
learner corpus. While IMC literally mentions the meteorological factor,
IFR focuses on the use of instrument rules, applied in cases when the
airport has such poor weather conditions that it is necessary to rely more
8
As mentioned in the methodology, we did not correct students’ grammar errors. In
these examples, the incorrect forms ‘striked’ and ‘stroke’ were used by students instead
of the correct form ‘struck’. We will not refer to the grammatical correct form of other
examples.
1474 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1443-1484, 2021
TABLE 8 – Profile of semantic labels for each term in the learner corpus9
9
Wake turbulence’ was not taken into account because there was only one occurrence,
then semantic density was 100%.
10
‘Wake turbulence’ was not taken into account because there was only one occurrence,
then semantic density was 100%.
1476 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1443-1484, 2021
6 Final Remarks
Terminological patterns discussed in this paper show how
meaning is dependent on context, and how lexical semantic analysis
of terms may contribute to reveal nuances of language used in a
specialized language. Likewise, this approach also contributes to deepen
understanding of language used by students, especially regarding the
descriptor vocabulary, prescribed in ICAO rating scale.
However, it is important to stress that analyses carried out in the
reference corpus as compared to the learner corpus are illustrative, since
occurrences in the learner corpus are controlled and depend on other
variables beyond proportional occurrences in natural language expression.
Findings suggest learner corpus language focuses on occurrences which
are found to be related to more common daily situations, especially within
the Brazilian context; and, based on that, semantic density in both corpora
is not expected to be the same.
Therefore, results show that the courses have been efficient in
teaching and practicing the use of the main meteorological terms related
to aeronautical English and that, despite some mistakes students make,
evidence indicates that they are able to report weather conditions to
pilots and to understand pilots’ requests in a proficient level concerning
vocabulary. As we’ve mentioned before, we believe in a more integrated
analysis of language production by students, considering the context and
the blocks of unit instead of looking at isolated words. In this sense, CL
is an efficient tool for analyzing the production of groups of students.
Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1443-1484, 2021 1479
Declaration of contribution
Rafaela Rigaud Peixoto wrote the theoretical foundation section on
phraseological patterns and lexical semantic terminological approach, and
contributed to the introduction section on aeronautical English. Regarding
the methodological planning of the paper, she developed the methodology
design, compiled the reference corpus, and articulated the methodological
procedures of phase 1 and phase 2. Rafaela performed lexical semantic
analysis of weather events in air traffic control phraseology standards, and
of weather events in air traffic control communication in learner corpus,
1480 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1443-1484, 2021
Acknowledgment
This study was financed in part by the Coordenação de Aperfeiçoamento
de Pessoal de Nível Superior – Brasil (CAPES) – Finance Code 001.
References
ANTHONY, L. AntConc (Version 3.5.8) [Computer Software]. Tokyo:
Waseda University, 2019. Available from: https://www.laurenceanthony.
net/software. Access on: August, 2020.
BARTNING, I.; FORSBERG, F. Les séquences préfabriquées à travers
les stades de développement en français L2. In: CONGRÈS DES
ROMANISTES SCANDINAVES, 16 e., 2006, Roskilde. Actes […].
Roskilde: Department of Language and Culture, Roskilde University,
2006. p. 1-22.
BERBER-SARDINHA, T. Como usar a linguística de corpus no ensino
de língua estrangeira – por uma linguística de corpus educacional
brasileira. In: VIANA, V.; TAGNIN, S. E. O. (org.). Corpora no ensino
de línguas estrangeiras. São Paulo: HUB Editorial, 2011. p. 301-356.
BRAZIL. Comando da Aeronáutica. Departamento de Controle do Espaço
Aéreo. ICA 105-12: Fraseologia Volmet. Rio de Janeiro, 2014. Available
from: https://publicacoes.decea.gov.br/?i=publicacao&id=4072. Access
on: Sep. 20, 2019.
Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1443-1484, 2021 1481
Vander Viana
University of East Anglia, Norwich / United Kingdom
vander.viana@uea.ac.uk
http://orcid.org/0000-0003-3079-4393
Lu Lu
Hong Kong Polytechnic University, Hong Kong / Hong Kong
lu-cbs.lu@polyu.edu.hk
http://orcid.org/0000-0002-6049-6154
eISSN: 2237-2083
DOI: 10.17851/2237-2083.29.2.1485-1527
1486 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1485-1527, 2021
be the main barrier in embedding corpus approaches to teaching and research, thus
reinforcing the relevance of developing formal and informal CL learning opportunities
for academics/professionals in different fields.
Keywords: corpus linguistics; continuous professional development; educational
corpus integration; evaluation of corpus use in professional practices; corpus
application to teaching and research; language teacher education; translator education;
interdisciplinarity.
1 Introduction
This special issue of Revista de Estudos da Linguagem aims
to take stock of the achievements and challenges of corpus linguistics
(henceforth CL) over the years. While it would be challenging to precise
exactly when CL started (see VIANA; ZYNGIER; BARNBROOK,
2011), Johansson (2008) clarifies that Jan Aarts first proposed the term
corpus linguistics in the 1980s. In this decade, we also start to observe
the academic uptake of corpus studies mainly due to the popularization of
personal computers. In all these past years, CL has considerably evolved
and has afforded new perspectives to our understandings of language use.
Corpus approaches have been used to examine different
languages and their specific uses; however, the educational impact of CL
has not been explored to the same extent. Naturally, it would be factually
inaccurate to claim that there is little research on this topic: previous
studies have investigated the integration of corpus analysis in numerous
classroom settings. These settings include different languages being
taught/learned (e.g. O’SULLIVAN; CHAMBERS, 2006 on French),
educational levels (e.g. FRANKENBERG-GARCIA, 2015 on Master’s
students), countries (e.g. TODD, 2001 on Thailand), and disciplines (e.g.
HAFNER; CANDLIN, 2007 on law students).
A review of the literature, however, reveals that much of the work
conducted to date focuses on language-oriented educational contexts
(e.g. FARR 2008; GAN; LOW; YAAKUB, 1996; HEATHER; HELT
2012; ZAREVA 2016) and degree-awarding settings where CL is taught
in a compulsory or an optional module (e.g. BUENDÍA-CASTRO;
LÓPEZ-RODRÍGUEZ, 2013; FRANKENBERG-GARCIA, 2015;
GALLEGO-HERNÁNDEZ, 2015b). In other words, disciplines other
than language-related ones and educational programs which are not credit-
bearing remain underexplored in the research literature on educational
applications of CL. To address these two research gaps, the present study
innovates by investigating the perspective of participants from a range of
disciplines in a non-credit-bearing continuous professional development
(CPD) project. More specifically, it focuses on four main aspects here: (i)
the CL background of participants who are drawn to CPD opportunities
like this one; (ii) their motivations to participate in it; (iii) the advantages
and challenges of employing CL in their teaching practice; and (iv) their
evaluation of the integration of corpus analysis in their research practice.
1488 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1485-1527, 2021
2 Literature review
CL has revealed its potential to contribute to several occupations
– from language-oriented ones such as lexicographers and materials
developers (FLOWERDEW, 2012; O’KEEFFE; MCCARTHY, 2010)
to those which do not necessarily have a direct language component
such as healthcare practitioners (CRAWFORD; BROWN, 2010) and
lawyers (HAFNER; CANDLIN, 2007). In the present paper, we focus
our attention on the embedding CL into teacher education (especially
language teacher education) and translators, the two occupations that
have received most attention in the research literature. The following
subsections review the available research literature on corpus embedding
in the education of these two professional groups.
3 CPD project on CL
This research investigated the perspectives of participants in a
blended CPD project on CL funded by the British Academy. Merging
research, teaching and learning perspectives, the project aimed at
showing participants how to develop their CL skills and their students’/
supervisees’. The face-to-face element consisted of three day-long
events spread over one year (i.e. June, September and December) with
sessions delivered by experts in the field (e.g. Marina Bondi, Paul
Thompson, Ute Römer). While Chen et al.’s (2019) research is also on
a non-credit-bearing CL workshop, their target participants were limited
in professional terms (i.e. it was aimed at English language teachers)
and the length of their sessions was shorter (i.e. two three-hour long
workshops, totaling six contact hours). The online space in our CPD
project provided a further means for interaction among participants and
for their learning to be consolidated over time with asynchronous input
from the same team of experts.
This CPD project did not assume any prior knowledge of CL.
The face-to-face and online activities were planned in such a way that
participants would be introduced to the main concepts in CL before
putting these concepts into practice in hands-on sessions and exploring
the application of CL to their teaching and research.
The three face-to-face events had different but complementary
foci. Participants were first introduced to the basics of language education
and CL before they had two full days examining how this could be
applied to language in general and to language for academic purposes.
A decision was made to focus on English since this was the only shared
language among all attendees, but the transferable nature of corpus skills
was stressed.
1496 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1485-1527, 2021
4 Methods
We decided to use a questionnaire to collect data for the present
study. Despite its inherent limitations (e.g. the potentially thin data to
be collected), a questionnaire was the most appropriate option for our
data collection plans. It required a reduced time commitment from
participants, thus potentially increasing the final volunteer sample. This
can be seen in our response rate, which will be discussed in Section 5.
In addition to the cover sheet, the questionnaire consisted of
25 questions divided into three parts. The first one contained questions
about personal matters (e.g. sex, age, home country), participants’ work
experience, their educational background, and language knowledge and
proficiency. Part 2 contained questions on participants’ prior knowledge
of CL as well as of related matters such as discourse analysis and statistics.
Part 3 was dedicated to participants’ reasons for registering for the CPD
project, their expectations of it, and their appraisals of CL application
to teaching and research.
At the beginning of the first event, participants were invited to
complete the questionnaire anonymously. From an ethical perspective,
our decision to ask participants to answer the questionnaire in the first
face-to-face event could be challenged. While this is not unusual (e.g.
FRANKENBERG-GARCIA, 2015; GAN; LOW; YAAKUB, 1996), we
thoroughly considered whether the questionnaire should be answered
online before the event or in person at the first event. We opted for the
latter option because of two main reasons. Firstly, our target participants
were primarily academics and/or professionals, who would probably
struggle to find the time to answer the questionnaire before the event.
Secondly, we felt it was essential for us to get to know the participants
and to introduce the project to them in person before making any requests.
We were, however, aware that our request to answer the
questionnaire in the first face-to-face session could be seen as a potential
imposition by our participants, which would limit their perceived scope
for declining to do so. This potential imposition is lower than in previous
studies involving students where the researcher is also the teacher in
charge of assessing the student participants (e.g. FRANKENBERG-
GARCIA, 2015). Our relationship with the participants did not take place
in any formal educational context where they would be evaluated for a
credit-bearing module, for example. This was an optional CPD project
Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1485-1527, 2021 1497
for which the participants had decided to register and to which they had
already been accepted.
We followed four main steps in order to reassure participants
of their freedom to decide whether or not to answer the questionnaire.
second author, who compared the results with her original analyses. She
checked the quantitative results for accuracy and the qualitative results
for thoroughness. There were only minor discrepancies in the qualitative
analyses, which were resolved by discussing each of the relevant cases.
Before the results are presented in Section 6, the following section will
detail the participant sample in the present study.
5 Participants
A total of 36 registered participants were expected to attend
the face-to-face events. Out of this total, three had expressed their
impossibility in attending the first event, three were speakers who had to
either arrive late or leave early, and two were the CPD project organizers,
who are also the authors of this paper. This resulted in a pool of 28
potential participants, all of whom agreed to contribute to the study and
answer the questionnaire. While the sample may be considered small,
we worked within a non-interventionist research paradigm with the
participants of a specific, real-life educational CPD project. As reviewed
in Section 2, other pedagogical studies have researched a similar or even
smaller number of participants. For example, Farr (2008) examined a
sample of 25 MA student teachers in her questionnaire-based evaluation
on participants’ perception of corpus-assisted courses; Frankenberg-
Garcia’s (2015) study drew on the data provided by 13 Master’s students
in Translation at a UK university; Zareva (2016) analyzed 21 trainee
teachers’ responses to a questionnaire aimed at evaluating a corpus-based
course design.
Our study had a 100% return rate, which is high for non-course/
degree-based questionnaire studies. In Römer’s (2009) research with
in-service teachers, for instance, 78 out of 120 questionnaires were
completed and returned. However, the difference in the overall population
sample must be acknowledged. Our decision to request participants to
complete the questionnaire in the first face-to-face event after we had
initially established rapport with the participants (cf. Section 4) may have
contributed to this high return rate.
2
The total in this case is higher than the overall number of participants (N=28) because
some of them declared more than one affiliation. The same is the case for the participants’
reported occupations.
Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1485-1527, 2021 1501
6 Results
The results of our study are presented and discussed in the
following subsections. These subsections focus on four topics: (i)
participants’ background knowledge of CL before the start of the CPD
project, (ii) their motivation to join this CPD project, (iii) their pre-project
appraisal of the actual or potential application of CL to their teaching,
and (iv) the same appraisal in relation to their research practice.
1. “I have not had the opportunity up until now”3 [F; 23; S; PhD
(Social Policy)]4
2. “I’ve got limited chance to learn.” [F; 27; S; Master’s (TESOL)]
5
The module perceived as least important by the participants in Copland et al.’s (2017)
study is Translation with a mean of 3.83 and a standard deviation of 1.57.
Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1485-1527, 2021 1505
7 Conclusion
This original study examined the perspectives of participants
from different disciplinary backgrounds on a CL CPD project. It therefore
addressed two research gaps in the educational application of CL: it
researched the experience of participants from several disciplines (rather
than only those from language studies) and investigated an underexplored
educational context – a non-degree-awarding CPD one.
Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1485-1527, 2021 1517
Acknowledgements
The authors are grateful to the British Academy, which supported this
project through a Skills Innovator Award (grant number SK150041),
and to the participants, who kindly agreed to contribute to this research.
Authors’ contributions
Viana had the idea for the study and was the lead researcher for most
tasks. Both authors worked collaboratively in the design of the research
instrument, which was administered by Lu. The data were digitized by
Lu and analyzed by Viana and Lu. Viana was in charge of the overall
structure of the paper, wrote most of the sections and thoroughly revised
the entire paper. Lu was responsible for the literature review, drafted an
initial version of the section on methods and the conclusion, contributed
to the discussion of the findings, and read the entire paper critically.
References
ASTON, G. Foreword. In: BEEBY, A.; RODRÍGUEZ-INÉS, P.;
SÁNCHEZ-GIJÓN, P. (ed.). Corpus use and Translating. Amsterdam/
Philadelphia: John Benjamins, 2009. p. ix-x.
ASTON, G. Applied Corpus Linguistics and the Learning Experience.
In: VIANA, V.; ZYNGIER, S.; BARNBROOK, G. (ed.). Perspectives
on Corpus Linguistics. Amsterdam: John Benjamins, 2011. p. 1-16. DOI:
https://doi.org/10.1075/scl.48.01ast
1520 Rev. Estud. Ling., Belo Horizonte, v. 29, n. 2, p. 1485-1527, 2021
Anamaria Welp
Universidade Federal do Rio Grande do Sul (UFRGS), Porto Alegre, Rio Grande do
Sul / Brasil
anamaria.welp@ufrgs.br
https://orcid.org/0000-0002-9015-4761
eISSN: 2237-2083
DOI: 10.17851/2237-2083.29.2.1529-1638
1590 Rev. Estud. Ling., Belo Horizonte, aop17484.2021
visa usar os dados linguísticos coletados para informar a construção de TPs para o
ensino e a aprendizagem de Inglês para Fins Acadêmicos (IFA). As TPs resultantes
deste estudo estão disponibilizadas on-line e de forma gratuita no Ambiente Virtual de
Aprendizagem LÚMINA Idiomas (BOCORNY, 2017).
Palavras-chave: tarefas de acesso aberto; Linguística de Corpus; gêneros acadêmicos;
expressões multipalavra; Inglês para Fins Acadêmicos.
Abstract: In the last decades, a large number of higher education institutions (HEIs)
sought to internationalize their activities. Since English is the lingua franca of the
academy (AMMON, 2011; JENKINS, 2009; TARDY, 2004), publishing in that language
facilitates the dissemination of scientific knowledge produced in the country and increases
the chances of citation and collaboration (BOCORNY et al., in press; MENEGHINI;
PACKER, 2007 apud BAUMVOL, 2018). In view of the described context, this study
aims to propose principles for the elaboration of pedagogical tasks (PTs) with the use of
linguistic data extracted from a specialized corpus related to the language conventionally
used in research articles. From this general objective, two specific objectives are derived.
The first, of an analytical nature, seeks to extract, categorize and classify multi-word
expressions from a specialized corpus of texts in the introduction section of recent
research articles (2003-2019) published in English in international physics journals. The
second, of a pedagogical nature, aims to use the collected linguistic data to inform the
construction of PTs for teaching and learning English for Academic Purposes (EAP).
The PTs resulting from this study are available online and free of charge in the Virtual
Learning Environment LÚMINA Idiomas (BOCORNY, 2017).
Keywords: open access tasks; Corpus Linguistics; academic genres; multi-word
expressions; English for Academic Purposes.
1 Introdução
O ensino superior (ES) mudou substancialmente nas últimas
décadas. Uma dessas mudanças está relacionada ao fato de instituições
de ensino superior (IES) em todo o mundo buscarem internacionalizar
suas atividades (BOCORNY et al., no prelo). De acordo com o “Scimago
Journal & Country Rank”,1 nos últimos 23 anos (1996-2019), a produção
científica brasileira apresentou um crescimento significativo, saindo do
1
Disponível em: https://www.scimagojr.com/countryrank.php. Acesso em: 21 set. 2020.
Rev. Estud. Ling., Belo Horizonte, aop17484.2021 1591
2 Revisão de literatura
O resultado prático que se pretende atingir com este estudo deriva
do encontro e do entrelaçamento de pressupostos teóricos oriundos de
três áreas do conhecimento: (i) os estudos sobre gêneros do discurso,
(ii) os princípios da Linguística de Corpus e (iii) as teorias relativas ao
ensino e à aprendizagem com base em tarefas.
2
Todas as traduções neste artigo são de nossa autoria.
Rev. Estud. Ling., Belo Horizonte, aop17484.2021 1595
3 Metodologia
Os procedimentos metodológicos descritos a seguir foram
adotados para atingirem-se os objetivos propostos neste estudo, ou seja,
extrair, categorizar e classificar expressões multipalavra de um subcorpus
da seção introdução de artigos de pesquisa da área da Física, bem como
para usarem-se os dados linguísticos coletados a fim de informar-se a
construção de uma SD.
the * of * * is/was to
purpose this paper
aim the present study
4 Resultados
Os resultados descritos a seguir dizem respeito (i) à extração,
à categorização e à classificação das expressões multipalavra da seção
introdução de artigos de pesquisa da área da Física; e (ii) ao uso, na
construção de TPs, dos dados linguísticos coletados em (i).
KLBs KLFs
MOVIMENTO 1: Estabelecendo um território
Passo 1: Defendendo a plays an important role in the (play/plays) an
centralidade do tópico play an important role in the important role in the
it is well known that the it (is well known/has
Passo 2: Fazendo generalizações
it has been shown that the been shown) that the
Passo 3: Revisando pesquisas
prévias
MOVIMENTO 2: Estabelecendo um nicho
Passo 1A: Indicando lacunas
ou
to the best of our knowledge
Passo 1B: Adicionando ao que
já é sabido
Passo 2: Apresentando
justificativas
MOVIMENTO 3: Introduzindo o presente estudo
of the present study is to
purpose of this paper is to
purpose of this study is to the
Passo 1: Anunciando a presente the (purpose/aim) of
purpose of this study is the aim
pesquisa de forma descritiva e/ (this /the present)
of the present study aim of the
ou seus propósitos (study/paper) (is/was) to
present study was aim of this
paper is to the aim of this paper
is of the present study was to
Passo 2: Apresentando
problemas de pesquisa ou
hipóteses
1604 Rev. Estud. Ling., Belo Horizonte, aop17484.2021
Passo 3: Esclarecendo a
terminologia
Passo 4: Descrevendo
procedimentos
Passo 5: Apresentando
resultados
Passo 6: Estabelecendo o valor
da presente pesquisa
this paper is organized as
(the rest of the/this)
Passo 7: Descrevendo a follows the rest of the paper
paper is organized as
estrutura do trabalho is the paper is organized as
follows
follows
4.2.1 Contextualização
A SD apresentada a seguir foi desenhada para a disciplina de
Inglês Instrumental I da Universidade Federal do Rio Grande do Sul, cujo
programa é organizado a partir de gêneros acadêmicos estruturantes. A
disciplina, que tem quatro créditos e é ministrada por uma das autoras,
é presencial, tem como um de seus gêneros estruturantes o artigo de
pesquisa, exige um conhecimento pré-intermediário de língua inglesa e
é de caráter optativo para alunos de todos os cursos da universidade. Na
próxima subseção, descrevemos o processo de elaboração da SD produzida
para alunos da área da Física da disciplina de Inglês Instrumental I.
4.2.2 A SD proposta
Considerando os princípios e os procedimentos elencados (cf.
seção 3.3), iniciamos a descrição da SD proposta tratando do gênero
discursivo alvo, dos objetivos de aprendizagem, do corpus de textos
do gênero-alvo, da extração dos dados linguísticos e da elaboração das
tarefas propriamente ditas.
O passo inicial no desenho dos materiais didáticos a serem
usados na disciplina é o conhecimento do perfil e das necessidades dos
alunos. O nível de proficiência dos alunos, conforme o Quadro Comum
Europeu (QCE), é B1-B2, o que permite que a SD seja escrita em inglês.
Ressalta-se que, embora a SD tenha sido produzida especificamente
para ser trabalhada com os alunos que cursam a disciplina, ela ainda
não havia sido utilizada no momento de produção deste artigo. Como
já mencionado, a disciplina tem como gênero estruturante o artigo de
pesquisa. O objetivo de aprendizagem, definido tendo-se em vista a
área do conhecimento do grupo de alunos (a Física), foi a produção da
introdução de um artigo de pesquisa da área em questão. Definidos o
gênero estruturante e o objetivo de aprendizagem, um corpus de estudo
previamente compilado (cf. seção 3.1) foi usado para a extração dos
dados linguísticos conforme já descrito (cf. seção 4.1). De posse dos
dados linguísticos (KLFs) extraídos do corpus de estudo, iniciou-se a
elaboração das tarefas. A SD, que contém as TPs propostas neste estudo,
1606 Rev. Estud. Ling., Belo Horizonte, aop17484.2021
Introduction A
1612 Rev. Estud. Ling., Belo Horizonte, aop17484.2021
Introduction B
Rev. Estud. Ling., Belo Horizonte, aop17484.2021 1613
1614 Rev. Estud. Ling., Belo Horizonte, aop17484.2021
5 Considerações finais
Este estudo teve dois objetivos específicos. O primeiro, de
ordem analítica, consistiu em extrair, categorizar e classificar expressões
multipalavra nos corpora especializados de textos da seção introdução
dos artigos de pesquisa compilados. O segundo, de ordem pedagógica,
foi usar os dados linguísticos coletados para informar a construção de
TPs voltadas para o ensino de IFA.
Rev. Estud. Ling., Belo Horizonte, aop17484.2021 1617
Agradecimentos
Este trabalho foi conduzido durante o período de concessão da bolsa de
Professor Visitante no Exterior na Universidade do Norte do Arizona
(EUA) e financiado pelo Programa Institucional de Internacionalização
da Coordenação de Aperfeiçoamento de Pessoal de Nível Superior –
CAPES/PRINT/UFRGS – Edital nº 003/2019, no âmbito do Ministério
da Educação do Brasil.
Referências
AMMON, U. (ed.). The Dominance of English as a Language of Science:
Effects on Other Languages and Language Communities. Berlin: Walter
de Gruyter, 2011.
ANTHONY, L. AntCorGen (Version 1.1.2) [Computer Software]. Tokyo:
Waseda University, 2019. Disponível em: https://www.laurenceanthony.
net/software. Acesso em: 10 out. 2020.
1618 Rev. Estud. Ling., Belo Horizonte, aop17484.2021
APÊNDICES
APÊNDICE 1 – Resultado da extração de KLBs com 6 palavras da
seção introdução de artigos de pesquisa da área da Física, realizada
com base nos critérios apresentados em 3.2
Corpus de estudo Corpus de referência
KLB
Frequência Frequência Frequência Frequência IC
(6 palavras)
Absoluta Normalizada Absoluta Normalizada
a. What type of texts can you see? What do you know about them?
b. What are the parts of this type of text?
c. What is usually the first part? What information should it contain?
d. Do you think this information can vary from area to area?
Rev. Estud. Ling., Belo Horizonte, aop17484.2021 1625
1626 Rev. Estud. Ling., Belo Horizonte, aop17484.2021
Rev. Estud. Ling., Belo Horizonte, aop17484.2021 1627
WARM UP QUESTIONS
1. Are you familiar with the genre Research Article? Do you ever read
Research Articles from your area?
2. What is the purpose of this genre? What elements do you expect to
find in these texts?
3. What do you think is the difference between a Research Article, a
Review Article and an Opinion Article ?
1628 Rev. Estud. Ling., Belo Horizonte, aop17484.2021
FINDING REGULARITIES
1. Read the text again, this time focusing on the structure of the introduction
of the Research Article. Search for specific information to fill the chart below.
Be prepared to report it to your classmates. This activity will help you prepare
to later write and assess the introduction of your own article. An example is
presented below:
Rev. Estud. Ling., Belo Horizonte, aop17484.2021 1629
ARE THESE
RESEARCH ARTICLE COMMUNICATIVE EXAMPLE OF HOW THE
INTRODUCTION FUNCTIONS COMMUNICATIVE FUNCTION CAN
COMMUNICATIVE PRESENT IN THE BE EXPRESSED LINGUISTICALLY
FUNCTIONS INTRODUCTION IN THE INTRODUCTION
YOU READ?
Establishing a territory
plays an important role in the
play an important role in the
2. Now let’s take a general look at the structure of the sub-genre “introduction
of a Research Article”. According to Bakhtin (2010, p. 262), “every particular
utterance is individual, but every field of language use elaborates their relatively
stable kinds of utterances, which we call discourse genres.” Considering this
statement, get together with the other members of your group and compare the
table each one of you filled out in 3. Analyze the similarities and differences
among the three introductions read. Fill a new table that summarizes the general
structure.
1: Claiming centrality
2: Making topic generalization/s
3: Reviewing items of previous
literature
Establishing a niche
1A: Indicating a gap
or
1B: Adding to what is known
Introducing the Present Work
4: Summarizing methods
5: Announcing principal
outcomes
6: Stating the value of the present
research
7: Outlining the structure of the
paper
LANGUAGE ELEMENTS
1. You are now going to read two introductions of Research Articles from the
area of Physics published in the PLOS ONE platform. Before you do so, discuss:
a. Do you know the PLOS ONE platform? Have you ever visited it?
Tell your classmates what you know about it.
b. Open the platform website and check if it offers any guidelines to
authors.
2. Read the introductions below and, using different colors, highlight the parts
of the text that represent the communicative functions listed in item 3. In pairs,
discuss the differences and similarities you identify. Check your answers with
your other classmates afterwards.
Introduction A
Rev. Estud. Ling., Belo Horizonte, aop17484.2021 1633
Introduction B
the best agents to consistently influence all agents. Therefore, this paper
suggests a stochastic leader gravitational search algorithm (SL-GSA)
to enhance MVDR beamforming performance by preventing premature
convergence and improving overall exploration. Standard gravitational
search algorithm (SGSA) [8] was proposed as a global optimization
method for computationally complex real world problems. In SGSA,
the particles, called agents, move based on Newton’s law of universal
gravitation. The search space is represented as an ‘n’ dimensional space
and the position of each agent is represented by a coordinate vector of
length n. The mass of these agents are determined based on their fitness.
The performance of each agent is calculated using the fitness function
and their positions are updated accordingly. All the SGSA search agents
(individuals) globally move toward the agents with heavier masses due
to their gravitational force. Hence, superior solutions of the problems
are represented by the heavier masses. The global search ability and
high performance of SGSA in solving several nonlinear functions have
been confirmed previously [8]. The balance between exploration and
exploitation is critical for heuristic algorithms to achieve robust and
reliable performance. In SGSA, this balance is achieved using the
time variant linearly decreasing kbest parameter, which determines the
number of agents that are allowed to exert force on the others in a given
iteration. Thus, the parameter kbest is initially large and linearly reduced
to provide some protection from premature convergence. This technique
still allows the optimization process to be heavily influenced by agents
with superior fitness resulting in poor exploration properties. As kbest
agents are chosen based on their current fitness, it allows agents with
superior fitness to attract the others towards optimal solutions. Thus, the
algorithm is highly dependent on the best performing agents. However,
if the kbest agents stagnate at a local optimum, the other agents become
practically helpless to prevent premature convergence. The SGSA agents
gravitate towards ‘kbest’ optimum agents. This allows convergence
towards superior solutions but also allows the search to stagnate at
local optima. In this paper, SL-GSA randomly selects agents from a
gradually reducing set that removes agents with inferior performance
based on the adaptive parameter, γ. This directly prevents the domination
of the search pattern by any individual agent. Thus, SL-GSA is far less
likely to stagnate in a local optimum because it randomly ignores the
best particles sometimes. This allows more efficient exploration before
1635 Rev. Estud. Ling., Belo Horizonte, aop17484.2021
3. The key lexical bundles (KLBs) below were extracted from a corpus of
Physics Research Article Introductions compiled from PLOS ONE platform.
They were some of the most frequent in the corpus. With a classmate, complete
the chart below according to the examples given. You can choose from the
communicative functions listed below:
4. All the sentences below were taken from research articles from the area of
Physics. See which KLB best completes each sentence.
3
Examples KLBs
“Here we provide an experimental proof that the light
intensity is ___________________ vertical distribution
1 ( ) to the best of our knowledge
of seven Synechococcus spp. strains isolated from the
littoral zone of Lake Constance in Germany.”3
“These parameters vary substantially between different
studies although _______________________method
2 used to test the materials influences the measured P plays an important role in the
( )
binding capacity and thus the predicted performance of
the filters as well as their predicted lifetime.”
“Biomechanical evolution of the simulated MTS Real
cells have passive viscoelastic mechanical features, but
3 they also move actively under the pushes of their own ( ) The purpose of this study is
cytoskeleton, and ___________________ there is no
comprehensive model of cellular biomechanics.”
“_______________________________ to investigate
the effects of the operating parameters on natural gas
This paper is organized as
4 supersonic separation process, including the back ( )
follows
pressure, inlet mass flow rates, inlet pressures and inlet
temperatures.”
“ _________________________________ First, we
provide detailed explanation of the methodology of
our LV shape restoration algorithm. Next we describe
5 the experiments done on the 30 simulated samples ( ) it has been shown that the
and the 20 in vivo patient-specific models to test the
performance of the algorithm, followed by a discussion
on the implications of the experimental results.”
3
Todos os exemplos foram retirados do corpus de estudo.
Rev. Estud. Ling., Belo Horizonte, aop17484.2021 1637
YOUR TURN
1. You are going to write an introduction for a Research Article that has to do
with your research project in the area of Physics. Before that, get in groups and
make a list of the indispensable elements to write a good introduction. You may
consult the table under the Finding Regularities section to help build your list.
a. _______________________________________________________
b. _______________________________________________________
c. _______________________________________________________
d. _______________________________________________________
e. _______________________________________________________
f. _______________________________________________________
g. _______________________________________________________
h. _______________________________________________________
i. _______________________________________________________
j. _______________________________________________________
2. Next, decide with the whole class which elements are going to be part of the
assessment criteria of your introductions.
a. _______________________________________________________
b. _______________________________________________________
c. _______________________________________________________
d. _______________________________________________________
e. _______________________________________________________
f. _______________________________________________________
g. _______________________________________________________
h. _______________________________________________________
i. _______________________________________________________
j. _______________________________________________________
3. Write the first version of your introduction and bear in mind the following:
a. What you are writing about
b. Who you are writing to
c. How you are organizing your text
d. What language you are using
e. Where you are publishing it
1638 Rev. Estud. Ling., Belo Horizonte, aop17484.2021
4. Look at the table below. When writing the first version of your introduction,
answer the questions below about your project using the Key Lexical Frames
(KLFs) suggested having the examples provided as a reference.
4
Your
Questions KLF Example
sentence
Ex: “Here we provide an experimental
What is the proof that the light intensity plays an
____(play/plays) an
importance important role in the vertical distribution
important role in the
of the present of seven Synechococcus spp. strains
____
study? isolated from the littoral zone of Lake
Constance in Germany.”4
Ex: “These parameters vary substantially
between different studies although it has
What other _____ it (is well been shown that the method used to test
studies have known/has been the materials influences the measured P
shown? shown) that the ____ binding capacity and thus the predicted
performance of the filters as well as their
predicted lifetime.”
Ex: “Biomechanical evolution of the
simulated MTS Real cells have passive
Is there any gap viscoelastic mechanical features, but they
_____ to the best of our
in the present also move actively under the pushes of
knowledge _____
studies? their own cytoskeleton, and to the best of
our knowledge there is no comprehensive
model of cellular biomechanics.”
Ex: “The purpose of this study is to
investigate the effects of the operating
What is the The (purpose/aim) of
parameters on natural gas supersonic
purpose of the (this /the present) (study/
separation process, including the back
study? paper) (is/was) to _____
pressure, inlet mass flow rates, inlet
pressures and inlet temperatures.”
Ex: “This paper is organized as follows
: First, we provide detailed explanation
of the methodology of our LV shape
What is the (The rest of the/This) restoration algorithm. Next we describe
structure of the paper is organized as the experiments done on the 30 simulated
paper? follows ______ samples and the 20 in vivo patient-specific
models to test the performance of the
algorithm, followed by a discussion on the
implications of the experimental results.”
5. After you write the first version of your introduction, exchange it with
a classmate and use the rubric built by the group to give suggestions and
recommendations to help them improve their text.
4
Todos os exemplos foram retirados do corpus de estudo.