Você está na página 1de 47

LINGUAGEM, DISCURSO,

PESQUISA E EDUCAO

Miriam S. Leite
Carmem Teresa Gabriel
(orgs)
2

SUMRIO

Da arte de produzir efeito sem causa

Prefcio
Evitar as armadilhas
Alfredo Veiga-Neto

Sobre as autoras e os autores

Com outros campos


Corpus, Lingustica Computacional e as Humanidades Digitais
Cludia Freitas
Sobre a estabilidade do significado em Wittgenstein
Helena Martins
O virtual e o real como esgar da linguagem: entre Deleuze e Lacan
Jos Isaas Venera
Psicanlise e Educao: profisses (im)possveis?
Maurcio Eugnio Maliska

Com outros tempos


O rigor metodolgico de uma pesquisa-formao
Ludmila Thom Andrade
Sobre encontros e amizades: a horizontalidade na pesquisa em Educao
Mailsa Carla Pinto Passos
Rita Marisa Ribes Pereira
Percursos terico-metodolgicos de pesquisa: narrativas coletivas & zonas de
desenvolvimento proximais
Nbia Csaper Santos
Vera M. R. de Vasconcellos
Benjamin e Bakhtin: outros tempos e novos caminhos para a pesquisa em
Educao
Patrcia Corsino

Com escritos foucaultianos


Foucault corrompe os estudos das juventudes: das mscaras do biopoder s
figuras ticas e polticas do cuidado de si
Alexandre Simo de Freitas
Michel Foucault, discurso e a inveno da verdade
3

Karla Saraiva

Histria do Currculo e das Disciplinas: produzindo uma abordagem discursiva


para investigar a formao inicial de professores nas Cincias Biolgicas
Marcia Serra Ferreira

Com outros discursos


Memrias e projetos de Brasil validados no ensino mdio: narrativas nacionais
em disputa nos textos curriculares
Carmen Teresa Gabriel
Para desconstruir a adolescncia e a juventude: textos e contextos na educao
escolar
Miriam S. Leite
Reflexes provisrias acerca do rigor na pesquisa
Raquel Alvarenga Sena Venera
4

Da arte de produzir efeito sem causa

comum se questionar a fundamentao terica de pesquisas em educao


recorrendo-se metfora da mobilizao de arsenal nuclear para o combate de uma
formiguinha: exageraramos quando recorremos a argumentaes de outras reas do
conhecimento, com excesso de elaborao terica e estilstica, para tratar das questes
do campo educacional. Pois embora nos desgoste a semntica da comparao
linguagem da guerra e do especismo este livro se orgulhar se a potncia do seu
contedo de fato justificar a analogia, mas no por qualquer apreo pelo rebuscamento
formal. O que nos move nas interlocues que motivam esta publicao o
entendimento de que no estamos a enfrentar formiguinhas, ao menos no no sentido
afirmado na metfora: de fato, no conseguimos pensar em uma nica questo da
Educao tratada pela pesquisa acadmica que sustente a comparao com algo
facilmente eliminvel. Propondo imagem alternativa, trazemos como ttulo desta
apresentao e mote da coletnea a instigante construo pelo escritor e quadrinista
Loureno Mutarelli1, que nos desconcerta pelo paradoxo que enuncia, mas com a qual
nos identificamos por referir o reconhecimento da impossibilidade do controle
simultaneamente recusa da paralisia.
Educar difcil, e discutir academicamente esse educar no tem se mostrado
mais simples. No temos qualquer esperana ou nostalgia em relao s respostas
prontas das metanarrativas tecnicistas, das progressivistas ou da emancipao
reducionista e teleolgica: a complexidade dos temas contemporneos em Educao no
nos parece autorizar tais consolos. Entendemos, ao contrrio, que a melhor sada passa
pela aceitao dessa complexidade, paralela abertura aos caminhos que essa mesma
contemporaneidade inaugura.
Nossos tempos nos trazem uma escola ampliada em seu pblico e durao, o que
tambm multiplica as questes quanto sua funo, contedo e esttica. Trazem ainda a
fora dos outros contextos de relaes pedaggicas que abalam a identificao que j foi
bvia entre educao e escola. Contudo, so tambm tempos de construo de novas
possibilidades tericas e metodolgicas para o enfrentamento dos problemas que
colocam. Se a virada lingustica e a sua crtica pelo ps-estruturalismo nos tiram o cho
que a suposta transparncia e estabilidade da linguagem pareciam nos prover, nesses

1
MUTARELLI, Loureno. A arte de produzir efeito sem causa. So Paulo: Companhia das Letras, 2008.
5

mesmos campos e no seu entorno onde vamos encontrar alternativas terico-


metodolgicas que no nos oferecem o conforto dos protocolos e das solues
apriorsticas, porm sinalizam possibilidades de rotas alternativas de estudo e reflexo
acadmicas. No lugar da promessa de um porto seguro, apoiam-nos na criao de novas
perguntas e de novas respostas, sempre to provisrias quanto necessrias para o nosso
trabalho na docncia, na gesto e na pesquisa em educao.
No sculo XXI, a crtica viso representacionista da linguagem no pode mais
ser considerada novidade, o que no implica que tenha se tornado mais trivial ou
dispensvel. Provisrio, instvel, lquido, precrio, fluido adjetivos que se repetem nas
narrativas do tempo presente e que, sombra das certezas da modernidade, podem
parecer privar de sentido nossas construes tericas. No entanto, seguimos ensinando,
gerindo, pesquisando em Educao seguimos vivendo e, na vida que vivemos, a
deciso no aguarda o momento da certeza para se fazer urgente e incontornvel. O
reconhecimento da no existncia de qualquer fundamento extra-texto, como props
Derrida2, no precisa e no pode implicar imobilismo ou niilismo: j sabemos que a
paralisia tambm ao, na medida em que trabalha pela conservao do que est posto.
Duvidamos da causalidade no tempo linear que a modernidade afirmou, mas no
podemos abrir mo de arbitrar e de disputar entre ns o contedo das decises que nos
afetam. Em sua provisoriedade, a linguagem tambm cria a vida e toma parte nas
decises que as concepes representacionistas supem apenas descrever, constituindo-
se em aspecto basilar da pesquisa sobre a Educao dos nossos dias.
esse o jogo que jogamos com esta publicao: entre a certeza da incerteza e a
sempre presente necessidade de se estabilizar algum provisrio, arriscamos o
enfrentamento do como fazer pesquisa em Educao no nosso tempo. Sabemos
caminhar em terreno movedio e nos abrimos para perguntar a outros caminhantes pelas
pontes e atalhos que tm sido construdos, sem a pretenso de nos supormos causa, mas
apostando em certos efeitos.
Entre os efeitos em que apostamos, destacamos a potncia da multiplicao que
o dilogo entre os diferentes oportuniza, por entendermos que bem sintetiza a
justificativa e lgica da organizao do livro: mais explicitamente, referimo-nos fora
do encontro de autores que, com diferentes escolhas de foco de investigao e de
referencial terico, ocupam-se de questes da linguagem e do discurso na pesquisa

2
DERRIDA, Jacques. Limited Inc. Campinas: Papirus, 1991, p. 87.
6

contempornea em Educao. Trata-se de movimento que carrega bvia dimenso


epistemolgica, mas tambm importante contedo poltico: a busca por essa
interlocuo parte no somente do reconhecimento das mltiplas possibilidades de
abordagem das muitas questes da linguagem e/ou do discurso na Educao, como
tambm do entendimento da premncia de se romper com o individualismo que as
polticas neoliberais se esforam por promover e naturalizar hodiernamente em todos os
aspectos da vida social e privada. No campo acadmico, o estmulo a formas diversas de
competio e a efetiva concorrncia pelos recursos materiais da Educao tm levado a
uma frequente maior nfase nas distncias entre as formulaes tericas que
desenvolvemos ou endossamos do que nas suas convergncias. Tentamos aqui virar
esse jogo, em mais um lance do projeto Abordagens discursivas de juventude no tempo
presente: questes metodolgicas nas anlises de textos curriculares3, concebido na
perspectiva do dilogo e da negociao, em contraposio ao jogo sem vencedores que a
luta pelo sucesso neoliberal prope.
Convidamos, para esta rodada do projeto, velhos e novos parceiros das nossas
pesquisas e indagaes, em alguns casos interlocutores dos nossos grupos de pesquisa
que nos chegaram primeiramente pelos seus escritos e com quem, s agora, na
organizao desta coletnea, tivemos o privilgio do contato finalmente encarnado. A
chamada foi intencionalmente vaga, assinalando apenas as discusses que nos
aproximavam e que agora nomeiam esta publicao linguagem, discurso, pesquisa e
Educao.
A abertura do convite foi bem recompensada. Chegamos desse modo aos
quatorze textos que compem o livro e que evidenciam que os muitos caminhos que
vm sendo construdos na pesquisa contempornea em Educao podem de fato se
somar para o enfrentamento da complexidade, tanto epistemolgica quanto poltica, que
marca o nosso tempo. No entanto, abordando temas diversos abordagem digital de
corpora, estabilidade dos sentidos na linguagem, formao de professores, infncia,
juventude, histria do currculo e das disciplinas, narrativas de brasilidade, para citar

3
Projeto com coordenao geral da professora Carmen Teresa Gabriel e financiamento pelo CNPq, que
congrega os trabalhos de trs grupos de pesquisa em suas intersees terico-metodolgicas: Grupo de
Estudos de Currculo, Cultura e Ensino de Histria (GECCEH), que integra o Ncleo de Estudos em
Currculo (NEC), da UFRJ, sob coordenao da professora Carmen Teresa Gabriel; Grupo de Estudos
sobre Diferena e Desigualdade na Educao Escolar da Juventude (DDEEJ), da linha de pesquisa
Infncia, Juventude e Educao, do Programa de Ps-graduao em Educao da UERJ, e coordenado
pela professora Miriam Leite; e Grupo de Pesquisa Polticas e Prticas Educativas (GPPPE), coordenado
pela professora Raquel ALS Venera e vinculado ao Mestrado em Educao e Mestrado em Patrimnio
Cultural e Sociedade, ambos da UNIVILLE.
7

alguns exemplos dessa multiplicidade em dilogo com autores to variados como


Bakhtin, Benjamin, Butler, Deleuze, Derrida, Foucault, Guattari, Rolnik, Vigostski,
Wittgenstein, entre outros, no se somariam pela homogeneidade dos conceitos e
argumentos que mobilizam. Mas se aproximam pela produtividade e pertinncia dos
seus estudos, que inovam pela criao de alternativas metodolgicas e de recorte
temtico.
Abrimos Com outros campos, em que circulamos por duas tradies de reflexo
imprescindveis para as pesquisas que consideram questes da linguagem e/ou do
discurso: os estudos da linguagem, a filosofia e a psicanlise. Polidamente, comeamos
pelas visitas, reafirmando que a abordagem acadmica de temas da Educao
contempornea impe o dilogo com estudiosos de outras reas do conhecimento. Com
outros tempos, trazemos para a conversa autores que j se ocupavam dessas questes
bem antes das crticas ps-estruturalistas s vises representacionistas da linguagem e
que seguem nos surpreendendo pela pertinncia e atualidade das suas teorizaes:
Bakhtin, Benjamin e Vigotski. Com escritos foucaultianos, explicitamos, pelo artifcio
da seo exclusiva, o reconhecimento da importncia do trabalho do filsofo na difuso
da noo de discurso e mesmo da ateno s questes da linguagem nas pesquisas sobre
Educao.
E escolhemos finalizar com o que j foi incio: Com outros discursos.
Concebemos este projeto a partir de abordagens discursivas que no as tratadas pelas
nossas parceiras e parceiros e a elas retornamos na ltima seo do livro. Laclau e
Ricoeur, Butler e Derrida, Guattari e Rolnik chegam desse modo por ltimo na
ordenao dos textos, mas, certamente, no por menor importncia.
Autoras e autores dos artigos se apresentam a seguir, informando onde
pesquisam e ensinam, sua formao acadmica, seus interesses de estudo, e
disponibilizam seus endereos de correio eletrnico para uma possvel continuidade da
conversa que aqui propomos mostram-se bem mais, no entanto, nos textos que
assinam, que nos contam mais extensamente das suas leituras, apostas e projetos atuais.
Nosso jogo nunca chega a ser to abrangente como gostaramos, e muitos
caminhantes que poderiam estar aqui apresentando seus lances para a pesquisa em
Educao no puderam faz-lo, atropelados que somos por tantos jogos em jogo. Mas a
plenitude e a totalidade so sonhos que j no queremos sonhar. No pretendemos, claro
est, reunir todas as pesquisadoras e os pesquisadores que tm se confrontado com as
questes da linguagem nos estudos em Educao, em abordagens discursivas ou no.
8

Antes, propomos somar a outras publicaes e projetos que partilham o desejo


paradoxal de, coletivamente, criar efeitos sem causa nesta discusso.

Carmen Teresa Gabriel


Miriam Leite
9

PREFCIO

Evitar as armadilhas

Alfredo Veiga-Neto4 *

entre dois extremos que eu me coloco quando penso em escrever um Prefcio,


uma Apresentao, uma Resenha para um livro. Em um extremo, est a louvao
exagerada, a celebrao desmedida. No outro extremo, est o comentrio frio,
burocrtico, formal. De um lado, preciso cuidar para que minhas consideraes no
vo alm do que est no livro; nunca se deve esquecer que o miolo do livro tem de fazer
jus aos comentrios de capa e ao Prefcio... De outro lado, no devo cair na apreciao
descarnada e puramente tcnica. No meio termo, no posso deixar de ressaltar o que a
obra prefaciada contm de positivo, provocador e inovador. E, alm da positividade, da
provocao e da inovao, quase sempre penso na sua utilidade, ou melhor, que
preciso ressaltar a sua utilidade. Esse ltimo atributo no implica, necessariamente,
aderir a um utilitarismo tosco; implica, sim, procurar dar respostas diretas e simples s
questes: quem pode se interessar por este livro? e quo til ele poder ser a quem o
ler ou consultar?.
Alm de tudo isso, preciso tomar cuidado para que um Prefcio no seja
extenso demais e que o prefaciador no tenha a pretenso de ensinar ou de acrescentar
coisas que ele julgue faltantes no livro prefaciado. Em suma, dar a dose certa aos
comentrios e ser justo com quem escreveu o livro so tarefas sempre difceis e at
arriscadas.
Foi com tais preocupaes em mente que aceitei o sempre honroso s vezes
espinhoso... convite encaminhado pelas organizadoras deste Linguagem, discurso,
pesquisa e educao. Mas, na medida em que conheo (e reconheo...) suas trajetrias
profissionais bem como das demais pessoas que participam com seus respectivos
textos , logo me dei conta de que eu no teria espinhos pela frente. Ao contrrio, senti
que o meu trabalho seria tranquilo. Foi com tal nimo que me lancei a escrever este
pequeno texto. E eu estava certo: o trabalho foi tranquilo. Vamos a ele, ento.

4
* Alfredo Veiga-Neto Doutor em Educao e professor do Programa de Ps-Graduao em
Educao da Universidade Federal do Rio Grande do Sul (UFRGS).
alfredoveiganeto@gmail.com
10

medida que eu fui me inteirando das abordagens adotadas e das discusses


desenvolvidas em cada captulo, foi crescendo em mim a certeza de que, ao invs de
tecer consideraes internas sobre o que est neste livro, seria melhor se eu me
centrasse nas questes que dizem respeito s suas superfcies de contato com a imensa
bibliografia educacional em nosso Pas. Para dizer de outra maneira: no lugar de
examinar e comentar o que se costuma chamar de contedos da obra, achei bem mais
interessante abordar o seu explcito carter contracondutual5 frente ao mainstream
educacional brasileiro.
Se quisermos apelar para a conhecida dade foucaultiana leitura documental X
leitura monumental, podemos dizer que optei, aqui, pelo segundo elemento do par.
claro que esse segundo elemento s pode ser pensado se, antes, for feita uma leitura
documental, sem que isso requeira alguma anlise interna dos discursos presentes na
obra. Assim, a minha opo por focar meus comentrios num registro que toma este
livro como um monumento no significa reconhecer que cada captulo tem suas prprias
qualidades e se apresenta como um desafio inovador. Tal desafio ainda maior para
quem se interessa em pensar a educao por fora daquelas perspectivas que Touraine
(2009) agrupa sob a denominao de discurso interpretativo dominante. No seu
conjunto, esses captulos marcam o carter variegado da obra; mas isso feito sem que
se perca de vista o ncleo em torno do qual eles gravitam: as imanentes e no
representacionais relaes entre a linguagem, os discursos e a educao, bem como o
que tais relaes impem pesquisa educacional.
Foi nessa mirada do livro como um monumento que me dei conta de que ele
constitui-se num corajoso gesto de contraconduta. No se trata de uma simples e juvenil
resistncia e nem, muito menos, de uma dissidncia frente ao mainstream ao qual j me
referi. Por um lado, estes autores e estas autoras no so adeptos da crtica fcil e
aligeirada, dos slogans e das palavras de ordem to comuns nas prticas de resistncia;

5
Estou usando a palavra contraconduta no sentido que lhe deu Michel Foucault, na aula do dia 1 de
maro de 1978, do curso Segurana, territrio, populao, ministrado no Collge de France. No mbito
do poder pastoral, os movimentos contracondutuais tm como objetivo outra conduta, isso , querer ser
conduzido de outro modo, por outros condutores e por outros pastores, para outros objetivos e para outras
formas de salvao, por meio de outros procedimentos e de outros mtodos (FOUCAULT, 2008, p. 257).
Logo adiante, e alargando o conceito para o mbito da governamentalidade, o filsofo diz:
contraconduta no sentido de luta contra os procedimentos postos em prtica para conduzir os outros
(id., p. 266).
11

o que eles aqui fazem no resistir por resistir. Mas eles e elas tambm no praticam a
dissidncia pedaggica; no so dissidentes, no abandonam o barco, no pulam fora.
Como sabemos, a dissidncia carrega uma certa imagem de herosmo, de virada radical,
de no-quero-mais-brincar.
No nada disso que se encontra aqui, mas, sim, todo um conjunto de
descries, anlises, problematizaes, teorizaes e at mesmo sugestes que no
descartam in limine tudo o que vem de outras tradies tericas. Cada vez que os
autores e as autoras deste livro as consideram pertinentes aos seus propsitos, elas so
conservadas, trabalhadas, ressignificadas. Alm disso, todos que aqui escrevem
pretendem manter acesa a chama que faz da educao a nica via pela qual uma cultura
se produz, reproduz, significa e ressignifica.
Temos a o primeiro fio condutor que atravessa a obra. Trata-se do entendimento
de que sem a funo educar, a espcie humana desapareceria. Sem a funo ex-
ducre, isso , sem a funo de conduzir (ducre) para fora (ex) o outro, sem o trabalho
trabalhoso de levar de um lugar para outro lugar os recm-chegados as crianas, os
estrangeiros, as novas geraes; o outro, enfim , a cultura, aqui entendida no sentido
mais amplo possvel, desapareceria em uma gerao. E, com ela, desapareceria a
humanidade do humano. Se suspendssemos a educao em toda parte, desapareceria a
prpria Humanidade.

A essas alturas, acho que devo ser mais especfico para justificar por que
entendo que Linguagem, discurso, pesquisa e educao uma obra contracondutual e,
por isso mesmo, situa-se numa posio um tanto outsider em relao volumosa
bibliografia educacional brasileira. Entra em cena, agora, o segundo fio condutor que
encontrei no livro: o entendimento segundo o qual a educao deve ser pensada,
significada e praticada num registro acontecimental no essencialista, no metafsico e,
ao mesmo tempo, no niilista. Os autores e as autoras deste livro evitam cair nas duas
armadilhas dentro das quais hoje esto capturadas as duas parcelas mais numerosas
daquilo que se pode denominar pensamento pedaggico brasileiro: a maior parcela caiu
na armadilha do necessitarismo transcendente; a outra parcela mas que hoje parece
crescer bastante caiu na armadilha do niilismo imobilizador. A contraconduta
manifesta-se tanto no reconhecimento de que os imperativos universais em que se
12

escora o pensamento pedaggico so invenes contingentes e no necessrias6 e,


portanto, no so universais , quanto na rejeio ao niilismo imobilizador.
De uma parte, estes autores e estas autoras evitam cair na armadilha do
essencialismo; no veem sentido na busca daquilo que costumo chamar de uma
realidade realmente real que estaria l fora espera de ser representada pela
linguagem; tambm no veem sentido na busca de uma verdade verdadeiramente
verdadeira sobre a educao e tudo aquilo que a ela diz respeito. Em cada captulo, e
com maior ou menor nfase, so invocadas variadas teorizaes que do as costas s
perspectivas de cunho metafsico.
De outra parte, estes nossos autores e nossas autoras evitam cair na armadilha do
niilismo e de uma forma de derrotismo educacional, hoje crescente nestes tempos de
ps-isso e ps-aquilo. Nem eles nem elas caem nas leituras fceis e enviesadas, nos
modismos rpidos e volteis. Tambm no embarcam nas promessas dos messias de
planto que, a todo momento, inventam novas pedagogias, novos mtodos, novas
tecnologias com as quais e pelas quais prometem salvar a educao e, com isso, salvar
o mundo.
Este livro no navega na superfcie dessas guas. Ele vai por baixo e revolve o
fundo sobre o qual se assentam essas guas...
Quando se afirma a contingncia dos imperativos pedaggicos e de quaisquer
outros imperativos , no se lhes tira o valor e a importncia, mas se reconhece a sua
no universalidade e, em consequncia, a sua contestabilidade e provisoriedade. No
final dessa cadeia no universalidade contestabilidade, situam-se a provisoriedade
e a fragilidade dos imperativos. Tem-se, assim, a seguinte sequncia: no
universalidade contestabilidade provisoriedade fragilidade.
preciso ter claro, ento, que os imperativos (pedaggicos) tomados como
universais, pensados e tidos como universais e transcendentes, so frgeis no porque
sejam fracos (em si) ou estejam errados ou tenham sido mal formulados ou mal
interpretados. Eles so frgeis simplesmente porque tm razes dogmticas e, enquanto
tal, no resistem a uma crtica desconstrucionista e/ou a uma anlise arqueogenealgica
(para citar apenas duas metodologias possveis que temos mo). Os imperativos
(pedaggicos) tomados como universais so frgeis porque no so universais,
transculturais, transcendentes histria e prpria experincia humana.

6
Seria preciso lembrar que a afirmao todo imperativo contingente e no necessrio nada tem a ver
com as afirmaes no necessitamos de um imperativo ou os imperativos so dispensveis.
13

Dizer que tais imperativos so contingentes significa dizer que eles so sempre
espacial e temporalmente determinados. E, sendo assim, eles podem e devem!
sempre ser discutidos, criticados, revistos, reformulados, relativizados, negociados e
renegociados. No se trata de simplesmente neg-los tout court nem de aceit-los tout
court, mas de compreender suas gneses, seus alcances, seus desdobramentos e seus
efeitos. Em outras palavras, trata-se de mant-los sob constante vigilncia crtica, de
modo a, se for o caso, mud-los, alter-los, modul-los ou, no limite, abandon-los.
justamente por a que se abrem tanto o papel crucial da crtica quanto a
possibilidade da ao poltica radical. E, indo um pouco adiante, abre-se tambm a
possibilidade de engendrarmos no apenas novas teorizaes e novas configuraes
para as prticas educacionais, como, tambm, exercitarmos novas maneiras de nos
governarmos a ns mesmos e novas formas de estarmos no mundo. Podemos voltar a
Foucault e seu conceito de anarqueologia, para compreendermos melhor e mais
refinadamente o quo potente o entendimento do carter contingente e,
simetricamente, no dogmtico dos imperativos pedaggicos. Vejamos isso um pouco
mais de perto.
Como explica Avelino (2011, p. 33), Foucault introduziu a noo de
anarqueologia entendida como postura metodolgica e atitude filosfica de
transgresso diante do poder da verdade. A anarqueologia uma atitude e uma postura
intelectual que inverte a posio tradicional da filosofia em relao verdade. Mais
adiante, ele continua: a postura anarqueolgica consiste na inverso da posio clssica
da filosofia. preciso no mais partir da ligao voluntria com a verdade, mas colocar
como problema inicial o questionamento do poder (AVELINO, 2011, p. 33). Assim,
assumido o carter contingente dos imperativos pedaggicos e invertida a posio
clssica da filosofia, abrem-se as portas para nos livrarmos das verdades apriorsticas e
estarmos livres para questionarmos e nos colocarmos contra os efeitos de poder de um
discurso que considerado cientfico (FOUCAULT, 1980, p. 90). Mas no se pense
que tudo isso diz respeito apenas ao governamento de uns sobre os outros; diz respeito,
tambm e a est a potncia da coisa toda , ao governamento que cada um exerce
sobre si mesmo. Em termos foucaultianos, ento, nesse cruzamento entre o eixo do
coletivo (populao) com o eixo do individual (sujeito) que se situa a
governamentalidade. Para operar mudanas nesse ponto de interseco preciso
despedir-se definitivamente da transcendentalidade e universalidade dos imperativos
14

pedaggicos e assumir radicalmente o seu carter contingencial, assumir o


acontecimento como um a priori (histrico).

Este livro pode ser lido, ento, como um artefato blico que tanto nos afasta das
armadilhas do necessitarismo transcendente quanto do niilismo imobilizador. Ele
funciona como um depsito de munio, capaz de alimentar nossas armas para pensar
de outros modos a educao, seja em termos das prticas escolares e no escolares, seja
em termos das polticas e pesquisas educacionais. Este Linguagem, discurso, pesquisa e
educao nos mostra que sempre pode haver algo de novo debaixo do sol, algo que
no uma representao exata do que j ali estava (RORTY, 1988, p. 286). da que
vem a fora para continuarmos mobilizados e animados para pensar outramente
(TOURAINE, 2009).
Reitero: esse duplo movimento de negao ao niilismo e, ao mesmo tempo,
reconhecimento que no se pode continuar acreditando nos mitos bblicos e
neoplatnicos que fundaram, alimentaram e ainda alimentam a Pedagogia7 como o
caso do representacionismo, do realismo e do fundacionismo , que fazem deste livro
uma arma para nossas lutas contracondutuais. Aqui vale uma observao pessoal:
sempre me espanto com aqueles que, sem mais nem menos, colocam o essencialismo
como antittico do niilismo... como se a falta de uma essncia e a negativa a uma
fundamentao ltima nos levassem necessariamente no existncia, ao nada, ao
aniquilamento e impossibilidade da prpria vida. Este livro est muito longe de cair
nesse tipo de binarismo grosseiro. Tambm por isso, vejo nele uma contribuio
relevante e necessria nossa bibliografia educacional. Sendo assim, fao votos de que
todas as pessoas que se envolveram em sua produo no parem por aqui. Recorrendo
s palavras das organizadoras, fao votos de que continuem, paradoxal e coletivamente,
a criar efeitos sem causa.

Referncias

AVELINO, Nildo. Foucault e a anarqueologia dos sabers. In: FOUCAULT, Michel. Do


governo dos vivos (excertos). So Paulo, Rio de Janeiro: Achiam, 2011, p. 17-37.

7
Para mais detalhes sobre a genealogia da Pedagogia, vide Narodowski (2001) e Veiga-Neto
(2004).
15

FOUCAULT, Michel. Segurana, territrio, populao. So Paulo: Martins Fontes, 2008.


______. Two lectures. In: GORDON, Colin (org.). Power/Knowledge: selected Interviews and
Other Writings 1972-1977. New York: Random House, 1980, p. 79-95.
NARODOWSKI, Mariano. Comenius e a Educao. Belo Horizonte: Autntica, 2001.
RORTY, Richard. A Filosofia e o espelho da natureza. Lisboa: D. Quixote, 1988.
TOURAINE, Alain. Pensar outramente. Petrpolis: Vozes, 2009.
VEIGA-NETO, Alfredo. Algumas razes da Pedagogia moderna. In: ZORZO, Cacilda; SILVA,
Lauraci D. & POLENZ, Tamara (orgs.). Pedagogia em conexo. Canoas: ULBRA, 2004. p. 65-
83.
16
17

Com outros campos


18

Corpus, Lingustica Computacional e as Humanidades Digitais8

Cludia Freitas

1 Introduo

Boa parte da pesquisa nas Cincias Humanas e Sociais toma por base a
linguagem, sobretudo a escrita, na forma de documentos textos institucionais,
relatrios, material didtico, discursos, entrevistas e artigos ou peas ficcionais, por
exemplo. Considerando a crescente facilidade de acesso a textos de diferentes naturezas
e a materialidade especfica do texto digital, por um lado, e as limitaes humanas para
analisar de maneira consistente e confivel grandes volumes de dados textuais, por
outro, razovel supor que computadores sejam aliados valiosos, propiciando novas
maneiras de leitura e auxiliando o pesquisador na percepo e anlise de padres cuja
identificao seria difcil (se que possvel) por meio de uma leitura convencional.
Corpus o nome atribudo s grandes colees de documentos de textos,
compiladas segundo algum objetivo e, atualmente, processveis por mquinas.
Originalmente vinculado explorao de fenmenos lingusticos, o escopo de
interessados em pesquisas com base em corpus tem crescido em quantidade e
diversidade: ao lado das pesquisas lingusticas, vem se ampliando o papel do corpus no
auxlio resoluo de tarefas da Lingustica Computacional (LC)/Processamento de
Linguagem Natural9 (PLN)10, e mais recentemente, comeam a surgir estudos com base
em grandes corpora para a investigao de prticas discursivas/culturais/sociais. A cada
um desses usos podem se articular diferentes abordagens, e para cada um deles h
recursos e ferramentas mais adequados.
Neste artigo, minha inteno apresentar e discutir como a explorao
automtica de grandes colees de documentos pode ser um recurso adicional para
pesquisadores das reas de Cincias Humanas e Sociais (CHS). No meu propsito
oferecer uma introduo detalhada ao trabalho com corpus, considerando a farta
literatura disponvel (SINCLAIR, 1991; BIBER et al., 1998; WYNNE, 2005;
OKEEFFE & MCCARTHY, 2012; SANTOS, 2008; SARDINHA, 2004), mas, antes,
8
Agradeo professora Miriam Leite pelas valiosas sugestes que, espero, tenham deixado o texto
interessante para leitores cuja formao no em Letras.
9
O termo natural presente em Processamento de Linguagem Natural remete oposio artificialidade
de linguagens de mquina, como Java, Python, Pascal, entre outras.
10
Usarei os termos Lingustica Computacional, Processamento automtico da Linguagem e
Processamento de Linguagem Natural (PLN) como sinnimos.
19

iniciar um dilogo com os diversos campos do saber que tm uma parcela considervel
de suas prticas dependente da anlise de textos (ou discursos) em especial, iniciar
dilogos com o campo educacional, enfatizando as potencialidades do corpus, sobretudo
quando anotado. Tentarei ilustrar alguns pontos com exemplos do que possvel, hoje,
com relao lngua portuguesa. Assumo, assim, o risco de produzir um texto que
esteja datado em pouco tempo, dada a velocidade com que os avanos se sucedem
quando o tema tecnologia. Mas os exemplos registram o que era possvel e o que era
esperado realizar.

2 Corpus: dos estudos lingusticos s Cincias Humanas e Sociais e s


Humanidades Digitais

Um corpus uma coleo de textos, compilada segundo uma finalidade. Embora


o trabalho com corpus esteja associado pesquisa lingustica, os primeiros relatos, na
tradio ocidental, relativos explorao de textos por meio de concordncias datam do
sc. XIII e remetem a estudos bblicos e, posteriormente, a estudos literrios. Nesse
contexto, uma concordncia era uma lista, preparada manualmente, que continha as
palavras encontradas em um texto (ou colees de textos), associadas sua localizao
precisa (indicao do livro, captulo, linha, verso, etc.).
Segundo McCarthy & OKeeffe (2012), a primeira obra com concordncias
Concordantiae Morales tinha como corpus a Vulgate (verso em latim da Bblia,
sculo V). mesma poca, um trabalho mais bem documentado foi realizado pelo
Cardeal Hugo de St. Caro, que, em 1230, auxiliado por uma equipe de 500 monges,
tambm indexou a Vulgate. Desde ento, foram criadas outras concordncias da Bblia,
e STUBBS (2007) relata a publicao, em 1737, de A Complete Concordance to the
Holy Scriptures, que apresentava cada palavra-alvo em um contexto de 8 a 10 palavras,
eventualmente listando em separado as ocorrncias recorrentes, como a palavra
darkness associada frequentemente s palavras light ou night, e padres como land of
darkness e out of darkness.
A utilidade das concordncias vinha no apenas da necessidade de indexar
palavras e associ-las s passagens em que apareciam, mas tambm da crena de que as
vrias partes da Bblia seriam consistentes entre si, como partes de uma revelao
divina, e que portanto poderiam ser combinadas como elementos harmoniosos em um
nico sistema de verdade espiritual. Para os estudos de Literatura, as indexaes
20

promovidas pelas concordncias possibilitavam, tambm, uma leitura mais ampliada


das obras literrias (MCCARTHY & OKEEFFE, 2012; TRIBBLE, 2012).
Considerando o imenso esforo envolvido na sua elaborao (e vale lembrar que
o trabalho de 500 monges hoje feito por computadores em segundos), tais obras foram
criadas apenas para textos culturalmente valiosos, como verses da Bblia ou a obra de
Shakespeare, objeto de A Concordance to Shakespeare, feita por Samuel Becket em
1787 (TRIBBLE, 2012).
Enquanto recurso para o estudo sistemtico de uma lngua, o incio das pesquisas
com corpora extensos costuma ser vinculado ao projeto SEU (Survey of English Use),
em 1959, desenvolvido por Randolph Quirk e uma vasta equipe de linguistas. O projeto
abarcava 1 milho de palavras distribudas em fichas de papel, organizadas quanto a
aspectos gramaticais e prosdicos. O primeiro corpus eletrnico, o Brown Corpus, foi
produzido em 1961, nos Estados Unidos, com 1 milho de palavras. Com relao
lngua portuguesa, durante a dcada de 1960 em Portugal teve incio a compilao de
corpus no mbito do projeto Portugus Fundamental (BACELAR DO NASCIMENTO
et al., 1984, 1987, apud SANTOS, 2011). No Brasil, o projeto Nurc (Norma Urbana
Culta), iniciado em 1969, teve como objetivo documentar e estudar a norma culta falada
em 5 grandes capitais Recife, Salvador, Rio de Janeiro, So Paulo e Porto Alegre),
produzindo diferentes corpora orais (CALLOU, 1999).
A forte crtica chomskyana lngua em uso como foco dos estudos lingusticos,
no entanto, fez com que as pesquisas com corpus tivessem influncia modesta na
lingustica durante um bom tempo11. Adicionalmente, salientava-se que a anlise
manual de corpora gigantescos no era confivel. Nos anos 1980, o desenvolvimento e
popularizao dos computadores pessoais tornou possvel armazenar e processar
grandes volumes de texto, vistos como grandes bancos de dados da linguagem.
Consequentemente, viabilizou-se a anlise de padres da lngua, e a utilizao de corpus
para estudos lingusticos foi retomada de maneira intensa. Na dcada de 1990, a
disseminao da internet, facilitando o acesso a textos produzidos, disponibilizados e
digitalizados, resultou em um salto exponencial no volume de trabalhos com corpus,

11
Segundo a escola gerativa chomskyana, o linguista deve tentar modelar a competncia (o conhecimento
lingustico internalizado), e no o seu desempenho (a lngua efetivamente usada). Com isso, o corpus,
exemplo da lngua em uso, perde a fora como fonte de evidncia para a investigao lingustica.
Beaugrande (2002), Rajagopalan (2007) e Sampson (2001) discutem a presena tardia do corpus nos
estudos lingusticos.
21

levando alguns autores a utilizar o termo Revoluo do Corpus12. Desde ento, e cada
vez mais, corpus no apenas uma coleo de textos compilada com algum objetivo,
mas uma coleo de textos em formato eletrnico e de dimenso considervel
(considervel a ponto de a anlise manual ser invivel, e a anlise automtica
imprescindvel)13.
Neste contexto, um desdobramento previsvel a necessidade e o consequente
desenvolvimento de ferramentas desenhadas especialmente para auxiliar o
pesquisador a lidar de maneira sistemtica e consistente com os seus dados, isto , de
programas que ajudem a pesquisa com/sobre a linguagem.
Os estudos iniciais com corpora eletrnicos subordinavam-se inicialmente a
interesses lexicogrficos, como a produo de listas de palavras associadas a suas
frequncias de uso, e a identificao de padres (combinaes mais frequentes)14.
Na linguagem, a disseminao dos trabalhos com corpus levou tambm a
diferentes apropriaes e discusses, que envolvem, em maior ou menor grau, desde a
nomenclatura Corpus Linguistics (e a sua traduo para o portugus), at as diferentes
abordagens com relao ao corpus (corpus-driven ou corpus-based), passando pelo
prprio status como rea de pesquisa ou metodologia.
Os desenvolvimentos e a ampliao de corpus tm reforado, no entanto, a
posio de corpus como um instrumento para a investigao da/sobre a linguagem,
como bem exemplifica Santos (2008):
O meu ponto de partida o de que um corpo no o objecto de estudo
do que em ingls se chama corpus linguistics, mas sim a ferramenta, o
utenslio com que se faz lingustica, por isso a minha denominao
lingustica com corpos [...]

Na minha opinio, isto o mesmo que dizer que os cadveres em


medicina, ou os ratos de laboratrio, em farmcia, so o objeto de
estudo destas disciplinas. No, eles so formas de estudar o corpo
humano e o metabolismo, mas nunca o objeto de estudo.

12
Para uma viso alternativa do impacto do corpus nesse perodo, que reconhece o carter de mudana
sem, no entanto, entrar no vis poltico presente no termo revoluo, ver Rajagopalan (2007).
13
Sobre trabalhos iniciais com corpus e suas possibilidades para o estudo da linguagem, sugiro BIBER et
al. 1998, MCENERY, 2001; LEECH, 2011; SAMPSON, 2001; BAKER, 2009; SINCLAIR, 1991;
STUBBS, 2007.
14
Alguns exemplos da ideia de combinaes frequentes e padres de uso: dizemos caf forte, mas no
caf poderoso, ainda que forte e poderoso possam ser sinnimos em diversos contextos; o verbo causar
est muito mais frequentemente associado a complementos negativos (causar danos, acidentes, morte,
doenas) do que positivos (causar esperana, alegria, conforto), ainda que no exista nenhuma regra
determinando a escolha de um ou outro tipo de complemento.
22

Por isso, e feito este esclarecimento, vejamos um corpo (que um


objeto finito e concreto) como um utenslio para estudar a lngua (ou
literatura ou cultura). (SANTOS, 2008, p. 46-47).

Ainda quanto nomenclatura, Taylor (2008, apud GRIES, 2012) relata que Jan
Aarts, responsvel por cunhar o termo corpus linguistics, certa vez comentou ter
hesitado quanto criao do termo, considerado pouco adequado devido estranheza de
se nomear uma disciplina pelo nome de sua principal ferramenta de pesquisa e fonte de
dados.
As diferentes maneiras de relacionar corpus e teorias ou, diferentes maneiras
de situar o corpus na pesquisa podem ser classificadas como abordagens corpus-
driven (ou guiada por corpus) ou abordagens corpus-based (baseada em corpus). Ainda
que para boa parte dos trabalhos mais recentes sobre corpus a discusso (e distino)
corpus-driven/corpus-based venha se diluindo (ARCHER, 2012), ela sintetiza no
apenas diferentes maneiras de relacionar corpus e linguagem, mas tambm diferentes
opes epistemolgicas que merecem ateno, sobretudo quando se trata da apropriao
desses termos/abordagens por outras reas do conhecimento.
Uma maneira de situar a discusso reconhecer que a relao entre teoria
lingustica e dados para anlise sempre foi conturbada (BEAUGRANDE, 2002; XIAO,
2009). Desde o estruturalismo saussuriano, a lingustica moderna, na delimitao dos
limites do seu objeto, caracteriza-se por uma rejeio da variabilidade individual e pelo
descarte do que contingente, privilegiando, como fonte de dados, enunciados
produzidos por meio da introspeco (SAMPSON, 2001; BEAUGRANDE, 2002).
Quando, a partir dos anos 1990, grandes corpora eletrnicos comeam a
participar sistematicamente da prtica lingustica, tem- se um contexto propcio para pr
em xeque os modelos tericos vigentes uma vez que estes teriam sido construdos a
partir de dados pouco confiveis e, considerando a linguagem como um sistema
probabilstico, para estudar de maneira sistemtica fenmenos que tm relao direta
com a frequncia, como a identificao de padres lexicais e a preferncia por certas
combinaes de palavras.
Nesse contexto toma corpo boa parte do que se entende por uma abordagem
corpus-driven: uma vez que as teorias de linguagem vigentes so inadequadas, a
explorao sistemtica de dados reais da lngua em uso, por si s, seria capaz de
construir novos modelos tericos, com novas categorias de anlise. Por isso, em
trabalhos cuja abordagem corpus-driven, comum a referncia a dados ou fenmenos
23

que emergem do corpus. Enfatiza-se a obteno desinteressada de dados e a


imparcialidade (ou distanciamento) do investigador, que pouco faz alm de relatar
dados ou que, a partir da observao desinteressada, ir construir suas hipteses e
generalizaes. A tecnologia ferramentas associadas explorao do corpus e a
utilizao de pacotes estatsticos um instrumento utilizado em favor desse
distanciamento/neutralidade com relao aos dados, capaz de favorecer a objetividade
das anlises. O trecho abaixo, ainda que no seja direcionado ao trabalho com corpora
eletrnicos, ilustra esta posio:
Passemos lingustica. Parece-nos evidente que tudo o que foi dito
cientista [...] se aplica ao linguista em particular, verdadeiro
manipulador de dados empricos, cuja inquestionabilidade se v
reforada hoje pelo uso da estatstica e do computador, instrumentos
cientficos por excelncia que garantem o pleno controle dos
dados. (CORACINI, 1992, p. 21).

Quando refora a confiana no corpus ou nos dados que esto no corpus espera
de serem capturados, isto , ao transferir a fonte dos dados do sujeito-pesquisador (que
a origem das intuies/introspeces) para o corpus, a perspectiva corpus-driven
assume a existncia de uma entidade significado autnoma, estvel, independente de
um sujeito, da histria ou de circunstncias de leitura, localizada no texto e pronta para
ser revelada por meio das ferramentas adequadas.
J a abordagem corpus-based v o corpus como um auxiliar do pesquisador que
deseja investigar hipteses prvias, com base em modelos tericos preexistentes. Ou
seja, o corpus serve como fonte de exemplos ou como fonte de dados capazes de
validar, refutar ou especificar uma dada teoria.
Considerando os estudos da linguagem, portanto, nem todo trabalho feito com
corpus precisa se alinhar concepo de linguagem como um sistema probabilstico.
Projetos como FrameNet15 e sua contraparte brasileira, FrameNet-Brasil16(SALOMO,
2009), associam-se a abordagens cognitivistas, o projeto C-ORAL-BRASIL17 (RASO &
MELLO, 2012), criado para oferecer subsdios ao estudo da fala espontnea, tem como
arcabouo terico a Teoria da Lngua em Ato e, desde Freitas (2007), o trabalho que
venho realizando com corpus e lingustica computacional se inspira sobretudo no
ngulo no representacionista fornecido por Wittgenstein (1953). Hoje, o uso de corpora
est presente em diversos campos que tematizam a linguagem, como os estudos da

15
<http://framenet.icsi.berkeley.edu>.
16
<http://www.ufjf.br/framenetbr>.
17
<http://www.c-oral-brasil.org>.
24

traduo, anlise crtica do discurso, descrio de lngua materna, alm do ensino de


lngua (sobretudo estrangeira), e da lexicografia, presentes desde os perodos iniciais, o
que refora os argumentos de Santos (2008) relativos a uma viso abrangente de
lingustica com corpus.
Em um sentido amplo, em perspectivas corpus-based so as hipteses, ou
questes de pesquisa, que direcionam a observao, que por sua vez podem dar novos
contornos s hipteses e questes, em um processo dialgico. Frequentemente, a
utilizao da tecnologia tambm vista como garantia de neutralidade e objetividade,
indicando que a polarizao no to clara quanto pode parecer.
So diversas as possibilidades de trabalhos com corpus, e medida que
diferentes campos do saber se apropriam dos recursos e das ferramentas, novas
metodologias podem surgir, e o mesmo acontece quando as tecnologias tambm vo se
desenvolvendo e nos permitindo novas experimentaes.
Com a crescente digitalizao de acervos, facilidade no acesso a documentos
eletrnicos e convergncia das prticas humanas para o meio digital, o corpus tem
tomado posio de destaque tambm nas CHS, e hoje j h uma srie de trabalhos com
corpus que tematizam os discursos da mdia e discursos polticos, por exemplo
OHALLORAN, 2012, DEL, 2012, e CARDIE & WILKERSON, 2008. No campo da
Educao, Romo (2014) utiliza corpora composto por materiais didticos da rede
pblica do Rio de Janeiro apostilas de Cincias e de Matemtica com o objetivo de
investigar representaes dos modos do feminino em contextos pedaggicos.
Considerando-se o inegvel papel constitutivo da linguagem na cultura (HALL, 1997),
o corpus se apresenta como uma amostra de linguagem; um espao delimitado em que
prticas discursivas esto relativamente fixadas. Nessa direo, os trabalhos com corpus
tambm vm comparecendo nas Humanidades Digitais (Digital Humanities), campo
interdisciplinar cuja atuao vem desde a dcada de 1990, ainda que no exatamente sob
o rtulo de Humanidades Digitais (HD) (KIRSCHENBAUN, 2010). Segundo o
Manifesto das Humanidades Digitais18:
2. Para ns, as digital humanities referem-se ao conjunto das Cincias
humanas e sociais, s Artes e s Letras. As humanidades digitais no
negam o passado, apoiam-se, pelo contrrio, no conjunto dos
paradigmas, savoir-faire e conhecimentos prprios dessas disciplinas,
mobilizando simultaneamente os instrumentos e as perspectivas
singulares do mundo digital.

18
<http://humanidadesdigitais.org/manifesto-das-humanidades-digitais>.
25

3. As digital humanities designam uma transdisciplina, portadora dos


mtodos, dos dispositivos e das perspectivas heursticas ligadas ao
digital no domnio das Cincias humanas e sociais.

De maneira geral, as HD objetivam tornar acessvel para a pesquisa e


cidadania uma grande quantidade de informao cuja leitura na ntegra jamais seria
possvel por um indivduo ao longo da vida. Por exemplo, ao explorar um corpus de 197
mil transcries de julgamentos realizados pela corte de Londres, como parte do projeto
Data Mining with Criminal Intent, descobriu-se, por meio da explorao de palavras
como veneno/envenenamento, que eram frequentes as coocorrncias com bebeu e caf
sugerindo que o caf era a forma preferida para o envenenamento entre os sculos XVII
e XIX em Londres (WILLIFORD & HENRY, 2012).
O projeto Data Mining with Criminal Intent fez parte do desafio Digging into
Data (DID)19 (algo como Cavando fundo nos Dados), cuja primeira edio aconteceu
em 2009. Iniciativas como esta pem em pauta mtodos, benefcios e riscos relativos
pesquisa em acervos gigantes. Definido pelos organizadores como uma competio
para desenvolver novos insights, ferramentas e habilidades na pesquisa inovadora em
cincias sociais e humanidades usando anlise de dados em grande escala, o desafio
que j teve 3 edies abrange qualquer tipo de contedo digital utilizado por
pesquisadores nas cincias sociais e humanidades, e tem como um dos objetivos o
estabelecimento de metodologias para a anlise de grandes quantidades de contedo,
textuais e no textuais (udio, imagem, audiovisual). Dentre as propostas financiadas na
edio de 2009, todas interdisciplinares, metade envolve, diretamente, a explorao de
textos corpora (WILLIFORD & HENRY, 2012).
No campo da poltica, o surgimento de iniciativas como e-Governo20, ou e-
democracia21, vinculados s leis de transparncia, tm como foco a utilizao de
tecnologias para democratizar o acesso informao, ajudando os governos a se
tornarem mais acessveis para os cidados. Adicionalmente, a digitalizao e
disponibilizao de debates e discursos polticos e a proliferao de mdias online tm
inclusive alterado a dinmica das campanhas polticas.
Nesse contexto, no surpreende o aparecimento de oportunidades inditas tanto
para a (re)investigao de questes tradicionais quanto para a formulao de novas
questes de pesquisa.

19
<http://diggingintodata.org>.
20
<http://www.governoeletronico.gov.br>.
21
<http://www.edemocracia.camara.gov.br>.
26

2.1 Corpus: algumas consideraes sobre quantidade e qualidade

Os cuidados necessrios criao de um corpus so tratados em Sinclair (1991),


Biber et al. (1998) e Wynne (2005). Destaco apenas que um bom corpus um corpus
adequado para a investigao que motivou a sua elaborao e, sobretudo, um bom
corpus um corpus documentado.
Com relao adequao, um corpus sempre compilado segundo certos
interesses, e so esses interesses que guiaro a escolha dos textos. Se o interesse est em
investigar a participao e representao da infncia em polticas pblicas, um corpus
com documentos oficiais e programas de governo pode ser adequado. Boa parte do
sucesso da investigao est no levantamento criterioso do material que compor o
corpus.
Para que seja capaz de sustentar afirmaes sobre um dado fenmeno da lngua,
comum a referncia representatividade: um corpus deve ser uma amostra
representativa daquilo que se pretende estudar. Do ponto de vista dos estudos
lingusticos, mas no s, a representatividade sempre ser uma questo: como
determinar a representatividade de uma amostra a cujo todo no temos acesso? Em
outras palavras: o que seria uma amostra representativa da linguagem, ou da lngua
portuguesa? O que seria uma amostra representativa da empiria focalizada pela pesquisa
nas CHS? No entanto, ainda que utpica, no se deve abdicar da busca por uma amostra
representativa, da mesma maneira que o reconhecimento do mito da neutralidade no
exime o jornalista de apurar os vrios lados de uma questo.
A ideia de comparao, subjacente utilizao dos corpora representativos, ou
de referncia, fundamental para uma compreenso mais ampla dos prprios
resultados obtidos com o corpus. Ou seja, ideia de representatividade pode ser
sobreposta a de contraste, de comparao com outros materiais, de diferentes
caractersticas. O ponto crucial est em perceber que anlises so mais ricas quando
confrontadas com contextos diferentes: a alteridade sempre uma aliada na percepo
das dimenses do nosso objeto22.
Em resumo, na utilizao de corpus, importante estar ciente de que (i) os dados
obtidos referem-se sempre ao contedo do corpus, e o corpus uma parcela de algo; (ii)
22
Em um exemplo lingustico, quando tomamos um corpus de textos jornalsticos como base de
exploraes, como o NILC/So Carlos (PINHEIRO & ALUSIO, 2003), para citar um corpus bastante
utilizado para a lngua portuguesa, importante lembrar que estamos diante de texto escrito, jornalstico,
variante padro, regio sudeste, dentre outras caractersticas relevantes. O que no diminui o seu valor,
apenas nos recorda que ele no pode ser tomado pelo que no uma amostra representativa da lngua.
27

para todo dado, h sempre uma interpretao humana; (iii) essa interpretao deve ser
capaz de confrontar mesmo os dados do prprio corpus o questionamento do corpus
tambm deve fazer parte da pesquisa. Um exemplo da desconfiana com relao aos
dados est em Santos et al. (2011), quando investigvamos a distribuio gramatical de
palavras do lxico das cores nas variantes brasileira e portuguesa do Portugus. Em
ambas as variantes, encontramos a mesma frequncia de verbos de cores (azular,
enegrecer, avermelhar etc.), e o mesmo acontecia com relao aos substantivos. Os
adjetivos de cores, no entanto, apareciam com menor frequncia no Brasil, sugerindo
que no Brasil fazamos menos uso de adjetivos coloridos que em Portugal. Tal
concluso, considerando a uniformidade das palavras de cor pelas outras classes de
palavras, no fazia sentido. Depois de muitas hipteses, descobrimos que o material
brasileiro que compunha o corpus tinha uma natureza diferente do material portugus:
embora em ambos houvesse jornais e revistas de moda, as revistas de moda brasileiras
continham muitos moldes de roupa (para ensinar a costurar), diferentemente das revistas
portuguesas. Com isso, o material brasileiro continha menos adjetivos coloridos, em
uma explicao nada lingustica.
O relato das cores remete a um ponto fundamental da pesquisa com corpus: a
documentao. Um bom corpus, do ponto de vista de quem o constri e do ponto de
vista de quem o utiliza, um corpus bem documentado. A documentao possibilita (i)
avaliao relativa adequao do material s questes de pesquisa e a consequente
reutilizao do material, e (ii) interpretao consistente dos resultados. A documentao
deve incluir informaes quantitativas como o nmero de palavras; informaes
relativas provenincia do material compilado (datas de acesso e ou de criao; sites ou
locais de onde os textos foram retirados); critrios de seleo da amostra; tipo de texto;
registro; e pode conter ainda informao relacionada autoria dos textos, ao gnero dos
autores, e todas as informaes que os criadores do corpus considerarem relevantes. Em
um corpus composto por textos de blogs, por exemplo, relevante informar sobre a
incluso ou no dos comentrios (alm da postagem principal) e, em caso afirmativo, de
que maneira est marcada a diferenciao formal entre essas partes do texto23. A
explicitao de tais informaes possibilita um melhor entendimento dos resultados,
tornando mais fcil a comparao com outros corpora, por exemplo. Se toda essa

23
Considerando ainda que os corpora devem, na medida do possvel, ser armazenados em um formato de
texto simples (arquivos do tipo .txt), importante tambm documentar o tratamento dado a elementos
como notas de rodap, ttulos e links.
28

informao estiver includa no corpus, a documentao deve indicar tambm como ela
est codificada, e como encontr-la. Por exemplo: podemos, na documentao, indicar
que o corpus contm os artigos A e B, dos autores Aa e Bb, mas, nos textos do
corpus, essa informao no est disponvel. Podemos, no entanto, incluir no corpus os
atributos <ttulo> e <autoria>, e antes de cada texto os atributos so preenchidos com os
valores devidos. Nesse caso, a documentao tambm dever conter essas informaes.
Por fim, e como j sugerido diversas vezes ao longo do texto, no h como
desvincular a explorao de corpus do uso de ferramentas. Como aponta Anthony
(2013), tudo o que conseguimos com um corpus , em larga medida, determinado por
aquilo que as ferramentas nos permitem fazer. So elas que possibilitam perceber
padres que seriam de difcil observao em uma leitura caso a caso; que ensejam uma
primeira explorao, sobretudo em termos de frequncia, de fenmenos que podero,
em seguida, ser investigados mais verticalmente. S temos acesso aos dados do corpus
por meio da lente das ferramentas, e obviamente o que vemos pode se alterar em funo
da perspectiva, em funo do tipo de lente.
Ferramentas como o Corpgrafo (MAIA et al., 2005), AntConc (ANTHONY,
2012) ou WordSmith (SCOTT, 2012) as duas primeiras, gratuitas oferecem ao
pesquisador informao relativa frequncia de palavras e combinaes de palavras e
aos seus contextos de uso. Na figura 1, obtida com o Corpgrafo, temos a informao
das palavras mais frequentes em um pequeno corpus composto por 12 discursos de
posse presidenciais, quatro do perodo ditatorial e oito do perodo democrtico24.
Algumas pistas podem ser investigadas a partir desse material: a alta ocorrncia dos
pronomes nosso e ns indicaria aproximao entre interlocutores; dentre as palavras
lexicais (isto , excetuando-se preposies, artigos, pronomes, conjunes), a palavra
mais frequente pas, seguida de Brasil e de educao, o que sugere, ao menos no
mbito do discurso, a relevncia atribuda ao tema. As ferramentas permitem ainda a
deteco de combinaes de palavras mais frequentes (chamadas n-gramas) e a
visualizao de palavras ou combinaes em contexto, no que se chama visualizao de
concordncias. A figura 2 apresenta as frases (linhas de concordncia) com a palavra

24
Agradeo Camila Sobrinho a compilao do corpus, realizada no mbito de disciplina da ps-
graduao da PUC-Rio.
29

educao, cuja anlise pode servir como um espao exploratrio para o refinamento de
hipteses, que sero depois verificadas, com a ajuda do corpus ou no25.

3 Corpora anotados

At aqui, tratei de corpus como vastas colees de textos, coletadas segundo


uma finalidade, em formato eletrnico. Um corpus com essas caractersticas pode ser
chamado tambm de corpus cru, em contraste aos corpora anotados, hoje considerados
um passo adiante na pesquisa com corpus. Tais corpora, alm do texto propriamente,
contm informao lingustica associada. Essa informao adicionada recebe o nome de
anotao.
Anotar delimitar um segmento de texto e atribuir-lhe uma etiqueta (ou
conjunto de etiquetas). Estas etiquetas podem ser de natureza variada, e a figura 3 ilustra
a frase Colocava um bon na cabea com diversos tipos de anotao: anotao de
lema26, de classe gramatical27 e de classe semntica (disponvel apenas para as palavras
bon e cabea), respectivamente. Um corpus pode tambm ser anotado com informao
sinttica, quando so includas categorias como sujeito, complemento (ou objeto),
modificador (ou adjunto). A anotao semntica tem um escopo amplo: podem ser alvo
de anotao palavras ou expresses que indicam emoes (medo; carinhoso; espanto;
adorar), palavras de polaridade positiva (amar, maravilhoso) ou negativa (odiar;
pssimo), classes semnticas de nomes prprios28 como pessoas, lugares, instituies ou
datas, por exemplo.

25
As possibilidades de explorao dessa e das demais ferramentas esto longe de serem esgotadas aqui.
As pginas e tutoriais de cada uma delas so uma tima maneira de familiarizao.
26
Um lema corresponde forma de dicionrio de uma palavra: o lema professor engloba professor e
professores; cantei, cantou, cantamos e cantar tm todas o lema cantar. A utilizao de um
programa lematizador, portanto, propicia uma economia na busca (e na recuperao de dados), na medida
em que unifica as diferentes formas de uma palavra.
27
A anotao gramatical chamada de PoS (do ingls Part of Speech), e refere-se incluso de
informao relativa classe de palavras (substantivo, adjetivo, verbo, preposio etc.).
28
Considerando a sua vasta ocorrncia na lngua, a identificao de nomes prprios (tambm chamados
de entidades mencionadas) mais um aspecto relevante a ser considerado nas anlises. Segundo Archer
(2012), este tipo de categorizao tem sido amplamente utilizado nas Cincias Humanas e Sociais,
sobretudo por historiadores, socilogos e analistas de mdia.
30

Figura 1: Distribuio das palavras por frequncia usando o Corpgrafo.

Figura 2: Linhas de concordncia para a palavra educao no Corpgrafo.

A anotao discursiva/pragmtica refere-se incluso de informao relativa a


atos de fala, relaes retricas entre frases ou pargrafos, indicao de modalidade e
posicionamento, por exemplo.
31

Figura 3: Anotao da frase Colocava um bon na cabea.

Uma agncia de governo que receba milhares de comentrios online sobre uma
proposta de lei precisa organizar e categorizar essa informao de maneira til. Do
mesmo modo, um pesquisador interessado nas coberturas de campanhas polticas na
mdia precisa analisar e organizar as informaes de maneira a verificar suas questes
de pesquisa. Neste ponto, a associao com as ferramentas da Lingustica
Computacional vem sendo amplamente utilizada, como ilustra o nmero especial de
2008 da revista Journal of Information Technology & Politics, dedicado exclusivamente
anotao de textos para a Cincia Poltica (CARDIE & WILKERSON, 2008).
Um desafio central na explorao de grandes acervos organizar e classificar os
dados de modo que o pesquisador possa utiliz-los da melhor maneira possvel e
isso o que a anotao capaz de oferecer.
Atualmente, para a lngua portuguesa, j temos alguns sistemas ou servios
capazes de realizar anotaes gramaticais, sintticas e de NER, por exemplo29. Em DE
PAIVA et al. (2014), os autores exploram o contedo do Dicionrio Histrico
Biogrfico Brasileiro (DHBB) se aproveitando da anotao de entidades mencionadas e
de outras ferramentas e recursos da LC/PLN.
A anotao pode ser feita de diferentes maneiras, que variam conforme o volume
de trabalho humano envolvido: totalmente manual, semiautomtica ou automtica
A anotao manual, por envolver um trabalho mais moroso, costuma ser usada
em corpora de dimenses modestas. Alguns exemplos envolvem as anotaes de cunho
semntico-discursivo-pragmtico listadas acima, mas praticamente no h limites
quanto ao tipo de informao que se pode adicionar a um corpus. Em outras palavras,
boa parte das questes de pesquisa pode ser modelada como um esquema de anotao
como um esquema de classificao.

3.1 A pesquisa com o corpus anotado

Assim como o corpus cru permite a visualizao das linhas de concordncia, um


corpus anotado oferece ainda outra maneira de observar o contedo de um (ou vrios)
29
As pginas dos projetos FreeLing <http://nlp.lsi.upc.edu/freeling> e Linguateca
<http://www.linguateca.pt> listam algumas ferramentas disponveis para a lngua portuguesa.
32

texto(s), indo alm da frequncia das palavras e seus contextos: com a anotao, o
resultado das buscas pode ser apresentado sob a forma de listas de distribuio.
Para ilustrar as possibilidades de pesquisa de um corpus anotado, exploro,
superficialmente, a forma pela qual conceituamos conhecimento, tomando por base o
corpus CHAVE (ROCHA e SANTOS, 2007), um corpus de textos jornalsticos,
composto pelos textos completos do jornal brasileiro Folha de So Paulo e do jornal
portugus Pblico, dos anos de 1994 e 1995. O objetivo deste breve exerccio apenas
apontar caminhos possveis na utilizao de corpus anotado; o foco no est na anlise,
mas antes nas possibilidades de abordagem, no tipo de perguntas que se pode fazer
quando se dispe de um corpus anotado neste caso especfico, um corpus com
anotao morfossinttica.
O corpus CHAVE tem quase 98 milhes de palavras. Por meio da interface de
acesso a corpus AC/DC (COSTA et al., 2009)30, a busca pelo lema conhecimento
retorna mais de 10 mil ocorrncias o que corresponde a 10 mil linhas de concordncia
, revelando o longo percurso da leitura caso a caso. Uma primeira alternativa para
viabilizar a anlise pode ser eliminar as ocorrncias do jornal portugus, assumindo que
o foco est, em primeiro lugar, em tentar caracterizar a situao no Brasil. Assim,
seleciono apenas a variante brasileira, e com isso a quantidade de ocorrncias cai para
cerca de 3.50031. Mesmo com esse recorte, a leitura e anlise caso a caso de 3.500 linhas
de concordncia pouco animadora e confivel. Procurar que tipos de coisas fazemos
com o conhecimento (construir conhecimento; transmitir conhecimento...) se traduz,
linguisticamente, em algo como quais verbos (informao de classe de palavras) tm o
lema conhecimento como complemento (informao sinttica)?. Com essa maneira de
perguntar32, as 3.500 frases com conhecimento foram reduzidas para 806. A figura 4
mostra algumas linhas de concordncia. No entanto, o trabalho de anlise ganha mais
uma dimenso quando, ao invs das linhas de concordncia, analisamos apenas os
verbos que tomam conhecimento como objeto direto (e essa maneira de perguntar s
possvel porque o corpus passou por um processamento prvio a anotao que
atribuiu essas informaes lingusticas s palavras do texto). A figura 5 apresenta os

30
O projeto AC/DC (Acesso a corpos/Disponibilizao de corpos) simultaneamente um espao virtual
para o acesso a diferentes corpora da lngua portuguesa e uma interface de acesso a esse material. Todo o
contedo pblico e disponvel: <http://www.linguateca.pt/ACDC>.
31
A seleo de variantes possvel porque o corpus est anotado e documentado quanto a isso.
32
Essa pergunta corresponde seguinte expresso de busca no AC/DC: [pos="V"]
[pos="DET.*|SPEC.*|PERS."]* [pos="DET.*|SPEC.*|PERS."]* [lema="conhecimento" & func="<ACC"
& variante="BR"].
33

resultados dessa busca em ordem decrescente de frequncia, e observamos a presena


de verbos como produzir, aplicar, adquirir, acumular, que remetem a um lxico da
produtividade e que, por no serem de alta frequncia, provavelmente passariam
despercebidos na leitura convencional. A partir dessa pista a associao entre
produtividade e conhecimento, possvel repetir a busca para verificar que tipo de
coisas produzimos. A figura 6 apresenta algumas linhas de concordncia e a figura 7
lista, por frequncia, o que produzido. Ainda que anlise dos resultados no esteja em
foco, curioso constatar a frequncia com que produzir est associado a objetos
culturais, como filme, disco, livro.

Figura 4: Linhas de concordncias para verbos cujo complemento conhecimento.

Alm da possibilidade de visualizar os elementos ordenados quanto frequncia,


a busca em um corpus anotado morfossintaticamente facilita tambm a identificao de
certas estruturas neste caso, verbos e respectivos complementos mesmo quando no
esto adjacentes, como ilustra a frase abaixo, em que h um advrbio e um artigo entre
verbo e substantivo (em itlico):
FSP940423-018: Almeida uma pergunta tcnica que exige
naturalmente o conhecimento dos programas de partido.

O material do AC/DC tambm contm anotao semntica, e um dos campos


anotados o da cor (SILVA & SANTOS, 2012). Uma das motivaes para a anotao
da cor foi a observao de que as cores, alm de indicarem uma propriedade visual,
atuam como um sistema de classificao: times e torcidas so caracterizadas pelas suas
cores, assim como vinhos e poltica (bancada verde; ideologia vermelha). Tambm
34

classificamos pessoas pela cor, e exploro brevemente esse aspecto, tomando por base o
corpus do NILC/SoCarlos (PINHEIRO & ALUSIO, 2003), um corpus brasileiro
majoritariamente jornalstico.

Figura 5: Distribuio dos verbos cujo complemento conhecimento.

Figura 6: Linhas de concordncia para os complementos de produzir.


35

Figura 7: Distribuio dos complementos de produzir.

A busca por palavras do campo semntico das cores no NILC/SoCarlos retorna


quase 35 mil ocorrncias. No entanto, uma vez que a busca pode ser refinada para cada
uma das classes de cores, o trabalho de anlise facilitado33. A figura 8 apresenta
algumas linhas de concordncia para a busca por palavras de cor associadas ideia de
raa34. O nmero de ocorrncias cai para 4.646 casos, um nmero ainda bastante alto. O
resultado da distribuio dos lemas (figura 9) ntido: dos pouco mais de 4.500 casos,
quase 4 mil referem-se aos lemas negro ou preto, nos remetendo ideia de
naturalizao da branquidade. Ainda tirando proveito da anotao possvel listar, por
ordem de frequncia, o que qualificado como negro ou preto quando estas palavras
referem-se ideia de raa35. Listo os 10 primeiros, em ordem decrescente:
comunidade(60), movimento(56), populao(43), mulher(43), lder(38); homem(34),
msica(28); grupo(28); maioria(28) e cultura(27). J a mesma busca aplicada ao
adjetivo branco revela as seguintes ocorrncias: guerreiro(55); homem(45); minoria
(33); mulher(23); populao(17); pele (12); elite(9); raa(9); direita(7); maioria(7). A
presena de guerreiro no topo da lista impressiona e parece promissora para uma
explorao relativa s noes de gnero e raa, mas a busca pelas linhas de
concordncia dessas ocorrncias nos lembra da importncia de no perder de vista o
contexto mais amplo das ocorrncias e da documentao de um corpus: embora
majoritariamente jornalstico, o corpus em questo contm outros tipos de texto, e todas
as 55 ocorrncias de guerreiro branco so de passagens do romance Iracema, de Jos de
Alencar.
33
A documentao completa da anotao do campo das cores est em Silva & Santos (2012).
34
Utilizo aqui o termo raa como construto social, por meio do qual as pessoas so identificadas. A
expresso para essa busca no ACDC [sema="cor:raa"].
35
A expresso para essa busca no ACDC [pos="N"] [sema="cor:raa" & lema="negro|preto"].
36

Figura 8: Linhas de concordncia para palavras de cor associadas a pessoas.

Figura 9: Distribuio dos lemas das palavras de cor associadas a pessoas.

4 Anotao e Lingustica Computacional

A anotao de corpus uma das atividades realizadas pela LC/PLN. A LC/PLN


uma rea aplicada, que se dedica resoluo de tarefas que envolvem a linguagem e
que tem, como um de seus interesses, o desenvolvimento de ferramentas capazes de
processar o texto, como lematizadores, analisadores morfossintticos e semnticos. Ao
surgir, em 1950, a Lingustica Computacional se concentrava basicamente na traduo
automtica. Aps diferentes fases, que privilegiaram diferentes aspectos da linguagem
(sintaxe, lgica, representao do conhecimento), a nfase, hoje, est no
desenvolvimento de recursos capazes de dar conta de aspectos mais vinculados ao
sentido dos textos.
37

A anotao automtica pode tomar por base lxico, regras, a combinao de


ambos ou ainda exemplos do que se deseja anotar (isto , corpora previamente
anotados).
A anotao nada mais que uma tarefa de classificao. Gramaticalmente,
classificamos as palavras como substantivos, verbos, advrbios etc. Mas podemos
tambm classificar palavras ou expresses como positivas ou negativas com relao a
alguma coisa. Por exemplo, classificar comentrios como positivos ou negativos com
relao a um projeto de lei.
Esta ltima aplicao j comea a fazer parte de nosso cotidiano. O
Manchetmetro36, por exemplo, tem como objetivo analisar manchetes de jornal,
classificando-as como favorveis, contrrias ou neutras com relao a um determinado
alvo; uma pesquisa da FGV/DAPP37 realizada a partir do monitoramento de postagens
nas redes sociais indicou que a percepo geral da populao sobre as polcias
bastante negativa, com a alta frequncia de palavras como violenta, corrupta e
despreparada. No entanto, ainda que os resultados de tais anlises sejam interessantes,
o processamento automtico semntico de textos mais complexos que no posts curtos
ou manchetes est em fase inicial, e mesmo para textos curtos ainda h fenmenos
cujo tratamento automtico bem rudimentar, como a ironia38.
Crticas anotao tambm existem, e se concentram sobretudo no argumento
de que anotar , de certa maneira, poluir o corpus, afetando a sua integridade
(SINCLAIR, 2005). Em favor da anotao, Xiao (2009) lembra que analisar linhas de
concordncia, classificando-as de acordo com a intuio, no deixa de ser um processo
de anotao implcito, no qual se faz uso inconsciente de alguma teoria preconcebida.
Esta inconscincia torna a anotao/classificao irrecupervel e, portanto, bem
menos confivel que a anotao explcita. Adicionalmente, possvel argumentar que
(i) sempre h ou deveria haver uma verso no anotada, crua, de qualquer corpus
anotado; (ii) um bom corpus anotado tambm um corpus bem documentado
(SAMPSON, 2001; LEECH 2005; 2011); (iii) nem mesmo um corpus cru pode ser
considerado um corpus neutro, tendo em vista que precisaremos sempre de alguma
ferramenta para explor-lo (ANTHONY, 2013) e esta ferramenta invariavelmente

36
<http://www.manchetometro.com.br>.
37
<http://infograficos.oglobo.globo.com/brasil/seguranca-publica-nas-redes.html>.
38
Para uma problematizao sobre a atribuio de polaridades a palavras ou expresses tendo como foco
a lngua portuguesa, ver Freitas et al., 2014.
38

refletir opes tericas quer na definio de critrios do que deve contar como uma
palavra, quer na escolha das mtricas capazes de determinar n-gramas.
Quanto definio do que uma palavra (elemento fundamental s perspectivas
que lidam com corpora no anotados e s ferramentas que apenas contam palavras),
cabe lembrar que no h consenso mesmo em teorias lingusticas (BIDERMAN, 1998).
Quantas palavras temos na frase O ex-professor abriu mo prmio entregue pela
Biblioteca Nacional? Dez, nove, oito, sete39?
Ainda quanto tarefa de contar palavras, Anthony (2013) apresenta os
resultados de diferentes programas para um mesmo texto um discurso presidencial. Os
programas WordSmith Tools, MonoConc Pro (BARLOW, 2000) e AntConc
(ANTHONY, 2012) apresentaram, para a palavra we (ns, em ingls), respectivamente:
60 ocorrncias; 60 ocorrncias; 62 ocorrncias. O que poderia ser considerado um
defeito do AntConc se revela, em uma anlise cuidadosa, resultado de uma opo
diferente quanto identificao de palavras. O WordSmith Tools e o MonoConc Pro
tratam o apstrofo como parte integrante de uma palavra, mas no o AntConc.
Consequentemente, duas ocorrncias de we com apstrofo (well, contrao de we will)
no so contabilizadas pelos programas WordSmith Tools e MonoConc, uma vez que
well considerada uma palavra distinta de we. Para a lngua portuguesa, poderamos
imaginar algo como a frequncia do pronome ela: um programa que separa dela em
duas palavras (de e ela) indicar uma quantidade de ocorrncias diferente do pronome
quando comparado a um programa que no usa essa estratgia, evidenciando a
impossibilidade de manipular o corpus de maneira neutra40.
Santos (2014) tambm trata de questes relacionadas a contagens e suposta
objetividade de tais mtodos:
Porque mesmo a aco mais simples imaginvel, a de contar palavras
ou identificar a pontuao, pressupe uma teoria lingustica
(Grefenstette & Tapanainen, 1994, Nunberg, 1990), ou, na sua
ausncia, uma descrio detalhada de todos os casos cobertos pelo
corpo (SAMPSON 2003).

39
Para contar nove palavras, consideramos o ponto de vista grfico: palavras so os conjuntos de letras
que ocorrem entre espaos em branco ou sinais de pontuao. Para considerar dez palavras, ex-professor
foi desmembrado em duas palavras. Para oito palavras, consideramos Biblioteca Nacional uma nica
palavra, porque corresponde a uma entidade. E para sete palavras consideramos o conjunto abrir mo
como uma palavra do ponto de vista semntico. possvel, ainda, desmembrar pela em por+a.
40
Trazendo os exemplos para a pesquisa nas Cincias Humanas e Sociais, a contagem de pronomes ela
pode ser uma das dimenses de um estudo sobre representaes de gnero em certos textos. J quanto ao
uso do ns (ou we, em ingls), sua contabilizao e anlise pode ser relevante na explorao de aspectos
discursivos vinculados a questes de incluso.
39

Quanto identificao de n-gramas ou colocaes, por exemplo, importante


lembrar que seu clculo pode ser efetuado segundo uma variedade de frmulas (que
frequentemente vm embutidas em programas), na maioria das vezes desconhecidas dos
pesquisadores que as utilizam, o que pode ter consequncias quanto aos resultados
obtidos ou hipteses formuladas (GRIES, 2012; SANTOS, 2014)41.

4.1 Anotao como pesquisa

Quando finalizada, a anotao um resultado, sendo o corpus anotado (de forma


manual ou automtica) um objeto que potencializa anlises. Mas, nos casos de anotao
manual ou semiautomtica, quando o pesquisador responsvel pela anotao, ela
tambm um processo de investigao. Ao participar do desenvolvimento de um projeto
de anotao, o pesquisador obrigado a se apropriar do texto que ser anotado e das
classes que compem o esquema de anotao. Assim, a anotao pode se configurar
tambm como processo de pesquisa, como um teste de hipteses relativo s categorias
propostas para abordar uma questo (ARCHER, 2012).
Um corpus anotado o resultado de um processo interpretativo, e mesmo a
anotao de categorias consideradas objetivas, como as classes de palavras, so
decorrncia de uma perspectiva ou modelo terico que, quando consideradas
neutras, acabam por corresponder s categorias da gramtica tradicional.
O processo de anotao, automtico ou manual, refletir, invariavelmente uma
interpretao, e esse o aspecto que o torna instigante do ponto de vista da pesquisa, e
no apenas um trabalho mecnico. Categorizar/classificar/anotar estabilizar um certo
fenmeno, e o processo de anotao nos confronta frequentemente com os limites de
estabilizaes, por mais precisos que estes nos paream.
Tomando como exemplo a anotao de entidades mencionadas, na qual se
atribuem aos nomes prprios certas classes semnticas predefinidas, como por exemplo

41
No sentido inverso, ou seja, a necessidade de ter alguma noo do que contagens em amostras podem
implicar, existe a tendncia de muitos (para no dizer a maioria dos) linguistas que usam corpos para
encarar de forma extremamente simplista as diferenas numricas (de contagens) como indicadoras de tal
ou tal fenmeno, sem nunca sequer imaginar que os nmeros que obtiveram podem no significar
rigorosamente nada porque, por exemplo, a amostra to pequena que as variaes medidas so
simplesmente devidas sorte. Outra prtica infelizmente comum, j com outro grau de sofisticao, a
aplicao de testes desajustados ao material. Por isso a literatura da lingustica quantitativa est cheia de
crticas metodolgicas e tem relativamente poucas contribuies que vo ao mago da questo, no sentido
de apresentarem mtodos desenvolvidos com base nos prprios problemas lingusticos. Em concluso,
para poder realmente aproveitar os corpos na lingustica preciso na maioria dos casos possuir
conhecimento lingustico e conhecimento estatstico; no se pode ficar a meio caminho. (SANTOS, 2014,
p. 198).
40

pessoa, local, organizao, a frase abaixo ilustra as diferentes alternativas de


classificao para Brasil, sendo aceitveis as classes de lugar, pessoa (os brasileiros),
ou ainda ambas as classes, simultaneamente:
Mais de 32 mil pessoas poderiam morrer se uma pandemia de gripe
aviria atingisse o Brasil.

Neste exemplo real42, j possvel vislumbrar o tipo de desafio proposto pela


anotao43 e, por sua vez, a importncia de se perceber a no neutralidade das
tecnologias e o impacto de diferentes vises de lngua na construo de ferramentas.
Uma viso de lngua que assume a vagueza como defeito ou desvio precisar lidar com
excees como essa em uma quantidade maior que a esperada. Por outro lado, qual
seria a anotao correta na frase acima, considerando um sistema construdo de forma
a permitir que apenas uma nica classe/etiqueta fosse atribuda ao nome prprio? Meu
aprendizado com a anotao que ela nos obriga a perceber como as categorias com
que trabalhamos podem no ter os limites to precisos como imaginamos inicialmente, e
como esperariam as tradicionais perspectivas essencialistas (MARTINS, 1997, 2004).
A anotao se apresenta, portanto, como um teste emprico desenhado maneira
clssica: criam-se hipteses (categorias provisrias), e verificam-se as hipteses (as
categorias so aplicadas no corpus o processo de anotao acontece). Durante a
anotao/verificao, as hipteses podem ser confirmadas (a anotao ocorre
exatamente como previsto) ou, por outro lado, os dados podem levar reformulao das
categorias iniciais. As categorias (hipteses) recm-criadas so novamente verificadas
no corpus, e o processo recomea.
Embora o trabalho com corpus traga ganhos para a prtica da pesquisa com
textos, tais ganhos no devem levar a uma postura ingnua. No h anotao perfeita
nem humana, nem automtica. O termo perfeio, alis, incompatvel com algo que se
pretende fruto de interpretao: no h anotao perfeita do mesmo modo que no h
interpretao perfeita. O que se almeja, em lugar da perfeio, o consenso. Uma
anotao deve ser consistente com relao s hipteses que a norteiam44.

Consideraes finais

42
O exemplo vem do processo de anotao de um corpus para uma tarefa da Lingustica Computacional.
Os detalhes da tarefa e da anotao esto em Carvalho et al. (2008).
43
Note-se que a classe genrica pas, que certamente cabe no exemplo, pouco til, justamente por
poder representar as vrias alternativas de anotao apresentadas. O que se quer, com a tarefa,
exatamente especificar a classe semntica dos nomes para que o processamento automtico do contedo
do texto seja mais informativo.
44
Para um aprofundamento sobre a anotao, sugiro Garside et al. (1997) e Archer (2012).
41

A linguagem um rico repositrio de informaes sobre nossas prticas,


constituindo-se em matria-prima para parte das pesquisas nas Cincias Humanas e
Sociais. Dialogando com a Lingustica Computacional/PLN, Cincias Humanas e
Sociais, as Humanidades Digitais tm disposio ferramentas e recursos que
propiciam novas maneiras de explorar a materialidade do texto, subsidiando a anlise e
interpretao humanas do contedo de grandes colees de documentos.
Se a pesquisa com corpus eletrnico j realidade em alguns espaos fora dos
departamentos de Letras, o corpus anotado tem uma presena ainda tmida. Mas
acredito, como espero ter deixado claro aqui, que a anotao traz novas possibilidades.
Concordo com Paixo de Souza (2013) quando afirma que uma caracterstica central e
interessantssima da difuso digital de textos a desvinculao entre o texto lgico e
seu suporte material, a descorporificao do texto, permitindo que ele aparea em
infinitos outros espaos, tempos e, nfase minha, formatos (PAIXO DE SOUZA,
2013, p. 129). Assim, o que me interessa marcar aqui, com a anotao, a adio de
mais um ngulo de leitura sobre o texto manipulado computacionalmente. Com o novo
ngulo, vm tambm novos cuidados: to relevante quanto a anotao estar ciente das
opes subjacentes anotao.
Hoje, j se pode responder de maneira positiva a algumas das perguntas e
provocaes colocadas inicialmente: esta nova abordagem, com a insero macia de
tecnologia, oferece formas novas (e, talvez, melhores) de responder s questes
tradicionais das cincias humanas e sociais? Certamente. Alm disso, e mais
interessante, possibilitam tambm a formulao de perguntas originais.
Ao longo do texto, utilizei exemplos de corpora j anotados, oriundos do projeto
AC/DC, desenvolvido e mantido pela Linguateca45. O projeto contm atualmente mais
de um bilho de palavras, e continua a crescer. O material pblico e disponvel, e pode
ser utilizado sem restries. No entanto, embora em constante de melhoria (em
quantidade e qualidade), trata-se de um material construdo, inicialmente, com o
objetivo principal de investigar a lngua. Sabemos que boa parte dos pesquisadores
deseja trabalhar com seus prprios corpora, o que absolutamente pertinente.
Por outro lado, importante reconhecer que (i) a preparao dos dados isto , a
preparao de um corpus para que sejam explorveis e para que esta explorao seja
confivel; e (ii) o ajuste, ou mesmo criao, das ferramentas adequadas (como

45
<http://www.linguateca.pt>.
42

ferramentas de anotao, por exemplo) so aspectos fundamentais a serem


considerados, tanto pelo tempo quanto pelo volume de trabalho envolvidos. Trata-se de
um projeto de longo prazo e interdisciplinar.
Por outro lado ainda, como nos lembram Williford & Henry (2012), a
legitimidade de certas atividades enquanto atividades de pesquisa, sobretudo nas
humanidades, uma questo: o volume colossal de trabalho necessrio preparao do
material, que envolve limpeza de rudos, incluso de metadados, converses e
adaptaes de formato, no costuma ser considerado atividade de pesquisa, ainda que s
possa ser feito por especialistas.
H um caminho longo por trilhar, sobretudo no Brasil: ferramentas abertas e
com um bom desempenho do ponto de vista do usurio46 ainda so escassas, sobretudo
para a anlise da lngua portuguesa, mas so promissoras as atuais iniciativas de
construo de recursos lexicais abertos para a lngua portuguesa (GONALO
OLIVEIRA et al., 2015).
O campo das HD de forma alguma se esgota na explorao de corpus e
anotao, e envolve tambm a problematizao de caractersticas dos textos
originalmente47 digitais, como a colaborao (versus autoria nica); a ideia de texto em
processo (versus permanncia/estabilidade do texto); originalidade (versus mixagem); e
propriedade (versus compartilhamento).
Outro aspecto altamente relevante das HD, e que no foi tratado aqui, a sua
dimenso poltica, que se manifesta, por exemplo, nos pontos elencados a seguir (FISH,
2012):
Acessibilidade da informao: o trabalho produzido na academia deve ser
aberto ao dilogo, no apenas entre os pares, mas tambm entre academia e
sociedade, o que se reflete nas relaes entre academia, editores e critrios
de pontuao das publicaes atribudos pelas agncias de fomento.
Anarquia digital: quando o Manifesto HD 2.0 afirma que HD sobre
integrao e explicita sua oposio proliferao de reas de especialidade
e subespecialidade cada vez mais restritas.

46
Enfatizo a utilizao do usurio porque o fato de uma dada ferramenta obter 90% de acerto, por
exemplo, pode ser um timo indicador do ponto de vista da evoluo da ferramenta, mas, do ponto de
vista da utilizao, a anlise de um corpus por uma ferramenta que produz 10% de erros pode ser
desanimadora.
47
Por originalmente digitais, entenda-se aqueles originalmente produzidos no ambiente digital, em
oposio aos textos impressos frutos de digitalizao.
43

Incentivo interdisciplinaridade profunda ou transdisciplinaridade, que


no se assenta nas tradicionais fronteiras de disciplinas.
Por fim, continuando com Fish (2012), cito o Manifesto HD 2.0:
Humanidades Digitais tm um ncleo utpico moldado pela sua
origem genealgica no entrelaamento da contracultura-cibercultura
dos anos 1960 e 1970. por isso que afirma o valor do que aberto,
do infinito, do expansivo, da universidade/museu/arquivo/biblioteca
sem muros, da democratizao da cultura e da erudio, mesmo
quando afirma o valor de mtodos baseados em estatsticas de grande
escala que desmoronam as fronteiras entre as humanidades e as
cincias sociais e as cincias naturais.48

Referncias

DEL, A. How to use corpus linguistics in the study of political discourse. In: O'KEEFFE, A.
& MCCARTHY, M. (Orgs.). The Routledge Handbook of Corpus Linguistics. USA: Routledge,
2012, p. 591-604.
ANTHONY, L. A critical look at software tools in corpus linguistics. Linguistic Research 30(2),
2013, p. 141-161.
______. 2012 AntConc. (Version 3.3.5) [Computer Software]. Tokyo, Japan: Waseda
University. Disponvel em: <http://www.antlab.sci.waseda.ac.jp>.
ARCHER, D. Corpus annotation: a welcome addition or an interpretation too far? In:
TYRKK, J.; KIPI, M.; NEVALAINEN, T.; RISSANEN, M. (Orgs.). Outposts of Historical
Corpus Linguistics: from the Helsinki corpus to a proliferation of resources. Studies in
Variation, Contacts and Change in English, 2012.
BAKER, P. (Org.). Contemporary Studies in Linguistics: Contemporary Corpus Linguistics.
New York: Continuum International Publishing, 2009.
BARLOW, M. MonoConc Pro (Verso 2.2) (Software), 2000. Disponvel em:
<http://www.athel.com/mono.html>. Acesso em: 25 maio 2014.
BEAUGRANDE, R. de. Descriptive linguistics at the millennium: corpus data as authentic
language. Journal of Language and Linguistics. 1 (2), 2002, p. 91-131.
BIBER, D.; CONRAD, S.; REPPEN, R. Corpus Linguistics: Investigating language structure
and use. UK: Cambridge University Press, 1998.

48
Digital Humanities have a utopian core shaped by its genealogical descent from the counterculture
cyberculture intertwinglings of the 60s and 70s. This is why it affirms the value of the open, the infinite,
the expansive, the university/museum/archive/library without walls , the democratization of culture and
scholarship, even as it affirms the value of large - scale statistically grounded methods (such as cultural
analytics) that collapse the boundaries between the humanities and the social and natural sciences. This is
also why it believes that copyright and IP standards must be freed from the stranglehold of Capital,
including the capital possessed by heirs who live parasitically off of the achievements of their deceased
predecessors.
44

BIDERMAN, M. T. Dimenses da palavra. Filologia e Lingustica Portuguesa, Brasil, n. 2, p.


81-118, ago. 1998.
BICK, E. The Parsing System Palavras: Automatic Grammatical Analysis of Portuguese in a
Constraint Grammar Framework. Dr.phil. thesis. Aarhus University. Aarhus, Denmark: Aarhus
University Press, 2000.
CALLOU, D. O Projeto NURC no Brasil: da dcada de 70 dcada de 90. Lingstica, v.11,
1999.
CARDIE, C.; WILKERSON, J. Guest Editors Introduction: Text annotation for political
science research. Journal of Information Technology & Politics, 5:1, 2008.
CARVALHO, P.; GONALO OLIVEIRA, H.; SANTOS, D.; FREITAS, C.; MOTA, C.
Segundo HAREM: Modelo geral, novidades e avaliao. In: MOTA, C. & SANTOS, D.
(Orgs.). Desafios na avaliao conjunta do reconhecimento de entidades mencionadas.
Portugal: Linguateca, 2008, p. 11-31.
CORACINI, M. J. O cientista e a noo de sujeito na lingustica: expresso de liberdade ou
submisso? In: ARROJO, R. (Org.). O Signo Desconstrudo. So Paulo: Pontes, 1992, p. 19-24.
COSTA, L.; SANTOS, D.; ROCHA, P. Estudando o portugus tal como usado: o servio
AC/DC. Proc. 7th Brazilian Symposium in Information and Human Language Technology (STIL
2009) So Carlos, 2009.
DE PAIVA, V.; OLIVEIRA, D.; HIGUCHI, S.; RADEMAKER, A.; de MELO, G. Fun
Information Extraction from a Historical Dictionary . Proc. Workshop on Digital Humanities
and e-Science. 10th IEEE International Conference on e-Science, 2014.
FISH, S. The Digital Humanities and the Transcending of Mortality. The Opinion Pages, New
York Times, 9 jan. 2012.
FREITAS, C. Elaborao automtica de ontologias de domnio: discusso e resultados. Tese
de Doutorado. Pontifcia Universidade Catlica do Rio de Janeiro, jan. 2007.
FREITAS, C.; MOTTA, E.; MILIDI, R. L.; CSAR, J. Sparkling Vampire... lol! Annotating
Opinions in a Book Review Corpus. In: ALUSIO, Sandra & TAGNIN, Stella E. O. (Orgs.).
New Language Technologies and Linguistic Research: A Two-Way Road. UK: Cambridge
Scholars Publishing, 2014, p. 128-146.
GARSIDE, R.; LEECH, G.; MCENERY, T. Corpus Annotation: Linguistic Information from
Computer Text Corpora. London: Longman, 1997.
GONALO OLIVEIRA, H.; DE PAIVA, V.; FREITAS, C.; RADEMAKER, A.; SIMES, A.;
REAL, L. As Wordnets do Portugus. OSLa Oslo Studies in Language, 2015, no prelo.
GRIES, S. Corpus linguistics, theoretical linguistics, and cognitive/psycholinguistics: towards
more and more fruitful exchanges. In: MUKHERJEE, Joybrato; HUBER, Magnus (Orgs.).
Corpus linguistics and variation in English: Theory and description. Amsterdam: Rodopi, 2012,
p. 41-63.
45

HALL, S. A centralidade da cultura: notas sobre as revolues culturais do nosso tempo.


Educao & Realidade, Porto Alegre, v. 22, n. 2, p. 15-46, jul./dez. 1997.
KIRSCHENBAUM, M. G. What is Digital Humanities and what is it doing in your English
department?, ADE Bulletin, n. 150, 2010. Disponvel em:
<http://humanidadesdigitais.files.wordpress.com/2011/09/kirschenbaum_whatisdigitalhumanitie
s.pdf>. Acesso em: 29 out. 2014.
LEECH, G. Frequency, corpora and language learning. In: MEUNIER, F., DE COCK, S.;
GILQUIN, G.; PAQUOT, M. (Orgs.). A Taste for Corpora. In Honour of Sylviane Granger.
Amsterdam/Philadelphia: Benjamins, 2011, p. 7-32.
______. Adding Linguistic Annotation. In: WYNNE, M. (Org.). Developing Linguistic
Corpora: a Guide to Good Practice. Oxford: Oxbow Books, 2005.
MAIA, B.; SARMENTO, L.; SANTOS, D. Introduzindo o Corpgrafo um conjunto de
ferramentas para criar corpora especializados e comparveis e bases de dados teminolgicas.
Terminmetro, n. 7, [Nmero especial] A terminologia em Portugal e nos pases de lngua
portuguesa em frica, 2005, p. 61-62.
MARTINS, H. Sobre a estabilidade do significado em Wittgenstein. Veredas, Revista de
Estudos Lingusticos, Juiz de Fora, vol. 4, n. 1.997.
MARTINS, H. Trs caminhos da Filosofia da linguagem. In: MUSSALIM, F.; BENTES, A.
(Orgs.). Introduo lingustica: Fundamentos epistemolgicos. So Paulo: Cortez, 2004.
MCCARTHY, M.; OKEEFFE. A. Historical Perspective What are corpora and how have
they evolved? In: O'KEEFFE, A.; MCCARTHY, M. (Orgs.). The Routledge Handbook of
Corpus Linguistics. USA: Routledge, 2012, p. 3-13.
MCENERY, T.; WILSON, A. Corpus linguistics: an introduction. Edinburgh: Edinburgh
University Press, 2001.
O'KEEFFE, A.; MCCARTHY, M. (Orgs.). The Routledge Handbook of Corpus Linguistics.
USA: Routledge, 2012.
OHALLORAN, K. How to use corpus linguistics in the study of media discourse. In:
O'KEEFFE, A. & MCCARTHY, M. (Orgs.). The Routledge Handbook of Corpus Linguistics.
USA: Routledge, 2012, p. 563-577.
PAIXO de SOUZA, M. C. P. A Filologia Digital em Lngua Portuguesa: alguns caminhos. In:
GONALVES, Maria Filomena; BANZA, Ana Paula (Orgs.). Patrimnio Textual e
Humanidades Digitais: da antiga nova Filologia. vora: CIDEHUS, 2013.
PINHEIRO, G.; ALUSIO, S. Corpus Nilc: descrio e anlise crtica com vistas ao projeto
Lacio-Web. NILC-TR-03-03, fev. 2003.
RASO, T.; MELLO, H. (Orgs.). C-ORAL-BRASIL I. Corpus de referncia do portugus
brasileiro falado informal. Belo Horizonte: Editora UFMG, 2012.
46

RAJAGOPALAN, K. A lingustica de corpus no tempo e no espao: viso reflexiva. In:


GERBER, R. M.; VASILVSKI, V. (Orgs.). Um percurso para pesquisas com base em Corpus.
Florianpolis, SC: Ed. da UFSC, 2007, p. 23-44.
ROCHA, P.; SANTOS, D. CLEF: Abrindo a porta participao internacional em avaliao de
RI do portugus. In: SANTOS, D. (Org). Avaliao conjunta: um novo paradigma no
processamento computacional da lngua portuguesa. Lisboa: IST Press, 2007, p. 143-158.
ROMO, C. de O. Identificaes do feminino em materiais didticos contemporneos.
Dissertao de mestrado. Programa de Ps-Graduao em Educao, UERJ, Rio de Janeiro,
2014.
SALOMO, M. 2009. FrameNet Brasil: um trabalho em progresso. Calidoscpio, 7(3), p. 171-
182.
SAMPSON, G. Empirical Linguistics. London: Continuum, 2001.
SANTOS, D. Podemos contar com as contas?. In: ALUSIO, S.; TAGNIN, S. (Orgs.). New
Language Technologies and Linguistic Research: a two-way road. UK: Cambridge Scholars
Publishing, 2014, p. 194-213.
______. Corporizando algumas questes. In: TAGNIN, S.; VALE, O. (Orgs.). Avanos da
Lingustica de Corpus no Brasil. So Paulo: Editora Humanitas/FFLCH/USP, 2008, p.41-66.
______, SILVA, R.; FREITAS, C. Pluralidades na cor: contrastando a lngua do Brasil e de
Portugal. In: SILVA, A.; TORRES, A.; GONALVES, M. (Orgs.). Lnguas Pluricntricas:
Variao lingustica e dimenses sociocognitivas. Braga: Aletheia, Publicaes da Faculdade de
Filosofia da Universidade Catlica Portuguesa, 2011, p. 555572.
SILVA, R.; SANTOS, D. Arco-ris: notas sobre a anotao do campo semntico da cor em
portugus. Disponvel em: <http://www.linguateca.pt/acesso/ArcoIris.pdf>. Acesso em: 2012.
SARDINHA, T. B. Lingustica de corpus. Barueri: Ed. Manole, 2004.
SCOTT, M. 2012. WordSmith Tools (Verso 5.0) (Software). Disponvel em:
<http://www.lexically.net/software/index.htm>. Acesso em: 25 maio 2014.
SINCLAIR, J. Corpus and Text - Basic Principles. In: WYNNE, M. (Org.). Developing
Linguistic Corpora: a guide to good practice. Oxford: Oxbow Books, 2005, p.1-16.
___________. Corpus, concordance, collocation: Describing English language. Oxford: Oxford
University Press, 1991.
STUBBS, M. Notes on the History of Corpus Linguistics and Empirical Semantics. In:
NENONEN, M.; NIEMI, S. (Orgs.). Collocations and idioms. Joensuu: Joensuun Yliopisto,
2007, p. 317-29.
TRIBBLE, C. What are concordances and how are they used? In: O'KEEFFE, A.;
MCCARTHY, M. (Orgs.). The Routledge Handbook of Corpus Linguistics. USA: Routledge,
2012, p. 167-183.
47

WILLIFORD, C.; HENRY, C. One Culture Computationally Intensive Research in the


Humanities and Social Sciences A Report on the Experiences of First Respondents to the
Digging into Data Challenge. Council on Library and Information Resources Washington, D.C.
2012.

WYNNE, M. (Org.). Developing Linguistic Corpora: a guide to good practice. Oxford: Oxbow
Books, 2005.
______. Do we need annotated corpora in the era of the data deluge? In: MAMBRINI, F.;
PASSAROTTI, M.; SPORLEDER, C. (Orgs.). Proceedings of the Second Workshop on
Annotation of Corpora for Research in the Humanities (ACRH-2). Lisboa: Edies Colibri,
2012, p. 1-2.
WITTGENSTEIN, L. Philosophical investigations. Nova York: Macmillan. 1953.
XIAO, R. Theory-driven corpus research: Using corpora to inform aspect theory. In:
LDELING, A.; KYT, M. (Orgs.). Corpus Linguistics: An International Handbook . Berlin:
De Gruyter, 2009, p. 987-1.008.