Escolar Documentos
Profissional Documentos
Cultura Documentos
PESQUISA E EDUCAO
Miriam S. Leite
Carmem Teresa Gabriel
(orgs)
2
SUMRIO
Prefcio
Evitar as armadilhas
Alfredo Veiga-Neto
Karla Saraiva
1
MUTARELLI, Loureno. A arte de produzir efeito sem causa. So Paulo: Companhia das Letras, 2008.
5
2
DERRIDA, Jacques. Limited Inc. Campinas: Papirus, 1991, p. 87.
6
3
Projeto com coordenao geral da professora Carmen Teresa Gabriel e financiamento pelo CNPq, que
congrega os trabalhos de trs grupos de pesquisa em suas intersees terico-metodolgicas: Grupo de
Estudos de Currculo, Cultura e Ensino de Histria (GECCEH), que integra o Ncleo de Estudos em
Currculo (NEC), da UFRJ, sob coordenao da professora Carmen Teresa Gabriel; Grupo de Estudos
sobre Diferena e Desigualdade na Educao Escolar da Juventude (DDEEJ), da linha de pesquisa
Infncia, Juventude e Educao, do Programa de Ps-graduao em Educao da UERJ, e coordenado
pela professora Miriam Leite; e Grupo de Pesquisa Polticas e Prticas Educativas (GPPPE), coordenado
pela professora Raquel ALS Venera e vinculado ao Mestrado em Educao e Mestrado em Patrimnio
Cultural e Sociedade, ambos da UNIVILLE.
7
PREFCIO
Evitar as armadilhas
Alfredo Veiga-Neto4 *
4
* Alfredo Veiga-Neto Doutor em Educao e professor do Programa de Ps-Graduao em
Educao da Universidade Federal do Rio Grande do Sul (UFRGS).
alfredoveiganeto@gmail.com
10
5
Estou usando a palavra contraconduta no sentido que lhe deu Michel Foucault, na aula do dia 1 de
maro de 1978, do curso Segurana, territrio, populao, ministrado no Collge de France. No mbito
do poder pastoral, os movimentos contracondutuais tm como objetivo outra conduta, isso , querer ser
conduzido de outro modo, por outros condutores e por outros pastores, para outros objetivos e para outras
formas de salvao, por meio de outros procedimentos e de outros mtodos (FOUCAULT, 2008, p. 257).
Logo adiante, e alargando o conceito para o mbito da governamentalidade, o filsofo diz:
contraconduta no sentido de luta contra os procedimentos postos em prtica para conduzir os outros
(id., p. 266).
11
o que eles aqui fazem no resistir por resistir. Mas eles e elas tambm no praticam a
dissidncia pedaggica; no so dissidentes, no abandonam o barco, no pulam fora.
Como sabemos, a dissidncia carrega uma certa imagem de herosmo, de virada radical,
de no-quero-mais-brincar.
No nada disso que se encontra aqui, mas, sim, todo um conjunto de
descries, anlises, problematizaes, teorizaes e at mesmo sugestes que no
descartam in limine tudo o que vem de outras tradies tericas. Cada vez que os
autores e as autoras deste livro as consideram pertinentes aos seus propsitos, elas so
conservadas, trabalhadas, ressignificadas. Alm disso, todos que aqui escrevem
pretendem manter acesa a chama que faz da educao a nica via pela qual uma cultura
se produz, reproduz, significa e ressignifica.
Temos a o primeiro fio condutor que atravessa a obra. Trata-se do entendimento
de que sem a funo educar, a espcie humana desapareceria. Sem a funo ex-
ducre, isso , sem a funo de conduzir (ducre) para fora (ex) o outro, sem o trabalho
trabalhoso de levar de um lugar para outro lugar os recm-chegados as crianas, os
estrangeiros, as novas geraes; o outro, enfim , a cultura, aqui entendida no sentido
mais amplo possvel, desapareceria em uma gerao. E, com ela, desapareceria a
humanidade do humano. Se suspendssemos a educao em toda parte, desapareceria a
prpria Humanidade.
A essas alturas, acho que devo ser mais especfico para justificar por que
entendo que Linguagem, discurso, pesquisa e educao uma obra contracondutual e,
por isso mesmo, situa-se numa posio um tanto outsider em relao volumosa
bibliografia educacional brasileira. Entra em cena, agora, o segundo fio condutor que
encontrei no livro: o entendimento segundo o qual a educao deve ser pensada,
significada e praticada num registro acontecimental no essencialista, no metafsico e,
ao mesmo tempo, no niilista. Os autores e as autoras deste livro evitam cair nas duas
armadilhas dentro das quais hoje esto capturadas as duas parcelas mais numerosas
daquilo que se pode denominar pensamento pedaggico brasileiro: a maior parcela caiu
na armadilha do necessitarismo transcendente; a outra parcela mas que hoje parece
crescer bastante caiu na armadilha do niilismo imobilizador. A contraconduta
manifesta-se tanto no reconhecimento de que os imperativos universais em que se
12
6
Seria preciso lembrar que a afirmao todo imperativo contingente e no necessrio nada tem a ver
com as afirmaes no necessitamos de um imperativo ou os imperativos so dispensveis.
13
Dizer que tais imperativos so contingentes significa dizer que eles so sempre
espacial e temporalmente determinados. E, sendo assim, eles podem e devem!
sempre ser discutidos, criticados, revistos, reformulados, relativizados, negociados e
renegociados. No se trata de simplesmente neg-los tout court nem de aceit-los tout
court, mas de compreender suas gneses, seus alcances, seus desdobramentos e seus
efeitos. Em outras palavras, trata-se de mant-los sob constante vigilncia crtica, de
modo a, se for o caso, mud-los, alter-los, modul-los ou, no limite, abandon-los.
justamente por a que se abrem tanto o papel crucial da crtica quanto a
possibilidade da ao poltica radical. E, indo um pouco adiante, abre-se tambm a
possibilidade de engendrarmos no apenas novas teorizaes e novas configuraes
para as prticas educacionais, como, tambm, exercitarmos novas maneiras de nos
governarmos a ns mesmos e novas formas de estarmos no mundo. Podemos voltar a
Foucault e seu conceito de anarqueologia, para compreendermos melhor e mais
refinadamente o quo potente o entendimento do carter contingente e,
simetricamente, no dogmtico dos imperativos pedaggicos. Vejamos isso um pouco
mais de perto.
Como explica Avelino (2011, p. 33), Foucault introduziu a noo de
anarqueologia entendida como postura metodolgica e atitude filosfica de
transgresso diante do poder da verdade. A anarqueologia uma atitude e uma postura
intelectual que inverte a posio tradicional da filosofia em relao verdade. Mais
adiante, ele continua: a postura anarqueolgica consiste na inverso da posio clssica
da filosofia. preciso no mais partir da ligao voluntria com a verdade, mas colocar
como problema inicial o questionamento do poder (AVELINO, 2011, p. 33). Assim,
assumido o carter contingente dos imperativos pedaggicos e invertida a posio
clssica da filosofia, abrem-se as portas para nos livrarmos das verdades apriorsticas e
estarmos livres para questionarmos e nos colocarmos contra os efeitos de poder de um
discurso que considerado cientfico (FOUCAULT, 1980, p. 90). Mas no se pense
que tudo isso diz respeito apenas ao governamento de uns sobre os outros; diz respeito,
tambm e a est a potncia da coisa toda , ao governamento que cada um exerce
sobre si mesmo. Em termos foucaultianos, ento, nesse cruzamento entre o eixo do
coletivo (populao) com o eixo do individual (sujeito) que se situa a
governamentalidade. Para operar mudanas nesse ponto de interseco preciso
despedir-se definitivamente da transcendentalidade e universalidade dos imperativos
14
Este livro pode ser lido, ento, como um artefato blico que tanto nos afasta das
armadilhas do necessitarismo transcendente quanto do niilismo imobilizador. Ele
funciona como um depsito de munio, capaz de alimentar nossas armas para pensar
de outros modos a educao, seja em termos das prticas escolares e no escolares, seja
em termos das polticas e pesquisas educacionais. Este Linguagem, discurso, pesquisa e
educao nos mostra que sempre pode haver algo de novo debaixo do sol, algo que
no uma representao exata do que j ali estava (RORTY, 1988, p. 286). da que
vem a fora para continuarmos mobilizados e animados para pensar outramente
(TOURAINE, 2009).
Reitero: esse duplo movimento de negao ao niilismo e, ao mesmo tempo,
reconhecimento que no se pode continuar acreditando nos mitos bblicos e
neoplatnicos que fundaram, alimentaram e ainda alimentam a Pedagogia7 como o
caso do representacionismo, do realismo e do fundacionismo , que fazem deste livro
uma arma para nossas lutas contracondutuais. Aqui vale uma observao pessoal:
sempre me espanto com aqueles que, sem mais nem menos, colocam o essencialismo
como antittico do niilismo... como se a falta de uma essncia e a negativa a uma
fundamentao ltima nos levassem necessariamente no existncia, ao nada, ao
aniquilamento e impossibilidade da prpria vida. Este livro est muito longe de cair
nesse tipo de binarismo grosseiro. Tambm por isso, vejo nele uma contribuio
relevante e necessria nossa bibliografia educacional. Sendo assim, fao votos de que
todas as pessoas que se envolveram em sua produo no parem por aqui. Recorrendo
s palavras das organizadoras, fao votos de que continuem, paradoxal e coletivamente,
a criar efeitos sem causa.
Referncias
7
Para mais detalhes sobre a genealogia da Pedagogia, vide Narodowski (2001) e Veiga-Neto
(2004).
15
Cludia Freitas
1 Introduo
Boa parte da pesquisa nas Cincias Humanas e Sociais toma por base a
linguagem, sobretudo a escrita, na forma de documentos textos institucionais,
relatrios, material didtico, discursos, entrevistas e artigos ou peas ficcionais, por
exemplo. Considerando a crescente facilidade de acesso a textos de diferentes naturezas
e a materialidade especfica do texto digital, por um lado, e as limitaes humanas para
analisar de maneira consistente e confivel grandes volumes de dados textuais, por
outro, razovel supor que computadores sejam aliados valiosos, propiciando novas
maneiras de leitura e auxiliando o pesquisador na percepo e anlise de padres cuja
identificao seria difcil (se que possvel) por meio de uma leitura convencional.
Corpus o nome atribudo s grandes colees de documentos de textos,
compiladas segundo algum objetivo e, atualmente, processveis por mquinas.
Originalmente vinculado explorao de fenmenos lingusticos, o escopo de
interessados em pesquisas com base em corpus tem crescido em quantidade e
diversidade: ao lado das pesquisas lingusticas, vem se ampliando o papel do corpus no
auxlio resoluo de tarefas da Lingustica Computacional (LC)/Processamento de
Linguagem Natural9 (PLN)10, e mais recentemente, comeam a surgir estudos com base
em grandes corpora para a investigao de prticas discursivas/culturais/sociais. A cada
um desses usos podem se articular diferentes abordagens, e para cada um deles h
recursos e ferramentas mais adequados.
Neste artigo, minha inteno apresentar e discutir como a explorao
automtica de grandes colees de documentos pode ser um recurso adicional para
pesquisadores das reas de Cincias Humanas e Sociais (CHS). No meu propsito
oferecer uma introduo detalhada ao trabalho com corpus, considerando a farta
literatura disponvel (SINCLAIR, 1991; BIBER et al., 1998; WYNNE, 2005;
OKEEFFE & MCCARTHY, 2012; SANTOS, 2008; SARDINHA, 2004), mas, antes,
8
Agradeo professora Miriam Leite pelas valiosas sugestes que, espero, tenham deixado o texto
interessante para leitores cuja formao no em Letras.
9
O termo natural presente em Processamento de Linguagem Natural remete oposio artificialidade
de linguagens de mquina, como Java, Python, Pascal, entre outras.
10
Usarei os termos Lingustica Computacional, Processamento automtico da Linguagem e
Processamento de Linguagem Natural (PLN) como sinnimos.
19
iniciar um dilogo com os diversos campos do saber que tm uma parcela considervel
de suas prticas dependente da anlise de textos (ou discursos) em especial, iniciar
dilogos com o campo educacional, enfatizando as potencialidades do corpus, sobretudo
quando anotado. Tentarei ilustrar alguns pontos com exemplos do que possvel, hoje,
com relao lngua portuguesa. Assumo, assim, o risco de produzir um texto que
esteja datado em pouco tempo, dada a velocidade com que os avanos se sucedem
quando o tema tecnologia. Mas os exemplos registram o que era possvel e o que era
esperado realizar.
11
Segundo a escola gerativa chomskyana, o linguista deve tentar modelar a competncia (o conhecimento
lingustico internalizado), e no o seu desempenho (a lngua efetivamente usada). Com isso, o corpus,
exemplo da lngua em uso, perde a fora como fonte de evidncia para a investigao lingustica.
Beaugrande (2002), Rajagopalan (2007) e Sampson (2001) discutem a presena tardia do corpus nos
estudos lingusticos.
21
levando alguns autores a utilizar o termo Revoluo do Corpus12. Desde ento, e cada
vez mais, corpus no apenas uma coleo de textos compilada com algum objetivo,
mas uma coleo de textos em formato eletrnico e de dimenso considervel
(considervel a ponto de a anlise manual ser invivel, e a anlise automtica
imprescindvel)13.
Neste contexto, um desdobramento previsvel a necessidade e o consequente
desenvolvimento de ferramentas desenhadas especialmente para auxiliar o
pesquisador a lidar de maneira sistemtica e consistente com os seus dados, isto , de
programas que ajudem a pesquisa com/sobre a linguagem.
Os estudos iniciais com corpora eletrnicos subordinavam-se inicialmente a
interesses lexicogrficos, como a produo de listas de palavras associadas a suas
frequncias de uso, e a identificao de padres (combinaes mais frequentes)14.
Na linguagem, a disseminao dos trabalhos com corpus levou tambm a
diferentes apropriaes e discusses, que envolvem, em maior ou menor grau, desde a
nomenclatura Corpus Linguistics (e a sua traduo para o portugus), at as diferentes
abordagens com relao ao corpus (corpus-driven ou corpus-based), passando pelo
prprio status como rea de pesquisa ou metodologia.
Os desenvolvimentos e a ampliao de corpus tm reforado, no entanto, a
posio de corpus como um instrumento para a investigao da/sobre a linguagem,
como bem exemplifica Santos (2008):
O meu ponto de partida o de que um corpo no o objecto de estudo
do que em ingls se chama corpus linguistics, mas sim a ferramenta, o
utenslio com que se faz lingustica, por isso a minha denominao
lingustica com corpos [...]
12
Para uma viso alternativa do impacto do corpus nesse perodo, que reconhece o carter de mudana
sem, no entanto, entrar no vis poltico presente no termo revoluo, ver Rajagopalan (2007).
13
Sobre trabalhos iniciais com corpus e suas possibilidades para o estudo da linguagem, sugiro BIBER et
al. 1998, MCENERY, 2001; LEECH, 2011; SAMPSON, 2001; BAKER, 2009; SINCLAIR, 1991;
STUBBS, 2007.
14
Alguns exemplos da ideia de combinaes frequentes e padres de uso: dizemos caf forte, mas no
caf poderoso, ainda que forte e poderoso possam ser sinnimos em diversos contextos; o verbo causar
est muito mais frequentemente associado a complementos negativos (causar danos, acidentes, morte,
doenas) do que positivos (causar esperana, alegria, conforto), ainda que no exista nenhuma regra
determinando a escolha de um ou outro tipo de complemento.
22
Ainda quanto nomenclatura, Taylor (2008, apud GRIES, 2012) relata que Jan
Aarts, responsvel por cunhar o termo corpus linguistics, certa vez comentou ter
hesitado quanto criao do termo, considerado pouco adequado devido estranheza de
se nomear uma disciplina pelo nome de sua principal ferramenta de pesquisa e fonte de
dados.
As diferentes maneiras de relacionar corpus e teorias ou, diferentes maneiras
de situar o corpus na pesquisa podem ser classificadas como abordagens corpus-
driven (ou guiada por corpus) ou abordagens corpus-based (baseada em corpus). Ainda
que para boa parte dos trabalhos mais recentes sobre corpus a discusso (e distino)
corpus-driven/corpus-based venha se diluindo (ARCHER, 2012), ela sintetiza no
apenas diferentes maneiras de relacionar corpus e linguagem, mas tambm diferentes
opes epistemolgicas que merecem ateno, sobretudo quando se trata da apropriao
desses termos/abordagens por outras reas do conhecimento.
Uma maneira de situar a discusso reconhecer que a relao entre teoria
lingustica e dados para anlise sempre foi conturbada (BEAUGRANDE, 2002; XIAO,
2009). Desde o estruturalismo saussuriano, a lingustica moderna, na delimitao dos
limites do seu objeto, caracteriza-se por uma rejeio da variabilidade individual e pelo
descarte do que contingente, privilegiando, como fonte de dados, enunciados
produzidos por meio da introspeco (SAMPSON, 2001; BEAUGRANDE, 2002).
Quando, a partir dos anos 1990, grandes corpora eletrnicos comeam a
participar sistematicamente da prtica lingustica, tem- se um contexto propcio para pr
em xeque os modelos tericos vigentes uma vez que estes teriam sido construdos a
partir de dados pouco confiveis e, considerando a linguagem como um sistema
probabilstico, para estudar de maneira sistemtica fenmenos que tm relao direta
com a frequncia, como a identificao de padres lexicais e a preferncia por certas
combinaes de palavras.
Nesse contexto toma corpo boa parte do que se entende por uma abordagem
corpus-driven: uma vez que as teorias de linguagem vigentes so inadequadas, a
explorao sistemtica de dados reais da lngua em uso, por si s, seria capaz de
construir novos modelos tericos, com novas categorias de anlise. Por isso, em
trabalhos cuja abordagem corpus-driven, comum a referncia a dados ou fenmenos
23
Quando refora a confiana no corpus ou nos dados que esto no corpus espera
de serem capturados, isto , ao transferir a fonte dos dados do sujeito-pesquisador (que
a origem das intuies/introspeces) para o corpus, a perspectiva corpus-driven
assume a existncia de uma entidade significado autnoma, estvel, independente de
um sujeito, da histria ou de circunstncias de leitura, localizada no texto e pronta para
ser revelada por meio das ferramentas adequadas.
J a abordagem corpus-based v o corpus como um auxiliar do pesquisador que
deseja investigar hipteses prvias, com base em modelos tericos preexistentes. Ou
seja, o corpus serve como fonte de exemplos ou como fonte de dados capazes de
validar, refutar ou especificar uma dada teoria.
Considerando os estudos da linguagem, portanto, nem todo trabalho feito com
corpus precisa se alinhar concepo de linguagem como um sistema probabilstico.
Projetos como FrameNet15 e sua contraparte brasileira, FrameNet-Brasil16(SALOMO,
2009), associam-se a abordagens cognitivistas, o projeto C-ORAL-BRASIL17 (RASO &
MELLO, 2012), criado para oferecer subsdios ao estudo da fala espontnea, tem como
arcabouo terico a Teoria da Lngua em Ato e, desde Freitas (2007), o trabalho que
venho realizando com corpus e lingustica computacional se inspira sobretudo no
ngulo no representacionista fornecido por Wittgenstein (1953). Hoje, o uso de corpora
est presente em diversos campos que tematizam a linguagem, como os estudos da
15
<http://framenet.icsi.berkeley.edu>.
16
<http://www.ufjf.br/framenetbr>.
17
<http://www.c-oral-brasil.org>.
24
18
<http://humanidadesdigitais.org/manifesto-das-humanidades-digitais>.
25
19
<http://diggingintodata.org>.
20
<http://www.governoeletronico.gov.br>.
21
<http://www.edemocracia.camara.gov.br>.
26
para todo dado, h sempre uma interpretao humana; (iii) essa interpretao deve ser
capaz de confrontar mesmo os dados do prprio corpus o questionamento do corpus
tambm deve fazer parte da pesquisa. Um exemplo da desconfiana com relao aos
dados est em Santos et al. (2011), quando investigvamos a distribuio gramatical de
palavras do lxico das cores nas variantes brasileira e portuguesa do Portugus. Em
ambas as variantes, encontramos a mesma frequncia de verbos de cores (azular,
enegrecer, avermelhar etc.), e o mesmo acontecia com relao aos substantivos. Os
adjetivos de cores, no entanto, apareciam com menor frequncia no Brasil, sugerindo
que no Brasil fazamos menos uso de adjetivos coloridos que em Portugal. Tal
concluso, considerando a uniformidade das palavras de cor pelas outras classes de
palavras, no fazia sentido. Depois de muitas hipteses, descobrimos que o material
brasileiro que compunha o corpus tinha uma natureza diferente do material portugus:
embora em ambos houvesse jornais e revistas de moda, as revistas de moda brasileiras
continham muitos moldes de roupa (para ensinar a costurar), diferentemente das revistas
portuguesas. Com isso, o material brasileiro continha menos adjetivos coloridos, em
uma explicao nada lingustica.
O relato das cores remete a um ponto fundamental da pesquisa com corpus: a
documentao. Um bom corpus, do ponto de vista de quem o constri e do ponto de
vista de quem o utiliza, um corpus bem documentado. A documentao possibilita (i)
avaliao relativa adequao do material s questes de pesquisa e a consequente
reutilizao do material, e (ii) interpretao consistente dos resultados. A documentao
deve incluir informaes quantitativas como o nmero de palavras; informaes
relativas provenincia do material compilado (datas de acesso e ou de criao; sites ou
locais de onde os textos foram retirados); critrios de seleo da amostra; tipo de texto;
registro; e pode conter ainda informao relacionada autoria dos textos, ao gnero dos
autores, e todas as informaes que os criadores do corpus considerarem relevantes. Em
um corpus composto por textos de blogs, por exemplo, relevante informar sobre a
incluso ou no dos comentrios (alm da postagem principal) e, em caso afirmativo, de
que maneira est marcada a diferenciao formal entre essas partes do texto23. A
explicitao de tais informaes possibilita um melhor entendimento dos resultados,
tornando mais fcil a comparao com outros corpora, por exemplo. Se toda essa
23
Considerando ainda que os corpora devem, na medida do possvel, ser armazenados em um formato de
texto simples (arquivos do tipo .txt), importante tambm documentar o tratamento dado a elementos
como notas de rodap, ttulos e links.
28
informao estiver includa no corpus, a documentao deve indicar tambm como ela
est codificada, e como encontr-la. Por exemplo: podemos, na documentao, indicar
que o corpus contm os artigos A e B, dos autores Aa e Bb, mas, nos textos do
corpus, essa informao no est disponvel. Podemos, no entanto, incluir no corpus os
atributos <ttulo> e <autoria>, e antes de cada texto os atributos so preenchidos com os
valores devidos. Nesse caso, a documentao tambm dever conter essas informaes.
Por fim, e como j sugerido diversas vezes ao longo do texto, no h como
desvincular a explorao de corpus do uso de ferramentas. Como aponta Anthony
(2013), tudo o que conseguimos com um corpus , em larga medida, determinado por
aquilo que as ferramentas nos permitem fazer. So elas que possibilitam perceber
padres que seriam de difcil observao em uma leitura caso a caso; que ensejam uma
primeira explorao, sobretudo em termos de frequncia, de fenmenos que podero,
em seguida, ser investigados mais verticalmente. S temos acesso aos dados do corpus
por meio da lente das ferramentas, e obviamente o que vemos pode se alterar em funo
da perspectiva, em funo do tipo de lente.
Ferramentas como o Corpgrafo (MAIA et al., 2005), AntConc (ANTHONY,
2012) ou WordSmith (SCOTT, 2012) as duas primeiras, gratuitas oferecem ao
pesquisador informao relativa frequncia de palavras e combinaes de palavras e
aos seus contextos de uso. Na figura 1, obtida com o Corpgrafo, temos a informao
das palavras mais frequentes em um pequeno corpus composto por 12 discursos de
posse presidenciais, quatro do perodo ditatorial e oito do perodo democrtico24.
Algumas pistas podem ser investigadas a partir desse material: a alta ocorrncia dos
pronomes nosso e ns indicaria aproximao entre interlocutores; dentre as palavras
lexicais (isto , excetuando-se preposies, artigos, pronomes, conjunes), a palavra
mais frequente pas, seguida de Brasil e de educao, o que sugere, ao menos no
mbito do discurso, a relevncia atribuda ao tema. As ferramentas permitem ainda a
deteco de combinaes de palavras mais frequentes (chamadas n-gramas) e a
visualizao de palavras ou combinaes em contexto, no que se chama visualizao de
concordncias. A figura 2 apresenta as frases (linhas de concordncia) com a palavra
24
Agradeo Camila Sobrinho a compilao do corpus, realizada no mbito de disciplina da ps-
graduao da PUC-Rio.
29
educao, cuja anlise pode servir como um espao exploratrio para o refinamento de
hipteses, que sero depois verificadas, com a ajuda do corpus ou no25.
3 Corpora anotados
25
As possibilidades de explorao dessa e das demais ferramentas esto longe de serem esgotadas aqui.
As pginas e tutoriais de cada uma delas so uma tima maneira de familiarizao.
26
Um lema corresponde forma de dicionrio de uma palavra: o lema professor engloba professor e
professores; cantei, cantou, cantamos e cantar tm todas o lema cantar. A utilizao de um
programa lematizador, portanto, propicia uma economia na busca (e na recuperao de dados), na medida
em que unifica as diferentes formas de uma palavra.
27
A anotao gramatical chamada de PoS (do ingls Part of Speech), e refere-se incluso de
informao relativa classe de palavras (substantivo, adjetivo, verbo, preposio etc.).
28
Considerando a sua vasta ocorrncia na lngua, a identificao de nomes prprios (tambm chamados
de entidades mencionadas) mais um aspecto relevante a ser considerado nas anlises. Segundo Archer
(2012), este tipo de categorizao tem sido amplamente utilizado nas Cincias Humanas e Sociais,
sobretudo por historiadores, socilogos e analistas de mdia.
30
Uma agncia de governo que receba milhares de comentrios online sobre uma
proposta de lei precisa organizar e categorizar essa informao de maneira til. Do
mesmo modo, um pesquisador interessado nas coberturas de campanhas polticas na
mdia precisa analisar e organizar as informaes de maneira a verificar suas questes
de pesquisa. Neste ponto, a associao com as ferramentas da Lingustica
Computacional vem sendo amplamente utilizada, como ilustra o nmero especial de
2008 da revista Journal of Information Technology & Politics, dedicado exclusivamente
anotao de textos para a Cincia Poltica (CARDIE & WILKERSON, 2008).
Um desafio central na explorao de grandes acervos organizar e classificar os
dados de modo que o pesquisador possa utiliz-los da melhor maneira possvel e
isso o que a anotao capaz de oferecer.
Atualmente, para a lngua portuguesa, j temos alguns sistemas ou servios
capazes de realizar anotaes gramaticais, sintticas e de NER, por exemplo29. Em DE
PAIVA et al. (2014), os autores exploram o contedo do Dicionrio Histrico
Biogrfico Brasileiro (DHBB) se aproveitando da anotao de entidades mencionadas e
de outras ferramentas e recursos da LC/PLN.
A anotao pode ser feita de diferentes maneiras, que variam conforme o volume
de trabalho humano envolvido: totalmente manual, semiautomtica ou automtica
A anotao manual, por envolver um trabalho mais moroso, costuma ser usada
em corpora de dimenses modestas. Alguns exemplos envolvem as anotaes de cunho
semntico-discursivo-pragmtico listadas acima, mas praticamente no h limites
quanto ao tipo de informao que se pode adicionar a um corpus. Em outras palavras,
boa parte das questes de pesquisa pode ser modelada como um esquema de anotao
como um esquema de classificao.
texto(s), indo alm da frequncia das palavras e seus contextos: com a anotao, o
resultado das buscas pode ser apresentado sob a forma de listas de distribuio.
Para ilustrar as possibilidades de pesquisa de um corpus anotado, exploro,
superficialmente, a forma pela qual conceituamos conhecimento, tomando por base o
corpus CHAVE (ROCHA e SANTOS, 2007), um corpus de textos jornalsticos,
composto pelos textos completos do jornal brasileiro Folha de So Paulo e do jornal
portugus Pblico, dos anos de 1994 e 1995. O objetivo deste breve exerccio apenas
apontar caminhos possveis na utilizao de corpus anotado; o foco no est na anlise,
mas antes nas possibilidades de abordagem, no tipo de perguntas que se pode fazer
quando se dispe de um corpus anotado neste caso especfico, um corpus com
anotao morfossinttica.
O corpus CHAVE tem quase 98 milhes de palavras. Por meio da interface de
acesso a corpus AC/DC (COSTA et al., 2009)30, a busca pelo lema conhecimento
retorna mais de 10 mil ocorrncias o que corresponde a 10 mil linhas de concordncia
, revelando o longo percurso da leitura caso a caso. Uma primeira alternativa para
viabilizar a anlise pode ser eliminar as ocorrncias do jornal portugus, assumindo que
o foco est, em primeiro lugar, em tentar caracterizar a situao no Brasil. Assim,
seleciono apenas a variante brasileira, e com isso a quantidade de ocorrncias cai para
cerca de 3.50031. Mesmo com esse recorte, a leitura e anlise caso a caso de 3.500 linhas
de concordncia pouco animadora e confivel. Procurar que tipos de coisas fazemos
com o conhecimento (construir conhecimento; transmitir conhecimento...) se traduz,
linguisticamente, em algo como quais verbos (informao de classe de palavras) tm o
lema conhecimento como complemento (informao sinttica)?. Com essa maneira de
perguntar32, as 3.500 frases com conhecimento foram reduzidas para 806. A figura 4
mostra algumas linhas de concordncia. No entanto, o trabalho de anlise ganha mais
uma dimenso quando, ao invs das linhas de concordncia, analisamos apenas os
verbos que tomam conhecimento como objeto direto (e essa maneira de perguntar s
possvel porque o corpus passou por um processamento prvio a anotao que
atribuiu essas informaes lingusticas s palavras do texto). A figura 5 apresenta os
30
O projeto AC/DC (Acesso a corpos/Disponibilizao de corpos) simultaneamente um espao virtual
para o acesso a diferentes corpora da lngua portuguesa e uma interface de acesso a esse material. Todo o
contedo pblico e disponvel: <http://www.linguateca.pt/ACDC>.
31
A seleo de variantes possvel porque o corpus est anotado e documentado quanto a isso.
32
Essa pergunta corresponde seguinte expresso de busca no AC/DC: [pos="V"]
[pos="DET.*|SPEC.*|PERS."]* [pos="DET.*|SPEC.*|PERS."]* [lema="conhecimento" & func="<ACC"
& variante="BR"].
33
classificamos pessoas pela cor, e exploro brevemente esse aspecto, tomando por base o
corpus do NILC/SoCarlos (PINHEIRO & ALUSIO, 2003), um corpus brasileiro
majoritariamente jornalstico.
36
<http://www.manchetometro.com.br>.
37
<http://infograficos.oglobo.globo.com/brasil/seguranca-publica-nas-redes.html>.
38
Para uma problematizao sobre a atribuio de polaridades a palavras ou expresses tendo como foco
a lngua portuguesa, ver Freitas et al., 2014.
38
refletir opes tericas quer na definio de critrios do que deve contar como uma
palavra, quer na escolha das mtricas capazes de determinar n-gramas.
Quanto definio do que uma palavra (elemento fundamental s perspectivas
que lidam com corpora no anotados e s ferramentas que apenas contam palavras),
cabe lembrar que no h consenso mesmo em teorias lingusticas (BIDERMAN, 1998).
Quantas palavras temos na frase O ex-professor abriu mo prmio entregue pela
Biblioteca Nacional? Dez, nove, oito, sete39?
Ainda quanto tarefa de contar palavras, Anthony (2013) apresenta os
resultados de diferentes programas para um mesmo texto um discurso presidencial. Os
programas WordSmith Tools, MonoConc Pro (BARLOW, 2000) e AntConc
(ANTHONY, 2012) apresentaram, para a palavra we (ns, em ingls), respectivamente:
60 ocorrncias; 60 ocorrncias; 62 ocorrncias. O que poderia ser considerado um
defeito do AntConc se revela, em uma anlise cuidadosa, resultado de uma opo
diferente quanto identificao de palavras. O WordSmith Tools e o MonoConc Pro
tratam o apstrofo como parte integrante de uma palavra, mas no o AntConc.
Consequentemente, duas ocorrncias de we com apstrofo (well, contrao de we will)
no so contabilizadas pelos programas WordSmith Tools e MonoConc, uma vez que
well considerada uma palavra distinta de we. Para a lngua portuguesa, poderamos
imaginar algo como a frequncia do pronome ela: um programa que separa dela em
duas palavras (de e ela) indicar uma quantidade de ocorrncias diferente do pronome
quando comparado a um programa que no usa essa estratgia, evidenciando a
impossibilidade de manipular o corpus de maneira neutra40.
Santos (2014) tambm trata de questes relacionadas a contagens e suposta
objetividade de tais mtodos:
Porque mesmo a aco mais simples imaginvel, a de contar palavras
ou identificar a pontuao, pressupe uma teoria lingustica
(Grefenstette & Tapanainen, 1994, Nunberg, 1990), ou, na sua
ausncia, uma descrio detalhada de todos os casos cobertos pelo
corpo (SAMPSON 2003).
39
Para contar nove palavras, consideramos o ponto de vista grfico: palavras so os conjuntos de letras
que ocorrem entre espaos em branco ou sinais de pontuao. Para considerar dez palavras, ex-professor
foi desmembrado em duas palavras. Para oito palavras, consideramos Biblioteca Nacional uma nica
palavra, porque corresponde a uma entidade. E para sete palavras consideramos o conjunto abrir mo
como uma palavra do ponto de vista semntico. possvel, ainda, desmembrar pela em por+a.
40
Trazendo os exemplos para a pesquisa nas Cincias Humanas e Sociais, a contagem de pronomes ela
pode ser uma das dimenses de um estudo sobre representaes de gnero em certos textos. J quanto ao
uso do ns (ou we, em ingls), sua contabilizao e anlise pode ser relevante na explorao de aspectos
discursivos vinculados a questes de incluso.
39
41
No sentido inverso, ou seja, a necessidade de ter alguma noo do que contagens em amostras podem
implicar, existe a tendncia de muitos (para no dizer a maioria dos) linguistas que usam corpos para
encarar de forma extremamente simplista as diferenas numricas (de contagens) como indicadoras de tal
ou tal fenmeno, sem nunca sequer imaginar que os nmeros que obtiveram podem no significar
rigorosamente nada porque, por exemplo, a amostra to pequena que as variaes medidas so
simplesmente devidas sorte. Outra prtica infelizmente comum, j com outro grau de sofisticao, a
aplicao de testes desajustados ao material. Por isso a literatura da lingustica quantitativa est cheia de
crticas metodolgicas e tem relativamente poucas contribuies que vo ao mago da questo, no sentido
de apresentarem mtodos desenvolvidos com base nos prprios problemas lingusticos. Em concluso,
para poder realmente aproveitar os corpos na lingustica preciso na maioria dos casos possuir
conhecimento lingustico e conhecimento estatstico; no se pode ficar a meio caminho. (SANTOS, 2014,
p. 198).
40
Consideraes finais
42
O exemplo vem do processo de anotao de um corpus para uma tarefa da Lingustica Computacional.
Os detalhes da tarefa e da anotao esto em Carvalho et al. (2008).
43
Note-se que a classe genrica pas, que certamente cabe no exemplo, pouco til, justamente por
poder representar as vrias alternativas de anotao apresentadas. O que se quer, com a tarefa,
exatamente especificar a classe semntica dos nomes para que o processamento automtico do contedo
do texto seja mais informativo.
44
Para um aprofundamento sobre a anotao, sugiro Garside et al. (1997) e Archer (2012).
41
45
<http://www.linguateca.pt>.
42
46
Enfatizo a utilizao do usurio porque o fato de uma dada ferramenta obter 90% de acerto, por
exemplo, pode ser um timo indicador do ponto de vista da evoluo da ferramenta, mas, do ponto de
vista da utilizao, a anlise de um corpus por uma ferramenta que produz 10% de erros pode ser
desanimadora.
47
Por originalmente digitais, entenda-se aqueles originalmente produzidos no ambiente digital, em
oposio aos textos impressos frutos de digitalizao.
43
Referncias
DEL, A. How to use corpus linguistics in the study of political discourse. In: O'KEEFFE, A.
& MCCARTHY, M. (Orgs.). The Routledge Handbook of Corpus Linguistics. USA: Routledge,
2012, p. 591-604.
ANTHONY, L. A critical look at software tools in corpus linguistics. Linguistic Research 30(2),
2013, p. 141-161.
______. 2012 AntConc. (Version 3.3.5) [Computer Software]. Tokyo, Japan: Waseda
University. Disponvel em: <http://www.antlab.sci.waseda.ac.jp>.
ARCHER, D. Corpus annotation: a welcome addition or an interpretation too far? In:
TYRKK, J.; KIPI, M.; NEVALAINEN, T.; RISSANEN, M. (Orgs.). Outposts of Historical
Corpus Linguistics: from the Helsinki corpus to a proliferation of resources. Studies in
Variation, Contacts and Change in English, 2012.
BAKER, P. (Org.). Contemporary Studies in Linguistics: Contemporary Corpus Linguistics.
New York: Continuum International Publishing, 2009.
BARLOW, M. MonoConc Pro (Verso 2.2) (Software), 2000. Disponvel em:
<http://www.athel.com/mono.html>. Acesso em: 25 maio 2014.
BEAUGRANDE, R. de. Descriptive linguistics at the millennium: corpus data as authentic
language. Journal of Language and Linguistics. 1 (2), 2002, p. 91-131.
BIBER, D.; CONRAD, S.; REPPEN, R. Corpus Linguistics: Investigating language structure
and use. UK: Cambridge University Press, 1998.
48
Digital Humanities have a utopian core shaped by its genealogical descent from the counterculture
cyberculture intertwinglings of the 60s and 70s. This is why it affirms the value of the open, the infinite,
the expansive, the university/museum/archive/library without walls , the democratization of culture and
scholarship, even as it affirms the value of large - scale statistically grounded methods (such as cultural
analytics) that collapse the boundaries between the humanities and the social and natural sciences. This is
also why it believes that copyright and IP standards must be freed from the stranglehold of Capital,
including the capital possessed by heirs who live parasitically off of the achievements of their deceased
predecessors.
44
WYNNE, M. (Org.). Developing Linguistic Corpora: a guide to good practice. Oxford: Oxbow
Books, 2005.
______. Do we need annotated corpora in the era of the data deluge? In: MAMBRINI, F.;
PASSAROTTI, M.; SPORLEDER, C. (Orgs.). Proceedings of the Second Workshop on
Annotation of Corpora for Research in the Humanities (ACRH-2). Lisboa: Edies Colibri,
2012, p. 1-2.
WITTGENSTEIN, L. Philosophical investigations. Nova York: Macmillan. 1953.
XIAO, R. Theory-driven corpus research: Using corpora to inform aspect theory. In:
LDELING, A.; KYT, M. (Orgs.). Corpus Linguistics: An International Handbook . Berlin:
De Gruyter, 2009, p. 987-1.008.