Você está na página 1de 23

Calidoscpio Vol. 4, n. 3 , p.

155-177, set/dez 2006 2006 by Unisinos

Sandra Maria Alusio


sandra@icmc.usp.br

Gladis Maria de Barcellos Almeida


gladis_maria@uol.com.br

O que e como se constri um corpus? Lies aprendidas na compilao de vrios corpora para pesquisa lingstica
What is a corpus and how to build it? Lessons learned from developing several linguistic corpora

RESUMO - As pesquisas baseadas em corpus tm tido na ltima dcada um amplo desenvolvimento no contexto brasileiro. Nota-se a sua relevncia e pertinncia nos domnios da Lingstica, da Lingstica Aplicada e da Lingstica Computacional. Em vista disso, uma abordagem surge para sistematizar procedimentos e dar conta desse novo modo de fazer pesquisa. Essa abordagem a Lingstica de Corpus que, auxiliada pelo desenvolvimento de ferramentas computacionais especficas para o tratamento do portugus brasileiro, pode alcanar um grande desenvolvimento no Brasil. Entretanto, muito do que j se obteve de desenvolvimento em Lingstica de Corpus no cenrio internacional no se reflete em muitas das pesquisas realizadas no Brasil, uma vez que as prticas mundialmente aceitas ainda no esto aqui sedimentadas, a despeito de haver no pas eminentes pesquisadores que desenvolvem extraordinrios projetos baseados em corpus. Assim, este artigo tem o propsito de discorrer sobre a concepo de corpus, os requisitos e procedimentos para a sua elaborao, os corpora e ferramentas existentes e disponveis e, finalmente, apresentar quatro projetos envolvendo corpus cuja descrio e detalhamento pode auxiliar outros pesquisadores nessa tarefa. Palavras-chave: corpus; lingstica de corpus; processamento de corpus.

ABSTRACT - The research based on corpus has had in the last decade an ample development in the Brazilian context. Its relevancy is noticed in the Linguistics, Applied Linguistics and Computational Linguistics research areas. The approach of Corpus Linguistics comes out to systematize procedures and to give account of this new way to make research. The development of Brazilian Portuguese natural language processing tools can help Corpus Linguistics to reach a great development in Brazil. However, the advances in Corpus Linguistics in the international scenery have not happened yet in many of the research carried out in Brazil. The reasons for this is that the procedures and concepts world-wide accepted are not still settled here, in spite of having researchers developing extraordinary projects based on corpus in Brazil. Thus, this article has the intention to discuss several definitions of corpus, the requirements and procedures for its elaboration, the available corpora and tools and, finally, to present four projects involving corpus whose description and detailing can assist other researchers in the corpus building and processing.

Key-words: corpus; corpus linguistics; corpus processing.

A corpus is a remarkable thing, not so much because it is a collection of language text, but because of the properties that it acquires if it is welldesigned and carefully-constructed. (Sinclair, 2005)

Concepo de corpus para a Lingstica e para a Lingstica de Corpus A utilizao de corpus sempre foi um recurso empregado em pesquisas lingsticas. A ttulo de ilustrao, podemos citar a utilizao de corpora em dicionrios ela-

borados durante os sculos XVIII e XIX, como o caso do Vocabulrio Portuguez e Latino, elaborado pelo Padre Rafael Bluteau e publicado entre 1712-1728, embora tenha sido concebido e realizado ainda no sculo XVII (Murakawa, 2006). O Vocabulrio de Bluteau, em oito volumes, foi o primeiro dicionrio para o qual foi fixado um

ART04_Aluisio-Almeida.pmd

156

17/1/2007, 15:35

Vol. 04 N. 03

set/dez 2006

corpus (Murakawa, 2001). Esse corpus contendo cerca de 406 obras, aproximadamente, com autores dos sculos XV a XVII, foi utilizado como exemplrio de uso lingstico para as palavras que constavam da nomenclatura do dicionrio (Murakawa, 2001; 2006). Outro exemplo j no sculo XIX o Diccionario da Lingua Portugueza, de Atnio de Morais Silva, segunda edio publicada em 1813, o qual tambm se valeu de um corpus (Murakawa, 2006). O que mudou, portanto, a concepo de corpus. Essa mudana de concepo deve-se Lingstica de Corpus, tida por Berber Sardinha (2004) como uma:
abordagem que se ocupa da coleta e da explorao de corpora, ou conjuntos de dados lingsticos textuais que foram coletados criteriosamente, com o propsito de servirem para a pesquisa de uma lngua ou variedade lingstica. Como tal, dedica-se explorao da linguagem atravs de evidncias empricas, extradas por computador (Berber Sardinha, 2004).

procurar obter um corpus realmente significativo. Enfim, o lingista deve desconfiar de tudo o que pode tornar o seu corpus no-representativo (mtodo de pesquisa escolhido, anomalia que constitui a intruso de lingista, preconceito sobre a lngua).

Na concepo de Ducrot e Todorov (2001), corpus um conjunto, to variado quanto possvel, de enunciados efetivamente emitidos por usurios da referida lngua em determinada poca. Para Trask (2004), corpus um conjunto de textos escritos ou falados numa lngua, disponvel para anlise. Segundo Sinclair, o maior lingista de corpus da histria e responsvel pelo trabalho pioneiro na rea de lxico com o dicionrio COBUILD, o primeiro a ser compilado a partir de um corpus computadorizado, prope a seguinte definio para corpus na perspectiva da Lingstica de Corpus:
A corpus is a collection of pieces of language text in electronic form, selected according to external criteria to represent, as far as possible, a language or language variety as a source of data for linguistic research (Sinclair, 20054) [grifo nosso].

Importa, contudo, definir corpus. H, pelo menos, duas grandes perspectivas a partir das quais se pode definir corpus, uma da Lingstica, outra da Lingstica de Corpus. Apresentaremos, a seguir, quatro definies de corpus na perspectiva da Lingstica, retiradas de dicionrios de Lingstica ou de Linguagem. Para Galisson e Coste (1983), corpus :
um conjunto finito de enunciados tomados como objeto de anlise. Mais precisamente, conjunto finito de enunciados considerados caractersticos do tipo de lngua a estudar, reunidos para servirem de base descrio e, eventualmente, elaborao de um modelo explicativo dessa lngua. Trata-se, pois, de uma coleco de documentos quer orais (gravados ou transcritos) quer escritos, quer orais e escritos, de acordo com o tipo de investigao pretendido. As dimenses do corpus variam segundo os objectivos do investigador e o volume dos enunciados considerados como caractersticos do fenmeno a estudar. Um corpus chamado exaustivo quando compreende todos os enunciados caractersticos. E chamado selectivo quando compreende apenas uma parte desses enunciados.

Para Dubois et al. (1993), corpus considerado o conjunto de enunciados a partir do qual se estabelece a gramtica descritiva de uma lngua. Os autores ainda complementam:
[o] corpus no pode ser considerado como constituindo a lngua, mas somente como uma amostra da lngua. (...) O corpus deve ser representativo, isto , deve ilustrar toda a gama das caractersticas estruturais. Poder-se-ia pensar que as dificuldades sero levantadas se um corpus for exaustivo (...). Na realidade, sendo indefinido o nmero de enunciados possveis, no h exaustividade verdadeira e, alm disso, grandes quantidades de dados inteis s podem complicar a pesquisa, tornando-a pesada.O lingista deve, pois,

Ao observar essas definies, podemos perceber que uma das diferenas entre a concepo da Lingstica de Corpus e da Lingstica o formato do corpus, ou seja, os dados devem estar em formato eletrnico. O que significa dizer que uma grande quantidade de livros, ou de revistas, ou mesmo de textos impressos no considerada corpus pela Lingstica de Corpus, j que os dados lingsticos no esto num formato que possam ser processados por computador. Para outros dois eminentes lingistas de corpus, o emprego do termo corpus implica em conotaes bastante especficas. Segundo McEnery e Wilson (1996), a moderna noo de corpus carrega consigo pelo menos quatro caractersticas fundamentais: a) amostragem e representatividade (sampling and representativeness): um corpus deve ter uma amostragem suficiente da lngua ou variedade de lngua que se quer analisar para obterse o mximo de representatividade desta mesma lngua ou variedade de lngua; b) tamanho finito (finite size): com exceo de corpus-monitor1, todo corpus tem um tamanho finito, por exemplo: 500 mil palavras, 1 milho de palavras, 10 milhes de palavras, etc; c) formato eletrnico (machine-readable form): segundo McEnery e Wilson (1996), atualmente o emprego do termo corpus significa admitir necessariamente que os textos estejam no formato eletrnico, diferentemente da idia que

1 Corpus-monitor aquele que pode receber novos textos e tornar-se cada vez maior. um corpus til para Lexicografia, por exemplo, j que necessrio observar palavras novas na lngua ou palavras j conhecidas mas com emprego diferente.

O que e como se constroi um corpus? Lies aprendidas na compilao de vrios corpora para pesquisa lingstica

157

ART04_Aluisio-Almeida.pmd

157

17/1/2007, 15:35

Calidoscpio

se tinha de corpus no passado, a qual se referia somente a textos impressos. Ainda de acordo com McEnery e Wilson (1996), o formato possui vantagens considerveis: i) os corpora podem ser pesquisados e manipulados de forma mais rpida; ii) os corpora podem ser mais facilmente enriquecidos com informao extra; d) referncia padro (standard reference): ainda de acordo com McEnery e Wilson (1996), existe um entendimento tcito de que um corpus constitui uma referncia padro para a variedade de lngua que ele representa, pressupondo que o corpus esteja disponvel para outros pesquisadores, em outras palavras, o que se tem chamado de reuso do corpus. Dentre essas quatro caractersticas apontadas pelos autores, a ltima digna de nota, j que uma outra diferena marcante entre a concepo de corpus para a Lingstica e para a Lingstica de Corpus. Entende-se que disponibilizao de corpus compilado para futuras pesquisas uma caracterstica inerente ao corpus, de forma que todo o esforo empreendido para a sua construo no seja til apenas para uma pesquisa, uma vez que se tem uma referncia padro de lngua ou de variedade de lngua que pode ser utilizada por outros pesquisadores. Percebe-se, pois, que os dois grandes pontos que diferem entre a Lingstica e a Lingstica de Corpus so: o formato computadorizado do corpus e a sua posterior disponibilizao para outras pesquisas. Se a Lingstica de Corpus descarta livros, revistas e outros textos impressos considerados corpus pela Lingstica (pois no esto em formato computadorizado), ela (a Lingstica de Corpus) tambm descarta a Web como corpus, ainda que os textos estejam disponveis e em formato eletrnico, pelo fato de suas dimenses serem desconhecidas, de estar continuamente mudando e pelo fato de no ter sido projetada a partir de uma perspectiva lingstica. Entretanto, a prpria Web que vai facilitar a distribuio e livre acesso de vrios corpora criados em vrios projetos, reforando uma das caractersticas de corpus citadas por McEnery e Wilson (1996). Ainda com relao a Web, vale assinalar que existem autores que a consideram um corpus, o caso de Kilgarriff e Grefenstette (2003). Com relao ao formato computadorizado, preciso admitir que o surgimento do computador (sobretudo do computador pessoal) interferiu diretamente no s na concepo que se tem de corpus como tambm na sua forma de armazenamento e explorao, j que os recursos oferecidos pelo computador permitiram que uma quantidade antes inimaginvel de textos pudesse ser processada na tela em questo de segundos, fazendo com que muitas hipteses sobre determinados fenmenos lingsticos pudessem ser testadas rpida e eficientemente. Essa nova forma de armazenamento de textos permitiu

a observao e descrio de fenmenos lingsticos recorrentes antes impossvel de perceber, dado que os procedimentos de observao e descrio contavam apenas com recursos manuais. Sobretudo a partir da dcada de 1990, os corpora passam a ter papel fundamental nas pesquisas lingsticas, pois data dessa poca o incio das contribuies advindas da Computao e da Lingstica Computacional. Destacam-se, principalmente, o aprimoramento e desenvolvimento de ferramentas computacionais voltadas para o processamento de lngua natural (PLN) do portugus do Brasil e o efeito que essas ferramentas tiveram para o processamento de corpus. De acordo com Trask (2004), a partir de corpora, podem-se fazer observaes precisas sobre o real comportamento lingstico de falantes reais, proporcionando informaes altamente confiveis e isentas de opinies e de julgamentos prvios sobre os fatos de uma lngua. Desta forma, por meio de corpus, podem-se observar aspectos morfolgicos, sintticos, semnticos, discursivos, etc. bastante relevantes para uma pesquisa lingstica. Podem-se ainda explicar a produtividade e o emprego de palavras, expresses e formas gramaticais. possvel descobrir fatos novos na lngua, no perceptveis pela intuio (Berber Sardinha, 2000). Em resumo, por meio de corpus, descreve-se a lngua de forma objetiva. Questes importantes para o projeto de um corpus computadorizado Para o projeto de um corpus computadorizado, devem-se observar um conjunto de requisitos que impactaro na validade e confiabilidade da pesquisa baseada no corpus, incluindo se o corpus de estudo serve ao propsito inicial da pesquisa (Kennedy, 1998; Biber et al., 1998; Renouf, 1998; Sinclair, 2005): autenticidade, representatividade, balanceamento, amostragem, diversidade e tamanho, os quais sero descritos a seguir. 1) Os textos devem ser autnticos. Por autenticidade, compreende-se: a) os textos devem ter sido escritos em linguagem natural, no podendo ser textos produzidos com o propsito de serem alvo de pesquisa lingstica (Berber Sardinha, 2000); b) os textos devem ser escritos por falantes nativos, exceto se se tratar de corpora de aprendizes, aqueles corpora cujos textos so provenientes de falantes que esto aprendendo uma lngua estrangeira (Berber Sardinha, 2000). 2) O corpus deve ter representatividade, isto , ser representativo da lngua ou de uma variedade de lngua que ser deseja pesquisar. Idealmente, um corpus deve ser elaborado de forma a representar determinadas caractersticas lingsticas da comunidade cuja lngua est
Sandra Maria Alusio e Gladis Maria de Barcellos Almeida

158

ART04_Aluisio-Almeida.pmd

158

17/1/2007, 15:35

Vol. 04 N. 03

set/dez 2006

sob anlise (Sinclair, 2005). Da a importncia de se fazerem escolhas adequadas, de modo que o corpus possa de fato espelhar comportamentos lingsticos. Questes que devem ser feitas durante a seleo dos textos so: quais documentos? Quais tipos de textos? Quais gneros textuais? Enfim, o que de fato representa os usos lingsticos de uma comunidade? 3) Apesar de Sinclair (2005) afirmar que o conceito de balanceamento ainda mais vago que o de representatividade, preciso ter em mente que o corpus deve ser balanceado, ou seja, deve ter um equilbrio de gneros discursivos (informativo, cientfico, religioso, etc.), ou de tipos de textos (artigo, editorial, entrevista, dissertao, carta, etc.), ou de ttulos, ou de autores, ou de todos esses itens juntos, desde que as escolhas sejam adequadas pesquisa que se pretende realizar, demonstrando que os textos foram escolhidos criteriosamente. Podemos dar como exemplo uma pesquisa que tem por objeto a descrio do pronome de tratamento alocutivo (=voc). Uma pesquisa como essa deve, necessariamente, selecionar para o corpus o gnero epistolar (composto de cartas), j que nesse gnero discursivo que pode haver ocorrncia significativa do pronome voc. O mesmo no ocorreria se o gnero escolhido fosse o jornalstico, por exemplo. 4) Biber et al. (1998) advoga que uma amostragem proporcional no adequada para corpus de lngua, pois esta deveria ser organizada demograficamente. Entretanto, tal tipo de corpus no representaria os tipos de gneros e de textos, pois um corpus com tal amostragem poderia conter 90% de conversao, 3% de cartas e notas e 7% divididos entre tipos de textos tais como reportagens e notcias, revistas, artigos acadmicos, literatura, aulas, e escrita no publicada, pois so poucas as pessoas que publicam ou mesmo falam para uma grande audincia. Para o estudo da lngua importa um corpus com amostras que sejam representativas por inclurem toda a variao lingstica que existe. 5) Com relao diversidade, Biber et al. (1998) enfatiza que no existe o que chamamos de lngua geral, dado que cada gnero e tipo de texto tm seus prprios padres de uso. Desta forma, se um corpus se presta para estudos de variao ou procura representar uma lngua, ele deve se preocupar com a diversidade de gne2 3

ros e tipos de textos, com a variao de dialetos e, por ltimo, com uma diversidade de tpicos que de fundamental importncia para estudos lexicogrficos, pois a freqncia de muitas palavras varia de acordo com a variao de tpicos. Este ltimo tipo de diversidade deve ser considerado para todos os tipos de estudos. 6) Segundo Sinclair (2005), o corpus deve ter o tamanho adequado ao tipo de pesquisa que se vai realizar e metodologia a ser adotada na pesquisa. Quando se fala em tamanho de um corpus, no se trata somente do nmero total de palavras (tokens) e de palavras diferentes (types), mas com quantas categorias (gneros discursivos, tipos de textos, datas, autores, etc.) um corpus deve contar, quantas amostras de cada categoria e quantas palavras existem dentre de cada amostra (Kennedy, 1998). Para estudos da prosdia, por exemplo, um corpus de 100 mil palavras ser o suficiente para generalizaes com propsitos descritivos; para estudos de muitos processos sintticos, um corpus de 500 mil a 1 milho de palavras suficiente; para a criao de dicionrios de lngua geral, que devem definir os vrios significados de suas entradas, gramticas e usos, seria necessrio um corpus muito maior, por exemplo, o Bank of English2 que apia a criao de produtos da editora Collins possui atualmente 530 milhes de palavras. Para Biber (1993), a elaborao de um corpus um processo que avana em ciclos: inicia-se a escolha de textos baseada em critrios externos culturalmente aceitos (tipologia de gneros e tipos de textos, por exemplo), depois se prossegue com investigaes empricas da lngua ou variedade lingstica sob anlise (tambm denominados critrios internos) e, finalmente, procede-se com a reviso de todo o projeto. Etapas metodolgicas para a compilao de um corpus Embora existam muitos corpora disponveis tanto livremente como mediante pagamento (as taxas geralmente so modestas para pesquisa acadmica) a partir dos quais se pode gerar um subcorpus de estudo ou mesmo tomar o corpus todo como uma unidade, dependendo da questo de pesquisa3 , ainda pode ser necessrio compilar um corpus prprio. Para a compilao de tal corpus, existem trs estgios principais a seguir: 1) projeto do

http://www.titania.bham.ac.uk/. Por exemplo, estudo de um autor em particular, o qual no se encontra representado em algum corpus, ou de um gnero mais atual como os e-mails e chats, estudo de textos de pocas no cobertas pelos corpora ou ainda estudo de um fenmeno raro.

O que e como se constroi um corpus? Lies aprendidas na compilao de vrios corpora para pesquisa lingstica

159

ART04_Aluisio-Almeida.pmd

159

17/1/2007, 15:35

Calidoscpio

corpus, que inclui a seleo dos textos e os cuidados com os requisitos que foram discutidos na seo anterior, 2) compilao (ou captura), manipulao, nomeao dos arquivos de textos, e pedidos de permisso de uso, e 3) anotao. Projeto de corpus: a seleo dos textos Inicialmente, procede-se seleo dos textos pertinentes e relevantes para a pesquisa. Para esta etapa, a definio do tipo de corpus que est se compilando importante; outras decises dizem respeito ao seu tamanho e sua composio em termos dos textos existentes bem como dos gneros aos quais eles pertencem. Existem vrias tipologias de corpus que indicam os parmetros importantes de considerao. Uma das mais antigas a de Atkins et al. (1992) e uma bastante atual a de Berber Sardinha (2004) que inclui sete critrios. Dentre eles, o mais importantes o critrio modalidade (texto falado, escrito ou ambos) e suas propores (dado que a compilao de um corpus de fala bastante cara). Compilao e manipulao do corpus A compilao consiste no armazenamento em arquivos predeterminados de todos os textos selecionados. Podem-se buscar textos provenientes da Web ou mesmo textos impressos, nesse caso, ser necessrio digitaliz-los e corrigir o resultado do processo de OCR (optical character recognition) devido a erros comuns durante o reconhecimento de caracteres, mesmo existindo atualmente bons produtos. Para o caso de se utilizar a Web, especificamente, existem duas grandes opes na obteno de textos, as quais se subdividem como segue: 1) a busca na Web com mquinas de busca: a. uso de uma mquina de busca como o Google para pesquisar toda a Web (podem-se utilizar palavras-chave escolhidas para a pesquisa em foco, sobretudo no caso de pesquisas terminolgicas); b. uso de ferramentas que pr-processam e/ou ps-processam os resultados das buscas de tais mquinas como fazem o WebCorp4 e KWiCFinder5; 2) a coleta de pginas da Web, organizando-as num computador local: a. construo automtica de corpus com aju4 5 6 7 8 9 10

da de offline browsers como o HTTrack6 ou com ajuda de ferramentas de apoio para a compilao de corpora descartveis (disposable corpora) como o Corpgrafo 7 e o Toolkit BootCat8, os quais geralmente realizam limpeza de tabelas, referncias, agradecimentos, etc. e/ou reviso ortogrfica se essa operao for importante para a pesquisa (por exemplo pesquisa terminolgica); b. coleta do corpus pela seleo de pginas de forma manual ou semi-automtica de acordo com um projeto especfico de corpus. Esta ltima opo no diferente da forma como grandes corpora, como o BNC9, foram construdos. A manipulao do corpus compe-se das seguintes atividades: a) converso manual e automtica (por exemplo, com o pacote XPDF10) de formatos doc, html e pdf para txt; b) limpeza e formatao, de maneira a preparar o corpus para o processamento computacional, o que significa tirar imagens, grficos, tabelas, nmeros de pginas e demais anotaes que no fazem parte do texto propriamente dito. A limpeza e a formatao possibilitam o processamento do corpus por ferramentas computacionais, como por exemplo contador de freqncia, concordanciador, ferramenta de extrao automtica de termos, etc. Nomeao de arquivos e gerao de cabealhos Depois que todos os textos forem convertidos em formato txt, eles devem receber um nome. Ressalte-se que essa nomeao deve seguir determinado padro de forma a facilitar a recuperao posterior de cada texto. Proteo da identidade dos participantes de um corpus e pedidos de direitos de uso dos textos Na compilao de corpus, devem-se seguir as regras legais para obteno de direitos de uso do material junto a autores e editores que detm o copyright do texto ou consentimento de indivduos cujos direitos de privacidade devem ser reconhecidos. Esta uma etapa da compilao de um corpus que no tcnica, demorada e tediosa, marcada por inmeras negociaes que podem se

http://www.webcorp.org.uk/. http://miniappolis.com/KWiCFinder/KWiCFinderHome.html. http://www.httrack.com/. http://poloclup.linguateca.pt/corpografo/. http://sslmit.unibo.it/~baroni/bootcat.html. http://www.natcorp.ox.ac.uk/. XPDF um programa de cdigo aberto que permite a converso automtica de arquivos, conferir: http://www.foolabs.com/xpdf/.

160

Sandra Maria Alusio e Gladis Maria de Barcellos Almeida

ART04_Aluisio-Almeida.pmd

160

17/1/2007, 15:35

Vol. 04 N. 03

set/dez 2006

arrastar por anos muitas vezes esta a razo de muitos corpora simplesmente no estarem disponveis publicamente. Uma estratgia importante para vencer a negao do pedido de permisso de uso a coleta de um nmero maior de textos dentro de cada categoria de um corpus (gnero, tipos de textos, data) para se preparar para o caso da permisso no ser concedida. Em Hasund (1998), discute-se como foi realizada a proteo da identidade dos participantes do corpus COLT (The Bergen Corpus of London Teenage Language), um corpus de 500 mil palavras de lngua falada coletado em 1993 na University of Bergen, Noruega. Na verso transcrita do COLT (e na parte correspondente do BNC), sobrenomes, endereos, nmeros de telefones foram removidos, embora os nomes sejam reais, isto , no foram trocados por fictcios. No existe, entretanto, nenhuma abordagem amplamente aceita para preservar o anonimato de indivduos em corpus da modalidade oral. A tendncia pelo completo anonimato, ou seja, apagamento de nomes, sobrenomes e ttulos profissionais, nomes de animais de estimao, endereos e telefones (que so removidos ou trocados por cdigos). Um outro procedimento a troca de nomes por similares equivalente prosodicamente aos originais. No corpus Bank of English, por exemplo, todos os nomes foram trocados por cdigos indicando o gnero do falante, mais um nmero que corresponde a uma descrio de cada um mantida separadamente. Enquanto aspectos ticos e legais da preservao do anonimato tratam do interesse do informante, aspectos sociolingsticos e computacionais tratam do interesse da pesquisa. Nomes e apelidos, por exemplo, fornecem informaes sociolingsticas relacionadas caracterstica socioeconmica e grupo tnico, entretanto, fazer a troca por outro nome que preencha todos os critrios sociolingsticos consome muito tempo, razo pela qual raramente feita. Anotao Em relao anotao, so dois basicamente os nveis de representao das informaes presentes num corpus: a anotao estrutural e a anotao lingstica. A anotao estrutural compreende a marcao de dados externos e internos dos textos. Como dados externos entendemos a documentao do corpus na forma de um cabealho que inclui os metadados textuais (ou dados estruturados sobre dados), isto , dados bibliogrficos comuns, dados de catalogao como tamanho do arquivo, tipo da autoria, a tipologia textual e informao sobre a distribuio do corpus. Como dados internos temos a anotao de segmentao do texto cru, que envolve: a) marcao da estrutura geral captulos, pargrafos, ttu11 12

los e subttulos, notas de rodap e elementos grficos como tabelas e figuras, e b) marcao da estrutura de subpargrafos elementos que so de interesse lingstico, tais como sentenas, citaes, palavras, abreviaes, nomes, referncias, datas e nfases tipogrficas do tipo negrito, itlico, sublinhado, etc. Essas informaes de cabealho facilitam a posterior recuperao do texto bem como a gerao de subcorpus, isto , podem-se selecionar todos os textos de determinado autor, ou de determinada poca, ou de determinado gnero, etc. A anotao lingstica pode ser em qualquer nvel que se queira, isto , nos nveis morfossinttico, sinttico, semntico, discursivo, etc., sendo inserida de trs formas: manualmente (por lingistas), automaticamente (por ferramentas de Processamento de Lngua Natural PLN) ou semi-automaticamente (correo manual da sada de outras ferramentas). Essa ltima comprovadamente mais eficiente, pois revisar mais rpido e gera dados mais corretos do que anotar pela primeira vez. Um padro que vem sendo usado atualmente para anotao de corpus para a criao de aplicaes de PLN o XCES11 (Corpus Encoding Standard for XML) que foi derivado do TEI12 (Text Encoding Initiative Guidelines for Electronic Text Encoding and Interchange), este ltimo largamente usado para criao de corpora contemporneos ou histricos, para pesquisas terminogrficas ou lexicogrficas, estudos literrios, descries lingsticas, entre outras. Alguns corpora disponveis na Web para pesquisa Como a construo de um corpus nos moldes acima mencionados no tarefa simples e rpida, antes de construir um, til saber se corpus com determinadas caractersticas j existem. Nesse sentido, apresentaremos alguns corpora disponveis na Web, os quais podem ser utilizados para muitas pesquisas. Arquivos da Folha (http://www1.folha.uol.com.br/folha/arquivos/): Est disponvel na Web o texto integral de todas as edies do jornal desde 1994. Todo esse material extremamente til para fazer buscas por contedo ou mesmo para atestar freqncia e emprego de determinadas palavras ou expresses na lngua, no gnero jornalstico. um corpus muito rico, entretanto, tem alguns inconvenientes: a) acessvel somente para assinantes do jornal Folha de S. Paulo ou do Universo On Line (UOL); b) a busca ocorre ano a ano, isto , no possvel conferir, por exemplo, a freqncia de uma expresso em todos os anos, mas devese selecionar o ano e digitar a expresso que se deseja

http://www.cs.vassar.edu/XCES/ http://etext.lib.virginia.edu/standards/tei/teip4/index.html

O que e como se constroi um corpus? Lies aprendidas na compilao de vrios corpora para pesquisa lingstica

161

ART04_Aluisio-Almeida.pmd

161

17/1/2007, 15:35

Calidoscpio

pesquisar; c) a expresso pesquisada no aparece na tela no formato de um concordanciador, mas pequenos contextos com links so oferecidos ao usurio, de forma que, acionado esses links, possvel chegar aos textos na ntegra; d) no possvel gerar subcorpus, isto , selecionar as edies desejadas e fazer download, todas as buscas so feitas de forma on-line no site da Folha. Lcio-Web (http://www.nilc.icmc.usp.br/lacioweb/): O Lcio-Web13 (LW) um projeto organizado pelo Ncleo Interinstitucional de Lingstica Computacional (NILC14), em parceria com o Instituto de Matemtica e Estatstica (IME) e a Faculdade de Filosofia, Letras e Cincias Humanas (FFLCH), todos pertencentes Universidade de So Paulo (USP). O LW disponibiliza livremente na Web: a) vrios corpora do portugus brasileiro escrito contemporneo, representando bancos de textos adequadamente compilados, catalogados e codificados em um padro que possibilite fcil intercmbio, navegao e anlise; e b) ferramentas lingstico-computacionais, tais como contadores de freqncia, concordanciadores e etiquetadores morfossintticos. Projeto COMET (Corpus Multilnge para Ensino e Traduo http://www.fflch.usp.br/ dlm/comet/: O projeto COMET, em elaborao junto ao Centro Interdepartamental de Traduo e Terminologia (CITRAT) da Faculdade de Filosofia, Letras e Cincias Humanas (FFLCH) da USP, disponibiliza um corpus eletrnico que tem por objetivo servir de suporte a pesquisas lingsticas, principalmente nas reas de traduo, terminologia e ensino de lnguas. O COMET composto por trs subcorpora: a) Corpus Tcnico-Cientfico CorTec: corpus comparvel de textos tcnicos e/ou cientficos originalmente escritos em portugus brasileiro e em ingls; b) Corpus Multilnge de Aprendizes CoMAprend: constitudo de redaes dos alunos da graduao e dos cursos de extenso das reas do Departamento de Letras Modernas: alemo, espanhol, francs, ingls e italiano; c) Corpus de Traduo CorTrad: subdivide-se em Literrio e Juramentado; o corpus Literrio composto de contos traduzidos do ingls e seus respectivos originais, o corpus Juramentado ser constitudo de textos cedidos pela Junta Comercial de So Paulo por meio de contrato de comodato com a USP.
13

Linguateca (http://www.linguateca.pt/): A Linguateca um centro de recursos para o processamento computacional da lngua portuguesa e tem como objetivo servir comunidade que se dedica ao processamento do portugus. No site da Linguateca esto disponveis, entre outros, os seguintes corpora crus e anotados pelo analisador sinttico Palavras15: a) CETEMPblico (Corpus de Extratos de Textos Eletrnicos MCT/Pblico http://www.linguateca.pt/CETEMPublico/): corpus de aproximadamente 180 milhes de palavras em portugus europeu, criado pelo projeto Processamento computacional do portugus (projeto que deu origem Linguateca) aps a assinatura de um protocolo entre o Ministrio da Cincia e da Tecnologia (MCT) portugus e o jornal Pblico (jornal portugus) em abril de 2000; b) CETENFolha (Corpus de Extractos de Textos Electrnicos NILC/Folha de So Paulo http:// www.linguateca.pt/CETEMPublico/): corpus de cerca de 24 milhes de palavras em portugus brasileiro com base nos textos do jornal Folha de S. Paulo que fazem parte do corpus NILC/So Carlos; c) COMPARA (http://www.linguateca.pt/ COMPARA/): corpus paralelo que tem como base textos em portugus e as suas tradues para ingls e textos em ingls e as suas tradues para portugus. Algumas ferramentas disponveis na Web H disponvel gratuitamente na Web uma srie de ferramentas que podem auxiliar a pesquisa envolvendo corpus. Apresentaremos, inicialmente, as ferramentas de processamento de corpora gerais ou especializados, as quais incluem o WebCorp e o Unitex. Em seguida, as ferramentas de gerao e gerenciamento de corpora especializados, abrangendo o Corpgrafo e o ToolKit BootCaT. Ferramentas de processamento de corpus WebCorp WebCorp um conjunto de ferramentas que permitem acesso a Web como um recurso lingstico, isto , permitem extrair fatos sobre vrias lnguas como se a Web fosse um corpus o maior deles16. Verses demo desse conjunto de ferramentas so disponibilizadas gratuitamente na Web a partir do endereo http://www.webcorp.org.uk/. Vale assinalar que est em corrente desenvolvimento a construo de uma mquina de busca lingstica para melhorar o desempenho do WebCorp.

O projeto Lcio-Web ser detalhado a seguir. Localizado no Instituto de Cincias Matemticas e de Computao, da Universidade de So Paulo (USP), campus de So Carlos (SP, Brasil), www.nilc.icmc.usp.br/. 15 Desenvolvido por Eckhard Bick (http://visl.hum.sdu.dk/). 16 Em nvel internacional, houve dois Workshops dedicados ao tema Web as a corpus - o primeiro em conjunto com a conferncia Corpus Linguistics 2005, e o segundo em conjunto com a 11th Conference of the European Chapter of the Association for Computational Linguistics (EACL 2006).
14

162

Sandra Maria Alusio e Gladis Maria de Barcellos Almeida

ART04_Aluisio-Almeida.pmd

162

17/1/2007, 15:35

Vol. 04 N. 03

set/dez 2006

WebCorp pode ser usado por pesquisadores e professores de lngua, por exemplo, que tenham interesse em analisar como certas palavras e expresses so usadas, especialmente as palavras raras ou neologismos que no aparecem em dicionrios e em corpora padres. Desde seu lanamento, em 2000, pela Research and Development Unit for English Studies (RDUES) na School of English da University of Central England, Birmingham, Webcorp tem sido usado por lingistas, lexicgrafos, alunos e professores de lnguas, editores, jornalistas, publicitrios e demais pesquisadores provenientes de distintas reas. WebCorp possui uma interface similar a muitas mquinas de busca (observe-se a tela principal na Figura 1) na qual se pode digitar uma palavra ou expresso de busca, escolher as opes nos menus e clicar o boto Submit. Ele trabalha com os resultados do motor de busca escolhido (h opes para quatro deles: Google, Altavista, Metacrawler e AllTheWeb), tomando a lista de URLs17 retornada do motor de busca escolhido e extraindo concordncias de cada pgina. Todas as concordncias so apresentadas em uma nica pgina separadas por arquivo da Web e com links para os sites de onde vieram (observe-se parte do resultado da palavra corpus na Figura 2). Uma das opes avanadas que merece destaque a

escolha de busca em um dado domnio, por exemplo, ao escolher .ac.uk ela ser restrita s instituies acadmicas do Reino Unido; .fr s URLs da Frana e .br.com s URLs de empresas no Brasil. Outra opo a possibilidade de analisar colocaes da palavra de busca, isto , as palavras que aparecem com freqncia maior nas proximidades da palavra em foco, podendo tambm excluir stopwords na apresentao das colocaes. A Figura 3 apresenta as colocaes da palavra corpus em URLs do domnio .ac.uk, excluindo stopwords. Unitex O Unitex consiste em um conjunto de programas para processamento de corpus lingsticos composto por uma interface grfica em Java e diversos programas desenvolvidos em C (Paumier, 2002). A interface Java em conjunto com os programas em C permitem que a ferramenta possa ser portada para uma srie de plataformas sem perdas significativas de desempenho durante o processamento de corpus. Dentre os recursos lingsticos oferecidos esto dicionrios18 e tabelas do lxico-gramtica19. Os dicionrios contm palavras simples e compostas de um idioma alm de informaes gramaticais sobre cada palavra. As gramticas

Figura 1. Tela principal do WebCorp a partir da qual se podem escolher as opes do menu e acessar as opes avanadas de busca.

17

Sigla que designa a localizao de um objeto na Internet (rede mundial de computadores), segundo determinado padro de atribuio de endereos em redes. (Novo Dicionrio Eletrnico Aurlio verso 5.0, 2004) 18 Dicionrios para serem utilizados pela mquina e no para humanos. 19 As tabelas do lxico-gramtica so matrizes binrias nas quais as linhas so ocupadas por entradas do lxico e nas colunas so explicitadas as propriedades sinttico-semnticas de cada entrada lexical. No cruzamento de cada coluna com cada linha so colocados um sinal de + no caso da propriedade se aplicar quela entrada, e um - para o caso contrrio. Essa metodologia foi proposta por M.Gross (1968, 1975) no estudo dos verbos do francs e tem sido aplicada a diversas lnguas no estudo principalmente de elementos predicativos como os verbos, adjetivos e substantivos predicativos. Uma bibliografia a respeito dessa teoria/metodologia pode ser encontrada em: http://ladl.univ-mlv.fr/ (Vale, 1998 e 2001).

O que e como se constroi um corpus? Lies aprendidas na compilao de vrios corpora para pesquisa lingstica

163

ART04_Aluisio-Almeida.pmd

163

17/1/2007, 15:35

Calidoscpio

so representadas por meio de autmatos de texto, um formalismo baseado em autmatos finitos. As tabelas do lxico-gramtica mostram as propriedades de algumas palavras. A verso 1.2 da ferramenta prov suporte para mais de

14 idiomas (incluindo o Portugus). Entretanto, o usurio pode adicionar facilmente suporte a qualquer idioma graas ao uso do padro Unicode20 para codificao de texto. O suporte ao idioma portugus particularmente bom gra-

Figura 2. Parte do resultado da busca da palavra corpus, com as opes de apresentao de 5 palavras esquerda e direita da palavra em foco.

Figura 3. Colocaes esquerda e direita da palavra corpus a partir de 200 pginas do domnio .ac.uk. Expresses padres selecionadas deste conjunto foram word corpus e Corpus Linguistics que so apresentadas como links prontos para serem analisados a partir do Google. As colocaes esto ordenadas pela freqncia.
20

http://unicode.org/

164

Sandra Maria Alusio e Gladis Maria de Barcellos Almeida

ART04_Aluisio-Almeida.pmd

164

17/1/2007, 15:35

Vol. 04 N. 03

set/dez 2006

Figura 4. Texto segmentado e lista de tokens. esquerda vemos um texto aps a fase de segmentao e prprocessamento; direita so exibidos os tokens extrados do texto. as ao trabalho Unitex-PB desenvolvido em Muniz (2004) e Muniz et al. (2005). O software Unitex uma implementao livre do programa Intex, ambos criados no laboratrio francs LADL21 (Laboratoire dAutomatique Documentaire et Linguistique), por isso as funcionalidades fornecidas por essas ferramentas so bem semelhantes. Os dicionrios Unitex se baseiam no formalismo DELA (Dictionnarie Electronique du LADL) tambm desenvolvido no laboratrio LADL. Pr-processador de textos Um arquivo de texto no formatado (formato txt) com codificao Unicode convertido para uma forma pr-processada aps ser aberto pela primeira vez no Unitex. Os arquivos pr-processados geralmente possuem a extenso .snt. Durante o processo de converso, o texto original segmentado em sentenas e unidades lexicais (tokens) (Figura 4). Alm disso, repeties desnecessrias de caracteres de separao, tais como espaos, quebras de linha e tabulaes, so removidas e formas no ambguas do texto so normalizadas para simplificar operaes de busca, sendo que as normalizaes so definidas pelo usurio (Figura 5). Como exemplo, a palavra da normalizada em de a. importante notar que normalizao no pode ocorrer para palavras ambguas tal como a palavra desse que pode significar de esse ou uma conjugao do verbo dar. Nesta etapa, possvel construir um autmato de texto sobre o arquivo de entrada. Alm disso, tambm possvel aplicar um conjunto de dicionrios de palavras simples Figura 5. Pr-processador. e compostas durante o pr-processamento para a construo de um subconjunto de dicionrios contendo apenas as palavras presentes no texto. Neste processo, as palavras dos textos so agrupadas em 3 classes: palavras simples, palavras compostas e palavras no reconhecidas (Figura 6). As nicas tarefas apresentadas acima necessrias durante o pr-processamento so a segmentao em unidades lexicais e a remoo de caracteres de separao desnecessrios, as demais podem ser efetuadas posteriormente. Na Figura 5 exibida a caixa de dilogo para prprocessamento de textos sem formatao. Os textos so segmentados de acordo com as regras definidas no arquivo indicado na opo Apply FST2 in MERGE mode. O arquivo definido em Apply FST2 in REPLACE mode contm regras de normalizao de formas no ambguas. A opo Construct Text Automaton permite a criao de autmatos de texto. A opo GO! inicia o prprocessamento do texto.

21

http://ladl.univ-mlv.fr/.

O que e como se constroi um corpus? Lies aprendidas na compilao de vrios corpora para pesquisa lingstica

165

ART04_Aluisio-Almeida.pmd

165

17/1/2007, 15:35

Calidoscpio

A Figura 6 mostra um dicionrio (esquerda) onde so listadas informaes morfossintticas das palavras reconhecidas. As palavras esto divididas em trs grupos: palavras simples; palavras compostas e palavras no reconhecidas. A direita pode ser observado o autmato de texto para uma sentena pertencente a um texto histrico. Concordanciador O concordanciador presente na ferramenta permite a busca de padres atravs de expresses regulares. Seqncias de smbolos reservadas so utilizadas para denotar uma expresso regular. As operaes de concatenao, unio, fecho de Kleene e negao so permitidas e representadas respectivamente pelos smbolos: ., +, *, !. Por exemplo, a expresso regular para.dizer* representa a palavra para imediatamente seguida por zero ou mais ocorrncias da palavra dizer. As seqncias de smbolos abaixo realizam operaes teis: * <E>: representa uma cadeia vazia * <MOT>: qualquer seqncia de letras do alfabeto * <MIN>: qualquer seqncia de letras minsculas * <MAJ>: qualquer seqncia de letras maisculas * <PRE>: uma seqncia de letras comeando por maisculas * <NB>: qualquer seqncia de algarismos * <^>: representa o caractere de quebra de linha * #: impede a presena de espao em branco Adicionalmente, possvel representar nas expresses regulares informaes codificadas nos dicionrios. Por exemplo, a expresso <A> denota qualquer adjetivo,

j a expresso <dizer.V> denota qualquer palavra que tenha dizer como sua forma cannica e seja da classe dos verbos. Um exemplo de busca mais avanada pode ser dado pela expresso <V><A> que faz a busca de um verbo seguido de um adjetivo (figura 7). Dicionrios Existem dois tipos principais de dicionrios no formato DELA: os dicionrios de forma cannica (DELAS) e os dicionrios de formas flexionadas (DELAF). Alm disso, existem duas variantes para palavras compostas: DELAC para formas cannicas e DELACF para formas flexionadas. A ordem de prioridade em pesquisas em dicionrios definida pelos smbolos + (mais prioritrio) e - (menos prioritrio) adicionados no fim dos nomes de arquivos de cada dicionrio. Uma possvel entrada para um dicionrio DELAF dada por abandonou,abandonar.V:J3s/comentrio. Esta entrada indica que a palavra abandonou possui a forma cannica abandonar, sendo abandonar um verbo. O itens J3s indica terceira pessoa do pretrito, e a seqncia depois do smbolo / indica um comentrio. Smbolos reservados podem ser representados como parte de uma entrada se forem antecedidos pelo smbolo \. O formato das entradas nos demais dicionrios semelhante ao formato do exemplo mostrado acima com pequenas variaes. Alm disso, possvel armazenar informaes semnticas adicionais por meio de palavras reservadas como por exemplo AnlColl e ConcColl. A primeira indica um coletivo de animais (exemplo: manada) enquanto que a segunda indica um coletivo humano (exemplo: banda).

Figura 6. Dicionrio morfossinttico e grafo de texto

166

Sandra Maria Alusio e Gladis Maria de Barcellos Almeida

ART04_Aluisio-Almeida.pmd

166

17/1/2007, 15:35

Vol. 04 N. 03

set/dez 2006

Figura 7. Busca por verbo seguido de adjetivo O Unitex fornece recursos para tratar dicionrios no formato DELA. possvel comprimir um dicionrio, verificar se contm erros de formatao ou orden-lo caso ainda no esteja em ordem alfabtica. Como os mesmos smbolos podem ser ordenados de maneiras diferentes de acordo com o idioma em uso, o usurio pode definir seus prprios critrios de ordenao por meio de um arquivo chamado Alphabet_sort.txt. Alguns cdigos gramaticais so utilizados para permitir a flexo automtica de uma forma cannica. Um novo dicionrio contendo as formas flexionadas pode ser gerado automaticamente pelo Unitex a partir do dicionrio original e de uma gramtica de flexo previamente definida. Ferramentas de gerao e gerenciamento de corpora especializados O Ambiente Corpgrafo Desenvolvido pela Faculdade de Letras da Universidade do Porto (FLUP), o Corpgrafo22 um gestor de corpus que se encontra, atualmente, direcionado para pesquisas terminolgicas, isto , a extrao de termos e sua organizao em bases de dados. Fornece um ambiente Web integrado para o manejo de corpus, disponibilizando ferramentas para processamento de corpus. Dentre as ferramentas que possui, esto concordanciadores, contadores de freqncia e tambm ferramentas de prprocessamento de corpus, como as de limpeza de corpus
22 23

e sentenciadores. Toda funcionalidade do Corpgrafo est associada a um dos quatro ambientes de trabalho ou mdulos: gestor de ficheiros, pesquisa de corpora, centro de conhecimento e centro de documentao, essa subdiviso diminui a sobrecarga de trabalho no ambiente. Dos quatro mdulos contidos no Corpgrafo, o que mais interessa para este artigo o Gestor de ficheiros, que trata especificamente da montagem de corpus. Para construir um corpus no Corpgrafo, primeiramente necessrio selecionar os textos que comporo o corpus, que podem ser fornecidos de duas maneiras: ou enviando o prprio arquivo (upload) ou informando a URL onde o arquivo pode ser encontrado. O Corpgrafo aceita textos do tipo pdf, html, doc, ps e rtf, alm do txt, formato para o qual todos os outros tipos de texto so transformados. O Corpgrafo oferece ferramentas para o pr-processamento desses textos, tais como sentenciadores (denominados fraseadores em portugus de Portugal) e um ambiente de edio que permite fazer a limpeza de textos (retirar lixo provindo da converso de tipos de texto, remoo de cabealhos, tabelas, referncias ou agradecimentos). Aps pr-processar os textos, pode-se selecionar aqueles que faro parte do corpus. Tendo um corpus montado seguindo os passos anteriores, o Corpgrafo oferece ferramentas de busca e extrao de conhecimento de corpus , como um concordanciador com suporte para pesquisas utilizando expresses regulares, gerador de n-grama23 (sendo 5 o tamanho mximo possvel para o n-grama), extratores de

http://www.linguateca.pt/Corpografo/ Lexias com nmero varivel de palavras.

O que e como se constroi um corpus? Lies aprendidas na compilao de vrios corpora para pesquisa lingstica

167

ART04_Aluisio-Almeida.pmd

167

17/1/2007, 15:35

Calidoscpio

terminologia, relaes semnticas e mapas conceituais, dentre outras. O ToolKit BootCaT O BootCaT24, extrator automtico de corpus e de termos (do ingls Bootstrapping Corpora and Terms), prope a montagem de corpus, de modo iterativo, a partir de textos obtidos na Web. O BootCaT composto por vrias ferramentas escritas em Perl25, que foram projetadas para executar pequenas partes do processo de montagem de corpus. Basicamente, o processo de montagem de corpus do BootCaT composto de quatro passos: 1) construir um corpus automaticamente a partir de buscas no Google26 utilizando um pequeno conjunto de itens lxicos, denominados sementes (seeds) no BootCaT; 2) extrair novas sementes desse corpus; 3) utilizar essas novas sementes para novas buscas ao Google, cujos textos recuperados sero concatenados ao corpus, aumentando-o; 4) extrair novas sementes desse corpus complementado-o, e assim por diante. A montagem de corpus proposta pelo BootCaT segue o diagrama da figura 8. O primeiro passo selecionar as sementes iniciais. Isso feito manualmente, e boas sementes so termos tpicos em textos do domnio especfico do qual se busca construir a amostragem. No segundo passo, essas semen-

Figura 8. Fluxo de montagem de um corpus no BootCaT (Baroni e Bernardini, 2004).


24 25 26

tes so combinadas entre si e algumas dessas combinaes ( escolha do usurio) so enviadas como buscas no Google. No terceiro passo, as URLs retornadas das buscas so processadas para obter-se apenas o texto contido nelas, convertendo-as para texto puro e limpando-os, quando for possvel. So aproveitados somente os formatos html e txt. Nesse momento, um primeiro corpus j est formado. Desse primeiro corpus so extrados unigramas (itens lxicos com apenas uma palavra), e a freqncia de cada unigrama obtido no corpus apurada. Sabendo-se a freqncia de cada unigrama, esses podem ser comparados entre si. A relevncia de cada unigrama mensurada utilizando a medida estatstica log odds ratio (Baroni e Bernardini, 2004), com o apoio de um corpus de referncia na mesma lngua. Uma lista de unigramas, ordenada pela relevncia calculada pela medida log odds ratio ento gerada, e os primeiros elementos da lista so considerados bons candidatos a sementes. Caso o corpus obtido at o momento no seja satisfatrio (seja pequeno, por exemplo), podem-se eleger os primeiros unigramas da lista como novas sementes e repetir o processo, voltando ao segundo passo. Segundo Baroni e Bernardini (2004), corpus representativos podem ser montados com poucas sementes iniciais (entre 5 e 15). Os autores tambm afirmam que com duas ou trs iteraes possvel obter um corpus satisfatrio. O BootCaT tambm dispe de ferramentas para extrao de termos com mais de uma palavra, ou termos multipalavras. Para tal propsito, precisamos de duas listas, ambas obtidas no corpus de referncia: uma de conectores e uma de stopwords. Conectores so compostos por palavras ou bigramas (itens lxicos com duas palavras, meio ambiente, por exemplo) que ocorrem freqentemente entre dois unigramas, e stopwords so termos muito freqentes, geralmente formados por palavras de classe fechada de uma lngua como os artigos, as conjunes, as preposies e os pronomes que no so conectores. As listas descritas acima no precisam necessariamente ser obtidas pelo BootCaT, podem ser dadas ou obtidas de outras fontes. Com as listas acima possvel definir o que so termos multipalavras, segundo as restries abaixo: 1. contm ao menos um unigrama; 2. no contm stopwords; 3. podem ter conectores, desde que esses no estejam nas extremidades do termo e no sejam consecutivos; 4. tm freqncia maior que um limiar (threshold), que relativo ao tamanho do termo; 5. no podem ser parte de termos multipalavras maiores com freqncia superior a k*fq, onde

http://sslmit.unibo.it/~baroni/bootcat.html http://www.perl.com http://www.Google.com.br/

168

Sandra Maria Alusio e Gladis Maria de Barcellos Almeida

ART04_Aluisio-Almeida.pmd

168

17/1/2007, 15:35

Vol. 04 N. 03

set/dez 2006

k uma constante entre 0 e 1 (normalmente k um valor perto de 1) e i fq a freqncia do termo atual; 6. reciprocamente, no podem conter termos multipalavras menores com freqncia superior a (1/k) * fq; Os termos multipalavras so procurados recursivamente, inicialmente buscando por bigramas e depois concatenando palavras esquerda e direita, na busca de um (n+1) grama. Parmetros como a freqncia mnima para bigramas (utilizado para calcular o limiar da restrio 4) e o valor de k das restries 5 e 6 devem ser informados pelo usurio. O BootCaT extremamente modular: para executar o processo de montagem de corpus e extrao de termos so utilizadas vrias ferramentas, sendo que o resultado de cada ferramenta serve de entrada para outra. Essa caracterstica nos permite utilizar subconjuntos de ferramentas, conferir os arquivos de sada intermedirios, adicionar novas ferramentas, substituir uma ferramenta ou alterar uma ferramenta sem preocupar-se com as outras, apenas cuidando para que ela aceite o mesmo tipo de entrada e produza o mesmo tipo de sada. Essa caracterstica reduz re-implementaes de algoritmos com implementaes consolidadas, evitando a replicao desnecessria de cdigo. Alteraes intuitivamente complexas, como adaptaes de ferramentas para trabalhar com lnguas diferentes, tm sido experimentadas e comprovam os benefcios das ferramentas modulares. Adaptaes para o BootCaT foram feitas para construo de corpus em lngua japonesa (Baroni e Ueyama, 2004), com taxas encorajadoras de reaproveitamento de ferramentas e cdigo. As buscas e a recuperao das URLs dessas buscas requisitadas pelo BootCaT ao Google so possveis por meio da API (Interface para Programao de Aplicativos) do Google. Essa API permite ao programador enviar e recuperar facilmente uma busca feita ao Google. Para a utilizao da API do Google, e conseqentemente do BootCaT, necessrio obter a licena de uso dessa no site do Google. Para obter essa licena, o usurio precisa cadastrar-se, e a chave da licena enviada por email. Essa licena permite que o usurio execute diariamente at 1.000 buscas e retorne no mximo 10.000 resultados. As ferramentas do BootCaT, por serem cdigo livre, foram incorporadas no projeto e-Termos27, uma aplicao Computer-Supported Collaborative Work (CSCW) composta por seis mdulos de trabalho independentes, mas inter-relacionados, cujo propsito automatizar ou semi-automatizar todas as tarefas de criao e gerenciamento do trabalho terminolgico. O e-Termos, como um

Ambiente Colaborativo , grosso modo, um sistema Web cuja entrada principal um corpus de especialidade de um determinado domnio do conhecimento; e a sada, um produto terminolgico (glossrio, dicionrio, lista de termos, mapa conceitual, etc.) do domnio em questo. O e-Termos est sendo desenvolvido no NILC. Lies aprendidas a partir de projetos de pesquisa Vrios projetos envolvendo corpus foram e tm sido objeto de pesquisa das autoras nos ltimos anos. Apresentaremos, a seguir, detalhes da elaborao e execuo desses projetos, com o intuito de expor detalhes da construo dos corpora, explicitando nossas escolhas, tomadas de deciso, erros cometidos, de forma a auxiliar demais pesquisadores que desejam adotar os princpios da Lingstica de Corpus em seus projetos. Projetos Corpus NILC e Lcio-Web O NILC possui um corpus do portugus do Brasil (chamado de Corpus NILC ou CN), compilado a partir de 1993, contendo cerca de 35 milhes de palavras. O corpus consiste de textos em prosa, divididos em subcorpora de textos corrigidos, textos no corrigidos e textos semicorrigidos. As decises de projeto e compilao foram motivadas pelas necessidades provenientes de outro projeto denominado ReGra28 (um revisor gramatical para o portugus do Brasil, incorporado ao Microsoft Word desde 2000), embora na poca as orientaes da Lingstica de Corpus para compilao de corpus fossem incipientes. Alguns problemas do Corpus NILC so descritos abaixo (Pinheiro e Alusio, 2003): classificao dos textos: a classificao textual do CN problemtica, pois o Corpus foi construdo sob demanda. medida que foram adquiridas, as amostras passaram a integrar categorias textuais distinguidas segundo parmetros irregulares de classificao; quantidade de textos: alguns conjuntos de textos do CN so muito pouco representativos, isto , no so quantitativamente suficientes em relao ao rtulo que carregam, como por exemplo: jornalstico, literrio, jurdico, etc. O corpus cientfico, por exemplo, tem poucas amostras de teses, algumas dissertaes incompletas e, de modo geral, dedicado rea da informtica. A quantidade de textos impede o aproveitamento do corpus para pesquisas gerais;

O e-Termos est sendo desenvolvido por Leandro Henrique Mendona de Oliveira, como tese de doutorado em Cincias de Computao e Matemtica Computacional, com orientao de Sandra Maria Alusio. O e-Termos foi originado do TermEx, projeto que ser descrito a seguir (http://www.nilc.icmc.usp.br/etermos/). 28 http://www.nilc.icmc.usp.br/nilc/projects/regra.htm

27

O que e como se constroi um corpus? Lies aprendidas na compilao de vrios corpora para pesquisa lingstica

169

ART04_Aluisio-Almeida.pmd

169

17/1/2007, 15:35

Calidoscpio

compilao: alguns tipos de textos tiveram compilao irregular em relao ao padro de amostragem aplicado em quase todo o CN. Embora o procedimento ideal de compilao fosse o de trazer apenas textos integrais, para algumas categorias essa regra foi quebrada, resultando em obras parcialmente compiladas; acmulo de textos: uma caracterstica insatisfatria de determinados conjuntos do CN o acmulo de textos em um nico arquivo, resultado de uma escolha de formatao das amostras do Corpus. A opo foi a de anexar, num nico arquivo, diversos textos pequenos, o que terminou ocultando especificidades sobre os textos, tais como as diferenas de autoria, de assunto, etc. Para superar as limitaes do CN, foi criado o Projeto Lcio-Web29 (Alusio et al., 2003a, 2004). O Lcio-Web (LW) foi um projeto financiado pelo CNPq, iniciado em 2002, com durao de 30 meses, e realizado em parceria entre o NILC, o Instituto de Matemtica e Estatstica (IME) e a Faculdade de Filosofia, Letras e Cincias Humanas (FFLCH) ambos da USP, So Paulo. O objetivo do LW divulgar e disponibilizar gratuitamente na Web: a) vrios corpora do portugus brasileiro escrito contemporneo, representando bancos de textos adequadamente compilados, catalogados e codificados, em um padro que possibilita fcil intercmbio, navegao e anlise; e b) ferramentas lingstico-computacionais, tais como contadores de freqncia, concordanciadores e etiquetadores morfossintticos treinados em grandes corpora anotados manualmente. O pblico-alvo do LW heterogneo: de um lado lingistas, cientistas da computao, lexicgrafos, terminlogos, etc. e, de outro, o pblico em geral. O LW acessado a partir de um portal (http://www.nilc.icmc.usp.br/ lacioweb/), que informa os tipos de corpus, ferramentas, todo o material disponvel e a forma de contribuir com textos para a continuao do projeto, disponibiliza, ainda, manuais e artigos relacionados e permite, aps cadastramento do usurio, o acesso ao corpus e s ferramentas. Dada a importncia de um recurso de base como so os corpora de uma dada lngua, para avanar estudos lingsticos variados e tambm para a construo de sistemas computacionais de processamento de lngua natural (PLN), justifica-se o sucesso que tivemos em conseguir permisso oficial para incluir materiais diversos, durante os 30 meses do projeto. Para obter essa permisso, foi includo, juntamente com o termo de autorizao, um texto explicativo apontando o potencial dos recursos e a necessidade de obteno de textos integrais para diver29

sas pesquisas lingsticas, como por exemplo, a anlise de textos e discursos e tarefas como a traduo. O LW tenta preencher uma lacuna em termos de recursos para pesquisa e suporte criao de ferramentas de PLN para a lngua portuguesa do Brasil. Para tanto, quatro corpora foram disponibilizados: Lcio-Ref, MacMorpho, Par-C e Comp-C, descritos abaixo: 1) Lcio-Ref: corpus aberto e de referncia composto de textos escritos em portugus brasileiro, respeitando a norma culta, com 4.278 arquivos, totalizando 8.291.818 ocorrncias. um corpus cru (no anotado com informaes morfossintticas, sintticas ou de nvel mais elevado), mas possui anotaes da existncia de elementos grficos e anotao de cabealho. A grande maioria dos textos est disponibilizada na ntegra. 2) Mac-Morpho: corpus fechado e anotado morfossintaticamente, formado por artigos jornalsticos retirados da Folha de S.Paulo, ano 1994, dos cadernos Esporte (ES), Dinheiro (DI), Cincia (FC), Agronomia (AG), Informtica (IF), Ilustrada (IL), Mais! (MA), Mundo (MU), Brasil (BR) e Cotidiano (CO). Composto de 1.167.183 ocorrncias, o corpus foi etiquetado pelo analisador sinttico Palavras, foi revisado manualmente quanto anotao morfossinttica e serviu de treinamento para trs etiquetadores morfossintticos disponveis na Web (Alusio et al., 2003b). O MAC-MORPHO disponibilizado para download em dois formatos: a) adequado para pesquisas lingsticas com o uso de contadores de freqncia ou concordanciadores, por exemplo; b) adequado ao treinamento de etiquetadores e que, por ter as lexias complexas (multipalavras) separadas30, teve o tamanho do corpus alterado para 1.221.468 ocorrncias. 3) Par-C: corpus aberto, paralelo, Ingls-Portugus, que possui, inicialmente, textos de um ano de edies da revista Pesquisa Fapesp, num total de 646 textos em cada lngua. O nmero total de ocorrncias desse corpus de 893.283. 4) Comp-C: corpus aberto, formado por textos originais de contedo comparvel em ingls e portugus, inicialmente disponvel apenas para o gnero jurdico. Conta com 29 textos, 61.149 ocorrncias, e ser ampliado futuramente. Os corpora comparveis so projetados para a avaliao de mtodos de extrao de termos para sistemas de PLN, para confeco de glos-

Coordenado por Sandra Maria Alusio (ICMC/USP). Rio=de=Janeiro_NPROP, por exemplo, separado em Rio_NPROP de_NPROP Janeiro_NPROP, em que NPROP uma etiqueta para nomes prprios.
30

170

Sandra Maria Alusio e Gladis Maria de Barcellos Almeida

ART04_Aluisio-Almeida.pmd

170

17/1/2007, 15:35

Vol. 04 N. 03

set/dez 2006

srios e dicionrios especializados e para outras pesquisas lingsticas. No total, o Projeto LW possui 5.708 arquivos, totalizando 10.413.524 ocorrncias. O LW distingue seus textos em quatro categorias ortogonais: gnero, tipo de texto, domnio e meio de distribuio. A definio e a composio das categorias so detalhadas abaixo. Gnero textual: para o Projeto Lcio-web, o gnero discrimina o texto pela inteno comunicativa e pelo carter discursivo, isto , a comunidade (meio) em que circula e as atividades humanas que o tornam relevante. Convencionamos o uso de um super-gnero, chamado Literrio (LT), um conjunto de gneros e um conjunto de subgneros. Os gneros e subgneros so dados no Quadro 1. Quadro 1. Gneros e subgneros utilizados no Projeto Lcio-web.
Gnero Cientfico (CI) De referncia (RE) Informativo (IF) Jurdico (JU) Prosa (PR)* Poesia (PO)* Drama (DR)* Instrucional (IS) TcnicoAdministrativo (TA) Subgnero enciclopdico, lexicogrfico, terminolgico e outros. jornalstico e outros biografia, conto, novela, romance e outros didtico, procedimental e outros

* Esses gneros, especialmente, advm do supergnero Literrio.

Tipo textual: considera-se tipo de texto o modo especfico de estruturao de um texto. Referese ao texto visto de dentro, ou seja, suas partes componentes, seu lxico, sua sintaxe, sua adequao ao tema etc. Trata-se de uma lista em constante atualizao e que, no momento, composta de 39 categorias (e Outros tipos textuais no previstos), por ex.: apostila, manual, parecer, reportagem, smula, testamento etc. Domnio: a rea de conhecimento que tematiza a principal informao veiculada pelo texto. Temos trs grandes linhas de domnio, denominadas domnio geral. A cada uma dessas linhas associam-se subdomnios, denominados domnios especficos. A diviso em termos de domnio geral apresenta as seguintes subdivises:

a) cientfica: refere-se aos textos de cincias. Esse grupo composto por seis reas do conhecimento: Cincias Agrrias, Cincias Biolgicas, Cincias da Sade, Cincias Exatas e da Terra, Cincias Humanas e Cincias Sociais Aplicadas; b) religio e pensamento: envolve os temas metafsicos, espirituais e teolgicos (ex.: livros de bruxaria, de auto-ajuda, etc.). c) generalidades: refere-se aos textos com temas variados e, de modo geral, inseridos num campo conhecido pelo senso comum (ex.: entretenimento). Inclui, alm disso, os textos que abordam, de forma no-analtica, temas considerados pela cincia (exs.: cincia e tecnologia, sade, esporte, etc.). Meio de distribuio: seleciona o canal por meio do qual o texto foi divulgado ao seu pblico-alvo, por ex.: CD_ROM (CR), Dirio Oficial (DO), Internet (IN), Jornal (JO), Livro (LI), Tese (TE). O Projeto Lcio-Web disponibiliza vrias ferramentas lingstico-computacionais como concordanciadores, contadores de freqncia e etiquetadores morfossintticos, treinados com o corpus do portugus do Brasil e anotado manualmente o MAC-Morpho. O objetivo facilitar a observao de caractersticas lingsticas do portugus do Brasil por pesquisadores, assim como melhorar a qualidade dos sistemas desenvolvidos para o portugus, tais como, tradutores, sumarizadores automticos e mquinas de busca (como o Google, por exemplo). As ferramentas podem ser usadas com o LcioRef, com os subcorpora criados pelo usurio ou ainda com o corpus que o usurio tiver carregado para o LW, pois possvel fazer upload de textos. Ao final dos 30 meses de pesquisa e desenvolvimento, o LW disponibiliza, de forma gratuita, amigvel e de largo alcance: a) quatro tipos distintos de corpus (LcioRef, Mac-Morpho, Par-C e Lcio-Dev); b) algumas ferramentas de processamento lingstico-computacional (contador de freqncia, concordanciador e etiquetador morfossinttico); e c) um Portal que, sensvel a diferentes tipos de usurios, oferece trs tipos de interface de pesquisa, com ferramentas de base associadas, sendo, alm disso, um ambiente de navegao dinmica, didtica e, sobretudo, de incentivo ao uso de corpus para os mais diversos tipos de investigao lingstica, uma vez que permite o download completo das amostras dos corpora. Mas ainda assim o LW deixou lacunas importantes como a falta de um balanceamento de corpus, como, por exemplo, em gnero e nmero de textos por categorias. Vrias decises tomadas no projeto LW ainda esto um pouco distantes dos padres internacionais, como o XCES (Ide et al. , 2000), tanto com relao anotao como

O que e como se constroi um corpus? Lies aprendidas na compilao de vrios corpora para pesquisa lingstica

171

ART04_Aluisio-Almeida.pmd

171

17/1/2007, 15:35

Calidoscpio

codificao, embora tenhamos dado um grande passo em direo padronizao com a proposta de um rico cabealho em XML que traz informaes bibliogrficas e da tipologia quadripartida; e a anotao explcita da existncia de elementos grficos retirados dos textos. Projeto TermEx O projeto31 intitulado Extrao automtica de termos e elaborao colaborativa de terminologias para intercmbio e difuso de conhecimento especializado (TermEx) foi financiado pela FAPESP, iniciou-se em 2003 e encerrou-se em 2005. O projeto foi uma parceria entre a UFSCar e a USP/So Carlos e tinha como principais objetivos: 1) pesquisar e implementar mtodos para a extrao automtica de termos; 2) criar um ambiente computacional para auxlio na pesquisa terminolgica/terminogrfica; 3) elaborar um dicionrio terminolgico para a rea de revestimento cermico. Como nossa proposta final era a elaborao de um dicionrio terminolgico, o corpus foi elaborado a partir de artigos especializados da revista Cermica Industrial32. Essa revista, escrita em portugus, tem como objetivo contribuir para atualizao e melhoria da formao dos tcnicos cermicos brasileiros. destinada fundamentalmente a profissionais da indstria. Os especialistas que colaboram com artigos so tanto pesquisadores (brasileiros e estrangeiros) de laboratrios, institutos de pesquisas e desenvolvimento (P&D) e universidades, quanto profissionais que atuam em indstrias. Constitui uma publicao bastante relevante e respeitada no setor de Revestimento Cermico. Da a nossa escolha, j que uma das nossas preocupaes era abarcar no s a linguagem utilizada nos laboratrios e institutos de P&D como tambm aquela utilizada nas indstrias. Acreditvamos que a escolha dessa revista satisfazia os requisitos representatividade e amostragem. Os textos foram agrupados pelos anos em que foram publicados, 1996-2003, e totalizam 196, possuindo, cada texto, uma mdia de sete a oito pginas (aproximadamente 4.000 palavras). Todos os textos presentes no site da revista esto no formato pdf. Porm, para que eles pudessem ser processados pelos mtodos propostos nesse trabalho, deveriam estar no formato txt. Por essa razo, nem todos os textos foram utilizados, visto que ocorreram alguns problemas no processo de converso do formato pdf para txt, o que totalizou 164 textos. Percebemos, entretanto, que embora todos fossem escritos em portugus, 55 desses artigos eram de autores estrangeiros, quatro escritos por autores estrangeiros e

nacionais, e quatro cuja nacionalidade era desconhecida. Diante dessas constataes, a montagem do corpus foi reavaliada, pois isso afetaria o requisito autenticidade. A retirada desses textos, por outro lado, comprometeria a extenso do corpus, uma vez que uma das abordagens de extrao de termos que seria utilizada era a estatstica, abordagem dependente, significativamente, do tamanho do corpus. Contatamos, ento, o responsvel pela revista para esclarecer se esses textos, depois de traduzidos, eram revisados por um especialista falante nativo do portugus. Como a resposta foi afirmativa, todos aqueles textos, objeto de preocupao, foram includos no corpus. Observe-se que, neste caso, demos prioridade para o requisito extenso em detrimento da autenticidade. Para a transformao dos textos para o formato TXT, foi utilizada a ferramenta denominada EXTEX (Extraco de Texto de Ficheiros Formatados)33. Uma caracterstica dessa ferramenta, ao realizar a transformao, a de que o texto transformado no totalmente igual ao texto original. Ele se apresenta com juno de algumas palavras, preserva os ndices de referncia bibliogrfica e as notas de rodap anexadas s palavras, e a hifenizao dos textos no formato pdf. Para resolver esses problemas, esses textos foram submetidos a um processo cuidadoso de correo manual. Vale ressaltar tambm que todos os arquivos do corpus foram pr-processados para a retirada de informaes de autoria e filiao, referncias bibliogrficas, figuras, tabelas e quadros, fazendo com que o tamanho mdio dos artigos diminusse de oito para cinco pginas, totalizando 448.352 palavras. Tambm foi encontrada grande quantidade de erros gramaticais e de digitao. Para minimizar os erros gramaticais, foi realizada uma varredura no corpus com o auxlio de um processador de textos, buscando corrigir os erros encontrados, podendo-se, dessa forma, analisar os dados de forma mais precisa. O corpus foi pr-processado utilizando-se um tokenizador 34 desenvolvido no NILC 35 chamado Sentencer, que um tokenizador e segmentador sentencial para portugus, que tokeniza um texto de entrada, inserindo um caractere de fim de linha ao fim de cada sentena. Linhas em branco marcam fronteiras de pargrafo. Apenas caracteres de fim de linha, como ponto-final, pontode-interrogao, ponto-de-exclamao e reticncias so considerados possveis finais de sentena. O programa Sentencer trata de abreviaes como Dr., Prof., no considerando, nesse caso, o ponto final como um caractere de fim de linha, ao contrrio, o ponto desconsiderado. Alm disso, o programa Sentencer tambm apresenta a

31 32 33 34 35

O projeto foi coordenado por Gladis Maria de Barcellos Almeida (UFSCar) e contou com a colaborao de Sandra Maria Alusio (USP). http://www.ceramicaindustrial.org.br/. http://poloclup.linguateca.pt/ferramentas/extex/ Ferramenta computacional que separa o texto em tokens (palavra, ponto, espao, qualquer sinal grfico). http://www.nilc.icmc.usp.br/nilc/

172

Sandra Maria Alusio e Gladis Maria de Barcellos Almeida

ART04_Aluisio-Almeida.pmd

172

17/1/2007, 15:35

Vol. 04 N. 03

set/dez 2006

funo de separar os caracteres (como aspas, vrgulas, pontuaes, entre outros) dos tokens. Aps o corpus ter sido tokenizado pelo Sentencer, ele foi etiquetado36 utilizando-se o MXPOST (Ratnaparkhi, 1996), etiquetador que foi treinado no NILC com um conjunto simplificado que possui 15 etiquetas37 e um corpus manualmente etiquetado de 104.963 palavras. Esse etiquetador38 possui a preciso de 97%. Para usar o MXPOST no arquivo de entrada, cada token deveria estar separado por um espao em branco, ou seja, nenhum caractere, incluindo pontuao, deveria estar anexo s palavras; essa foi uma das razes para o uso do programa Sentencer. Aps o pr-processamento, o corpus estava pronto para ser objeto de extrao automtica de termos. Antes de realizar a extrao, alguns mtodos automticos foram avaliados e implementados para o portugus39, especificamente mtodos das trs abordagens para o portugus: estatstica, lingstica e hbrida. Os mtodos baseados em conhecimento estatstico geralmente detectam as unidades terminolgicas de acordo com a freqncia com que elas ocorrem em um corpus. Existem mtodos estatsticos que utilizam desde simples freqncias at aqueles que utilizam estatsticas mais complexas, como informao mtua e coeficiente loglikelihood e c-value. A funo , em todos os mtodos, identificar os candidatos a termo (Teline et al., 2003). Os sistemas baseados em conhecimento lingstico utilizam diferentes recursos que contm diferentes informaes lingsticas para a extrao dos termos. Essas informaes lingsticas dizem respeito a: informaes lexicogrficas dicionrios de termos e lista de palavras auxiliares ( stopwords ); informaes morfolgicas padres de estrutura interna da palavra; informaes morfossintticas categorias morfossintticas e funes sintticas; informaes semnticas classificaes semnticas; informaes pragmticas representaes tipogrficas e informaes de disposio do termo no texto. Este tipo de conhecimento utilizado faz com que os sistemas baseados em conhecimento lingstico se apliquem somente a uma lngua e, s vezes, at mesmo a uma nica variante (Teline et al., 2003). Os sistemas baseados em conhecimento hbrido utilizam o conhecimento estatstico juntamente com o

lingstico. A aplicao do conhecimento hbrido torna o sistema mais eficiente, visto que ele condiciona os resultados. Existem dois tipos de mtodos hbridos: aqueles que aplicam o conhecimento estatstico primeiro e depois o lingstico, e aqueles que utilizam a estatstica apenas como um complemento da lingstica (Teline et al., 2003). Como o trabalho de Teline (2004) atestou que os sistemas baseados em conhecimento hbrido eram os mais eficientes, optou-se por essa abordagem no projeto TermEx. Ocorre que o lxico40 utilizado para o reconhecimento das estruturas morfolexicais da terminologia de Revestimento Cermico era constitudo de itens da lngua geral, o que acabou impedindo que esse lxico reconhecesse determinados termos. Observe-se como o lxico do ReGra lematizou determinados termos multipalavras: ao mecnica > ao mecnico, alumina calcinada > alumina calcinar, capacidade instalada > capacidade instalar. Em vista desse cenrio, utilizamos ento a abordagem estatstica. Uma grande lio que aprendemos com o projeto TermEx foi o fato de no termos balanceado o corpus de forma a incluir distintos gneros. Esse erro foi observado posteriormente quando procurvamos contextos definitrios ou explicativos para elaborarmos as definies para o dicionrio. Nossa hiptese era de que um corpus contendo apenas textos do gnero tcnico-cientfico fosse suficiente para a elaborao de um dicionrio terminolgico. Entretanto, quando os autores escrevem um artigo cientfico, tm como pblico-alvo leitores especialistas que no necessitam de explicaes conceituais de objetos, maquinrio, conceitos, tcnicas, etc. As glosas, portanto, esto ausentes desse tipo de texto. Vamos encontrar contextos definitrios ou explicativos nos gneros cientfico de divulgao e instrucional (apostila, livro-texto, manual, por exemplo). A constatao a que chegamos que mesmo em se tratando de uma pesquisa terminolgica, o corpus deve ser balanceado, contendo, pelo menos, textos desses trs gnero: tcnico-cientfico, cientfico de divulgao e instrucional. Percebemos que a falta de balanceamento acabou gerando um corpus menos representativo, com menos amostras e menos diversificado, erros que no devem ser repetidos, posto que esse corpus afetou diretamente a redao dos verbetes.

Etiquetar significa classificar o texto morfologicamente, ou seja, atribuir a cada unidade a classe correspondente. I- interjeio,; LOCU- locuo;, PREP- preposio;, N- substantivo;, NP- nnome prprio;, VERB- verbo;, ADJ- adjetivo;, AUX- verbo auxiliar;, ADV- advrbio;, PRON- pronome;, CONJ- conjuno;, NUME- numeral;, ART- artigo;, RES- resduo;, PDEN- palavra denotativa e mais 4 tipos de contraes: PREP+ART, para palavras como da, na;, PREP+PD, para palavras como nesta, naquela, nessa,; PREP+PPR, para palavras como dela, nela; e PREP+N, para palavras como dalma, dgua, darte). 38 O NILC dispe de vrios etiquetadores que podem ser acessados a partir de http://www.nilc.icmc.usp.br/nilc/tools/nilctaggers.html. 39 A avaliao e a implantao dos mtodos foi objeto de um trabalho de mestrado, denominado Avaliao de mtodos para extrao automtica de terminologia de textos em portugus (ExPorTer) (Teline, 2004). 40 O lxico utilizado foi o do ReGra (Revisor Gramatical do Portugus), que contm 68.530 lemas e 1.563.136 entradas, incluindo formas flexionadas, palavras compostas e locues (5.763 das entradas so locues nominais, prepositivas, adjetivas, adverbiais, conjuntivas). Esse lxico est em constante atualizao (desde 1993), j que o lxico que d suporte ao corretor sinttico do Microsoft Word. O ReGra foi desenvolvido no NILC (www.nilc.icmc.usp.br/nilc/projects/regra.htm).
37

36

O que e como se constroi um corpus? Lies aprendidas na compilao de vrios corpora para pesquisa lingstica

173

ART04_Aluisio-Almeida.pmd

173

17/1/2007, 15:35

Calidoscpio

Projeto NanoTerm O projeto41 intitulado Terminologia em Lngua Portuguesa da Nanocincia e Nanotecnologia: Sistematizao do Repertrio Vocabular e Elaborao de Dicionrio-Piloto (NanoTerm) financiado pelo CNPq e foi iniciado em 2006 (com vigncia de dois anos). O projeto tambm uma parceria entre a UFSCar e a USP/So Carlos e tem como objetivos: 1) a constituio de um corpus em lngua portuguesa da Nanocincia e Nanotecnologia (N&N); 2) a busca de equivalentes em portugus (lngua de chegada) a partir de uma nomenclatura em ingls (lngua de partida); 3) uma ontologia em lngua portuguesa da rea de N&N; 4) a elaborao do primeiro dicionriopiloto de N&N em lngua materna. Para a construo do corpus, inicialmente, foi realizado um estudo exploratrio dos textos existentes em lngua portuguesa bem como dos gneros aos quais eles pertencem. Embora tivssemos tentado balancear o corpus, inserindo uma quantidade equilibrada de textos dos gneros informativo, cientfico de divulgao e cientfico, obtivemos uma grande quantidade dos primeiros e uma quantidade reduzida do ltimo (cientfico). Entendemos que isso se deve fato de a rea de N&N ser relativamente nova no Brasil, alm disso, os pesquisadores, fundamentalmente das reas de Exatas e Biomdicas que atuam em N&N, publicam seus resultados de pesquisa em lngua inglesa. Os tipos de textos que compem o gnero CIENTFICO so fundamentalmente dissertaes e teses. Ressalte-se que at o momento todos os textos foram obtidos na Web. importante destacar que muitas pginas da Internet, embora se tivessem revelado til para a pesquisa, estavam acessveis somente para scios ou assinantes, inviabilizando, portanto, a obteno dos textos. Sero ainda inseridos no corpus textos impressos, os quais sero posteriormente digitalizados. No estudo exploratrio que fizemos, encontramos apenas dois livros, cinco5 artigos e um relatrio. Evidentemente, ser necessrio insistir na busca por mais textos impressos. Aps a seleo dos textos, foi realizada a compilao dos textos obtidos na Web. Para essa compilao, foram utilizados os seguintes itens de busca: nanocincia, nanotecnologia, genmica. Todavia, aps realizarmos buscas, decidimos incluir e o prefixo nano- para abarcar termos como: nanotubo, nanorrede/nano-rede , nanocpsula, nanoesfera, nanobiotecnologia, etc. Assim que cada texto era compilado, procedia-se com a sua manipulao, isto , com a converso manual e automtica (Pacote XPDF42) de formatos doc, html e pdf para txt e na limpeza e formatao.
41

Depois que todos os textos foram convertidos em formato txt, eles receberam uma nomeao, de acordo com um padro previamente determinado, de forma a facilitar a recuperao posterior de cada texto. Aps a nomeao dos arquivos, foi gerado (de forma semi-automtica) um cabealho para cada texto. A gerao semiautomtica desse cabealho foi feita por meio de um editor (programa computacional com interface grfica para criar ou modificar arquivos) que auxilia o lingista a especificar diversas informaes sobre os textos. Ressaltamos que esse programa uma verso adaptada no Editor de Cabealho utilizado no Projeto Lcio-Web43 e contm os seguintes campos de informao: ttulo, subttulo, fonte, editor, local de publicao, data, assunto, autoria, tipo de autoria (individual ou coletiva), sexo do autor, tipo de texto, meio de distribuio e comentrios (introduzem-se nesse campo informaes adicionais sobre o texto). Observe-se, nas Figuras 9 e 10, algumas telas do editor de cabealho que pode ser obtido gratuitamente na pgina do projeto Lcio-Web. Para cada texto, gerado um cabealho. possvel ver na Figura 11 como ficam as informaes anotadas em XML. So essas informaes anotadas em XML que vo permitir posteriormente que se faam buscas especficas. O preenchimento de todos esses campos do cabealho til para esta pesquisa porque a partir desses dados ser possvel fazer constataes tais como: o repertrio vocabular tem alguma relao com a temtica do texto, com o gnero, com a autoria ou com o meio de distribuio? Dependendo do tema tratado em determinado texto, possvel recuperar os descritores desse texto por meio da freqncia? Em outras palavras: num texto cujo tema seja Nanocincia, o item lxico nanocincia ocorre quantas vezes? Enfim, alm das buscas que podero ser empreendidas por cada campo constitutivo do cabealho, possvel fazer constataes relevantes sobre o lxico. Ao final de processo de construo do corpus, o projeto NanoTerm dever totalizar cerca de um milho de palavras. Projeto Dicionrio Histrico - ns O projeto44 intitulado Dicionrio Histrico do Portugus do Brasil (sculos XVI, XVII e XVIII), no mbito do programa Institutos do Milnio do CNPq, financiado por este rgo e iniciou-se em dezembro de 2005 (com vigncia de 3 anos). A equipe envolvida no projeto conta com 10 universidades, 17 doutores e 17 alunos de graduao e ps-graduao. O projeto tem como principal objetivo a elaborao de um dicionrio do portugus cor-

O projeto coordenado por Gladis Maria de Barcellos Almeida (UFSCar) e conta com a colaborao de Sandra Maria Alusio (USP). XPDF um programa de cdigo aberto que permite a converso automtica de arquivos, conferir: http://www.foolabs.com/xpdf/. 43 http://www.nilc.icmc.usp.br/lacioweb/ 44 O projeto coordenado por Maria Tereza Camargo Biderman (UNESP/campus de Araraquara).
42

174

Sandra Maria Alusio e Gladis Maria de Barcellos Almeida

ART04_Aluisio-Almeida.pmd

174

17/1/2007, 15:35

Vol. 04 N. 03

set/dez 2006

Figura 9. Editor de cabealho adaptado do projeto Lcio-Web.

Figura 10. Janelas do editor para a especificao de informaes bibliogrficas, de autoria e da tipologia quadripartida (gnero, tipo textual, domnio e meio de distribuio).
O que e como se constroi um corpus? Lies aprendidas na compilao de vrios corpora para pesquisa lingstica

175

ART04_Aluisio-Almeida.pmd

175

17/1/2007, 15:35

Calidoscpio

Figura 11. Cabealho com etiquetas XML gerado pelo Editor de Cabealho do Lcio-Web.

respondente aos sculos XVI, XVII e XVIII. Convm assinalar que o Brasil no conta com nenhuma obra lexicogrfica sobre seu vocabulrio nos primeiros tempos da formao do Portugus Brasileiro, o que atesta a originalidade da proposta. Para a elaborao desse dicionrio, necessria a construo de um corpus, evidentemente. De forma a cumprir os seis requisitos citados no incio deste artigo (autenticidade, representavidade, balanceamento, amostragem, diversidade e extenso), o corpus est sendo construdo obedecendo a uma seqncia de etapas. Foi realizada inicialmente a seleo dos textos. Essa seleo tem como orientao os seguintes pontos: a) os textos tm de ser escritos originalmente em portugus por indivduos nascidos no Brasil, se tiverem nascido em Portugal, teriam de estar residindo no Brasil h anos (autenticidade), embora saibamos que h pouco material disponvel com essas caractersticas no sculo XVI; b) seleo de documentos de forma a abarcar distintos domnios do saber, gneros discursivos e tipologias textuais (representatividade, balanceamento, amostragem, diversidade); c) distribuio desses gneros e domnios nos trs sculos que envolvem a pesquisa, por exemplo, o gnero literrio s ser pertinente no sculo XVIII, posto que antes disso no se pode afirmar que havia uma literatura genuinamente brasileira (balanceamento); d) seleo de uma quantidade de textos suficientes para a elaborao de um dicionrio que contemple a diversidade lexical desses sculos (extenso), no que se refere s classes abertas, a saber: substantivo, adjetivo, verbo e advrbio. A previso inicial de que o corpus conte-

nha, no mnimo, 3 milhes de palavras, para gerar, pelo menos, dez mil entradas no dicionrio. A construo desse corpus inicia-se com o processo de digitalizao, j que os textos referentes a esses sculos esto, em sua grande maioria, na forma impressa. Aps a anlise e seleo das obras, os livros so digitalizados em formato de imagem (arquivos de imagem com extenso tiff) para, ento, serem transformados em textos (arquivos de texto com extenso doc). Depois que esto em formato doc, os textos passam por um processo de reviso manual. Este um trabalho minucioso e que requer muita ateno, pois se trabalha com a leitura cotejada de 3 documentos: a) a imagem do texto original, em forma de figura (extenso tiff) gerada por digitalizao; b) a imagem do texto digitalizado em forma de texto propriamente (em formato doc); c) o texto original impresso que deve estar sobre a mesa, mo, para o caso de a imagem no computador no ser suficiente para dirimir dvidas. Se os textos fossem atuais, a tarefa estaria terminada, contudo, importante lembrar que estamos trabalhando com textos antigos e que a dificuldade est justamente na grafia no padronizada do portugus quinhentista. importante assinalar que a digitalizao exige alguns cuidados, pois os documentos possuem normalmente pginas em papel pardo, muito amarelas ou com manchas prprias do envelhecimento, folhas craqueladas, pginas soltas, etc. Toda essa sujeira na imagem pode implicar a gerao de caracteres estranhos ou falhas no texto digitalizado que precisam ser eliminadas durante a reviso. Assim, aps a digitalizao, preciso limpar e recortar cada uma das imagens digitalizadas para que elas asSandra Maria Alusio e Gladis Maria de Barcellos Almeida

176

ART04_Aluisio-Almeida.pmd

176

17/1/2007, 15:35

Vol. 04 N. 03

set/dez 2006

sumam um formato padro o mais limpo possvel, isso tornar a fase de reviso manual menos penosa. Todo o material digitalizado organizado de forma que cada unidade de texto constitua dois arquivos: um em forma de imagem e o seu correspondente em forma de texto. Cada texto possui um extenso cabealho e organizado em pastas que correspondem determinada obra. Por exemplo, a obra Tratado Descritivo do Brasil, de Gabriel Soares Sousa, aps a digitalizao, foi transformada em 24 arquivos tiff e, depois da reviso, passou a ter tambm 24 arquivos doc. Isso significa que aps um ano de trabalho o projeto contar com um corpus e com um banco de imagens tiff correspondendo a cada texto. a partir do formato doc que os textos esto prontos para receberem outros tratamentos possibilitando o processamento computacional. Como os textos possuem caracteres que no pertencem ao conjunto ANSI45, necessrio a sua codificao utilizando o Unicode, que uniformiza vrios conjuntos de caracteres para muitas lnguas, inclusive as lnguas orientais. Consideraes finais Neste artigo, procuramos apresentar a concepo de corpus para a Lingstica e para a Lingstica de Corpus, abordar questes importantes para a elaborao de corpus computadorizado, discorrer sobre as etapas metodolgicas para a compilao de corpus, citar alguns corpora e ferramentas disponveis na Web para pesquisa e construo de corpus, e, finalmente, detalhar quatro projetos de pesquisa envolvendo corpus, de forma a auxiliar demais pesquisadores que desejam adotar os princpios da Lingstica de Corpus em seus projetos. Nosso intuito foi oferecer um panorama das prticas da Lingstica de Corpus. Esperamos que essas reflexes e relatos possam nortear as pesquisas, levantar mais questionamentos e sedimentar as prticas da Lingstica de Corpus no Brasil. Referncias
ALUSIO, S.M.; PINHEIRO, G.; FINGER, M.; NUNES, M.G.V. e TAGNIN, S.E.O. 2003a. The Lcio-Web Project: overview and issues in Brazilian Portuguese corpus creation. In : CORPUS LINGUISTICS 2003, Lancaster, UK, 2003. Proceedings Lancaster, UCREL - Lancaster University, 16:14-21. (Also as UCREL Technical Report, Vol 16 Part). ALUSIO, S. M.; PELIZZONI, J. M.; MARCHI, A. R.; OLIVEIRA, L. H.; MANENTI, R. e MARQUIVAFVEL, V. 2003b. An account of the challenge of tagging a reference corpus of Brazilian Portuguese. In : PROPOR2003, Faro, Portugal, 2003. Proceedings Lecture Notes in Computer Science. New York, Springer, 1:110-117. ALUSIO, S.M.; PINHEIRO, G.M.; MANFRIM, A.M.P.; OLIVEIRA, L.H.M. de; GENOVES Jr., L.C. e TAGNIN, S.E.O. 2004.
45

The Lcio-Web: Corpora and Tools to Advance Brazilian Portuguese Language Investigations and Computational Linguistic Tools. In : LREC 2004, Lisboa, Portugal, 2004. Proceedings Paris, ELDA, p. 1779-1782. ATKINS, S.; CLEAR, J. e OSTLER, N. 1992. Corpus design criteria. Journal of Literary and Linguistic Computing, 7(1). BARONI, M. e BERNARDINI, S. 2004. BootCaT: Bootstrapping corpora and terms from the web. In: LREC 2004, Lisboa, Portugal, 2004. ProceedingsParis, ELDA. BARONI, M. e UEYAMA, M. 2004. Retrieving Japanese specialized terms and corpora from the World Wide Web. In: KONVENS, Viena, ustria, 2004. ProceedingsViena, OFAI. BERBER SARDINHA, T. 2000. Histrico e problemtica. D.E.L.T.A. , 16 (2):323-367. BERBER SARDINHA, T. 2004. Lingstica de corpus. So Paulo, Manole, 410 p. BIBER, D. 1993. Representativeness in Corpus Design. Lit Linguist Computing , 8 :243-257. BIBER, D.; CONRAD, S. e REPPEN, R. 1998. Corpus linguistics: Investigating language structure and use . Cambridge University Press, Cambridge. DUBOIS, J; GIACOMO, M.; GUESPIN, L.; MARCELLESI, C.; MARCELLESI, J.B. e MEVEL, J.P. 1993. Dicionrio de lingstica. So Paulo, Cultrix, 653 p. DUCROT, O. e TODOROV, T. 2001. Dicionrio enciclopdico das cincias da linguagem. 3 ed., So Paulo, Perspectiva, 339 p. GALISSON, R. e COSTE, D. 1983. Dicionrio de didctica das lnguas. Coimbra, Livraria Almedina, 763 p. HASUND, K. 1998. Protecting the innocent: The issue of informants anonymity in the COLT corpus. In: A. RENOUF (ed.), Explorations in Corpus Linguistics. Amsterdam, Rodopi, p. 13-27. IDE, N.; BONHOMME, P. e ROMARY, L. 2000. XCES: An XMLbased Standard for Linguistic Corpora. In : Second Language Resources and Evaluation Conference (LREC), Athens, Greece, 2000. Proceedings , p. 825-830. KENNEDY, G. 1998. An Introduction to Corpus Linguistics . London;New York, Longman. KILGARRIFF, A. e GREFENSTETTE, G. 2003. Introduction to the Special Issue on Web as Corpus. Computational Linguistics, 29(3). McENERY, T. e WILSON, A. 1996. Corpus linguistics. Edinburgh, Edinburgh University Press. MURAKAWA, C.A.A. 2001. Tradio lexicogrfica em lngua portuguesa. In: A.M.P.P. OLIVEIRA e A.N. ISQUERDO (orgs.), As cincias do lxico: lexicologia, lexicografia e terminologia. 2. ed., Campo Grande, Ed. UFMS, p. 153-159. MURAKAWA, C.A.A. 2006. Antnio de Morais Silva: lexicgrafo da lngua portuguesa. Araraquara, Laboratrio Editorial FCL/UNESP; So Paulo, Cultura Acadmica Editora, 228 p. PAUMIER, S. 2002. Manuel dutilisation du logiciel Unitex. IGM, Universite de Marne-la-Vallee, 217 p. Disponvel em: http:// www-igm.univ-mlv.fr/~unitex/. Acesso em: 20/10/2006. PINHEIRO, G.M.e ALUSIO, S.M. 2003. Crpus Nilc: descrio e anlise crtica com vistas ao projeto Lacio-Web. NILC-TR03-03, fevereiro, 60 p. RATNAPARKHI, A. 1996. A Maximum Entropy Part-Of-Speech Tagger. In: Empirical Methods in Natural Language Processing Conference, Philadelphia, Pennsylvania,1996. Proceedings Philadelphia, University of Pennsylvania, p. 133-142. RENOUF, A. (ed.). 1998. Explorations in Corpus Linguistics . Amsterdam, Rodopi. SINCLAIR, J. 2005. Corpus and Text - Basic Principles. In : M. WYNNE (ed.), Developing Linguistic Corpora: a Guide to Good Practice . Oxford, Oxbow Books, p. 1-16. Disponvel em: http://ahds.ac.uk/linguistic-corpora/. Acesso em: 30/10/ 2006. TELINE, M.F. 2004. Avaliao de mtodos para extrao auto-

American National Standards Institute ANSI (http://www.ansi.org/)

O que e como se constroi um corpus? Lies aprendidas na compilao de vrios corpora para pesquisa lingstica

177

ART04_Aluisio-Almeida.pmd

177

17/1/2007, 15:35

Calidoscpio

mtica de terminologia de textos em portugus. So Carlos, SP. Dissertao de mestrado. Universidade de So Paulo USP, 136 p. TELINE, M.F.; ALMEIDA, G.M.B. e ALUSIO, S.M. 2003. Extrao manual e automtica de terminologia: comparando abordagens e critrios. In : Workshop em Tecnologia da Informao e da Linguagem Humana, 1, So Carlos, SP, 2003. Anais... So Carlos, USP. (CD-ROM). TRASK, R.L. 2004. Dicionrio de Linguagem e Lingstica. So Paulo, Contexto, 364 p.

VALE, O.A. 1998. Sintaxe, lxico e expresses idiomticas. In: A.N. BRITO e O.A. VALE (orgs.), Filosofia, lingstica, informtica: aspectos da linguagem. Goinia, Editora UFG, p. 127-137. VALE, O.A. 2001. Expresses Cristalizadas do Portugus do Brasil: uma proposta de tipologia. Araraquara, SP. Tese de doutorado. Universidade Estadual Paulista UNESP.

Submetido em: 10/2006 Aceito em: 11/2006

Sandra Maria Alusio


Doutora em Fsica e Ps-Doutorado em Cincias da Computao. Professora efetiva da USP, Brasil

Gladis Maria de Barcellos Almeida


Doutora em Lingstica de Lngua Portuguesa. Professora UFSCar, SP, Brasil

178

Sandra Maria Alusio e Gladis Maria de Barcellos Almeida

ART04_Aluisio-Almeida.pmd

178

17/1/2007, 15:35