Escolar Documentos
Profissional Documentos
Cultura Documentos
PORTUGUÊS
Edila Vianna da SILVA 1
RESUMO
O objetivo deste artigo é apresentar resultados preliminares do levantamento de corpora linguísticos em
Português. Partindo do pressuposto de que bancos de dados linguísticos são fonte privilegiada para a descrição
da língua e considerando a necessidade de divulgação dessas fontes de estudos, descrevemos características de
importantes bancos constituídos sobre a língua portuguesa. O conhecimento mútuo do trabalho dos vários
investigadores – que não ocorre com a devida sistematicidade entre brasileiros e portugueses e até mesmo entre
pesquisadores das regiões brasileiras – pode propiciar uma visão ampla das variedades do português e facilitar
a realização de estudos contrastivos não só entre dialetos brasileiros, mas também entre brasileiros e portugueses
numa linha de investigação que certamente contribuirá para o esclarecimento de muitos fatos linguísticos em
variação.
PALAVRAS-CHAVE: Bancos de dados linguísticos. Política linguística. Difusão da Língua Portuguesa.
ABSTRACT
The purpose of this paper is to present some preliminary results of the research of linguistic corpora in
Portuguese. Assuming that linguistic databases are privileged source for the description of language and
considering the need for disclosure of sources of these studies, we describe characteristics of major banks made
about the Portuguese language. Mutual knowledge of the work of several researchers, which does not occur
systematically between Brazilian and Portuguese and even among researchers of the Brazilian regions, can
provide a broad overview of the varieties of Portuguese and facilitate the realization of contrastive studies not
only among Brazilian dialects but also between Brazilian and Portuguese ones in a line of research will certainly
contribute to clear many linguistic variation facts.
KEYWORDS: linguistic corpora; language police; diffusion of the Portuguese language.
1 Doutora em Letras Vernáculas (UFRJ). Professora Associada da UFF. Membro da Academia Brasileira de Filologia. Membro do GT
de Sociolinguística da ANPOLL. É coautora de Dúvidas em português nunca mais (Lexikon, 3. ed., 2011) e possui várias publicações
sobre descrição do português e variação linguística.
IDIOMA, Rio de Janeiro, nº. 29, p. 168-180, 2º. Sem. 2015 | 168
Bancos de dados sociolinguísticos em português
INTRODUÇÃO
A composição e disponibilização de corpora do Português tem sido ponto amplamente discutido em
vários encontros de linguistas, especialmente no âmbito dos congressos dedicados aos estudos de difusão da
lusofonia, uma vez que bancos de dados linguísticos são indubitavelmente fonte privilegiada para a descrição
da língua.
Partindo desse pressuposto e considerando a necessidade de divulgação dessas possíveis fontes de
estudos, desenvolvemos um projeto de levantamento, em nível nacional e internacional, dos bancos
constituídos sobre a língua portuguesa, com o objetivo de fornecer subsídios para estudos das variedades
transcontinentais do Português em suas modalidades oral e escrita.
A elaboração de um registro dos bancos de dados do português assenta-se na observação de que a
comunidade internacional tem um conhecimento precário das investigações sobre a língua portuguesa, que já
compõem um número significativo de trabalhos, mas que não encontram divulgação adequada entre os
estudiosos do Português. Consideramos importante, dessa forma, realizar o registro dos bancos como
contribuição preliminar para o diagnóstico da situação sociolinguística da língua portuguesa, de modo a basear
a constituição dos perfis sociolinguísticos das variedades faladas e identificar suas especificidades e
similaridades.
Consideramos na pesquisa, consequentemente, a existência de um conjunto de variedades linguísticas
na grande comunidade de fala da língua portuguesa. Dessa forma, o trabalho tem suporte nos princípios da
sociolinguística, uma vez que correlaciona os aspectos linguísticos e os sistemas sociais, em especial no
variacionismo de William Labov (2008).
Com base em questões formuladas para a caracterização de cada um dos conjuntos de dados:
parâmetros de constituição, posição teórica, pesquisas orientadas, sua representatividade e adequação etc.,
procuramos traçar um perfil desses corpora para orientar o acesso dos pesquisadores.
1. RETROSPECTIVA
Um retrospecto sobre alguns eventos científicos dedicados à discussão de bases e critérios para a
constituição de bancos mostra que essa preocupação não é recente. Desde os anos 50, as pesquisas linguísticas
já se baseavam em corpora, organizados inicialmente com a finalidade de elaboração de atlas linguísticos.
Somente a partir da década de 70, passaram a ser formados acervos de perfil sociolinguístico, entre os quais os
do projeto NURC, que se dedicou a descrever a fala das cinco capitais brasileiras que, em 1968 – início do
projeto no Brasil – tinham mais de um milhão de habitantes e, pelo menos, cem anos de fundação.
IDIOMA, Rio de Janeiro, nº. 29, p. 168-180, 2º. Sem. 2015 | 169
Edila Vianna da Silva
Sabemos da existência de grande número de acervos, mas o último levantamento de que se tem
notícia, de acordo com Brandão (2008, p. 143-154), foi apresentado em 1994, na Universidade Federal do
Espírito Santo, na 46ª Reunião Anual da SBPC, quando se realizou um encontro sobre “Informatização de
acervos de língua portuguesa”. Na oportunidade, Ataliba T. de Castilho, Giselle Machline de Oliveira e Silva e
Dante Lucchesi enumeraram algumas iniciativas no sentido de viabilizar o compartilhamento e a
informatização das amostras e apresentaram um levantamento, ainda que parcial, dos corpora existentes, feito
com base em ficha preparada por Rodolfo Ilari e enviada aos grupos de pesquisa.
Nessa reunião, ainda segundo Brandão, já foi possível identificar 51 acervos, constatando-se que: (a)
as amostras institucionais (84%) predominavam sobre as particulares (16%) e que a maior parte delas estava
sediada em universidades federais (67%); (b) havia maior número de acervos de língua falada (74,5%) do que
de língua escrita (20%) ou de ambas as modalidades (5.5%), e (c) que havia apenas cinco projetos na área do
Português arcaico e clássico.
Duas conclusões destacaram-se do levantamento apresentado: o fato de grande parte dos acervos já
estarem à época digitados e disponíveis e o interesse dos pesquisadores em disponibilizar corpora, o que
anteriormente não acontecia.
Desde o encontro mencionado, apesar do interesse que o tema passou a despertar, não se produziu
outro levantamento sistemático, com objetivo de subsidiar pesquisas sobre as variedades do português.
2. BANCOS DE DADOS
A descrição dos corpora, abaixo resumida em seus mais relevantes traços, baseou-se em um
levantamento preliminar de a) projetos de pesquisa de diferentes áreas e de diferentes quadros teóricos, que
contassem com amostras de dados e de b) bancos independentes.
PROJETO NURC
No Rio de Janeiro, iniciou-se, na UFRJ, a organização de corpora para estudos linguísticos, em função
da extensão ao domínio da Língua Portuguesa do Projeto de Estudo Coordenado da Norma Linguística Oral
Culta das Cidades da Iberoamérica e da Península Ibérica (CUNHA, 1985). As orientações metodológicas desse
projeto basearam a criação do Projeto NURC, que reunia amostras de fala das cinco capitais brasileiras que, à
época, tinham mais de um milhão de habitantes e pelo menos cem anos de fundação.
IDIOMA, Rio de Janeiro, nº. 29, p. 168-180, 2º. Sem. 2015 | 170
Bancos de dados sociolinguísticos em português
A partir de 1973, no Rio de Janeiro, uma das cidades escolhidas, começou, então, a formação da
amostra composta de elocuções formais (EF), diálogos entre informante e documentador (DID), diálogos entre
dois informantes (D2). Procurava-se caracterizar a fala de cariocas com nível superior, distribuídos por gênero
e três faixas etárias formando um corpus representativo da fala culta, posteriormente enriquecido com duas
outras amostras, a complementar e a de recontato, ambas da década de 90, num total de 394 informantes
(www.letras.ufrj.br/nurc-rj).
IDIOMA, Rio de Janeiro, nº. 29, p. 168-180, 2º. Sem. 2015 | 171
Edila Vianna da Silva
IDIOMA, Rio de Janeiro, nº. 29, p. 168-180, 2º. Sem. 2015 | 172
Bancos de dados sociolinguísticos em português
textos de portugueses, literários, gêneros textuais diversos etc. Cada material editado ainda figura conforme sua
normatização original, mas, posteriormente, pretende-se submeter todos os textos às Normas de Edição do
Projeto PHPB, com a constituição do corpus comum mínimo definitivo do Projeto.
PROJETO VARPORT
O VARPORT (Análise Contrastiva de Variedades do Português ) é um Projeto de Cooperação
Internacional Brasil / Portugal, financiado pela CAPES / ICCTI nº 63/00. O seu principal objetivo é consolidar e
IDIOMA, Rio de Janeiro, nº. 29, p. 168-180, 2º. Sem. 2015 | 173
Edila Vianna da Silva
intensificar a integração entre os trabalhos que vêm sendo realizados em Portugal e no Brasil sobre determinados
fenômenos da Língua Portuguesa, de modo a oferecer um quadro geral contrastivo de suas variedades
nacionais, com ênfase no desempenho de falantes representativos das variantes padrão e não padrão. Para
atingir sua meta principal, qual seja, propiciar não só o conhecimento das características comuns que se
mantêm nas diversas variedades do Português, mas também a aferição das diferenças que se vão revelando a
partir das mudanças linguísticas que se processaram e/ou se processam, independentemente, no Brasil, em
Portugal e em África, constituiu-se o Corpus Compartilhado VARPORT, formado entre 2000 e 2004, formado
por um total de 252.300 palavras ao qual se tem acesso por meio do site www.letras.ufrj.br/varport. A
constituição desse corpus corporifica a reunião de dados pertencentes a diferentes amostras segundo critérios
comuns. Disponibilizado, na íntegra, na web, com arquivos de texto e de voz conta com entrevistas
selecionadas dos corpora dos Projetos NURC-RJ (já mencionado neste trabalho), Português Fundamental e
Corpus de Referência do Português Contemporâneo (CRPC) e das elocuções livres do APERJ (também
mencionado) e do Atlas Linguístico-Etnográfico de Portugal e da Galiza (ALEPG).
PROJETO AVAL-RJ
O Projeto Acervo das Variedades Linguísticas Fluminenses – AVAL-RJ, de perfil geo-sociolinguístico,
desenvolve-se na Faculdade de Letras da UFRJ com o objetivo de basear pesquisas em duas vertentes, uma
voltada para a modalidade falada e outra para a escrita. A amostra, constituída em 2008-2009, abrange dados
da fala popular coletados em doze municípios representativos das oito regiões do Estado do Rio de Janeiro, a
saber: São Francisco de Itabapoana, Porciúncula, Santa Maria Madalena, Cabo Frio, Cachoeiras de Macacu,
Itaguaí, Parati, Valença, Três Rios, Quissamã e Resende (ALMEIDA, 2008), assim como em quatro municípios
localizados no entorno da Baía de Guanabara: Nova Iguaçu, Duque de Caxias, Magé e Itaboraí (LIMA, 2006).
Em cada sede de município, entrevistaram-se 18 indivíduos estratificados por gênero, faixa etária (três) e nível
de instrução (três) e recolheram-se 500 redações distribuídas por cinco níveis de ensino e dois tipos de texto. O
Projeto conta, ainda, com dados da fala popular e culta da cidade do Rio de Janeiro. A utilização de dados de
fala popular fundamenta-se, entre outros motivos, no fato de já haver trabalhos realizados com enfoque na
norma culta da cidade do Rio de Janeiro, sendo relevante, portanto, um estudo comparativo que investigue se
a fala carioca: a) se diferencia das demais localidades sob análise e em que medida; b) é norma irradiadora das
demais; e c) se há uma diferenciação entre o rural e o urbano, à medida que se pretende analisar também
municípios da região metropolitana.
IDIOMA, Rio de Janeiro, nº. 29, p. 168-180, 2º. Sem. 2015 | 174
Bancos de dados sociolinguísticos em português
IDIOMA, Rio de Janeiro, nº. 29, p. 168-180, 2º. Sem. 2015 | 175
Edila Vianna da Silva
IDIOMA, Rio de Janeiro, nº. 29, p. 168-180, 2º. Sem. 2015 | 176
Bancos de dados sociolinguísticos em português
designadamente Literatura, História e Cultura portuguesas. Considerou-se também a possibilidade de que esses
materiais pudessem constituir recursos para realizações lexicográficas de que carece a língua portuguesa
(especialmente, dicionário histórico e Thesaurus).
Os materiais reunidos até ao presente dizem respeito à língua portuguesa dos séculos XVI e XVII,
especialmente a D. Francisco Manuel de Melo (1608-1666), autor de vasta e importante obra, em diversos
gêneros e estilos. Esta incidência justifica-se pela necessidade de se preencherem lacunas reconhecidas de
documentação e estudo do “Português clássico”, e em particular da produção em língua portuguesa do
mencionado autor seiscentista. A construção desse banco de dados tem em perspectiva a associação a outros
corpora de língua portuguesa, constituídos, ou a constituir, dentro e fora do CELGA, de modo a ampliar,
complementar e partilhar dados informativos. Desde 2006, já se verifica uma articulação com o Corpus do
Português, organizado pelos Profs. Mark Davies e Michael J. Ferreira (E.U.A.), acessível na Web. A pesquisa no
Corpus do Português permite obter informações facultadas pelos textos do CEC-PPC.
Os materiais que integram o CEC-PPC foram registados em suporte digital e, atualmente, estão
acessíveis a consulta em CD-ROM, na Sala de Leitura do CELGA, e, na maior parte, via Internet, na página do
Centro – www1.ci.uc.pt/celga/servicos/sec-ppc.htm. É importante salientar que esses materiais são
acompanhados de esclarecimentos sobre as suas características, em especial sobre procedimentos adotados na
elaboração de edições.
CORPUS DO PORTUGUÊS
O Corpus do Português, acessível na Web em http://corpus.byu.edu, foi constituído por Mark Davies,
professor de Linguística na Universidade Brigham Young (USA). Integra um conjunto de dez corpora, com dados
do inglês (a maioria deles) e de outras línguas como o espanhol e o português. Apresentam várias finalidades,
entre as quais se destacam: investigar o comportamento linguístico de falantes nativos, tanto na modalidade
oral como na escrita; observar fatos de variação linguística e mudança; estabelecer a frequência de uso de
palavras , frases e colocações; e projetar autênticos materiais e recursos de ensino de línguas.
Os materiais são utilizados por mais de 100.000 pessoas a cada mês (mais de 200 mil visitas), o que
os torna talvez os corpora mais usados entre os disponíveis atualmente. Eles também servem como base para
um crescente número de publicações realizadas por pesquisadores de todo o mundo.
No caso do português, o corpus conta com 45.000.000 de palavras datadas do período entre os anos
de 1300 e1900.
IDIOMA, Rio de Janeiro, nº. 29, p. 168-180, 2º. Sem. 2015 | 177
Edila Vianna da Silva
3. ATLAS LINGUÍSTICOS
Os Atlas Linguísticos documentam in loco a língua em uso e descrevem essa língua em seus diferentes
níveis, mapeiam os dados em cartas linguísticas que são reunidas em forma de atlas. Segundo Aguilera (1998,
p. 145), o papel dos atlas linguísticos é justamente investigar variações de usos da língua em diferentes espaços
geográficos, dando-se especial atenção aos contextos culturais e situações informais em que se concretizam as
atividades linguísticas, que se evidenciam principalmente nos planos lexical e fonético/fonológico.
Desde o surgimento da primeira obra de cunho geolinguístico no século XX na França (GILLIERÓN,
1902-1910), os atlas linguísticos tradicionais e contemporâneos têm documentado a realidade linguística de
áreas geográficas distintas, dependendo da amplitude e dos objetivos do atlas, e se configurado como fonte
segura para estudos sobre a língua em uso num espaço e época determinados.
A recolha de dados com a formação de bancos valiosos é, obviamente, a base desses trabalhos que a
seguir se mencionam, de acordo com quadro retirado do artigo A geolingüística no Brasil: estágio atual
(AGUILERA, Revista da ABRALIN, 2006). A autora lista os Atlas, organizados entre 1963 e 2005, com data de
conclusão ou os estágios em que se encontravam em 2005.
1. Atlas Prévio dos Falares Baianos – APFB – 1963, volume único: publicado;
2. Esboço de um Atlas Linguístico de Minas Gerais EALMG – 1977, 4 volumes: um publicado, dois no
prelo;
3. Atlas Linguístico da Paraíba – ALPB – 1984, 3 volumes: dois publicados, v. I e II;
4. Atlas Linguístico de Sergipe – ALS – 1987, volume II: publicado;
5. Atlas Linguístico do Paraná – ALPR – 1994, 2º volume em andamento (Tese);
6. Atlas Linguístico e Etnográfico da Região Sul – ALERS I, II e III 2002, IV volume em andamento;
7. Atlas Linguístico de Sergipe – ALSE II – 2002, Concluído (Tese);
8. Atlas Linguístico Sonoro do Pará – ALiSPA – 2004, Concluído (CD-ROM);
IDIOMA, Rio de Janeiro, nº. 29, p. 168-180, 2º. Sem. 2015 | 178
Bancos de dados sociolinguísticos em português
CONSIDERAÇÕES FINAIS
O conhecimento mútuo do trabalho dos vários investigadores – que não ocorre com a devida
sistematicidade entre brasileiros e portugueses e até mesmo entre pesquisadores das regiões brasileiras – pode
propiciar uma visão ampla das variedades do português e facilitar a realização de estudos contrastivos não só
entre dialetos brasileiros, mas também entre brasileiros e portugueses numa linha de investigação que
certamente contribuirá para o esclarecimento de muitos fatos linguísticos em variação.
A pesquisa apresentada resumidamente neste artigo pretende ser uma contribuição preliminar para a
divulgação desses trabalhos, que podem basear a constituição dos perfis sociolinguísticos das variedades faladas
do português.
IDIOMA, Rio de Janeiro, nº. 29, p. 168-180, 2º. Sem. 2015 | 179
Edila Vianna da Silva
REFERÊNCIAS
AGUILERA, V. A geolingüística no Brasil: estágio atual. Revista da ABRALIN, v. 5, n. 1 e 2, p. 215-238, dez. 2006.
BRANDÃO, Silvia F. Corpora lingüísticos no Rio de Janeiro. II CONGRESSO INTERNACIONAL DA LÍNGUA
PORTUGUESA: identidade, difusão e variabilidade. UFRJ/ Faculdade de Letras, 2007.
CASTILHO, Ataliba T.; SILVA, Giselle M.O.; LUCCHESI, Dante. Informatização de acervos da língua portuguesa.
Boletim da ABRALIN, n. 17, 1995, p. 143-154.
CUNHA, Celso. A questão da norma culta brasileira. Rio de Janeiro: Tempo Brasileiro, 1995.
MATEUS, Maria Helena Mira. O horizonte da investigação sobre o português. Atas do I Congresso Internacional da
ABRALIN. Salvador: FINEP/UFBA, 1996, p. 25-48.
_______. Objectivos e estratégias de uma política lingüística. Lisboa: Faculdade de Letras da Universidade de
Lisboa. Mesa-redonda sobre Uma política de língua para o português. [s/d]. Mimeografado.
________; VILLALVA (Org.). O essencial sobre Lingüística. Lisboa: Editorial Caminho, 2006.
MOLLICA, Maria Cecília; RONCARATI, Cláudia. Questões teórico-descritivas em sociolingüística e em
sociolingüística aplicada e uma proposta de agenda de trabalho. Revista D.E. L.T.A., n. 17 (especial), 2001, p. 45-
55.
NASCIMENTO, Maria Fernanda B. Construção e exploração de um corpus de variedades do português. II
CONGRESSO INTERNACIONAL DA LÍNGUA PORTUGUESA: identidade, difusão e variabilidade. UFRJ/
Faculdade de Letras, 2007.
PAIVA, Maria da Conceição de; SCHERRE, Maria M. P. Retrospectiva sociolingüística: contribuições do PEUL.
Lingüística, n. 11, 1999, p. 203-230.
RONCARATI, Cláudia; ABRAÇADO, Jussara. Português brasileiro – contato lingüístico, heterogeneidade e história.
Rio de Janeiro: 7 Letras/FAPERJ, 2003.
______. Para uma agenda preliminar de cooperação e integração entre as Associações de Lingüística do Português.
II CONGRESSO INTERNACIONAL DA LÍNGUA PORTUGUESA: identidade, difusão e variabilidade. UFRJ/
Faculdade de Letras, 2007.
SAVEDRA. Mônica Maria Guimarães, Política lingüística no Brasil, Revista Internacional de Estudos Políticos, v. 1,
n. 1, abr. 1999, p. 209.
SCHERRE, Maria Marta Pereira. Breve histórico do Programa de Estudos sobre o Uso da Língua. In: SILVA, G. M.
O; SCHERRE, M. M. P. (Org.). Padrões sociolinguísticos. Rio de Janeiro: Tempo Brasileiro, 1986, p. 27-50.
SCLIAR-CABRAL, Leonor. Definição da política lingüística no Brasil. Boletim da ABRALlN, Florianópolis, v. 23,
1999, p. 7-17.
SILVA, Edila V. Levantamento de bancos de dados e sua contribuição para o conhecimento e a difusão do
português. Cadernos de Letras da UFF, Niterói, n. 39, 2009, p. 155-165.
SILVA, Giselle Machline de Oliveira e. Variáveis sociais e perfil do Corpus Censo. In: SILVA, G. M. O; SCHERRE,
M. M. P. (Org.). Padrões sociolingüísticos. Rio de Janeiro: Tempo Brasileiro, 1996, p. 50-81.
VÔTRE, Sebastião. Para uma política de banco de dados. Boletim da ABRALIN, n. 6, 1984, p. 12-16.
IDIOMA, Rio de Janeiro, nº. 29, p. 168-180, 2º. Sem. 2015 | 180