Você está na página 1de 13

BANCOS DE DADOS SOCIOLINGUÍSTICOS EM

PORTUGUÊS
Edila Vianna da SILVA 1

RESUMO
O objetivo deste artigo é apresentar resultados preliminares do levantamento de corpora linguísticos em
Português. Partindo do pressuposto de que bancos de dados linguísticos são fonte privilegiada para a descrição
da língua e considerando a necessidade de divulgação dessas fontes de estudos, descrevemos características de
importantes bancos constituídos sobre a língua portuguesa. O conhecimento mútuo do trabalho dos vários
investigadores – que não ocorre com a devida sistematicidade entre brasileiros e portugueses e até mesmo entre
pesquisadores das regiões brasileiras – pode propiciar uma visão ampla das variedades do português e facilitar
a realização de estudos contrastivos não só entre dialetos brasileiros, mas também entre brasileiros e portugueses
numa linha de investigação que certamente contribuirá para o esclarecimento de muitos fatos linguísticos em
variação.
PALAVRAS-CHAVE: Bancos de dados linguísticos. Política linguística. Difusão da Língua Portuguesa.

ABSTRACT
The purpose of this paper is to present some preliminary results of the research of linguistic corpora in
Portuguese. Assuming that linguistic databases are privileged source for the description of language and
considering the need for disclosure of sources of these studies, we describe characteristics of major banks made
about the Portuguese language. Mutual knowledge of the work of several researchers, which does not occur
systematically between Brazilian and Portuguese and even among researchers of the Brazilian regions, can
provide a broad overview of the varieties of Portuguese and facilitate the realization of contrastive studies not
only among Brazilian dialects but also between Brazilian and Portuguese ones in a line of research will certainly
contribute to clear many linguistic variation facts.
KEYWORDS: linguistic corpora; language police; diffusion of the Portuguese language.

1 Doutora em Letras Vernáculas (UFRJ). Professora Associada da UFF. Membro da Academia Brasileira de Filologia. Membro do GT
de Sociolinguística da ANPOLL. É coautora de Dúvidas em português nunca mais (Lexikon, 3. ed., 2011) e possui várias publicações
sobre descrição do português e variação linguística.

IDIOMA, Rio de Janeiro, nº. 29, p. 168-180, 2º. Sem. 2015 | 168
Bancos de dados sociolinguísticos em português

INTRODUÇÃO
A composição e disponibilização de corpora do Português tem sido ponto amplamente discutido em
vários encontros de linguistas, especialmente no âmbito dos congressos dedicados aos estudos de difusão da
lusofonia, uma vez que bancos de dados linguísticos são indubitavelmente fonte privilegiada para a descrição
da língua.
Partindo desse pressuposto e considerando a necessidade de divulgação dessas possíveis fontes de
estudos, desenvolvemos um projeto de levantamento, em nível nacional e internacional, dos bancos
constituídos sobre a língua portuguesa, com o objetivo de fornecer subsídios para estudos das variedades
transcontinentais do Português em suas modalidades oral e escrita.
A elaboração de um registro dos bancos de dados do português assenta-se na observação de que a
comunidade internacional tem um conhecimento precário das investigações sobre a língua portuguesa, que já
compõem um número significativo de trabalhos, mas que não encontram divulgação adequada entre os
estudiosos do Português. Consideramos importante, dessa forma, realizar o registro dos bancos como
contribuição preliminar para o diagnóstico da situação sociolinguística da língua portuguesa, de modo a basear
a constituição dos perfis sociolinguísticos das variedades faladas e identificar suas especificidades e
similaridades.
Consideramos na pesquisa, consequentemente, a existência de um conjunto de variedades linguísticas
na grande comunidade de fala da língua portuguesa. Dessa forma, o trabalho tem suporte nos princípios da
sociolinguística, uma vez que correlaciona os aspectos linguísticos e os sistemas sociais, em especial no
variacionismo de William Labov (2008).
Com base em questões formuladas para a caracterização de cada um dos conjuntos de dados:
parâmetros de constituição, posição teórica, pesquisas orientadas, sua representatividade e adequação etc.,
procuramos traçar um perfil desses corpora para orientar o acesso dos pesquisadores.

1. RETROSPECTIVA
Um retrospecto sobre alguns eventos científicos dedicados à discussão de bases e critérios para a
constituição de bancos mostra que essa preocupação não é recente. Desde os anos 50, as pesquisas linguísticas
já se baseavam em corpora, organizados inicialmente com a finalidade de elaboração de atlas linguísticos.
Somente a partir da década de 70, passaram a ser formados acervos de perfil sociolinguístico, entre os quais os
do projeto NURC, que se dedicou a descrever a fala das cinco capitais brasileiras que, em 1968 – início do
projeto no Brasil – tinham mais de um milhão de habitantes e, pelo menos, cem anos de fundação.

IDIOMA, Rio de Janeiro, nº. 29, p. 168-180, 2º. Sem. 2015 | 169
Edila Vianna da Silva

Sabemos da existência de grande número de acervos, mas o último levantamento de que se tem
notícia, de acordo com Brandão (2008, p. 143-154), foi apresentado em 1994, na Universidade Federal do
Espírito Santo, na 46ª Reunião Anual da SBPC, quando se realizou um encontro sobre “Informatização de
acervos de língua portuguesa”. Na oportunidade, Ataliba T. de Castilho, Giselle Machline de Oliveira e Silva e
Dante Lucchesi enumeraram algumas iniciativas no sentido de viabilizar o compartilhamento e a
informatização das amostras e apresentaram um levantamento, ainda que parcial, dos corpora existentes, feito
com base em ficha preparada por Rodolfo Ilari e enviada aos grupos de pesquisa.
Nessa reunião, ainda segundo Brandão, já foi possível identificar 51 acervos, constatando-se que: (a)
as amostras institucionais (84%) predominavam sobre as particulares (16%) e que a maior parte delas estava
sediada em universidades federais (67%); (b) havia maior número de acervos de língua falada (74,5%) do que
de língua escrita (20%) ou de ambas as modalidades (5.5%), e (c) que havia apenas cinco projetos na área do
Português arcaico e clássico.
Duas conclusões destacaram-se do levantamento apresentado: o fato de grande parte dos acervos já
estarem à época digitados e disponíveis e o interesse dos pesquisadores em disponibilizar corpora, o que
anteriormente não acontecia.
Desde o encontro mencionado, apesar do interesse que o tema passou a despertar, não se produziu
outro levantamento sistemático, com objetivo de subsidiar pesquisas sobre as variedades do português.

2. BANCOS DE DADOS
A descrição dos corpora, abaixo resumida em seus mais relevantes traços, baseou-se em um
levantamento preliminar de a) projetos de pesquisa de diferentes áreas e de diferentes quadros teóricos, que
contassem com amostras de dados e de b) bancos independentes.

2.1. Bancos de dados nacionais

PROJETO NURC
No Rio de Janeiro, iniciou-se, na UFRJ, a organização de corpora para estudos linguísticos, em função
da extensão ao domínio da Língua Portuguesa do Projeto de Estudo Coordenado da Norma Linguística Oral
Culta das Cidades da Iberoamérica e da Península Ibérica (CUNHA, 1985). As orientações metodológicas desse
projeto basearam a criação do Projeto NURC, que reunia amostras de fala das cinco capitais brasileiras que, à
época, tinham mais de um milhão de habitantes e pelo menos cem anos de fundação.

IDIOMA, Rio de Janeiro, nº. 29, p. 168-180, 2º. Sem. 2015 | 170
Bancos de dados sociolinguísticos em português

A partir de 1973, no Rio de Janeiro, uma das cidades escolhidas, começou, então, a formação da
amostra composta de elocuções formais (EF), diálogos entre informante e documentador (DID), diálogos entre
dois informantes (D2). Procurava-se caracterizar a fala de cariocas com nível superior, distribuídos por gênero
e três faixas etárias formando um corpus representativo da fala culta, posteriormente enriquecido com duas
outras amostras, a complementar e a de recontato, ambas da década de 90, num total de 394 informantes
(www.letras.ufrj.br/nurc-rj).

CORPUS CENSO / Programa de Estudos sobre o Uso da Língua (PEUL)


Em 1979, Anthony Naro reuniu um grupo de pesquisadores com a finalidade de estudar fenômenos
variáveis com base na fala carioca não-standard e organizou a Amostra Censo da Variação Linguística no Rio
de Janeiro, mais tarde conhecida por Corpus Censo, que conta com um total de 64 informantes, 48 deles adultos
distribuídos por três faixas etárias (e também estratificados por gênero e três níveis de escolaridade) e 16 crianças
entre 7 e 14 anos (Silva, 1996). A partir de finais da década de 80, com a diversificação de linhas de pesquisa
entre os pesquisadores, o grupo passou a denominar-se de Programa de Estudos sobre o Uso da Língua (PEUL)
e, ao longo do tempo, acrescentou-se à amostra Censo, além do corpus Mobral (a base do Censo), por iniciativa
de Miriam Lemle e Anthony Naro, o Projeto Competências Básicas do Português (Scherre, 1996), e outros
corpora de língua falada, inclusive de recontato, bem como de língua escrita (Paiva e Scherre, 1999),
disponibilizados na web, sob a denominação de Banco de Dados do PEUL.

PROJETO DO ATLAS ETNOLINGUÍSTICO DOS PESCADORES DO ESTADO DO RIO DE JANEIRO (Projeto


APERJ)
Em finais da década de 80 e ao longo da primeira década de 90, formou-se o corpus do Projeto do
Atlas Etnolinguístico do Estado do Rio de Janeiro (APERJ), sob a supervisão do Professor Celso Cunha e
participação de docentes da Faculdade de Letras da UFRJ. A amostra, com 178 horas de gravação, resultou de
entrevistas referentes à aplicação de Questionário e a elocuções livres realizadas em comunidades pesqueiras
da Região Metropolitana e sobretudo nas Regiões Norte e Noroeste. Em relação às duas últimas áreas, há 78
inquéritos, atualmente em vias de digitalização, realizados em 13 localidades daquela região, com indivíduos
analfabetos ou escolarizados até a quarta série do Ensino Fundamental, distribuídos por três faixas etárias. O
corpus vem sendo alargado para atingir as regiões das Lagunas Litorâneas, Metropolitana e Sul do Estado do
Rio de Janeiro, prevendo-se a inclusão de 36 outras comunidades. Além da recolha sistemática de dados
(constituição do Arquivo Sonoro referente à fala de 49 localidades do Estado), o Projeto desenvolve estudos nas

IDIOMA, Rio de Janeiro, nº. 29, p. 168-180, 2º. Sem. 2015 | 171
Edila Vianna da Silva

linhas sociolinguística variacionista e especificamente dialectológica, visando à descrição e análise de aspectos


fonético-fonológicos, morfossintáticos e léxicos da fala popular do Rio de Janeiro. Tem contado com a
colaboração de bolsistas de Iniciação Científica e contribuído para a formação de alunos de Mestrado e
Dourado. Foram defendidas dissertações e teses com base no corpus e orientações metodológicas do Projeto.

PROJETO DISCURSO E GRAMÁTICA (D&G)


O projeto Discurso e Gramática, de natureza interinstitucional, organizou sua amostra entre os anos
de 1993 e 1994, com dados recolhidos, no que se refere ao Rio de Janeiro, entre 93 informantes distribuídos
por gênero e seis níveis de instrução (alfabetização infantil e de adultos, 4ª. e 8ª. séries do Ensino Fundamental,
2ª série do Ensino Médio e último ano do Ensino Superior). Esses informantes produziram cinco tipos de textos
orais (narrativa de experiência pessoal, narrativa recontada, descrição de local, relato de procedimento e relato
de opinião) e, a partir deles, cinco textos escritos, procedimento metodológico que teve por objetivo garantir a
comparabilidade entre fala e escrita. Integra também a amostra os corpora organizados com base em parâmetros
semelhantes, registrados nas cidades de Niterói-RJ, Juiz de Fora-MG e Natal-RN.

PROJETO PARA UMA HISTÓRIA DO PORTUGUÊS BRASILEIRO – PHPB-Rio


Em 1998, organizou-se o PHPB, projeto de âmbito nacional, que iniciou a constituição de um corpus
diacrônico composto por documentos de administração pública e privada, documentos particulares e textos
literários que se distribuem do século XII ao XX, bem como por textos jornalísticos dos séculos XIX e XX. Alguns
desses materiais já se encontram na web (www.letras.ufrj.br/phpb.rj), a exemplo do que acontece com parte da
amostra (cartas pessoais e peças populares dos séculos XVII e XVIII) do Laboratório de História do Português
Brasileiro (Labor Histórico-RJ), criado em 2004 e concebido com “o principal objetivo de organizar e tornar
disponível o acervo documental do PHPB para estudos sobre mudança lingüística”
(www.letras.ufrj.br/laborhistorico). A estas iniciativas soma-se, ainda, o Projeto O português brasileiro: da
história social à história linguística em cujo site – www.letras.ufrj.br/socio-historia – encontram-se, no momento,
as cartas a Rui Barbosa, “escritas no período de 1866 a 1899, que constam do Arquivo de Rui Barbosa Inventário
Analítico da Série Correspondência Geral Vol. 1 – Correspondentes usuais: pessoas físicas (Fundação Casa de
Rui Barbosa, Rio de Janeiro).”
A página do PHPB na internet reúne, na verdade, uma prévia do chamado Corpus Comum Mínimo
(materiais de mesma natureza editados pelas equipes regionais para controle diatópico), bem como do
denominado Corpus Diferencial (corpora complementares para controle contrastivo com o corpus comum:

IDIOMA, Rio de Janeiro, nº. 29, p. 168-180, 2º. Sem. 2015 | 172
Bancos de dados sociolinguísticos em português

textos de portugueses, literários, gêneros textuais diversos etc. Cada material editado ainda figura conforme sua
normatização original, mas, posteriormente, pretende-se submeter todos os textos às Normas de Edição do
Projeto PHPB, com a constituição do corpus comum mínimo definitivo do Projeto.

PROJETO DO ATLAS LINGUÍSTICO DO BRASIL (PROJETO ALiB)


O ALiB propõe-se descrever a realidade do Português do Brasil, com base no registro da fala das
diversas áreas geográficas do País, representadas nos 250 pontos que constituem a rede escolhida para
investigação. Documenta-se a fala de 1100 informantes, distribuídos em duas faixas etárias (faixa I, de 18 a 30
anos e faixa II, de 50 a 65 anos), dois níveis de escolaridade nas capitais (fundamental e superior) e de um nível
nas demais regiões (fundamental) e com igual número de homens e mulheres.
Em 2003, foi criada a Coordenadoria Regional do ALiB-Rio, que se dedicou especialmente à realização
do trabalho de campo, seguida da transcrição das entrevistas e da organização do corpus, constituído de 60
entrevistas em 14 municípios do Estado (oito na capital e quatro em cada um dos demais pontos), conforme se
indica em www.letras.ufrj.br/posverna/projalibrio.htm. Realizaram-se recolhas em Arraial do Cabo, Barra
Mansa, Campos, Itaperuna, Macaé, Nova Friburgo, Nova Iguaçu, Niterói, Rio de Janeiro, Parati, Petrópolis, São
João da Barra, Três Rios e Valença, que se basearam em amostras de fala de informantes distribuídos por ambos
os sexos, por duas faixas etárias e dois níveis de escolaridade nas capitais (fundamental – até a 4ª série –, e
superior) e um nível de escolaridade nos demais municípios (nível fundamental), de acordo com as normas
estabelecidas.
Segundo informações recentes, estão concluídos em todos os estados os trabalhos de constituição do
corpus do ALiB que, embora ainda não publicado, está acessível, com as fotos das 250 localidades que
compõem a rede de pontos de inquérito, em www.alib.ufba.br. Deve-se salientar que, no momento, concluída
a constituição do corpus, caminha-se na direção da publicação dos primeiros volumes. Assim, estão previstos
três volumes referentes às capitais brasileiras: Volume 1 – Introdução, Volume 2 – Cartas linguísticas
(fonéticas/prosódicas, semântico-lexicais e morfossintáticas) e Volume 3 – análise dos dados cartografados. O
expressivo volume de informação referente às cidades que integram a rede de pontos em cada um dos estados
brasileiros está em processo de análise.

PROJETO VARPORT
O VARPORT (Análise Contrastiva de Variedades do Português ) é um Projeto de Cooperação
Internacional Brasil / Portugal, financiado pela CAPES / ICCTI nº 63/00. O seu principal objetivo é consolidar e

IDIOMA, Rio de Janeiro, nº. 29, p. 168-180, 2º. Sem. 2015 | 173
Edila Vianna da Silva

intensificar a integração entre os trabalhos que vêm sendo realizados em Portugal e no Brasil sobre determinados
fenômenos da Língua Portuguesa, de modo a oferecer um quadro geral contrastivo de suas variedades
nacionais, com ênfase no desempenho de falantes representativos das variantes padrão e não padrão. Para
atingir sua meta principal, qual seja, propiciar não só o conhecimento das características comuns que se
mantêm nas diversas variedades do Português, mas também a aferição das diferenças que se vão revelando a
partir das mudanças linguísticas que se processaram e/ou se processam, independentemente, no Brasil, em
Portugal e em África, constituiu-se o Corpus Compartilhado VARPORT, formado entre 2000 e 2004, formado
por um total de 252.300 palavras ao qual se tem acesso por meio do site www.letras.ufrj.br/varport. A
constituição desse corpus corporifica a reunião de dados pertencentes a diferentes amostras segundo critérios
comuns. Disponibilizado, na íntegra, na web, com arquivos de texto e de voz conta com entrevistas
selecionadas dos corpora dos Projetos NURC-RJ (já mencionado neste trabalho), Português Fundamental e
Corpus de Referência do Português Contemporâneo (CRPC) e das elocuções livres do APERJ (também
mencionado) e do Atlas Linguístico-Etnográfico de Portugal e da Galiza (ALEPG).

PROJETO AVAL-RJ
O Projeto Acervo das Variedades Linguísticas Fluminenses – AVAL-RJ, de perfil geo-sociolinguístico,
desenvolve-se na Faculdade de Letras da UFRJ com o objetivo de basear pesquisas em duas vertentes, uma
voltada para a modalidade falada e outra para a escrita. A amostra, constituída em 2008-2009, abrange dados
da fala popular coletados em doze municípios representativos das oito regiões do Estado do Rio de Janeiro, a
saber: São Francisco de Itabapoana, Porciúncula, Santa Maria Madalena, Cabo Frio, Cachoeiras de Macacu,
Itaguaí, Parati, Valença, Três Rios, Quissamã e Resende (ALMEIDA, 2008), assim como em quatro municípios
localizados no entorno da Baía de Guanabara: Nova Iguaçu, Duque de Caxias, Magé e Itaboraí (LIMA, 2006).
Em cada sede de município, entrevistaram-se 18 indivíduos estratificados por gênero, faixa etária (três) e nível
de instrução (três) e recolheram-se 500 redações distribuídas por cinco níveis de ensino e dois tipos de texto. O
Projeto conta, ainda, com dados da fala popular e culta da cidade do Rio de Janeiro. A utilização de dados de
fala popular fundamenta-se, entre outros motivos, no fato de já haver trabalhos realizados com enfoque na
norma culta da cidade do Rio de Janeiro, sendo relevante, portanto, um estudo comparativo que investigue se
a fala carioca: a) se diferencia das demais localidades sob análise e em que medida; b) é norma irradiadora das
demais; e c) se há uma diferenciação entre o rural e o urbano, à medida que se pretende analisar também
municípios da região metropolitana.

IDIOMA, Rio de Janeiro, nº. 29, p. 168-180, 2º. Sem. 2015 | 174
Bancos de dados sociolinguísticos em português

PROJETO DO CORPUS DO PORTUGUÊS CLÁSSICO E MODERNO


Esse corpus ainda em constituição reúne (a) produção manuscrita no Brasil durante o Período Clássico
(séculos XVI, XVII e XVIII); e (b) produção manuscrita e impressa no Brasil durante o Período Moderno (séculos
XIX e XX).

PROJETO CORPUS BRASILEIRO


O projeto Corpus Brasileiro, do grupo GELC, que está sediado no Centro de Pesquisas, Recursos e
Informação de Linguagem (CEPRIL), Programa de Pós-Graduação em Linguística Aplicada (LAEL) da PUCSP,
com apoio da FAPESP, visa a construir e disponibilizar online (http://corpusbrasileiro.pucsp.br/cb/Inicial.html)
o Corpus Brasileiro, que será composto por um bilhão de palavras do português brasileiro contemporâneo, de
vários tipos de linguagem. Segundo os responsáveis por sua construção, o impacto social do Corpus Brasileiro
pode ser significativo, colocando à disposição dos cidadãos do país e do exterior uma vasta quantidade de
informação sobre a língua portuguesa. Entre os usuários do corpus incluem-se linguistas, pesquisadores da
linguagem, professores de língua materna e de português / língua estrangeira, de redação, jornalistas, escritores,
roteiristas, publicitários, alunos de diversos níveis, dicionaristas, gramáticos e uma ampla gama de profissionais
que lidam com a língua em uso.

CORPUS HISTÓRICO DO PORTUGUÊS TYCHO BRAHE


Trata-se de um corpus eletrônico anotado, composto de textos em português escritos por autores
nascidos entre 1380 e 1845. Atualmente, 64 textos (2.769.403 palavras) estão disponíveis para pesquisa livre,
com um sistema de anotação linguística em duas etapas: anotação morfológica (aplicada em 33 textos, num
total de 1.485.943 palavras); e anotação sintática (aplicada em 16 textos, num total de 671.694 palavras). O
Corpus tem sido desenvolvido em associação com os projetos temáticos:

 Padrões Rítmicos, Fixação de Parâmetros & Mudança Linguística (1998-2003);


 Padrões Rítmicos, Fixação de Parâmetros & Mudança Linguística, Fase 2 (2004-2008);
 O português no Tempo e no Espaço: Contato linguístico, Gramáticas em Competição e Mudança
Paramétrica (desde 2012) e pode ser acessado em:
http://www.tycho.iel.unicamp.br/~tycho/corpus/en/index.html.

IDIOMA, Rio de Janeiro, nº. 29, p. 168-180, 2º. Sem. 2015 | 175
Edila Vianna da Silva

2.2. Bancos de dados internacionais

CORPUS DE REFERÊNCIA DO PORTUGUÊS CONTEMPORÂNEO (CRPC)


Organizado pelo Centro de Linguística da Universidade de Lisboa, o CRPC integra o corpus
compartilhado, base do Projeto VARPORT, caracterizado anteriormente. É um dos mais importantes bancos de
dados internacionais da língua Portuguesa, pois contém amostras das variedades nacionais e regionais do
português (português europeu, português do Brasil, português dos cinco países africanos de língua oficial
portuguesa e o português de Macau). Trata-se de um corpus linguístico, eletrônico, que contém atualmente 86,3
milhões de palavras, constituído por amostragens de diversos tipos de texto de discurso escrito (literários,
jornalísticos, técnicos, científicos, didáticos, econômicos, jurídicos, parlamentares etc.) e de discurso oral
(elocuções informais e formais).
Diacronicamente considerado, o corpus contém textos que vão desde a segunda metade do séc. XIX
até 1998, embora, em sua maior parte, sejam posteriores a 1970. Dá conta dos recursos linguísticos específicos
de cada língua, que, em associação com tecnologias adequadas à extração de dados e de conhecimentos,
constituem pré-requisitos indispensáveis a um grande conjunto de trabalhos de investigação e a vários tipos de
desenvolvimento e aplicações.
O CPRC tem, consequentemente, sido utilizado em numerosos trabalhos acadêmicos (essencialmente
dissertações de doutoramento e de mestrado) realizados em Portugal e no estrangeiro e em projetos de
investigação. Destes, salientam-se: Novo Dicionário da Língua Portuguesa em execução na Academia das
Ciências de Lisboa; Dicionário de Combinatórias do Português (1994-1997, Programa Lusitânia, inventário das
associações lexicais contínuas que ocorrem num subcorpus do CPRC de 12 milhões de palavras); Português
Falado, Variedades Geográficas e Sociais (1995-1997, Programa europeu LÍNGUA/SOCRATES em que o CLUL
é a instituição coordenadora e são parceiros as Universidades de Toulouse-Le Mirail e de Aix-en-Provence),
que conta com 80 amostragens do português falado, nas suas variantes europeia, brasileira, africanas e de
Macau, em CD-ROM, com a gravação sonora de produções autênticas e a correspondente transcrição
ortográfica alinhada, e, ainda, três volumes de estudos lexicais, morfossintáticos, sintáticos, enunciativos e
pragmáticos feitos com base no corpus de português falado (materiais em via de publicação).

CORPUS ELETRÔNICO DO CELGA – Português do Período Clássico (CEC – PPC)


O corpus CELGA, criado no Centro de Estudos de Linguística Geral e Aplicada (CELGA), da
Universidade de Coimbra, foi projetado como um conjunto organizado de materiais − textos, índices de formas
e concordâncias – destinados à realização de consultas e estudos da área da Linguística, e de outras áreas,

IDIOMA, Rio de Janeiro, nº. 29, p. 168-180, 2º. Sem. 2015 | 176
Bancos de dados sociolinguísticos em português

designadamente Literatura, História e Cultura portuguesas. Considerou-se também a possibilidade de que esses
materiais pudessem constituir recursos para realizações lexicográficas de que carece a língua portuguesa
(especialmente, dicionário histórico e Thesaurus).
Os materiais reunidos até ao presente dizem respeito à língua portuguesa dos séculos XVI e XVII,
especialmente a D. Francisco Manuel de Melo (1608-1666), autor de vasta e importante obra, em diversos
gêneros e estilos. Esta incidência justifica-se pela necessidade de se preencherem lacunas reconhecidas de
documentação e estudo do “Português clássico”, e em particular da produção em língua portuguesa do
mencionado autor seiscentista. A construção desse banco de dados tem em perspectiva a associação a outros
corpora de língua portuguesa, constituídos, ou a constituir, dentro e fora do CELGA, de modo a ampliar,
complementar e partilhar dados informativos. Desde 2006, já se verifica uma articulação com o Corpus do
Português, organizado pelos Profs. Mark Davies e Michael J. Ferreira (E.U.A.), acessível na Web. A pesquisa no
Corpus do Português permite obter informações facultadas pelos textos do CEC-PPC.
Os materiais que integram o CEC-PPC foram registados em suporte digital e, atualmente, estão
acessíveis a consulta em CD-ROM, na Sala de Leitura do CELGA, e, na maior parte, via Internet, na página do
Centro – www1.ci.uc.pt/celga/servicos/sec-ppc.htm. É importante salientar que esses materiais são
acompanhados de esclarecimentos sobre as suas características, em especial sobre procedimentos adotados na
elaboração de edições.

CORPUS DO PORTUGUÊS
O Corpus do Português, acessível na Web em http://corpus.byu.edu, foi constituído por Mark Davies,
professor de Linguística na Universidade Brigham Young (USA). Integra um conjunto de dez corpora, com dados
do inglês (a maioria deles) e de outras línguas como o espanhol e o português. Apresentam várias finalidades,
entre as quais se destacam: investigar o comportamento linguístico de falantes nativos, tanto na modalidade
oral como na escrita; observar fatos de variação linguística e mudança; estabelecer a frequência de uso de
palavras , frases e colocações; e projetar autênticos materiais e recursos de ensino de línguas.
Os materiais são utilizados por mais de 100.000 pessoas a cada mês (mais de 200 mil visitas), o que
os torna talvez os corpora mais usados entre os disponíveis atualmente. Eles também servem como base para
um crescente número de publicações realizadas por pesquisadores de todo o mundo.
No caso do português, o corpus conta com 45.000.000 de palavras datadas do período entre os anos
de 1300 e1900.

IDIOMA, Rio de Janeiro, nº. 29, p. 168-180, 2º. Sem. 2015 | 177
Edila Vianna da Silva

PROJETO DO CORPUS DIACRÔNICO DO PORTUGUÊS


O objetivo do projeto, financiado pela Fapesp (02/12005-2) no âmbito do Programa de Apoio a Jovens
Pesquisadores em Centros Emergentes, é possibilitar investigações em Linguística e em áreas afins, por meio da
constituição e a disponibilização de um banco de textos informatizados que reúne material representativo de
diferentes períodos da língua portuguesa – século XIII ao XX. Trata-se, mais especificamente, de uma amostra
de dados exemplares de uma variedade de gêneros e estilos, que pode ser acessada, mediante senha, nos
formatos textos e imagem. O acesso, após cadastramento, é feito pelo site http://www.cdp.ibilce.unesp.br.

3. ATLAS LINGUÍSTICOS
Os Atlas Linguísticos documentam in loco a língua em uso e descrevem essa língua em seus diferentes
níveis, mapeiam os dados em cartas linguísticas que são reunidas em forma de atlas. Segundo Aguilera (1998,
p. 145), o papel dos atlas linguísticos é justamente investigar variações de usos da língua em diferentes espaços
geográficos, dando-se especial atenção aos contextos culturais e situações informais em que se concretizam as
atividades linguísticas, que se evidenciam principalmente nos planos lexical e fonético/fonológico.
Desde o surgimento da primeira obra de cunho geolinguístico no século XX na França (GILLIERÓN,
1902-1910), os atlas linguísticos tradicionais e contemporâneos têm documentado a realidade linguística de
áreas geográficas distintas, dependendo da amplitude e dos objetivos do atlas, e se configurado como fonte
segura para estudos sobre a língua em uso num espaço e época determinados.
A recolha de dados com a formação de bancos valiosos é, obviamente, a base desses trabalhos que a
seguir se mencionam, de acordo com quadro retirado do artigo A geolingüística no Brasil: estágio atual
(AGUILERA, Revista da ABRALIN, 2006). A autora lista os Atlas, organizados entre 1963 e 2005, com data de
conclusão ou os estágios em que se encontravam em 2005.
1. Atlas Prévio dos Falares Baianos – APFB – 1963, volume único: publicado;
2. Esboço de um Atlas Linguístico de Minas Gerais EALMG – 1977, 4 volumes: um publicado, dois no
prelo;
3. Atlas Linguístico da Paraíba – ALPB – 1984, 3 volumes: dois publicados, v. I e II;
4. Atlas Linguístico de Sergipe – ALS – 1987, volume II: publicado;
5. Atlas Linguístico do Paraná – ALPR – 1994, 2º volume em andamento (Tese);
6. Atlas Linguístico e Etnográfico da Região Sul – ALERS I, II e III 2002, IV volume em andamento;
7. Atlas Linguístico de Sergipe – ALSE II – 2002, Concluído (Tese);
8. Atlas Linguístico Sonoro do Pará – ALiSPA – 2004, Concluído (CD-ROM);

IDIOMA, Rio de Janeiro, nº. 29, p. 168-180, 2º. Sem. 2015 | 178
Bancos de dados sociolinguísticos em português

9. Atlas Linguístico do Amazonas – ALAM – 2004, Concluído (Tese);


10. Atlas Linguístico do Mato Grosso do Sul – ALMS – Coleta concluída: em processo de análise dos
dados;
11. Atlas Linguístico do Pará – ALiPA – Coleta concluída: em processo de análise dos dados;
12. Atlas Linguístico do Maranhão – ALIMA – Em andamento;
13. Atlas Linguístico do Rio Grande do Norte – AliRN – Em andamento (Tese);
14. Atlas Linguístico do Paraná – ALPR II, vol. II – Em andamento (Tese);
15. Atlas Linguístico do Espírito Santo – ALES – Em andamento;
16. Atlas Linguístico do Rio de Janeiro – Em andamento;
17. Atlas Linguístico do Estado de São Paulo – ALESP – Sem informações sobre o estágio atual;
18. Atlas Linguístico do Ceará –ALECE – Sem informações sobre o estágio atual;
19. Atlas Linguístico do Estado do Acre – ALAC – Sem informações sobre o estágio atual.

3.1 Projeto do Atlas Linguístico do Brasil (projeto ALiB)


Conforme já se registrou anteriormente (seção 2.1), estão concluídos todos os trabalhos de constituição
do corpus do ALiB que, embora ainda não publicado, está acessível, com as fotos das 250 localidades que
compõem a rede de pontos de inquérito, em www.alib.ufba.br.

CONSIDERAÇÕES FINAIS
O conhecimento mútuo do trabalho dos vários investigadores – que não ocorre com a devida
sistematicidade entre brasileiros e portugueses e até mesmo entre pesquisadores das regiões brasileiras – pode
propiciar uma visão ampla das variedades do português e facilitar a realização de estudos contrastivos não só
entre dialetos brasileiros, mas também entre brasileiros e portugueses numa linha de investigação que
certamente contribuirá para o esclarecimento de muitos fatos linguísticos em variação.
A pesquisa apresentada resumidamente neste artigo pretende ser uma contribuição preliminar para a
divulgação desses trabalhos, que podem basear a constituição dos perfis sociolinguísticos das variedades faladas
do português.

IDIOMA, Rio de Janeiro, nº. 29, p. 168-180, 2º. Sem. 2015 | 179
Edila Vianna da Silva

REFERÊNCIAS
AGUILERA, V. A geolingüística no Brasil: estágio atual. Revista da ABRALIN, v. 5, n. 1 e 2, p. 215-238, dez. 2006.
BRANDÃO, Silvia F. Corpora lingüísticos no Rio de Janeiro. II CONGRESSO INTERNACIONAL DA LÍNGUA
PORTUGUESA: identidade, difusão e variabilidade. UFRJ/ Faculdade de Letras, 2007.
CASTILHO, Ataliba T.; SILVA, Giselle M.O.; LUCCHESI, Dante. Informatização de acervos da língua portuguesa.
Boletim da ABRALIN, n. 17, 1995, p. 143-154.
CUNHA, Celso. A questão da norma culta brasileira. Rio de Janeiro: Tempo Brasileiro, 1995.
MATEUS, Maria Helena Mira. O horizonte da investigação sobre o português. Atas do I Congresso Internacional da
ABRALIN. Salvador: FINEP/UFBA, 1996, p. 25-48.
_______. Objectivos e estratégias de uma política lingüística. Lisboa: Faculdade de Letras da Universidade de
Lisboa. Mesa-redonda sobre Uma política de língua para o português. [s/d]. Mimeografado.
________; VILLALVA (Org.). O essencial sobre Lingüística. Lisboa: Editorial Caminho, 2006.
MOLLICA, Maria Cecília; RONCARATI, Cláudia. Questões teórico-descritivas em sociolingüística e em
sociolingüística aplicada e uma proposta de agenda de trabalho. Revista D.E. L.T.A., n. 17 (especial), 2001, p. 45-
55.
NASCIMENTO, Maria Fernanda B. Construção e exploração de um corpus de variedades do português. II
CONGRESSO INTERNACIONAL DA LÍNGUA PORTUGUESA: identidade, difusão e variabilidade. UFRJ/
Faculdade de Letras, 2007.
PAIVA, Maria da Conceição de; SCHERRE, Maria M. P. Retrospectiva sociolingüística: contribuições do PEUL.
Lingüística, n. 11, 1999, p. 203-230.
RONCARATI, Cláudia; ABRAÇADO, Jussara. Português brasileiro – contato lingüístico, heterogeneidade e história.
Rio de Janeiro: 7 Letras/FAPERJ, 2003.
______. Para uma agenda preliminar de cooperação e integração entre as Associações de Lingüística do Português.
II CONGRESSO INTERNACIONAL DA LÍNGUA PORTUGUESA: identidade, difusão e variabilidade. UFRJ/
Faculdade de Letras, 2007.
SAVEDRA. Mônica Maria Guimarães, Política lingüística no Brasil, Revista Internacional de Estudos Políticos, v. 1,
n. 1, abr. 1999, p. 209.
SCHERRE, Maria Marta Pereira. Breve histórico do Programa de Estudos sobre o Uso da Língua. In: SILVA, G. M.
O; SCHERRE, M. M. P. (Org.). Padrões sociolinguísticos. Rio de Janeiro: Tempo Brasileiro, 1986, p. 27-50.
SCLIAR-CABRAL, Leonor. Definição da política lingüística no Brasil. Boletim da ABRALlN, Florianópolis, v. 23,
1999, p. 7-17.
SILVA, Edila V. Levantamento de bancos de dados e sua contribuição para o conhecimento e a difusão do
português. Cadernos de Letras da UFF, Niterói, n. 39, 2009, p. 155-165.
SILVA, Giselle Machline de Oliveira e. Variáveis sociais e perfil do Corpus Censo. In: SILVA, G. M. O; SCHERRE,
M. M. P. (Org.). Padrões sociolingüísticos. Rio de Janeiro: Tempo Brasileiro, 1996, p. 50-81.
VÔTRE, Sebastião. Para uma política de banco de dados. Boletim da ABRALIN, n. 6, 1984, p. 12-16.

Data de submissão: abr./2016.


Data de aprovação: maio/2016.

IDIOMA, Rio de Janeiro, nº. 29, p. 168-180, 2º. Sem. 2015 | 180

Você também pode gostar