Principais corpora on-line de línguas

FACULDADE DE LETRAS
DEPARTAMENTO DE LETRAS ESTRANGEIRAS MODERNAS

Curso: Bacharelado em Letras-Tradução
Disciplina: Linguística de Corpus Aplicada à Tradução – 2021.3
Profa. Pós-Dra. Patrícia Fabiane Amaral da Cunha Lacerda
OS PRINCIPAIS CORPORA ON-LINE
CORPORA DE LÍNGUA PORTUGUESA
NOME DO CORPUS ENDEREÇO PARA ACESSO
Corpus do Português
Corpus com 45 milhões de palavras, composto

por textos dos séculos XV ao XX, nas
variantes europeia e brasileira do português. https://www.corpusdoportugues.org/
Criado por Michael Ferreira (Universidade de
Georgetown) e Mark Davies (Universidade
Brigham Young). Este corpus permite buscas
complexas por categoria gramatical ou tipo de
texto.
Corpus do Português Now
O Corpus do Português NOW (Notícias na Web)

contém aproximadamente 1.4 mil milhões de
palavras de jornais e revistas on-line no período https://www.corpusdoportugues.org/now/
compreendido entre 2012 e 2019.
Corpus do Grupo GMPH – Grupo de

Morfologia Histórica do Português
O GMHP – Grupo de Morfologia Histórica do

Português – foi criado, na USP, em 2005, http://www.usp.br/gmhp/Corp.html
dedicando-se aos estudos diacrônicos da
flexão, derivação e composição da língua
portuguesa. O corpus é constituído por textos
medievais e também por textos do português
compreendidos entre os séculos XVI e XX.
CIPM – Corpus Informatizado do Português
Medieval
Este corpus inclui textos latino-romances do

século IX ao século XII e textos portugueses do https://cipm.fcsh.unl.pt/
século XII ao século XVI.
Corpus Histórico do Português

Tycho Brahe
O Corpus Histórico do Português Tycho

Brahe é um corpus eletrônico anotado,
composto de textos em português escritos por
autores nascidos entre 1380 e 1978.
Atualmente, 88 textos (3.544.628 palavras) http://www.tycho.iel.unicamp.br/corpus/
estão disponíveis para pesquisa, com um
sistema de anotação linguística em duas
etapas: anotação morfológica (aplicada
em 58 textos, num total de 2.280.819 palavras);
e anotação sintática (aplicada em 27 textos,
num total de 1.234.323 palavras).
Corpora compilados pelo Grupo de Pesquisa

NUPACT – UFJF
O grupo de pesquisa NUPACT-UFJF

disponibiliza a compilação de corpora https://www.ufjf.br/nupact/
sincrônicos e diacrônicos para a pesquisa
linguística sobre a língua portuguesa.
CORPORA DE LÍNGUA INGLESA
Corpus of Contemporary American English

(COCA)
O corpus, desenvolvido por Mark Davies,

da Universidade Brigham Young, possui https://www.english-corpora.org/coca/
460 milhões de palavras representativas
do inglês americano.
British National Corpus (BNC)
Este corpus possui 100 milhões de https://www.english-corpora.org/bnc/

palavras, sendo representativo do inglês
britânico moderno.
CORPORA DE LÍNGUA FRANCESA E ESPANHOLA
Frantext
Banco de dados de 4.515 referências e

mais de 270 milhões de palavras, do
século XII ao século XXI. Para ter acesso https://www.frantext.fr/
ao corpus é necessário ser assinante do
site.
French Web Corpus (frTenTen)
Corpus do francês constituído por textos https://www.sketchengine.eu/frtenten-french-

coletados da internet. Este corpus é corpus/
constituído por mais de 10 bilhões de
palavras.
Corpus del Español
Corpus diacrônico de 1200 até o fim do

século XX, com 100 milhões de palavras,
representativo da linguagem escrita e da https://www.corpusdelespanol.org/
linguagem oral. Foi idealizado por Mark
Davies.
CORPORA DE TRADUÇÃO ENDEREÇO PARA ACESSO
COMPARA
O COMPARA é um corpus paralelo bidireccional

de português e inglês. O corpus apresenta uma
base de dados com textos originais nestas duas https://www.linguateca.pt/COMPARA/
línguas e as suas respectivas traduções, ligadas
frase a frase, a partir de um alinhamento.
Sketch Engine
O Sketch Engine fornece amplas bases de dados

de palavras de alta qualidade, bases de dados
lexicais e unidades lexicais em várias línguas.
Sua base de dados é gerada a partir de
exemplos de textos autênticos chamados corpora https://www.sketchengine.eu/
de textos. Seus clientes são desenvolvedores de
softwares, dicionários e produtores de materiais
de ensino de línguas e, também, pessoas que
precisam de uma base de dados confiável.
CorTec
O CorTec (Corpus Técnico) é um dos corpora do

projeto COMET (TAGNIN 2002a, 2002b, 2003a,
2003b), que está sendo desenvolvido, na
Universidade de São Paulo, desde 2000.
Abrange cinco áreas – Culinária, Ecoturismo, https://cortec.fflch.usp.br/
Hipertensão, Informática e Instrumentos
Contratuais – e contém textos originais em inglês
e português, ou seja, trata-se de um corpus
comparável (ULRYCH 1997), pois o material é
compilado seguindo critérios semelhantes quanto
ao gênero, ao conteúdo, à extensão, à função
comunicativa, entre outros. Cada corpus contém,
no mínimo, 200.000 palavras, em cada língua, o
que totaliza mais de 2 milhões de palavras.
CorTrad
O CorTrad é o corpus paralelo de tradução https://www.linguateca.pt/dispara/

(português-inglês) do COMET, projeto CorTrad/consulta_cortrad.html
desenvolvido pela Profa. Stella Tagnin na
USP. Além das possibilidades de pesquisa
normalmente presentes em corpora paralelos, o
CorTrad dispõe de pelo menos duas
funcionalidades inovadoras: (i) a possibilidade de
se compararem diferentes versões de um mesmo
texto (original, versões revisadas e tradução
publicada); (ii) mecanismos de busca
diferenciados para cada gênero pesquisado -
permitindo, por exemplo, pesquisar seções
específicas dos diferentes tipos textuais.

Principais corpora on-line de línguas

Enviado por

Dados do documento

Descrição original:

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Principais corpora on-line de línguas

Enviado por

Direitos autorais:

Formatos disponíveis

FACULDADE DE LETRAS

DEPARTAMENTO DE LETRAS ESTRANGEIRAS MODERNAS

OS PRINCIPAIS CORPORA ON-LINE

CORPORA DE LÍNGUA PORTUGUESA

NOME DO CORPUS ENDEREÇO PARA ACESSO

Corpus com 45 milhões de palavras, composto

Corpus do Português Now

O Corpus do Português NOW (Notícias na Web)

Corpus do Grupo GMPH – Grupo de

O GMHP – Grupo de Morfologia Histórica do

Este corpus inclui textos latino-romances do

Corpus Histórico do Português

O Corpus Histórico do Português Tycho

Corpora compilados pelo Grupo de Pesquisa

O grupo de pesquisa NUPACT-UFJF

NOME DO CORPUS ENDEREÇO PARA ACESSO

Corpus of Contemporary American English

O corpus, desenvolvido por Mark Davies,

British National Corpus (BNC)

Este corpus possui 100 milhões de https://www.english-corpora.org/bnc/

NOME DO CORPUS ENDEREÇO PARA ACESSO

Banco de dados de 4.515 referências e

French Web Corpus (frTenTen)

Corpus do francês constituído por textos https://www.sketchengine.eu/frtenten-french-

Corpus del Español

Corpus diacrônico de 1200 até o fim do

O COMPARA é um corpus paralelo bidireccional

O Sketch Engine fornece amplas bases de dados

O CorTec (Corpus Técnico) é um dos corpora do

O CorTrad é o corpus paralelo de tradução https://www.linguateca.pt/dispara/

Você também pode gostar