Você está na página 1de 6

FACULDADE DE LETRAS

DEPARTAMENTO DE LETRAS ESTRANGEIRAS MODERNAS


Curso: Bacharelado em Letras-Tradução
Disciplina: Linguística de Corpus Aplicada à Tradução – 2021.3
Profa. Pós-Dra. Patrícia Fabiane Amaral da Cunha Lacerda

OS PRINCIPAIS CORPORA ON-LINE

CORPORA DE LÍNGUA PORTUGUESA

NOME DO CORPUS ENDEREÇO PARA ACESSO

Corpus do Português

Corpus com 45 milhões de palavras, composto


por textos dos séculos XV ao XX, nas
variantes europeia e brasileira do português. https://www.corpusdoportugues.org/
Criado por Michael Ferreira (Universidade de
Georgetown) e Mark Davies (Universidade
Brigham Young). Este corpus permite buscas
complexas por categoria gramatical ou tipo de
texto.

Corpus do Português Now

O Corpus do Português NOW (Notícias na Web)


contém aproximadamente 1.4 mil milhões de
palavras de jornais e revistas on-line no período https://www.corpusdoportugues.org/now/
compreendido entre 2012 e 2019.

Corpus do Grupo GMPH – Grupo de


Morfologia Histórica do Português

O GMHP – Grupo de Morfologia Histórica do


Português – foi criado, na USP, em 2005, http://www.usp.br/gmhp/Corp.html
dedicando-se aos estudos diacrônicos da
flexão, derivação e composição da língua
portuguesa. O corpus é constituído por textos
medievais e também por textos do português
compreendidos entre os séculos XVI e XX.
CIPM – Corpus Informatizado do Português
Medieval

Este corpus inclui textos latino-romances do


século IX ao século XII e textos portugueses do https://cipm.fcsh.unl.pt/
século XII ao século XVI.

Corpus Histórico do Português


Tycho Brahe

O Corpus Histórico do Português Tycho


Brahe é um corpus eletrônico anotado,
composto de textos em português escritos por
autores nascidos entre 1380 e 1978.
Atualmente, 88 textos (3.544.628 palavras) http://www.tycho.iel.unicamp.br/corpus/
estão disponíveis para pesquisa, com um
sistema de anotação linguística em duas
etapas: anotação morfológica (aplicada
em 58 textos, num total de 2.280.819 palavras);
e anotação sintática (aplicada em 27 textos,
num total de 1.234.323 palavras).

Corpora compilados pelo Grupo de Pesquisa


NUPACT – UFJF

O grupo de pesquisa NUPACT-UFJF


disponibiliza a compilação de corpora https://www.ufjf.br/nupact/
sincrônicos e diacrônicos para a pesquisa
linguística sobre a língua portuguesa.
CORPORA DE LÍNGUA INGLESA

NOME DO CORPUS ENDEREÇO PARA ACESSO

Corpus of Contemporary American English


(COCA)

O corpus, desenvolvido por Mark Davies,


da Universidade Brigham Young, possui https://www.english-corpora.org/coca/
460 milhões de palavras representativas
do inglês americano.

British National Corpus (BNC)

Este corpus possui 100 milhões de https://www.english-corpora.org/bnc/


palavras, sendo representativo do inglês
britânico moderno.
CORPORA DE LÍNGUA FRANCESA E ESPANHOLA

NOME DO CORPUS ENDEREÇO PARA ACESSO

Frantext

Banco de dados de 4.515 referências e


mais de 270 milhões de palavras, do
século XII ao século XXI. Para ter acesso https://www.frantext.fr/
ao corpus é necessário ser assinante do
site.

French Web Corpus (frTenTen)

Corpus do francês constituído por textos https://www.sketchengine.eu/frtenten-french-


coletados da internet. Este corpus é corpus/
constituído por mais de 10 bilhões de
palavras. 

Corpus del Español

Corpus diacrônico de 1200 até o fim do


século XX, com 100 milhões de palavras,
representativo da linguagem escrita e da https://www.corpusdelespanol.org/
linguagem oral. Foi idealizado por Mark
Davies.
CORPORA DE TRADUÇÃO ENDEREÇO PARA ACESSO

COMPARA

O COMPARA é um corpus paralelo bidireccional


de português e inglês. O corpus apresenta uma
base de dados com textos originais nestas duas https://www.linguateca.pt/COMPARA/
línguas e as suas respectivas traduções, ligadas
frase a frase, a partir de um alinhamento.

Sketch Engine

O Sketch Engine fornece amplas bases de dados


de palavras de alta qualidade, bases de dados
lexicais e unidades lexicais em várias línguas.
Sua base de dados é gerada a partir de
exemplos de textos autênticos chamados corpora https://www.sketchengine.eu/
de textos. Seus clientes são desenvolvedores de
softwares, dicionários e produtores de materiais
de ensino de línguas e, também, pessoas que
precisam de uma base de dados confiável.

CorTec

O CorTec (Corpus Técnico) é um dos corpora do


projeto COMET (TAGNIN 2002a, 2002b, 2003a,
2003b), que está sendo desenvolvido, na
Universidade de São Paulo, desde 2000.
Abrange cinco áreas – Culinária, Ecoturismo, https://cortec.fflch.usp.br/
Hipertensão, Informática e Instrumentos
Contratuais – e contém textos originais em inglês
e português, ou seja, trata-se de um corpus
comparável (ULRYCH 1997), pois o material é
compilado seguindo critérios semelhantes quanto
ao gênero, ao conteúdo, à extensão, à função
comunicativa, entre outros. Cada corpus contém,
no mínimo, 200.000 palavras, em cada língua, o
que totaliza mais de 2 milhões de palavras.

CorTrad

O CorTrad é o corpus paralelo de tradução https://www.linguateca.pt/dispara/


(português-inglês) do COMET, projeto CorTrad/consulta_cortrad.html
desenvolvido pela Profa. Stella Tagnin na
USP. Além das possibilidades de pesquisa
normalmente presentes em corpora paralelos, o
CorTrad dispõe de pelo menos duas
funcionalidades inovadoras: (i) a possibilidade de
se compararem diferentes versões de um mesmo
texto (original, versões revisadas e tradução
publicada); (ii) mecanismos de busca
diferenciados para cada gênero pesquisado -
permitindo, por exemplo, pesquisar seções
específicas dos diferentes tipos textuais.

Você também pode gostar