O documento lista e descreve os principais corpora de língua portuguesa, inglesa, francesa e espanhola disponíveis on-line. Inclui também corpora de tradução como o COMPARA, CorTec e CorTrad, que contêm textos originais e suas traduções em português e inglês. Fornece o nome e endereço eletrônico de cada corpus para facilitar o acesso.
O documento lista e descreve os principais corpora de língua portuguesa, inglesa, francesa e espanhola disponíveis on-line. Inclui também corpora de tradução como o COMPARA, CorTec e CorTrad, que contêm textos originais e suas traduções em português e inglês. Fornece o nome e endereço eletrônico de cada corpus para facilitar o acesso.
O documento lista e descreve os principais corpora de língua portuguesa, inglesa, francesa e espanhola disponíveis on-line. Inclui também corpora de tradução como o COMPARA, CorTec e CorTrad, que contêm textos originais e suas traduções em português e inglês. Fornece o nome e endereço eletrônico de cada corpus para facilitar o acesso.
Curso: Bacharelado em Letras-Tradução Disciplina: Linguística de Corpus Aplicada à Tradução – 2021.3 Profa. Pós-Dra. Patrícia Fabiane Amaral da Cunha Lacerda
OS PRINCIPAIS CORPORA ON-LINE
CORPORA DE LÍNGUA PORTUGUESA
NOME DO CORPUS ENDEREÇO PARA ACESSO
Corpus do Português
Corpus com 45 milhões de palavras, composto
por textos dos séculos XV ao XX, nas variantes europeia e brasileira do português. https://www.corpusdoportugues.org/ Criado por Michael Ferreira (Universidade de Georgetown) e Mark Davies (Universidade Brigham Young). Este corpus permite buscas complexas por categoria gramatical ou tipo de texto.
Corpus do Português Now
O Corpus do Português NOW (Notícias na Web)
contém aproximadamente 1.4 mil milhões de palavras de jornais e revistas on-line no período https://www.corpusdoportugues.org/now/ compreendido entre 2012 e 2019.
Corpus do Grupo GMPH – Grupo de
Morfologia Histórica do Português
O GMHP – Grupo de Morfologia Histórica do
Português – foi criado, na USP, em 2005, http://www.usp.br/gmhp/Corp.html dedicando-se aos estudos diacrônicos da flexão, derivação e composição da língua portuguesa. O corpus é constituído por textos medievais e também por textos do português compreendidos entre os séculos XVI e XX. CIPM – Corpus Informatizado do Português Medieval
Este corpus inclui textos latino-romances do
século IX ao século XII e textos portugueses do https://cipm.fcsh.unl.pt/ século XII ao século XVI.
Corpus Histórico do Português
Tycho Brahe
O Corpus Histórico do Português Tycho
Brahe é um corpus eletrônico anotado, composto de textos em português escritos por autores nascidos entre 1380 e 1978. Atualmente, 88 textos (3.544.628 palavras) http://www.tycho.iel.unicamp.br/corpus/ estão disponíveis para pesquisa, com um sistema de anotação linguística em duas etapas: anotação morfológica (aplicada em 58 textos, num total de 2.280.819 palavras); e anotação sintática (aplicada em 27 textos, num total de 1.234.323 palavras).
Corpora compilados pelo Grupo de Pesquisa
NUPACT – UFJF
O grupo de pesquisa NUPACT-UFJF
disponibiliza a compilação de corpora https://www.ufjf.br/nupact/ sincrônicos e diacrônicos para a pesquisa linguística sobre a língua portuguesa. CORPORA DE LÍNGUA INGLESA
NOME DO CORPUS ENDEREÇO PARA ACESSO
Corpus of Contemporary American English
(COCA)
O corpus, desenvolvido por Mark Davies,
da Universidade Brigham Young, possui https://www.english-corpora.org/coca/ 460 milhões de palavras representativas do inglês americano.
British National Corpus (BNC)
Este corpus possui 100 milhões de https://www.english-corpora.org/bnc/
palavras, sendo representativo do inglês britânico moderno. CORPORA DE LÍNGUA FRANCESA E ESPANHOLA
NOME DO CORPUS ENDEREÇO PARA ACESSO
Frantext
Banco de dados de 4.515 referências e
mais de 270 milhões de palavras, do século XII ao século XXI. Para ter acesso https://www.frantext.fr/ ao corpus é necessário ser assinante do site.
French Web Corpus (frTenTen)
Corpus do francês constituído por textos https://www.sketchengine.eu/frtenten-french-
coletados da internet. Este corpus é corpus/ constituído por mais de 10 bilhões de palavras.
Corpus del Español
Corpus diacrônico de 1200 até o fim do
século XX, com 100 milhões de palavras, representativo da linguagem escrita e da https://www.corpusdelespanol.org/ linguagem oral. Foi idealizado por Mark Davies. CORPORA DE TRADUÇÃO ENDEREÇO PARA ACESSO
COMPARA
O COMPARA é um corpus paralelo bidireccional
de português e inglês. O corpus apresenta uma base de dados com textos originais nestas duas https://www.linguateca.pt/COMPARA/ línguas e as suas respectivas traduções, ligadas frase a frase, a partir de um alinhamento.
Sketch Engine
O Sketch Engine fornece amplas bases de dados
de palavras de alta qualidade, bases de dados lexicais e unidades lexicais em várias línguas. Sua base de dados é gerada a partir de exemplos de textos autênticos chamados corpora https://www.sketchengine.eu/ de textos. Seus clientes são desenvolvedores de softwares, dicionários e produtores de materiais de ensino de línguas e, também, pessoas que precisam de uma base de dados confiável.
CorTec
O CorTec (Corpus Técnico) é um dos corpora do
projeto COMET (TAGNIN 2002a, 2002b, 2003a, 2003b), que está sendo desenvolvido, na Universidade de São Paulo, desde 2000. Abrange cinco áreas – Culinária, Ecoturismo, https://cortec.fflch.usp.br/ Hipertensão, Informática e Instrumentos Contratuais – e contém textos originais em inglês e português, ou seja, trata-se de um corpus comparável (ULRYCH 1997), pois o material é compilado seguindo critérios semelhantes quanto ao gênero, ao conteúdo, à extensão, à função comunicativa, entre outros. Cada corpus contém, no mínimo, 200.000 palavras, em cada língua, o que totaliza mais de 2 milhões de palavras.
CorTrad
O CorTrad é o corpus paralelo de tradução https://www.linguateca.pt/dispara/
(português-inglês) do COMET, projeto CorTrad/consulta_cortrad.html desenvolvido pela Profa. Stella Tagnin na USP. Além das possibilidades de pesquisa normalmente presentes em corpora paralelos, o CorTrad dispõe de pelo menos duas funcionalidades inovadoras: (i) a possibilidade de se compararem diferentes versões de um mesmo texto (original, versões revisadas e tradução publicada); (ii) mecanismos de busca diferenciados para cada gênero pesquisado - permitindo, por exemplo, pesquisar seções específicas dos diferentes tipos textuais.