Você está na página 1de 4

TEI: Text Encoding Initiative #TEI

O TEI foi criado em 1987 por um consórcio das associações académicas Association
for Computers and the Humanities (ACH), Association for Computational
Linguistics (ACL) e Association for Literary and Linguistic Computing (ALLC), que o
propuseram como o resultado da pesquisa efetuada para desenvolver um esquema de
metadados que desse cabal resposta à colocação em linha de textos digitais, nos seus
múltiplos formatos. Apesar de ser um dos primeiros formatos a ser desenvolvido neste
âmbito, este esquema de meta informação continua a ser utilizado na atualidade[1].

Desenvolvido com o objetivo de criar e “to develop guidelines for encoding machine-
readable texts in the humanities and social sciences”[2], fomentando a preparação e
troca de textos eletrónicos, foi inicialmente definido como um SGML DTD (Document
Type Definition). Porém, atualmente, apresenta a vantagem de importar e exportar a
informação para os formatos MARC[3], apresentando-se como “an international and
interdisciplinary standard that enables libraries, museums, publishers, and individual
scholars to represent a variety of literary and linguistic texts for online research,
teaching, and preservation”[4].

O TEI é constituído por um conjunto de etiquetas, com uma sintaxe própria que
descreve a estrutura e os elementos do documento eletrónico e do exemplar impresso
que lhe deu origem. Nesse sentido, é reconhecido como “um padrão internacional para
representar todo tipo de textos literários e linguísticos para pesquisa e
ensino online”[5].

O TEI tem como objetivo:

– Ser um formato normalizado para troca de informação;

– Fornecer linhas orientadoras para apresentar os textos em formato digital;

– Ser aplicável a todos os géneros de textos;

– Ser independente da ferramenta utilizada para a sua criação e leitura. [6]

Dado que, por um lado, cada língua possui conjunto próprio de acentos e carateres
especiais (diacríticos) e, por outro, a codificação de carateres é essencial para que os
dados possam circular através de vários sistemas sem que sejam corrompidos, a
disponibilização de textos eletrónicos em linha exigiu a sua normalização. Por esse
motivo, o desenvolvimento do TEI obedece à norma ISO 10646[7], que define o
conjunto universal de caratéres.

Durante o processamento em formato TEI[8], o documento converte-se num ficheiro


SGML ou XML, no qual se incluem as diversas partes que constituem o original
(capítulos, partes, notas, tabelas, gráficos, imagens), permitindo diferenciar, sobretudo
no livro antigo, os elementos da encadernação e as partes iniciais e finais (rosto,
prólogo, colofão, etc.) que, sendo adjacentes ao conteúdo, contribuem para o seu
esclarecimento.

Os metadados, referentes à ficha bibliográfica e ao processamento digital da obra, são


associados no cabeçalho embebido no documento TEI[9]. O cabeçalho
<teiHeader>[10], de preenchimento obrigatório, divide-se em quatro secções:

– Descrição bibliográfica;

– Descrição de codificação;

– Descrição do perfil de codificação;

– Descrição de revisão.[11]

<teiHeader>
<fileDesc> <!– … –> </fileDesc>
<encodingDesc> <!– … –> </encodingDesc>
<profileDesc> <!– … –> </profileDesc>
<revisionDesc> <!– … –> </revisionDesc>

</teiHeader>

Exemplo de um cabeçalho em TEI


Na secção <fileDesc> insere-se a informação referente à descrição bibliográfica do
exemplar físico que deu origem ao digital ou a catalogação do exemplar nado digital.
Essa informação está estruturada em várias etiquetas[12] de acordo com os dados
disponíveis, sendo o título <titleStmt> e a publicação <publicationStmt> de
preenchimento obrigatório:

<teiHeader>

<fileDesc>

<titleStmt> … </titleStmt>

<publicationStmt> … <publicationStmt>

<sourceDesc> … <sourceDesc>

</fileDesc>

</teiHeader>

Exemplo da descrição bibliográfica


Na secção de descrição de codificação <encodingDesc> insere-se a informação
referente aos métodos e técnicas utilizadas para a conversão do documento analógico
em digital.

A secção de descrição do perfil de codificação <profileDesc>, de particular relevância


neste contexto, inclui os dados referentes às opções tomadas na criação do ficheiro
digital, como o idioma utilizado, tipo de texto, etc..

Na secção de descrição de revisão <revisionDesc>, são registadas e descritas as


alterações sofridas pelo texto na transição entre o original e as várias versões digitais.

No ficheiro XML, formatado de acordo com o TEI, o conteúdo do documento surge na


sequência do cabeçalho.

O formato apresenta um determinado conjunto de etiquetas consoante do tipo de


obra [13]. Assim, no esquema utilizado para a codificação do livro antigo, é dado
especial realce às partes da obra que enquadram o conteúdo, no princípio (front) e no
fim (back) da obra. “La materia preliminar como portadas, cartas a modo de prólogo,
etc., puede aportar información lingüística o social adicional muy útil”[14] enquanto,
“debido a las variaciones en la prática editorial, la materia del back puede contener
teóricamente cualquiera de los elementos vistos arriba para la materia del front y estos
mismos elementos deben usarse donde sean necesarios.” [15]

Cabeçalho <TEI.2><teiHeader> [informação do cabeçalho do


texto] </teiHeader>

Documento Início <text><front> [matéria inicial, anterior ao


conteúdo] </front>

Conteúdo <body> [matéria do corpo do texto] </body>

Fim <back> [matéria final, posterior ao conteúdo]


</back></text>
</TEI.2>

Esquema de formatação de uma obra, livro antigo, em TEI


O conjunto de etiquetas a utilizar para o corpo da obra (conteúdo) varia de acordo com
a tipologia da obra, estando disponíveis conjuntos de etiquetas normalizadas para:

– Poemas;

– Drama;

– Transcrições de discursos (textos falados);

– Dicionários, que possuem versão impressa;


– Livro antigo;

– Obras em vários volumes.[16]

Existem várias bibliotecas digitais que implementaram o TEI, como por exemplo
o Perseus e a Bibliothèques Virtuelles Humanistes. Está vocacionado para reutilização
da informação, pois como linguagem estruturada e normalizada permite a construção
de algoritmos para trabalhar a informação.

Você também pode gostar