Corpus4 PDF

Lingstica Computacional II. Curso monogrfico sobre Lingstica de corpus Milka Villayandre Llamazares Universidad de Len (mvill@unileon.
es)
4. TIPOS DE CORPUS
Establecidos la metodologa y el concepto de corpus, en este apartado pasamos a comentar algunos de los principales tipos de corpus, ya que no todos son iguales. Autores como J. Sinclair (1996) o J. Torruella y J. Llisterri (1999) han propuesto clasificaciones de los distintos tipos de corpus en funcin de una serie de criterios, aunque en la prctica no siempre est clara ni se hace explcita la tipologa de un corpus.
En general, los principales parmetros para clasificar los corpus se centran en: La modalidad de la lengua El nmero de lenguas a que pertenecen los textos El tamao o cantidad de textos que conforman el corpus Los lmites del corpus La variedad lingstica o el grado de especializacin de los textos El perodo temporal que abarcan los textos El tratamiento aplicado al corpus
Con frecuencia, estos criterios vienen determinados por la finalidad u objetivo que se persigue con el corpus: el estudio de la obra de un autor (Cervantes) o de la produccin literaria de una poca determinada (el Barroco), la descripcin de una lengua en general (el espaol contemporneo) o de una variedad, sublenguaje o aspecto lingstico concreto (p. ej. la norma culta en Mxico, el lenguaje de los partes meteorolgicos, el lxico jurdico, etc.), la obtencin de un determinado producto comercial (un diccionario, una aplicacin telefnica relacionada con las tecnologas del habla, etc.). Teniendo en cuenta los criterios y consideraciones anteriores, se puede establecer la siguiente tipologa:
1) Segn la modalidad de la lengua, se distinguen tres tipos de corpus: -corpus escritos -corpus orales -corpus mixtos.
25
Lingstica Computacional II. Curso monogrfico sobre Lingstica de corpus Milka Villayandre Llamazares Universidad de Len (mvill@unileon.es)
Los corpus textuales o escritos estn conformados exclusivamente por muestras de lengua escrita. Es el caso, por ejemplo del Corpus Textual Informatitzat de la Llengua Catalana (CTILC)54.
Los corpus orales, por su parte, nicamente recogen muestras de lengua hablada, que pueden ser: o Transcripciones ortogrficas de grabaciones (corpus de lengua oral), utilizadas sobre todo en lingstica de corpus para obtener una representacin simblica de una muestra natural de habla. Ocasionalmente se aade informacin prosdica, pero no se accede a la seal sonora ms que para transcribir los textos. El objetivo no es tanto el anlisis de las caractersticas de tipo fontico, sino contar con una transcripcin ortogrfica de la lengua hablada. Esta transcripcin constituye el punto de partida para el tratamiento posterior del corpus (aadir marcas sobre categoras gramaticales, extraer ndices de frecuencia, etc.) y para efectuar diferentes anlisis lingsticos: sociolingsticos, discursivos, etc. Tratan de reflejar, sobre todo, la variacin con textos representativos de los distintos usos de la lengua hablada, por lo que las grabaciones se realizan en entornos naturales y se favorecen las muestras espontneas, no planificadas, aunque no son las nicas recogidas (dilogos, conversaciones, discursos, grabaciones procedentes de medios de comunicacin, etc.). The Bergen Corpus of London Teenage Language (COLT)55 es un corpus de medio milln de palabras conformado por las transcripciones ortogrficas de conversaciones espontneas. Su objetivo fundamental es dar cuenta de una variedad de lengua, la de los adolescentes de Londres y, por tanto, servir como punto de referencia para estudios de ndole lingstica (marcadores pragmticos y discursivos, vocabulario tpico, estudios sociolingsticos, etc.). Para el espaol, podemos mencionar un proyecto de caractersticas similares, el Corpus Oral de Lenguaje Adolescente (COLA)56, el Corpus de Conversacin Coloquial del Grupo Val.Es.Co57 o el Corpus Oral de Referencia de la Lengua Espaola Contempornea (CORLEC)58. Tambin hay que destacar el proyecto PRESEEA59 para la creacin de un corpus representativo de las variedades geogrficas y sociales del espaol. o Grabaciones (corpus orales), empleadas en fontica y tecnologas del habla, que conforman el punto de partida de los anlisis extrados del corpus. Estos corpus suelen realizarse en entornos controlados y estar formados por enunciados o palabras, pero no habla espontnea. La transcripcin de los textos es fontica y ortogrfica, alineada con la seal sonora.
URL: http://ctilc.iec.cat/ El corpus, compilado en 1993 en la Universidad de Bergen, Noruega, pretende dar cuenta de la variedad de lengua oral inglesa empleada por adolescentes (entre 13 y 17 aos) de Londres. En la actualidad es un componente del British National Corpus (BNC). URL: http://www.hf.uib.no/i/Engelsk/COLT/index.html
55 56 URL: http://www.colam.org/om_prosj-espannol.html. Emprendido en la misma Universidad de Bergen, con el objetivo de dar cuenta del habla de los jvenes (entre 13 y 19 aos) de Madrid y de otras capitales latinoamericanas. Su finalizacin est prevista en julio de 2010. El proyecto est en relacin con COLT y con UNO, tambin llevado a cabo en Bergen y centrado en el lenguaje juvenil en los pases nrdicos. URL: http://www.uib.no/uno/unoEng/ 57 URL: http://www.uv.es/~valesco/ 58 URL: http://www.lllf.uam.es/ESP/Corlec.html. El proyecto, dirigido por F. Marcos Marn en el Laboratorio de Lingstica Informtica de la Universidad Autnoma de Madrid, se realiz entre 1991 y 1992. 59 URL: http://www.linguas.net/Default.aspx?alias=www.linguas.net/portalpreseea
54
26
Los corpus orales orientados hacia la descripcin fontica de las lenguas suelen consistir en inventarios de sistemas fonticos y fonolgicos de las lenguas del mundo a modo de bases de datos de sonidos; o en grabaciones realizadas en condiciones ptimas de segmentos aislados, frases aisladas o textos ledos. En general, se disean con mucho cuidado para recoger el fenmeno objeto de estudio y tienen un tamao reducido, al no utilizar un nmero elevado de hablantes. Tambin pueden incluir habla espontnea e, incluso, grabaciones de medios de comunicacin. En ocasiones, recogen materiales equivalentes en diferentes lenguas para estudios contrastivos y de interferencia fontica en la adquisicin de lenguas. Los corpus orales que se compilan para el desarrollo de sistemas en el mbito de las tecnologas del habla (vid. Llisterri et al. 2005) consisten en inventarios de unidades de sntesis para convertir texto a habla (sntesis del habla): cada grafa se relaciona con una unidad de sntesis y posteriormente se unen para producir la onda sonora; en grabaciones con unidades fonticas o con elementos especficos, como nmeros de telfono o de tarjetas de crdito para los sistemas de reconocimiento del habla; en transcripciones (fonticas y ortogrficas) de grabaciones de lengua oral con informacin lingstica aadida que se utilizan para elaborar modelos estadsticos del lenguaje; o en grabaciones y transcripciones de dilogos naturales entre personas o entre personas y simulaciones de sistemas informticos que se emplean para desarrollar servicios automticos a travs del telfono (venta de entradas, consulta de horarios de transportes pblicos, servicios bancarios, etc.). Ejemplos de corpus orales son Albayzn (vid. Casacuberta et al. 1992), gran base de datos oral desarrollada en Espaa, entre 1992 y 1998, por un consorcio de grupos de investigacin en tecnologa del habla coordinado por la Universidad Politcnica de Catalua. Adems de los objetivos relacionados directamente con la sntesis y el reconocimiento del habla, tambin se recopil con vistas al desarrollo de estudios fonticos sobre la variabilidad intere intra- locutor, la variabilidad contextual y la variabilidad condicionada por las condiciones ambientales. Tambin destaca el proyecto EUROM (vid. Chan et al. 1995), base de datos oral multilinge, en la que las grabaciones se llevaron a cabo bajo las mismas condiciones, con el mismo nmero de sujetos y un corpus equivalente para once lenguas de nuestro entorno. En el caso del proyecto SpeechDat60, el objetivo era el desarrollo de teleservicios (servicios de informacin, de transacciones, correo hablado, centralitas), sistemas de ayuda a la conduccin mediante el habla, recursos para el entrenamiento de sistemas de reconocimiento del habla, etc. Un ltimo ejemplo es Gaud (cf. Battaner et al. 2005), corpus para la identificacin y verificacin de hablantes, desarrollado entre la Escuela Universitaria de Ingenieros de Telecomunicaciones de la Universidad Politcnica de Madrid y el Servicio de Polica Judicial de la Direccin General de la Guardia Civil.
60
URL: http://www.speechdat.org/
27
Los corpus mixtos combinan ambas modalidades de lengua, aunque siempre favoreciendo la lengua escrita, ya que su obtencin es menos costosa que la de la lengua oral que, adems, requiere un proceso posterior de transcripcin de las grabaciones. El Corpus de Referencia del Espaol Actual (CREA)61 o el British National Corpus (BNC)62 pertenecen a este tipo de corpus: el 90% de sus textos son escritos y el 10% restante, orales.
2) Segn el nmero de lenguas, los corpus se clasifican fundamentalmente en monolinges y bilinges o multilinges. Los corpus monolinges estn compuestos por textos en una sola lengua. Se recopilan con el objetivo de dar cuenta de dicha lengua o variedad lingstica (o de un subconjunto de la misma). Es el caso del CREA (para el espaol), del CORGA63 (para el gallego), etc. Los corpus bilinges o multilinges estn formados por textos de dos (bilinges) o ms lenguas (multilinges) sin que, en principio, sean traducciones unos de otros y sin compartir criterios de seleccin. No obstante, este tipo de corpus son raros; son ms habituales los corpus de dos o ms lenguas que contienen textos elegidos segn unos mismos criterios o que son traducciones mutuas: o Corpus comparables (paired texts): consisten en un conjunto de textos en ms de una lengua o variedad lingstica, parecidos en cuanto a sus caractersticas y que comparten criterios de seleccin. Se utilizan sobre todo para comparar variedades de la lengua en estudios contrastivos. El ejemplo ms destacado es el International Corpus of English (ICE)64, un corpus en el que desde 1990 se estn recopilando materiales escritos y orales posteriores a 1989 pertenecientes a diferentes variedades del ingls a lo largo del mundo. En la actualidad estn en marcha veinte proyectos en otros tantos pases, desde Australia hasta Estados Unidos, pasando por Jamaica, Nueva Zelanda o Pakistn: ICE-GB (ingls de Gran Bretaa), ICE-NZ (ingls de Nueva Zelanda), ICE-IRE (ingls de Irlanda), ICE-PHI (ingls de Filipinas), etc. Cada corpus, de un milln de palabras, consta de quinientas muestras (orales y escritas) de dos mil palabras cada una. Todos siguen el mismo esquema de diseo y de anotacin. Otro ejemplo de corpus de este tipo es C-Oral-Rom65, un corpus multilinge de habla espontnea de cuatro lenguas romances (italiano, francs, portugus y espaol). o Corpus paralelos ( bi-texts): recogen textos en ms de una lengua (bilinges o multilinges) pero, a diferencia de los anteriores, se trata del mismo texto y sus traducciones o equivalentes en una o ms lenguas. El ms sencillo consta del original y su traduccin. Son especialmente tiles para los estudios de traduccin, para el desarrollo de sistemas de traduccin automtica y en entornos bilinges o multilinges, como la ONU, la OTAN, la UE o el parlamento de Canad, en los que los documentos deben publicarse
61
URL: http://www.rae.es/ URL: http://www.natcorp.ox.ac.uk/ URL: http://corpus.cirp.es/corga/ 64 URL: http://ice-corpora.net/ice/ 65 URL: http://lablita.dit.unifi.it/coralrom/
62 63
28
obligatoriamente en todas las lenguas oficiales. Desde un punto de vista metodolgico, son discutidos por algunos autores, ya que se pueden producir interferencias entre las lenguas objeto de traduccin. Se remontan a la Edad Media, cuando se hacan biblias polglotas, que contenan textos uno al lado de otro en hebreo, latn y griego, y a veces tambin versiones vernculas. Un ejemplo muy conocido es el Hansard Corpus66, con textos en ingls y en francs (en su variedad canadiense) procedentes de las actas de las sesiones del parlamento canadiense. Otro ejemplo de corpus paralelo es el Corpus Lingstico da Universidade de Vigo (CLUVI)67, de unos veintitrs millones de palabras, elaborado en el Seminario de Lingstica Informtica de la Universidad de Vigo bajo la direccin de Xavier Gmez Guinovart. Corpus alineados: son corpus paralelos en los que, para facilitar su explotacin, los textos estn dispuestos unos al lado de otros por prrafos o frases, de tal forma que sea ms fcil extraer las equivalencias de traduccin: aquellos elementos que son traducciones mutuas. Aunque no siempre es un proceso simple, el alineamiento de oraciones y palabras se puede conseguir automtica o semiautomticamente con un alto grado de exactitud. Se utilizan, sobre todo, como entrenamiento para sistemas de traduccin automtica basados en estadsticas o en la docencia sobre traduccin. El CLUVI tambin ilustra perfectamente este tipo de corpus.
3) Segn la cantidad, la proporcin y la distribucin de los tipos de textos, se habla de: Corpus grandes: no tienen un lmite de palabras o este es muy elevado en comparacin con otros tipos de corpus; no suelen atender a cuestiones de equilibrio o de representatividad. Cada vez es mayor la tendencia al aumento de volumen gracias a los medios y facilidades tcnicas disponibles; no obstante, en la actualidad existen corpus de gran tamao diseados con criterios que garantizan la representatividad de los datos. Corpus equilibrados: recogen la misma proporcin de diferentes tipos de textos. Corpus piramidales: contienen textos distribuidos en estratos o niveles, de tal forma que un nivel consta de pocas variedades temticas pero con muchos textos para cada una; un segundo nivel, de textos ms variados temticamente, pero con menos cantidad de cada uno; etc.
66 67
URL: http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC95T20 URL: http://sli.uvigo.es/CLUVI/. Compuesto a su vez por diferentes subcorpus: Corpus literario TECTRA ingls-galego (1.476.020 palabras) Corpus literario FEGA francs-galego (1.648.272 palabras) Corpus xurdico LEGA galego-espaol (6.582.415 palabras) Corpus UNESCO ingls-galego-francs-espaol de divulgacin cientfica (3.724.620 palabras) Corpus LOGALIZA de localizacin de software ingls-galego (3.526.850 palabras) Corpus CONSUMER espaol-galego-cataln-euskara de informacin sobre consumo (5.586.431 palabras)
29
Corpus lxicos ( sample corpus): recogen fragmentos de textos muy pequeos y de longitud constante en cada documento. Era lo habitual en los primeros corpus, debido a las limitaciones de tamao que los medios tcnicos de la poca imponan. Hoy en da han vuelto a cobrar importancia debido a lo cuidado de su diseo68.
4) Segn los lmites establecidos, los corpus se clasifican en corpus cerrados y corpus abiertos o monitor. Los corpus cerrados constan de un nmero finito de palabras, que se establece de forma previa a la recopilacin del corpus. Una vez alcanzado ese nmero, el corpus se da por finalizado, sin aadir ms material posteriormente. Es lo que ocurri, por ejemplo, con el corpus Brown69. Este tipo de corpus son tiles cuando interesa estudiar fenmenos estticos o estados de lengua. Los corpus abiertos o corpus monitor, por el contrario, son corpus dinmicos, que se mantienen en constante crecimiento, normalmente mediante la introduccin peridica de nuevas cantidades de textos segn unas proporciones previamente definidas. Cuando la capacidad de almacenamiento no lo permita, se iban retirando los textos ms antiguos a medida que se introducan los nuevos. Son un material excelente para los estudios diacrnicos, para observar tendencias de uso, cambios de significado, frecuencias de distribucin, etc. No obstante, no estn exentos de crticas frente al modelo predominante de corpus, basado en una concepcin esttica (tamao finito) y ms preocupado por ser equilibrado en cuanto a sus muestras. En cambio, el modelo del corpus monitor suele centrarse en alcanzar un tamao considerable y prefiere incluir textos enteros en vez de simples muestras. Es el caso del Bank of English70.
5) Segn la especificidad de los textos, los corpus pueden ser generales o especializados; tambin genricos y cannicos. Los corpus generales o de referencia pretenden reflejar la lengua o variedad lingstica de la forma ms equilibrada posible; cuantos ms tipos de textos, modalidades (textos orales, textos escritos), gneros y materias, mejor. Por este motivo tambin tienen que ser lo suficientemente amplios como para reflejar todas las variedades relevantes de una lengua y su vocabulario, de forma que se puedan tomar como base para la elaboracin de gramticas, diccionarios, tesauros, etc. El CREA sera un ejemplo de corpus de este tipo. Los corpus especializados recogen textos que puedan aportar datos para la descripcin de un tipo particular de lengua (sublenguaje). P. ej. el Corpus Tcnico do Galego (CTG)71 del Seminario de Lingstica Informtica de la Universidad de Vigo, que contiene textos jurdico-administrativos, de informtica y telecomunicaciones, de ecologa y ciencias ambientales, de economa, de sociologa y de
68
Se oponen a corpus formados por textos enteros. URL: http://icame.uib.no/brown/bcm.html 70 URL: http://www.titania.bham.ac.uk/docs/about.htm 71 URL: http://sli.uvigo.es/CTG/
69
30
medicina. O el Corpus textual especializado plurilinge72, proyecto desarrollado por el Instituto Universitario de Lingstica Aplicada de la Universidad Pompeu Fabra, que consta de textos en cataln, castellano, ingls, francs y alemn sobre economa, derecho, medio ambiente, medicina e informtica, con la meta de estudiar cmo funciona la lengua en cada una de esas reas y extraer informacin til para detectar neologismos, elaborar diccionarios y tesauros, estudiar la variacin lingstica, etc. Los corpus genricos recogen textos pertenecientes a un nico gnero, ya que el objetivo es caracterizar ese gnero frente a otros. Por ejemplo, el York-Helsinki Parsed Corpus of Old English Poetry73, que contiene solo poesa. Corpus cannicos: estn formados por todos los textos que configuran la obra completa de un autor.
6) Segn el periodo temporal que abarcan los textos, las principales tipologas de corpus que encontramos son: Los corpus peridicos o cronolgicos recogen textos de unos aos determinados o de unas pocas concretas con el objeto de estudiar la lengua producida durante ese perodo, como en los casos de los corpus Brown o LOB, que recogen textos publicados exclusivamente en 1961 en Estados Unidos y el Reino Unido respectivamente. Los corpus diacrnicos o histricos incluyen textos de diferentes etapas temporales sucesivas con el fin de poder observar evoluciones de la lengua en un perodo largo, lo que los diferencia de los corpus monitor, que no abarcan perodos temporales tan amplios. Para el espaol, por ejemplo, adems del CORDE, destaca el Corpus del espaol74, un corpus de cien millones de palabras recopilado por Mark Davis en la Universidad de Brigham Young, y que contiene textos en espaol desde el siglo XIII hasta el XX. Corpus sincrnicos: su finalidad es permitir el estudio de una o ms variedades lingsticas en el momento presente, sin prestar atencin a su evolucin excepto en lo que se refiere a los cambios rpidos que ocurren en la actualidad. Es el caso del Corpus of Contemporary American English, de ms de trescientos ochenta y cinco millones de palabras procedentes de textos de diferentes fuentes de los aos 1990 a 200875.
7) Segn el proceso al que se someta el corpus, se distingue entre: Corpus simples, en bruto, no anotados o no codificados: consisten en textos guardados sin formato alguno y sin aadir ningn tipo de informacin adicional, como pueden ser cdigos o anotaciones. Un corpus as ofrece unas posibilidades muy limitadas para los estudios lingsticos.
URL: http://www.iula.upf.edu/corpus/corpuses.htm URL: http://www-users.york.ac.uk/~lang18/pcorpus.html URL: http://www.corpusdelespanol.org/ 75 Compilado por Mark Davies en la Brigham Young University. URL: http://www.americancorpus.org/
73 74 72
31
Corpus verticales: son el resultado de disponer en forma de columna las palabras de un texto ordenadas segn criterios alfabticos o de frecuencia. Las palabras se consideran aisladamente, sin contexto.
Ilustracin 5. Lista de frecuencias. 10 formas ms frecuentes en el CREA.
Corpus codificados o anotados: estn formados por textos a los que se les han aadido, de forma manual o automtica, determinadas informaciones. Estas pueden referirse a datos bibliogrficos o a la estructura de los textos: etiquetas especiales para indicar el autor, el ttulo, los captulos, los prrafos, etc. (codificacin); o, lo que es ms interesante, a aspectos puramente lingsticos, como la categora gramatical, la estructura sintctica, etc. (anotacin). La explicitacin de estos datos enriquece los corpus y aumenta considerablemente las posibilidades de explotacin que ofrecen. o Corpus analizados morfolgicamente (tagged): los textos del corpus han sido anotados con informacin morfolgica. Cada palabra del corpus tiene asociada una lista de sus posibles categoras morfosintcticas. Es posible incluir ms o menos detalles en este apartado (nombre, verbo; nombre comn, nombre propio, verbo principal, verbo auxiliar, etc.). La mayora de corpus hoy en da cuenta con este tipo de anotacin, que se inserta mediante un sistema de cdigos al lado de cada palabra.
Ilustracin 6. Muestra de texto etiquetado del Corpus of Spoken, Professional American-English76.
76
URL: http://www.athel.com/cpsa.html. El texto anotado se corresponde con el siguiente texto sin anotar: Before we begin this morning formally with our agenda, Id like to take just one minute to welcome you all and say that this is wonderful that youre all here.
32
Corpus parentizados: son aquellos que se han sometido a un proceso de anlisis sintctico superficial, marcado entre parntesis o corchetes. Normalmente se identifican los constituyentes principales: por ejemplo SN (sintagma nominal), SV (sintagma verbal), etc. Un ejemplo es el Lancaster Parsed Corpus (LPC)77, que representa un subconjunto del LOB de unas ciento cuarenta mil palabras que han sido analizadas sintcticamente.
Corpus analizados (treebanks): los textos que los conforman estn procesados sintcticamente de manera completa. Cada oracin del corpus ha sido analizada de forma exhaustiva: p. ej. SN sujeto animado. Cada vez son ms habituales este tipo de corpus. Destaca la Base de Datos Sintcticos del Espaol Actual (BDS)78 o, ms recientemente, los corpus CESS-ECE79 para el espaol, el cataln y el euskera, y AnCora80, para el espaol y el cataln.
77
URL: http://khnt.hit.uib.no/icame/manuals/LPC/LPC.PDF URL: http://www.bds.usc.es/ 79 URL: http://clic.ub.edu/cessece/index.php 80 URL: http://clic.ub.edu/ancora/index.php

78
33

Corpus4 PDF

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Corpus4 PDF

Enviado por

Direitos autorais:

Formatos disponíveis

Lingstica Computacional II. Curso monogrfico sobre Lingstica de corpus Milka Villayandre Llamazares Universidad de Len (mvill@unileon.

Ilustracin 5. Lista de frecuencias. 10 formas ms frecuentes en el CREA.

Ilustracin 6. Muestra de texto etiquetado del Corpus of Spoken, Professional American-English76.

URL: http://khnt.hit.uib.no/icame/manuals/LPC/LPC.PDF URL: http://www.bds.usc.es/ 79 URL: http://clic.ub.edu/cessece/index.php 80 URL: http://clic.ub.edu/ancora/index.php

Você também pode gostar