Você está na página 1de 12

La aplicacin de las bases de datos al estudio histrico del espaol Gloria Clavera Nadal; Carlos Snchez Lancis Hispania,

Vol. 80, No. 1. (Mar., 1997), pp. 142-152.


Stable URL: http://links.jstor.org/sici?sici=0018-2133%28199703%2980%3A1%3C142%3ALADLBD%3E2.0.CO%3B2-Y Hispania is currently published by American Association of Teachers of Spanish and Portuguese.

Your use of the JSTOR archive indicates your acceptance of JSTOR's Terms and Conditions of Use, available at http://www.jstor.org/about/terms.html. JSTOR's Terms and Conditions of Use provides, in part, that unless you have obtained prior permission, you may not download an entire issue of a journal or multiple copies of articles, and you may use content in the JSTOR archive only for your personal, non-commercial use. Please contact the publisher regarding any further use of this work. Publisher contact information may be obtained at http://www.jstor.org/journals/aatsp.html. Each copy of any part of a JSTOR transmission must contain the same copyright notice that appears on the screen or printed page of such transmission.

The JSTOR Archive is a trusted digital repository providing for long-term preservation and access to leading academic journals and scholarly literature from around the world. The Archive is supported by libraries, scholarly societies, publishers, and foundations. It is an initiative of JSTOR, a not-for-profit organization with a mission to help the scholarly community take advantage of advances in technology. For more information regarding JSTOR, please contact support@jstor.org.

http://www.jstor.org Fri Nov 16 09:44:57 2007

Prepared by John Lipski / Richard A. Raschio

La aplicacin de las bases de datos al estudio histrico del espaol


Gloria Clavera Nada1 y Carlos Snchez Lancis Universidad Autnoma de Barcelona
Abstract: El empleo de bases de datos aplicadas al estudio de la historia de una lengua se configura como una metodologa que permite mejorar sustancialmente la calidad de las investigaciones. Se presentan como prueba de ello dos aplicaciones al estudio del espaol desarrolladas en el Seminario de Filologa e Informtica de la Universitat Autonoma de Barcelona: 1) la elaboracin de una base de datos de elementos lingisticos de espacio y tiempo del espaol medieval, que recoge distintas informaciones cuya combinacin mediante procedimientos informticospermite la caracterizacingramatical del sistema dectico; 2) la informatizacin del Diccionario crtico etimolgico castellano e hispnico de J . Corominas y J. A. Pascua1 para la constitucin de un gran banco de datos histricos y etimolgicos del espaol, que servir como principio renovador y continuador a la vez de los estudios etimolgicos dedicados al espaol.
Key Words: bases de datos, lengua espaola, sintaxis histrica, dexis, lexicografa, etimologa

1. La ayuda de la informtica. La informtica ofrece grandes ventajas al lingista histrico y al fillogo en algunas labores que han de llevarse a cabo en el transcurso de toda investigacin; se trata especialmente de los trabajos relacionados con la recoleccin y almacenamiento de datos, y su posterior gestin. Los medios informticos pueden intervenir de manera activa y decisiva como herramienta en la elaboracin de ediciones y de concordancias de textos, de diccionarios o vocabularios de textos antiguos, de Corpus formados con fuentes documentales antiguas, etc.' Un caso concreto de la aplicacin de la informtica a la lingstica histrica se halla en la utilizacin de sistemas de gestin de bases de datos. Se presentan dos posibilidades distintas: la aplicacin de las bases d e datos en estudios d e sintaxis y d e lexicografa. Las bases de datos se configuran en estas investigaciones como un medio que facilita el manejo de un gran nmero de datos y la elaboracin de corpora histricos; a la vez intervienen activamente en la misma configuracin de la investigacin, pues en s mismas las bases de datos constituyen un preanlisis de los datos, y los resultados obtenidos a partir de ellas ofrecen siempre mayores posibilidades de revisin, ampliacin y reutilizacin. Existe,

adems, actualmente un vnculo informtico entre texto, concordancia y base de datos, por cuanto se puede obtener, a partir de las concordancias de un texto antiguo, una base de datos de sus formas lxicas de manera semiautomtica;ello es posible gracias al programa TRANSCALC elaborado por Ramon Capsada y Joan Torruella en el Seminari de Filologia i Informatica de la Universitat Autonoma d e Barcelona (Torruella 1993; Capsada-Torruella 1995). 1.1. La base de datos y su estructura. El diseo de la estructura de una base de datos relaciona1 aplicada a cualquier disciplina lingstica exige dos pasos: en primer lugar, el anlisis previo de los datos para establecer los tipos de informacin (campos) que van a introducirse en cada fichero; y, en segundo lugar, la comprobacin continua de la fiabilidad de la base de datos y la correspondencia de la estructura diseada con los objetivos de la investigacin. Este procedimiento representa una gran ventaja respecto a otros tipos de metodologas de investigacin que no utilizan herramientas informticas, ya que permite la continua constatacin de la fiabilidad de la estructura diseada, as como su remodelacin y mejora con un esfuerzo mnimo. Este tipo d e herramientas informticas resulta de gran utilidad por-

THEORETICAL LlNGUlSTlCS 1 MEDIA 143

que, a partir de un corpus de datos lingsticos de diferente clase y naturaleza, permite la creacin de distintos microcorpora de carcter ms o menos especfico. Adems, facilita el manejo y la interrelacin de stos.
2. El corpus de datos. L a lingstica histrica tiene como material de anlisis diferentes tipos de datos lingsticos; la gran mayora de stos provienen de fuentes escritas, pues son prcticamente los nicos restos que perviven de un estadio de lengua antiguo. A pesar de todas sus limitaciones, especialmente como reflejo de la pronunciacin y de la lengua coloquial, resultan imprescindibles e irremplazables. Ante la ausencia de hablantes nativos de una poca anterior, "the written documentation of a language can thus be regarded as a useful model of the relevant linguistic environment for (pre-)adult learning of this linguistic modality, in the same sense as the spoken register is accepted as the proper linguistic context determining the many stages of infant language learning" (Wanner 1991,174-75). El vnculo entre texto y estudio histrico lleva a plantear la relacin privilegiada entre ste y la filologa. El lingista histrico debe combinar la explicacin estrictamente lingstica con la rigurosidad en el tratamiento e interpretacin de los datos escritos, propias de la investigacin especficamente filolgica. Tambin el fillogo necesita del auxilio de la lingstica histrica en sus estudios. 2.1. Caractersticas del corpus. Una vez establecido el texto como base de estudio fundamental del lingista histrico, conviene precisar de qu manera se puede acceder a l: a) El texto como unidad de anlisis. La particular y complicada pervivencia de los textos antiguos y los distintos tipos de edicin moderna que se pueden hacer de ellos proporcionan al lingista histrico diversas posibilidades de acceder al material de estudio; as, es posible elegir desde el manuscrito hasta la edicin crtica e incluso actualmente se dispone de versiones del texto que compatibilizan el manuscrito con la edicin

en soporte informtico, ofreciendo con ello nuevas vas de investigacin.Nos referimos a las ediciones digitalizadas (Marcos Marn 1991; Faulhaber 1991), por ejemplo, el Archivo Digital de Manuscritos y Textos Espaoles (ADMYTE). La eleccin de una de estas posibilidades puede hacer variar sensiblemente los resultados obtenidos en la investigacin: las ediciones crticas, por ejemplo, se alejan de la realidad lingstica histrica al tratarse, en general, de reconstrucciones de una obra a partir de la combinacin de diversos manuscritos con posible cronologa y procedencia geogrfica diferentes, por lo que el resultado no deja de ser un mero producto hipottico que no puede ser tomado como representacin de un estado de lengua determinado. El mismo documento antiguo (manuscrito), por formar parte de una pervivencia textual compleja, puede no ser reflejo de un solo idiolecto, sino ser depositario de estratos de lengua de poca y zona distintas, de ah la aplicacin del concepto de diasistema a esta esfera (Echenique 1992,235). b) La palabra como unidad de anlisis. El corpus de datos puede tambin obtenerse no directamente del texto, sino de manera indirecta; aunque el texto siempre es la fuente ltima y bsica, e s posible utilizar como punto de partida las concordancias del texto o las obras lexicogrficas de carcter histrico. En ambos casos la palabra es el elemento fundamental a travs del que se extrae un corpus de datos para cualquier tipo de anlisis lingstico.

3. Bases de datos y sintaxis histrica. La aplicacin de la informtica y las bases de datos relacionales al estudio de la sintaxis del espaol es bastante reciente, como lo demuestran los trabajos de G. Rojo (1992; 1993; 1994). La finalidad de la investigacin de este lingista consiste en crear una base de datos sintcticos del espaol actual (BADSEA), cuya derivacin ms inmediata es la realizacin de un Diccionario de construcciones verbales del espaol actual (DICVEA). En palabras de G. Rojo (1993, 19), la gran utilidad de un proyecto de estas caractersticas estriba en el hecho de

144 HlSPANlA 80 MARCH 1997

que, con su obtencin, "todos cuantos trabajamos sobre el espaol actual dispondremos en ese momento de una enorme cantidad de materiales analizados con los que, estamos seguros, nuestros conocimientos del componente sintctico de esta lengua sern ms amplios y, sobre todo, estarn mejor fundamentados en el uso real" (nfasis nuestro). Las bases de datos no slo se han aplicado al estudio del espaol, sino que han servido tambin para la comparacin tipolgica de lenguas distintas, como explica J. C. Moreno Cabrera (1995,63-66). En el estudio de la sintaxis histrica del espaol, el uso de herramientas informticas se perla como una gran ayuda para la renovacin de esta disciplina, tan necesitada en la actualidad de nuevas investigaciones y metodologas que le permitan enfrentarse al anlisis de nuevos corpora. Las excelencias de la aplicacin de la informtica al estudio de la sintaxis histrica del espaol han sido explicitadas pormenorizadamente por D. Wanner (1991). La creacin de una base de datos del espaol medieval se postula como una gran necesidad para el desarrollo actual de los estudios de sintaxis histrica, ya que dicha disciplina debe manejar una gran cantidad de datos, procedentes de corpora textuales, con el fin de caracterizar la lengua y suplir en lo posible la ausencia de hablantes nativos. Tomando como base el corpus del esVARIANTE GRAFICA: LEMA: CLASE GRAMATICAL: FUNCION GRAMATICAL: SENTIDO GRAMATICAL: SIGNIFICADO: TIPO SIGNIFICADO: TIEMPO VERBAL: POSICION VERBAL:

paol medieval d e la Universidad d e Wisconsin, y tras la obtencin de concordancias, se ha realizado una codificacin2de los textos tanto a nivel morfolgico (palabras) como a nivel sintctico (sintagmas y oraciones), de tal modo que sean posibles las bsquedas, incluso interrelacionadas, por palabras, categoras morfolgicas y constituyentes. La codificacin presenta un anlisis neutral de los datos, con el fin de que sirva para futuros anlisis de diferentes investigado re^.^ La combinacin de concordancias automatizadas junto con la creacin manual de ficheros constituye, segn D. Wanner (1991,183), "a control corpus to delimit some dimensions of a linguistic norm within the rich spectrum of Old Spanish." En la lnea descrita anteriormente, presentamos a continuacin un tipo particular de base de datos que se ocupa de un problema especfico de sintaxis histrica del . ~partir de un corpus espaol m e d i e ~ a lA compuesto por textos literarios medievales de diferentes gneros de los siglos XII al XV (Cantar de Mio Cid, General Estoria, Los Milagros de Nuestra Seora, El conde Lucanor, Libro de Buen Amor, Corbacho,y La Celestina), se obtuvieron dos ficheros, formados en total por 16.708 registros, que recogen uno los elementos lingsticos de espacio y otro los de tiempo. Cada registro presenta la estructura que aparece en el cuadro 1.
oi hoy adverbio adverbio temporal 'hoy' temporal presente pospuesto vlame la tu gracia oi en esti da, Berceo Milagros verso 1244-55 vs. 475b

delant delante adverbio preposicin espacial 'delante de' espacial presente pospuesto

TEXTO: Enbracan los escudos delant los coracones AUTOR: annimo OBRA: Cid GENERO: verso h. 1140 FECHA: PAGINANERSO: vs. 715 Cuadro 1

THEORETICAL LlNGUlSTlCS 1 MEDIA 145

Esta estructura resulta de la aplicacin de un proceso de anlisis que obtiene como resultado la combinacin, dentro de una misma base de datos, de unas informaciones textuales (fruto de un proceso mecnico/informtico) y unas determinadas informaciones lingsticas (fruto de un proceso manual/intelectual) . 3.1.Tipos de informaciones. 3.1.1. Informaciones lingsticas. Las informaciones de tipo lingstico abarcan los diferentes niveles de anlisis. Estas se pueden desglosar en informaciones grfico-fonticasy en informaciones gramaticales. En primer lugar, si se toman como modelo los estudios lexicogrficos, resulta imprescindible incluir, dentro de cada ficha, el elemento o elementos lxicos que se analizan segn la forma grfica con que aparecen (variante grfica), as como la unidad lxica a la que corresponden (lema), que nos permite relacionar e identificar todas las variantes grficas aparecidas. Por ejemplo, en el cuadro anterior la forma grfica delant, convive en espaol medieval con delante, deland; y oi'aparece junto a oy, hoy. La comparacin d e todas las formas grficas que presenta el adverbio ende en espaol medieval, tal como se recogen en el cuadro 2, puede ser de gran ayuda para estudiar la evolucin gramatical que presenta dicho elemento adverbial (y al mismo tiempo pronominal) a lo largo de su historia.
LEMA den dend dende dent dente desend desende desent dessende dessent end ende ent
S.V. ende ende ende ende ende ende ende ende ende ende ende ende ende SIGNIF. 'de all' 'de ello' 'de ello' 'de ello' 'de all' 'despus' 'despus' 'despus' 'despus' 'despus' 'de all' 'de ello' 'de ello'

En segundo lugar, resulta imprescindible saber, primeramente, la categora morfolgica (clase gramatical) del elemento lingstico estudiado, la cual es determinante para conocer sus posibles funciones sintcticas, establecer si existe o no un proceso de gramaticalizacin, etc.; as como anotar todos aquellos datos d e ndole morfosintctica (morfemas de concordancia, etc.) que puedan ser tiles para la investigacin. Por ejemplo, encima pertenece a la clase gramatical de los adverbios, y sobre a la de las preposiciones. Sin embargo, ambos elementos no slo comparten un mismo significado, sino que presentan un comportamiento sintctico (funcin gramatical) similar, ya que el primero puede equivaler tambin en algunas ocasiones a una preposicin, lo cual nos lleva a replantear la diferente? naturaleza morfolgica de ambos. La funcin sintctica (funcin gramatical) que desempea el elemento o elementos estudiados, as como su posicin dentro de la oracin, son los rasgos mnimos, adems de otros muchos, que deben considerarse en un anlisis de este tipo. Es muy importante para el estudio de los adverbios de espacio conocer su posicin respecto al verbo (antepuesto o pospuesto), ya que este dato, por ejemplo, puede ayudar a explicar la progresiva gramaticalizacin y prdida del adverbio y 'alli' en espaol medieval, quedando fusionado con el verbo haber en
OBRA Cid Cid Lucanor Cid Celestina Milagros Milagros Milagros Milagros Milagros Milagros Cid Milagros

REF. vs. 1507 vs. 1063 p. 107 vs. 1038 p. 177 vs. 208d vs. 493a vs. 848a vs. 193d vs. 192c vs. 128d vs. 2100 vs. 815b

Cuadro 2

146 HlSPANlA 80 MARCH 1997

la forma hay, como constatamos en los ejemplos siguientes: "tales i a que prenden, tales i a que non" (Cid); "No hay cosa tan ligera para huyr como la vida" (Celestina). Adems, tambin es necesario conocer la funcin sintctica que realizan todos aquellos elementos usados para la expresin de la dexis temporal (ncleo de un SN, SP, SAdv; complemento de un SP; sujeto, CRV, CC; etc.), de tal modo que podamos estudiar y justificar el valor circunstancial de aquellos sintagmas nominales con sentido temporal que aparecen en la misma posicin que los adverbios de tiempo, como vemos en el siguiente ejemplo: "que los castigo como aquel dia onrrassen cada anno ellos e aquellos otros delos agenos que con ellos lo quisiessen, como e s dicho, e su linage por siempre iamas" (General Estoria). La comparacin y relacin de todas estas informaciones permite extraer consecuencias que de otro modo no seran posibles. El sentido gramatical de todo elemento lxico, y en especial de los decticos, puede variar en funcin del contexto sintctico en el que se inserta. Por ello, es muy importante registrar este tipo de casos con el fin de constatar cualquier cambio semntico cuyo origen se encuentre en una determinada construccin sintctica. Por ejemplo, gracias a la posibilidad de relacionar el fichero de los adverbios de espacio con el fichero de los adverbios de tiempo a travs de los campos sentido gramatical y significado, se observa una conexin entre los adverbios de espacio y los adverbios de tiempo en espaol medieval, como aparece en el siguiente ejemplo, en donde el adverbio de espacio cerca posee el significado temporal de pronto: "aun cerca o tarde el rey querer m'a por amigo" (Cid). Por la propia naturaleza de esta clase de informaciones, slo el investigador, previo anlisis y estudio detenido del fenmeno sintctico dentro de su contexto, es capaz de elegir los datos que constituyen la base de su investigacin. No existen en la actualidad analizadores sintcticos lo suficientemente potentes como para suplir al lingista en este tipo de situaciones.

3.1.2. Informaciones textuales. En ellas se incluyen diferentes datos sobre el texto analizado. En el campo texto se recoge el contexto en donde aparece el elemento o elementos lxicos estudiados. Su extensin puede variar en funcin del problema sintctico, por lo que se toma como lmite el sintagma, la oracin (en parte o en su totalidad) o incluso diferentes fragmentos del texto. Es imposible justificar el valor dectico de los adverbios estudiados, sin que se incluya el referente, el cual puede aparecer en oraciones anteriores, como en: "El prado qe vos digo avi otra bondat: / ... / qui all se morasse seri bienventurado" (Milagros). La informacin de referencia se expresa en un conjunto de campos distintos. En estos campos se incluye el autor, la obra, el gnero, la fecha y la pgina o verso de donde procede el texto transcrito, con el fin de localizar y situar histricamente el problema analizado, y determinar si se trata de un rasgo general, dialectal o idiolectal (propio de una poca determinada, de una zona, de una obra o un autor en concreto), o est regido por condicionamientos estilsticos. 3.2. Explotacin de la base de datos. La confeccin de una base de datos sobre elementos decticos de espacio y tiempo del espaol medieval ha ayudado a caracterizar morfosintcticamente una poca concreta de esta lengua, gracias al anlisis y confrontacin de las informaciones recogidas en los distintos campos de esta base de datos sintctica. Entre las caractersticas ms importantes de la lengua medieval, se ha podido constatar, como sealan J. Gutirrez y J. A. Pascua1 (1995, 14&51), la existencia de un cambio revolucionario en el sistema dectico en su evolucin del espaol medieval al espaol clsico: el paso de la oposicin medieval aqui / allib) indicadora de dos campos de referencia en el discurso (proximidad / no proximidad al hablante), a la moderna oposicin aqui / ahi / alli (proximidad al hablante / oyente / l-ella), realizada esta ltima a partir del siglo XV, como reflejan los datos obtenidos al cruzar la informacin de distintos campos. La relacin

THEORETICAL LlNGUlSTlCS 1 MEDIA 147

entre el desarrollo de un sistema de tres campos de referencia y la prdida lxica de los adverbios ende e y no parece descartarse totalmente, y se puede sostener, incluso, que no se trata de una simple casualidad. Adems, la relacin de aquende y allende tanto con los adverbios pronominales locativos espaciales (aqui, allo como con los adverbios prepositivos (suso, yuso, etc.) es evidente si se comparan los valores de los campos lema, clase gramatical, funcin gramatical y significado. Es posible afirmar, por otro lado, la existencia de una relacin entre las estructuras que presentan adverbios de espacio pospuestos (rz arriba) y otras introducidas por una preposicin (por el cobdo ayuso). La confrontacin de los campos lema, clase gramatical, funcin gramatical, sentido gramatical, texto y fecha ha sido de vital importancia para obtener estos resultados. Por ltimo, la conexin entre el sistema de elementos lingsticos espaciales y el sistema temporal queda clara a travs de la observacin de las informaciones de los campos sentido gramatical y tipo de significado, en donde se demuestra que el valor espacial es el no marcado frente al temporal.
4. Bases de datos y lexicografa histrica: la informatizacin del DCECH. L a lexicografa histrica dedicada al espaol ofrece un panorama especialmente pobre: existen diccionarios etimolgicos como el Diccionario etimolgico espaol e hispnico de V.Garca de Diego (1954);y el Diccionario critico etimolgico de la lengua castellana (1954-57), cuya revisin ha dado lugar al Diccionario critico etimolgico castellano e hispnico (DCECH) del mismo J. Corominas con la colaboracin de J. A. Pascual (1980-91). No existe, sin embargo, un diccionario histrico de la lengua espaola que incluya los textos del espaol desde los orgenes hasta la actualidad, pues el Diccionario histrico de la lengua espaola (1960-) elaborado por la Academia se halla todava en la letra A, y los proyectos de Heidelberg (Diccionario del espaol medieval, dirigido por

B. Mller [19871)y Wisconsin (Dictionary of Old Spanish Language, dirigido por J . Nitti) abarcan slo la Edad Media y an tardarn en concluirse (Dworkin 1994). Por tanto, los investigadores dedicados al espaol no disponen de un acervo de datos lexicogrficos como los que renen el OED (The Oxfo rd English Dictiona ry) , el TLF (Trsor de la langue francaise) o el Diccionario de la Academia Sueca (SAOB: Ordbok over svenska sprdket utgiven av Svenska Akademien). Este panorama permite entender que primero el DCELC y despus el DCECH hayan servido de diccionarios etimolgicos e histricos a la vez, aunque tanto su estructura como la informacin que incluyen no responden al esquema bsico de diccionario histrico. El panorama que presenta la lexicografa histrica del espaol nos impuls a desarrollar un proyecto de investigacin que conjuga la aplicacin de las nuevas tcnicas informtica~ y los datos histrico-etimolgicos del DCECH. Su objetivo consiste en la confeccin de un gran banco de datos de carcter histrico-etimolgico cuya finalidad, entre otras muchas, es la de servir de base en la elaboracin de un futuro diccionario etimolgico del espaol; de esta forma, el empleo de metodologas y tcnicas modernas como las bases de datos permiten bsquedas mucho ms avanzadas que el diccionario tradicional, como se expone ms adelante. El aprovechamiento de los datos del DCECH es un modo de proceder que cuenta con la aquiescencia de fillogos de prestigio dedicados al estudio etimolgico del espaol (Coln 1994):
...para nuestra etimologa tenemos que actuar con lo que hay. No cabe, a mi parecer, partir de cero, y ponerse a realizar una magna obra etimolgica por el estilo de la llevada a cabo para Francia por Walther von Wartburg con su Franzosisches Etymologisches Worterbuch (= FEW) o como la que est procurando realizar Max Pfister con su Lessico etimologico italiano (=LEI).Tal proyecto hubiese sido deseable antes de los aos cincuenta; ahora, con la publicacin de dos ediciones del diccionario etimolgico de Corominas (el DCELC de 1954-57 y el DECH de CorominasPascual de 1980-91), la situacin es bastante particular. Este esfuerzo es gigantesco, y todos debemos un

148 HlSPANlA 80 MARCH 1997

gran agradecimiento al autor principal (sin olvidar las mejoras debidas a la perseverante critica de Jos A. Pascual). El sentimiento de gratitud no debe ni pued e hacernos olvidar que, al lado d e aciertos magnficos, la obra contiene lagunas no menos llamativas y errores de monta. Es lo que, con el respeto debido, habramos de ir enmendando para llegar a poseer un cuerpo de doctrina digno. (599)

cide on the relations between information types that are to be expressed. (169)

Existen actualmente distintos proyectos de elaboracin de una base de datos tomando como punto de partida la informatizacin de diccionarios histricos ya existentes en forma impresa. Estos se pueden llevar a cabo tanto mediante una informatizacin manual, este es el procedimiento utilizado en la "Historical Thesaurus Database" elaborada en la Universidad de Glasgow que recoge los datos del OED, (cfr. Kay-Chase 1987; Wotherspoon 1992) y el proyecto de informatizacin delTLF (Gorcy 1992);tambin se desarrollan de manera parcialmente automatizada con lector ptico, como sucede en la inforrnatizacin del SAOB (cfr. Malmgren 1988). Todo ello avala la constitucin de un corpus por este procedimiento (cfr. Atkins-Clear-Ostler 1992). El primer estadio de este ambicioso proyecto, por tanto, consiste en la conversin del DCECH en una base de datos. En este caso, resulta imposible realizar la informatizacin de manera automtica por las peculiares caractersticas del diccionario en el que la crtica y discusin etimolgica lo hacen poco sistemtico en la informacin lingstica que aparece en cada entrada. Adems en la informatizacin ni se aprovechan todos los datos que proporciona el diccionario, ni los datos que se informatizan tienen el mismo tratamiento, por lo que la intervencin humana se hace indispensable. L a transformacin del diccionario tradicional al diccionario informatizado es compleja por mltiples razones; la ms importante es el cambio de concepcin de la obra lexicogrfica que media entre uno y otro, porque, como seala H. Ruus (1988):
Dictionary data present a challenge to computational processing. Any entry in a standard dictionary contains an abundance of information that is presented in a very compressed form. S o make such information amenable to computational processing it is necessary to classify the different kinds of information and de-

La informatizacin implica como procesos fundamentales un anlisis profundo de la estructura de los artculos y de los tipos de informacin que aparecen en ellos, lo cual es complicado en un diccionario tan heterogneo como el DCECH en el que uno de sus fundamentos es la argumentacin etimolgica. Todo ello ha llevado al establecimiento de las Bases para la informatizacin del DCECH (1995), normas que siguen los investigadores que llevan a cabo el trasvase de informacin del diccionario a la base de datos. Una vez concluida la informatizacin y en un segundo estadio del proyecto, se iniciar una fase de revisin, ampliacin y explotacin de la base de datos especialmente desde dos puntos de vista: 1) Adicin de material bibliogrfico procedente de otras fuentes lexicogrficas y de estudios monogrficos posteriores a la publicacin del DCECH; y ampliacin del corpus textual con un conjunto de textos muy variados que completarn y harn ms representativa la base documental del DCECH. 2) Aprovechamiento de la informacin del diccionario cruzando los datos obtenidos en las diversas entradas del DCECH y contrastndolos con los datos aadidos. Actualmente se est desarrollando la primera fase con una ayuda de la DGICYT del Ministerio de Educacin y Ciencia, y el apoyo del Comissionat per Universitats i Recerca de la Generalitat de Catalunya. Para ello s e estn elaborando diversos ficheros interconectados (bases de datos relacionales) en los que se organiza parte del material del DCECH:
1. Fichero general o matriz que contiene todas las palabras que aparecen como lemas en el DCECH y las que aparecen en el interior de la entrada en el apartado de DERIVADOS y COMPUESTOS. Por ejemplo, juzgar, juzgado, juicio, enjuiciar, adjudicar, prejuicio figuran como "derivados etimolgicos" del lema JUEZ; pacz'ficar y apaciguamiento se hallan en el apartado de "compuestos" de PAZ. En este fichero se

THEORETICAL LlNGUlSTlCS I MEDIA 149

recogen informaciones de muy variado tipo (cuadro 3) :

las lenguas, dialectos y otras palabras que sostienen algn tipo de relacin con la pa-

Cuadro 3 - LEMA. Puede corresponder a un lema del DCECH o a una palabra que figura en el interior del artculo. - SUBVOCE. Voz bajo la que aparece la palabra (lema) en el DCECH. - CATEGOIA. Categora a la que pertenece la palabra. -APARTADO. Apartado del artculo del diccionario en el que aparece el lema (lema, deriv. o cpt.) . - DERIVADOS, COMPUESTOS. Campos en los que se marca si el artculo tiene apartado de derivados o de compuestos para los casos de las palabras que se constituyen en lemas en el diccionario. - ETI, DOC, PER Campos que testimonian si los ficheros con informacin etimolgica, documental o de pervivencia contienen datos. - SIGNIFICADO.Campo en el que se incluye el significado de la palabra. - LENGUAS RELACIONADAS, DIALECTOS RELACIONADOS, LEMAS RELACIONADOS. Campos en los que se indican
labra estudiada. - Campos en los que se recoge el tipo de informacin adicional a los campos anteriores. Puede tratarse de informacin grfica, fontica, morfolgica, sintctica, de formacin de palabras, semntica, etimolgica, etc. Cada uno de estos campos se llena con un cdigo que especifica exactamente el tipo de informacin. 2. Fichero de informacin etimolgica. Organiza la transmisin etimolgica de cada palabra del vocabulario en una estructura que responde a todas las posibilidades etimolgicas del espaol tal como aparece en el ejemplo del cuadro 4. 3. Fichero documental e n el que s e desglosan las diversas documentaciones en textos antiguos que aporta el DCECH (cuadro 5). 4. Fichero de pervivencia en el que se recogen varios aspectos relacionados con la his-

150 HlSPANlA 80 MARCH 1997

LEMA SUBVOCE ETIMOLOG~A 1 TRANSMISIN 1 LENGUA 1 FORMA 1 SIGNIFICADO 1 ETIMOLOG~A 2

dtil dtil cierta prstamo cataln datil 'dtil' cierta

TRANSMISIN 2 LENGUA 2 FORMA 2 SIGNIFICADO 2 ETIMOLOG~A 3 TRANSMISIN 3 FORMA 3 SIGNIFICADO 3 Cuadro 4

heredada latn dactylus dem cierta prstamo

6a~~uho~
'dedo', 'dtil'

LEMA
daza

FECHA
1533

AUTOR

OBRA Hist. de Morgante Autoridades Cuadro 5

EJEMPLO
adaza

REFERENCIA
directa

daza

daza

directa

toria del trmino desde las perspectivas diatpica, diastrtica, etc. Con este diseo y organizacin se pueden cruzar las informaciones d e los ficheros de lemas con los de algn tipo de informacin especfica (etimolgica, docuLEMA
damasonio dauco

mognea, que permanentemente admitir usos variados, con objetivos completamente diferentes; entre los fundamentales: a) Conexin con otros bancos de datos. b) Ampliacin y puesta al da permanente. c) Simple consulta, como ahora se hace con
LENGUA 1
latn latn

FECHA
1555

LENGUA 2
griego griego

1555

Cuadro 6

mental, lingstica) y obtener subcorpora de trminos con caractersticas comunes; por ejemplo, el grupo de lemas que tienen un mismo origen, documentados en una poca o en una obra determinada (cuadro 6). Dada la falta de sistematicidad de las informaciones del DCECH, los ficheros con los que se trabaja intentan aprovechar la informacin estable de este diccionario dndole una configuracin unitaria. El resultado no constituir un diccionario etimolgico informatizado tomando como base el DCECH, para lo que hubiese bastado con su simple digitalizacin, sino un gran banco de datos etimolgicos, histricos e hispnicos, organizado de manera ho-

el DCECH, pero con todas las ventajas que supone tener la informacin almacenada en una base de datos. d) Utilizacin de la base de datos para el estudio e investigacin de los ms diversos aspectos sobre la historia del espaol. Creemos que con un proyecto de estas caractersticas aparece un nuevo concepto de lexicografa, en este caso de lexicografa histrica, en la que el diccionario es superado por un banco de datos cuyos usos sobrepasan tambin en mucho los del diccionario tradicional, de forma que podemos recordar las palabras de J. M. Blecua (1995) sobre la versin electrnica del Diccionario

THEORETICAL LlNGUlSTlCS 1 MEDIA 151

de la lengua espaola de la Real Academia, al sealar que "el texto del diccionario se convierte en un espacio sin fronteras por el que se puede viajar con absoluta libertad" (15). En el caso del DCECH, el banco de datos que surge como producto aguardar a mltiples investigaciones de carcter histrico sobre el lxico espaol con esta nueva manera de viajar. G. Gorcy (1992, 105) anuncia que con este tipo de instrumentos "un nouvel Age et un nouvel apprentissage d e la lecture commence"; en realidad, el diccionario no es una obra de lectura sino de consulta, pero no e s hasta las postrimeras del segundo milenio que el concepto de consulta adquiere un sentido amplio y profundo. La aplicacin de las bases de datos al estudio histrico de la lengua abre nuevos horizontes tanto desde el punto de vista metodolgico como desde la perspectiva de la concepcin misma del trabajo, pero de ninguna manera pueden sustituir la mano inteligente del lingista hi~trico.~ NOTAS
'Puede encontrarse un panorama completo e n Marcos Marn (1994b). Cfr., por ejemplo, la parte deL acodificacin textual electrnica" en ACLE dicada a " (1994): Faulhaber (1994), Mackenzie (1994), Marcos Marn (1994a). Tambin Nitti (1993). Wna descripcin pormenorizada del etiquetado utilizado y de las normas de codificacin se encuentra en D. Wanner (1991,184, nota 20). 3La.configuracin de la base de datos gramatical nicamente a partir de los datos sintcticos obtenidos (el Corpus de ejemplos analizados y clasificados), y el carcter neutral desde un punto de vista terico de la informacin introducida, son las principales propuestas defendidas por R. Panckhurst (1994) en la realizacin de una "database querying system (DBQS)" sobre las oraciones interrogativas en francs moderno. 4Laaplicacin de las bases de datos al estudio de la dexis espacial y temporal del espaol medieval ha sido desarrollada en C. Snchez iancis (1992). jLa investigacin necesaria para desarrollar este trabajo ha sido parcialmente financiada con una ayuda de la DGICYTpara el proyecto "Informatizacin del DCECH de J. Corominas y J. A. Pascual" (node referencia PB92-0599) y con el apoyo del Comissionat per Universitats i Recerca de la Generalitat de Catalunya (no de referencia GRQ94-2006). Este artculo es una versin revisada y ampliada de una comunicacin presentada en el XII Congreso de AESLA (Barcelona,

abril de 1994)

OBRAS CITADAS
Academia Espaola. Diccionario histricode la lengua espaola. Madrid: RAE, 1960-. ACLE: Actas del congreso de la lengua espaola. Sevilla, 7 al 10 de octubre de 1992. Madrid: Instituto Cervantes, 1994. Atkins, Sue, Jeremy Clear, and Nicholas Ostler. "Corpus Design Criteria." Literary and Linguistic Computing 7 (1992): 1-16. Blecua, Jos Manuel. "iaAcademia en CD-ROM." El Pas 25 nov. 1995: 15. Capsada, Ramon, y Joan Torruella. TRANSCALC. Del manuscrit a la base de dades. Bellaterra: UAB, 1995. Clavera, Gloria,Jos Manuel Blecua, Carlos Snchez, y Joan Torruella. Basespara la informatizacin del DCECH de J. CorominasyJ. A. Pascual. Bellaterra: UAB, 1995. Coln, Germn. "Sobre los estudios de etimologa espaola." ACLE. 1994.597-610. Corominas,Juan. Diccionario crtico etimolgicode la lengua castellana. Madrid-Berna: Gredos-Francke, 1954-57. Corominas, Juan, y Jos Antonio Pascual. Diccionario crltico etimolgico castellano e hispnico. Madrid: Gredos, 1980-91. Dworkin, Steven N. "Progress in Medieval Spanish Lexicography." Romance Philology 47 (1994):40625. Echenique Elizondo, MaraTeresa. "El diasistema lingstico de la Leyenda del Caballero del Cisne." Estudios filolgicos en homenaje a E. de Bustos Touar, I. Salamanca: Universidad, 1992. 235. Faulhaber, Charles B. "Textual Criticism in the 21st Century." Romance Philology 41 (1991): 123-48. -. "LaText Initiative y su aplicacin a la codificacin textual y explotacin." ACLE. 1994. 331-40. Garca de Diego, Vicente. Diccionario etimolgico espaol e hispnico. Madrid: Espasa-Calpe, 1954/ 1985. Gorcy, Georges. "A propos de l'informatisation du Trsor de la languefrancaise (TLF) ."Actas doXIX Congreso internacional de lingstica e filoloxa romnicas. Universidade d e Santiago d e Compostela, 1989. Vol. 2. A Corua: Fundacin Pedro Barri de la Maza, 1992.95-106. 5 vols. Gutirrez Cuadrado, Juan, y Jos Antonio Pascual. "Observacions des del sentit com a algunes idees usuals sobre la historia de la llengua." Problemes i metodes de la historia de la llengua. Eds. S. Mart y F. Feliu. Barcelona: Quadems Crema, 1995.12967. Jucker, Andreas H. "New Dimensions in Vocabulary Studies: Review Article of the OED (2nd edition) on CD-ROM." Literary and Linguistic Computing 9 (1994): 149-54. Kay, Christian J., and Thomas J.P. Chase. "Constnicting a Thesaurus Database." Literary and Linguis-

152 HlSPANlA 80 MARCH 1997

tic Computing 2 (1987): 161-63. Mackenzie, David. "Problemas de transcripcin textual electrnica: lenguas, dialectos, mquinas." ACLE. 1994.341-44. Malmgren, Sven-Goran. "The O.S.A. Project: Computarisation of the Dictionary of the Swedish Academy." Literay, and Linguistic Computing 3 (1988): 166-68. Marcos Marn, Francisco. "Computers and Text Editing." Romance Philology 45 (1991): 102-22. -. "Estndares y estndar: ADMYTE, el archivo digital de manuscritos y textos espaoles y sus soluciones para codificar e intercambiar datos textuales." ACLE. 1994a. 345-59. -. Informtica y humanidades. Madrid: Gredos, 1994b. Mller, Bodo. Diccionario del espaol medieval. Heidelberg: Carl Winter Universitatsverlag, 1987-. Nitti, John. El taller lexicogrfico de Wisconsin, (con una adenda de N. Snchez, Diccionario general de los textos mdicos antiguos espaoles). Bellaterra: UAB, 1993. Moreno Cabrera, Juan Carlos. La lingistiica tericotipolgica. Madrid: Gredos, 1995. Panckhurst, Rachel. "A Database for Linguists: Intelligent Querying and Increase of Data." Computers and the Humanities 28 (1994): 39-52. Rojo, Guillermo. "El futuro Diccionario de construcciones verbales del espaol actual." Actas del VIII

Congreso de Lenguajes Naturales y Lenguajes Formales. Barcelona: Promociones y Publicaciones Universitarias, 1992.41-50. -. "La base de datos sintcticos del espaol actual." Espaol Actual 59 (1993): 15-20. -. "Problemas lingsticos e informticos en los diccionarios de construccin y rgimen."ACLE. 1994. 307-15. Ruus, Hanne. "Lexical Data Structures." Literay, and Linguistic Computing 3 (1988): 169-76. Snchez Lancis, Carlos E. Estudio de los adverbios de espacioy tiempo en el espaol medieval. Bellaterra: UAB, 1992. Torruella, Joan. "Bases d e d a d e s per a textos medievals: el cas de l'Arxiu informatitzat de textos catalans medievals." Actes du XXe Congres International de Linguistique et Philologie Romanes. Vol. 4. Universit de Zurich (6-11 avril 1992). Tbingen: Francke Verlag, 1993.749-60.4 vols. Wanner, Dieter. "Historical Syntax and Old Spanish Text Files." Linguistic Studies in Medieval Spanish. Eds. R. Harris-NorthallyTh. D. Cravens. Madison: The Hispanic Seminary of Medieval Studies, 1991.166-90. Wotherspoon, Irene. "Historical Thesaurus Database Using Ingres." Literary and Linguistic Computing 7 (1992): 218-25.

Você também pode gostar