Você está na página 1de 247
Gramaticas de Adjuncién de Arboles: Un Enfoque Deductivo en el Analisis Sintactico Departamento de Lenguajes y Sistemas Informaticos Universidad de Sevilla Sevilla, Junio de 2000 Memoria de la tesis doctoral dirigida por el Dr. D. Miguel Toro Bonilla y desarrollada por D. Victor Jestis Diaz Madrigal para optar al grado de Doctor en Informatica por la Universidad de Sevilla Yo, Vietor Jesiis Diaz Madrigal, con Documento Nacional de Identidad 28.585.575-W, DECLARO BAJO JURAMENTO ser el autor del trabajo que se presenta en la memoria de esta tesis doctoral que tiene por titulo Gramaticas de Adjuncion de Arboles: Un Enfoque Deductivo en el Analisis Sintactico 4 Fdo. Victor Jestis Diaz, Madrigal Titular de Escuela Universitaria del Dpto. de Lenguajes y Sistemas Informaticos de la Universidad de Sevilla Area de Lenguajes y Sistemas Informiticos Sevilla, Junio de 2000 D. Miguel Toro Bonilla, catedratico del Area de Lenguajes y Sistemas Informsticos, HACE CONSTAR que D. Victor Jesis Diaz Madrigal, Licenciado en Informética por la Universidad de Sevilla, ha realizado bajo mi supervision el trabajo de investigacién titulado Gramaticas de Adjuncién de Arboles: Un Enfoque Deductivo en el Anélisis Sintactico Una vez revisado, autorizo el comienzo de los trémites para su presentacién como Tesis Doctoral al tribunal que ha de juzgatlo. UNIVERSIDAD DE ces avimero.... 24... del libro 19 JUN. 2000 7 spondicnte, Sevilia, Area de Ajes y Sistemas Informaticos Sevilla, Junio de 2000 Agradecimientos ‘A mi director de tesis, Miguel Toro, por su apoyo y afén por transmitimos las ganas de superacién. Al departamento de Lenguajes y Sistemas Informéticos y la Xunta de Galicia por haber aportado los medios necesarios para desarrollar la investigacién que ahora leéis. ‘A Santi por guiarme al mundo universitario y convencerme de los beneficios 1a labor investigadora. También tengo que agradecer, especialmente, los consejos y comentarios realizados por Vicente Carrillo Montero y Miguel Angel Alonso Pardo. Asi mnismo, no puedo olvidarme de Pepa por su paciencia y sus cuidadosos diagnésticos a la hora de corregir Ia, memoria, A mis amigos, ya que su entusiasmo ha sido un aliciente afiadido a la hora de redactar la memoria, A mi hermano, a mi abuela y, sin duda, a mis padres ya que esta memoria no xistiria sin su continuado y callado esfuerzo a través de los afios. Y a Dios. Resumen Las gramaticas de adjuncién de drboles (TAG, Tree Adjoining Grammars) son una exten- sidn de las gramaticas independientes del contexto (CFG, Context Free Grammars) basadas en un sistema de reescritura de arboles. Desde la perspectiva del andlisis sintéctico de Ienguajes naturales, las graméticas de adjuncién de drboles presentan tres interesantes car- acteristicas: su dominio de localidad extendido, la factorizacién de la recursién y su caricter lexicalista. Sin embargo, el coste temporal y espacial requerido en el andlisis sintactico es superior respecto al presentado por las graméticas independiente del contexto. Si bien el estudio de los algoritmos para el analisis sintdctico para graméticas indepen- dientes del contexto ha sido objeto de un estudio detallado y general, consideramos que este no es el caso para la clase de graméticas que nos ataiie. Esta memoria pretende cubrir precisamente esta carencia, incidiendo especialmente en las siguientes consideraciones: ‘* Un estudio sobre la representacién de los arboles elementales © Un estudio de diversas estrategias de andlisis, y emo se relacionan entre ellas ‘* Larelacién existente entre las estrategias de andilisis sintaictico de gramsticas indepen- dientes del contexto y de adjuncién de arboles. ‘+ Un estudio experimental del comportamiento de los analizadores sintdcticos en el con- texto de lenguajes artificiales y naturales, Indice General 1 Introduccion 11 Justifcacién del trabajo 1.2 Resumen del contenido 1.3. Resultados obtenidos 2 Anilisis sintactico 2.1 Arboles definidos sobre alfabetos 22 Gramética y andlisis sintéctico 23. El anilisis interpretado como deduccién 23.1 Aportacién del enfoque deductive 23.2 Naturaleza de los items 24 Sistemas y esquemas 24.1 Definicién 24.2 Deduecién 24.3 Correecién 2.5 Relaciones entre esquemas 2.5.1 Generalizaciones 2.5.2 Filtros 2.5.3 Red de analizadores 3. Gramiticas de adjuncién de érboles 3.1 Definicién de gramstica de adjuncién de drboles 3.2. Caracterizacién de la adjuncién 3.3 El concepto de drbol . « 3.3.1 Arboles elementales 3.3.2 Arboles derivados. . 3.3.3 Arboles de derivacién Restriccions locales en Ia adjuncién 3.5 Propiedades computacionales 3.5.1 Graméticas débilmente dependientes del contexto u u 4 16 18 19 20 20 22 23 25 26 30 35 37 37. 40 2 42 43 44 44 7 50 3.6 Aspects lingiifsticos 3.6.1 La sustitucién 3.6.2. Lexicalizacién y el concepto de ancla 3.6.3 Rasgos 3.7 Formalismos relacionados Andlisis sintdctico de graméticas de adjuncidn de érboles 4.1 Representacién multicapa y plana, 4.1.1 Representacién multicapa . 4.1.2 Representacién plana 4.2 Aplicaciones de la representacién plana y multicapa 4.2.1 Lexicalizacién de graméticas independientes del contexto 4.2.2 Representacién mediante cléusulas . 4.2.3 Graméticas de insercién de arboles ¢ independientes del contexto 4.3 Estructura de los items 44 Ejemplos de esquemas 44.1 El esquema CYK 4.4.2 Blesquema buE . 4.5. Estudio de la complejidad 46 Brove historia Esquemas basados en Earley sin prefijo valid 5.1 El esquema E 5.2 Bl esquema $ 5.3. Relacién entre los esquemas Ey $ 5A. El algoritmo de Schabes sin profi 54.1 Relacion entre el algoritmo y el esquema S valido Esquemas basados en Earley con prefijo vélido 6.1 El esquema Earley 6.2 El esquema Nederhof 63 Elesquema Schabes . . : ee 64. Relacién entre los esquemas Earley, Nederhof y Schabes 6.5 El algoritmo de Schabes con prefijo vilido 6.5.1 Relacidn entre el algoritmo y el esquema Schabes Esquemas basados en De Vreught y Honig 7.1 Blesquema dVH .. - 7.1.1 Elesquema dVH(1,1). . 7.1.2 Relacin entre dVH y buE 7.2. Blesquema budVH xiv 5 51 53 56 59 59 61 63 64 65 7 2 73 78 78 80 82 85, 89 93, 96 98. 104 m1 127 128 131 133, 136 142 a7 165 167 170 174 179 7.21 Relacién entre los esquemas budVH y dVH 73 Blesquema VN... 5 7.3.1 Relacidn entre los esquemas dVH y VN 8 Estudio comparado 8.1 La maquina deductiva de andlisis 8.2 Esquemas de analisis y programas logicos 8.3 Estudio general . 8.4 Estudio lingiifstico 8.4.1 Adaptacién de esquemas 84.2 Resultados 9 Conelusiones Bibliografia 130 182 186 189 190 191 195 199 - 199) = 202 225 228 Indice de Figuras 2a 2.2 23 24 25 Ba 32 33 34 35 3.6 37 38 39 3.10 3a 342 33 B44 3.15 4a 42 43 44 45 Representacién de Arboles Relaciones entre esquemas Recorrido en el método Earley Recorrido en el método de la esquina izquierda Red para gramaticas independientes del contexto Ejemplo de gramética de adjuncién de érboles Operacién de adjuncién Esquema de una operacién de adjuncién Composicién de operaciones de adjuncién Clasificacién de arboles elementales Arbol de derivacion Restricciones de adju Gramatica para el lenguaje copia Derivacién de arboles con restricciones locales Gramatica para el lenguaje a"eb" Gramética para el lenguaje a”b"ec"d”™ Operacién de sustitueién . La sustitucién en los arboles de derivacién . Unificacién y adjuncién Unificacién y sustitueién Gramatica para el lenguaje ab" ec" a" Gramatic independiente del contexto lexicalizada Gramatica de ejemplo Gramética de insercién de Arboles ‘Transmisién a través de la espina y hermanos derechos ‘Transmisién a través de la espina ‘Transmisién a través del contexto derecho Comienzo y Final de andlisis 1B 7 33 33, 35 4 41 43 45 4 46 47 49 50 52 53 56 62 68 69 73 76 7 a” 52 Lecturade terminal «6... e eee eee eee eee ees OL 53. Prediceién y Complecién de subérbol. oso. s sss cc secseses 9 54 Prediccién y Complecién de pie y adjuncién 0 eee 92 5.5 Items del esquema Bo. ee 5.6 Complecién do adjuncién en clesquemaB.... 0... s.s secs sss. 95 5.7 Recortido del punto en Arboles elementales . . 105 5.8 Proceso Scanner del esquetna So 5.9 Proceso Move Dot Down del esquema So 5.10 Proceso Move Dot Up del esquema So . 5.11 Proceso Left Predictor del esquema So 5.12 Proceso Left Completor del esquema So eee ee 5.13 Proceso Right Predictor del esquema So. 000660 e cee vee eee TO 5.14 Proceso Right Completor del esquema Sp... « . sees 129 131 6.1 Items del esquema Barley . . . 6.2 Items del esquema Earley. . . . 6.3 Items del esquema Schabes 00.0... ee 134 6.4 Items del esquema Schabeso .. 0... . 143 6.5 Proceso Scan del esquema Schabeso a4 6.6 Proceso Move Dot Down del esquema Schabeso . . ; 145 6.7 Proceso Move Dot Up del esquema Schabeso . . . . « vee EB 68 Proceso Left Predictor del esquema Schabeso 6... +. - 146 69 Proceso Left Completor del esquema Schabeso . a7 6.10 Proceso Right Predictor del esquema Schabeso ........ ++ 148 6.11 Proceso Right Completor del esquema Schabeso .... 0-0... +++ +. 149 7.1 Items del esquema dVH . . : . 167 7.2 Concatenacién en el esquema dVH... 6... : 169 7.3. Inclusién de pie en el esquema dV... .. 5. ce es 169 74 Inclusién de adjuncién en el esquema dVH so... 170 7.5 Relacién de micleo en drboles elementales . . 183 8.1 Maquina deduetiva de andlisis. ee 190 8.2 Gramética G1 5 conse eee es 196 8.3. Gramética G2. , ences : 196 84 Gramdtica G3. , ee eee eee 197 85 GraméticaG4. 0.2.0... 0.005 : 197 8.6 Gramética G5... . 87 Gramética GO... - 88 Gramética G7 a aeeeee eee 89 GramationGB. oe eee 201 xviii 8.10 Resultados del experimento para la gramatica G1... . = 207 8.11 Resultados del experimento para la gramética G2... 0... 208 8.12 Resultados del experimento para la gramética GB... ee ee ss 209) 8.13 Resultados del experimento para la gramética G4. 0. ss 210 8.14 Resultados del experimento para la gramétiea GB... oo ee 2H 8.15 Resultados del experimento para la gramétia G6... 6... « 22 8.16 Resultados del experimento para la gramatica G7. . « cee BB 8.17 Resultados del experimento para la gramatica G8... a4 8.18 Arboles para adjetivos . . . eee 215, 8.19 Arboles para sintagmas nominales y nombres a 215, 8.20 Arboles para cléusula de relativo ©... See eel 8.21 Arboles para cldusula de relativo See eee 16 8.22 Arboles para sintagmas verbales pera. 8.23 Arboles para verbos intransitivos y ergativos wee 217 8.24 Arboles para verbos intransitivos con adjetivo ce 218 8.25 Arboles para verbos transitivos .. . . cee 218 8.26 Arboles para verbos ditransitivos con y sin sitagma prepesicional 219 8.27 Arboles para oraciones con sujeto o complemento sentencial 2 219 8.28 Arboles para oraciones predicativas, complementadores sentenciales ¢ inver- sin de auxiliar . . . . se 220 8.20 Resultados del expesimento para las oraciones La 1B o.oo. oss 221 8.30 Resultados del experimento para la oraciones 14a 25.6.0. ovo ee + 222 8.31 Tiempo aproximado en el reconocimiento de las oraciones .... ss « « » 223 9.1 Red para graméticas de adjuncién de arboles ©... 2... es - 226 Capitulo 1 Introduccién EI Procesamiento del Lenguaje Natural es una tecnologia fruto de la convergencia de diversas disciplinas de origen cientifico y humanistico entre las que se incluyen la Lingiifstica y la Informatica [Allen, 87]. El propésito general de esta tecnologia es la comprensién y el tratamiento computacional del lenguaje humano. Podemos imaginar que la tarea no es nada fécil, ya que esta clase de lenguajes se caracteriza por su excepcional riqueza y flexibilidad. Otro factor que dificulta dicho estudio es la ambigiiedad presente en todos los niveles del lenguaje. Como sucede en la mayoria de las dreas -y el Procesamiento del Lenguaje Natural no es una excepeidn- se pueden establecer distintas facetas de estudio. Sin dnimo de ser categéricos, podemos considerar una primera clasificacién atendiendo a los distintos niveles lingiiisticos que son estudiados - nivel Iéxico, sintéetico, seméntico o pragmatico-. Bl tra- bajo que nos ocupa aborda exclusivamente el nivel sintdctico de modo que aislaremos en la medida de lo posible los fenémenos caracteristicos de los otros niveles. Partiendo del deseo de construir sistemas automiticos capaces de asimilar conocimiento sintéctico nos encontramos principalmente con dos necesidades: ‘© por un lado, necesitamos formalismos gramaticales. Es decir, modelos de repre- sentacién del conocimiento sintactico. + por otro lado, necesitamos analizadores sintdcticos. Es decir, algoritmos que determi- nen sin texto es gramatical, y sies el caso, que obtengan su representacién sintéctica. Podemos afirmar que los formalismos sintcticos con mayor difusién en ] Procesamien- to del Lenguaje Natural se apoyan en la teorfa propuesta por Chomsky ([Chomsky, 57], [Chomsky, 65]). Segiin este autor, uno de los elementos esenciales para la representacién del conocimiento sintéetico es la gramética. Una gramética esté constituida por un con- junto de producciones (reglas sintacticas) que delimitan sucintamente todas las oraciones gramaticales de un determinado lenguaje. Este modelo se inspira en la intuicién de que las personas son capaces de construir un niimero potencialmente infinito de oraciones mediante 2 Capitulo 1. Introduccién un limitado miimero de estructuras lingiisticas. La habilidad de cada persona determina la riqueza de las oraciones construidas. Es decir, se distingue entre competencia - capacidad para entender y construir oraciones sintécticas- y rendimiento - capacidad para expresar oraciones sintécticas complejas. La teorfa de Chomsky no sélo se a la definicién de un nuevo modelo sintéctico, sino que establece nna jerarquia de graméticas que clasifica a éstas segtin la clase de lengua- Jjes que son capaces de reconocer (Chomsky, 59]. De esta manera, surgen cuatro clases de gramaticas denominadas: regulares (RG, Regular Grammars), independientes del contexto (CFG, Contest Free Grammars), dependientes del contexto (CSG, Context Sensitive Gram- mars) y sin restricciones. De entre todas ellas, las gramaticas regulares ¢ independientes del contexto son las que han sido més utilizadas en los sistemas computacionales. La historia de los formalismos sintdcticos ha quedado marcada por dos hitos de especial interés: cl primero fue la adopcién de un modelo totalmente declarativo en la representacién del conocimiento sintéctico, y el segundo fue la confirmacién de que los aspectos léxieos no podian ser totalmente ignorados en el nivel sintactico. El primer hito tuvo como efecto el abandono de los formalismos basados en redes de transicién (ATN, Augmented Transition Networks) [Woods, 70] y la aparicién de los formalismos basados en unificacién [Shieber, 86] Lugar destacado merecen, a rafz del nacimiento del lengnaje de programacién PROLOG, las gramaticas de cléusulas definidas (DCG, Definite Clause Grammars) (Pereira y Warren, 80], ya que fueron pioneras en la incorporacién de la unificacién. El segundo hito trajo consigo la aparicién de los formalismos lexicalizados entre los que destacan las gramaticas funcionales léxicas (LFG, Lerical Functional Grammars) [Kaplan y Bresnan, 83] y las gramiticas de es- tructura de frases con micleo (HPSG, Head Phrase Structure Grammars) (Pollard y Sag, 94] A pesar de la importancia e influencia de las teorfas sintacticas de Chomsky, también han existido eriticas a.su modelo. Efectivamente, la definicién de graméticas que reftejen todos los aspectos de una lengua natural es esencialmente un problema complejo debido a la naturaleza, del propio lenguaje humano. En un sentido amplio podemos afirmar que el tamatio de una gramética aumenta al incrementarse el nimero de fendmenos Tingiifsticos que desean cubrirse. Este aumento conlleva tanto problemas de eficiencia como de mantenimienta en aplicaciones pricticas. En este sentido, han surgido modelos de representacién sintadctica basados en métodos estadisticos en contraposicién a los métodos racionalistas nacidos a partir de Chomsky. Sin embargo, en honor a la verdad, ninguno de los enfoques ha alcanzado una solucién completamente satisfactoria desde una perspectiva lingiiistica y computacional, Los analizadores sintcticos son algoritmos disefiados para responder a la siguiente pre- gunta: dada una gramatica y una oracién, jes ésta tltima gramatical?, o dicho de otro modo, {pertenece la oracién al lenguaje descrito por la gramdtica?. Mas atin, si la oracién es gramatical, iqué estructura sintéctica tiene asociada?. Desde un punto de vista préctico, sélo estamos interesados en algoritmos cuya eficiencia sea polinomial respecto al tamafio de la oracién a analizar. Sin embargo, la eficiencia de los analizadores sintécticos también se ve influida notablemente por el tamafio de la gramatica. Por esta raz6n, al igual que sucede con los formalismos gramaticales, se han adoptado también métodos de andlisis estadistico frente a métodos racionalistas, considerando que estos iiltimos, al estar muy vinculados al concepto de gramatica, presentan un tiempo de respuesta peor. El esfuerzo en la definicién de analizadores sintacticos se ha dirigido esencialmente ha- cia el anilisis sintdetico de graméticas independientes del contexto, Las razones que han motivado tal decisién son las siguientes: su simplicidad a la hora de describir Ienguajes y la posibilidad de disefiar algoritmos sintdcticos relativamente eficientes. Si bien es cierto que, en general, los lenguajes naturales no pueden ser catacterizados mediante graméticas independientes del contexto [Shieber, 85], la solucién més frecuente que se ha adoptado es aprovechar la unificacién para ampliar el espectro de lenguajes a reconocer. Pasaremos ahora a enumerar brevemente los trabajos més destacados en este campo. Para mayor informacién pueden consultarse [Nijholt, 88] y [Quesada, 99]. Los primeros algoritmos de interés para el andlisis sintactico general de graméticas independientes del contexto fueron el método CYK - fruto de la convergencia de varios trabajos realizados por Cocke, Younger y Kasami ({Kasami, 65], [Younger, 67)) - y el método de Earley ([Earley, 68), [Earley, 70]). ‘Tras ellos, surge el algoritmo basado en la esquina iequierda (Left Corner Parsing) (Rosenkrantz y Lewis, 70}, y a partir de una generalizacién de éste ultimo, los algoritmos basados en micleos (Head Corner Parsing) {Kay, 89]. Estos algoritmos son esen- ialmente la fuente de la que han partido la mayoria de los restantes analizadores tabulares. En esta clase de algoritmos, se construye de forma dindmica una tabla donde se almacenan los resultados intermedios que son calculados durante el reconocimiento. Al almacenarlos, evitamos la necesidad de volverlos a calcular y, por tanto, reducimos el trabajo que ha de realizarse. Esta tabla guia también el reconocimiento de forma que las distintas alternativas pueden ser examinadas en paralelo de forma no determinista, aunque el algoritmo se ejecute secuencialmente. Frente a los algoritmos tabulares anteriores, cabe destacar también la generalizacién del conocido algoritmo LR(k) [Knuth, 65] cuya aplicacién més abundante ha sido en el anélisis de lenguajes de programé én hace uso de una tabla, esta vex. construida de forma estitica. Ahora, las distintas alternativas deberdn ser examinadas mediante técnicas de retrotrazado o vuelta atrés. Aunque el pionero en plantear un trabajo de esta indole fue Lang {Lang, 74], esta clase de generalizacién no se popularizaria hasta la Hegada de Tomita ((Tomita, 87], (Tomita, 91)). Partiendo de la semejanza en la forma de proceder de los algoritmos tabulares, Kay pro- pone los algoritmos basados en chart, que conducen a un modelo general para la descripcién de distintas estrategias de anélisis sintéetico [Kay, 80]. Estas ideas serian posteriormente recogidas y desarrolladas por los tres autores Shieber, Schabes y Pereira, (Shicber et al., 95] en los denominados analizadores deductivos que conforman el paradigma deductivo (Pars- ing as Deduction). En paralelo a estos autores, Sikkel [Sikkel, 97], presenta los sistemas y esquemas deductivos (Parsing Schemata), donde ademas de una formalizacién del proble- ma del anélisis, se establecen relaciones entre las distintas estrategias. Mas recientemente, 4 Capitte 1. Introdvcrin Schneider ha refinado el modelo original de Sikkel baséndose en estructuras algebraicas mas precisas [Schneider, 00] Las estrategias racionalistas anteriores han dado lugar a criticas debido fundamental- mente a la eficiencia. En este sentido han surgido trabajos apoydndose en teorias determin- istas, [Marcus, 80], basadas en la intuicién de que aunque una oracién pueda ser ambigua, las personas seleccionan tan s6lo una interpretacién entre todas las posibles. Otra alternativa a Ja hora de mejorar los tiempos de respuesta en los algoritmos consiste en ser menos exigente a la hora de obtener una representacién sintactica. De este modo, seria suficiente conseguir tuna descripcién sintéctica incompleta o andlisis superficial (Shallow Parsing). Si sacrifi- ‘camos la completitud podemos adoptar nuevas estrategias de analisis de entre las que pode- mos destacar las basadas en métodos estadisticos ([Corazza et al., 91], [Briscoe y Caroll, 95], (Collins, 96)) 0 tas basadas en autématas finitos [Pereira y Wright, 97]. Aparte de las anteri ‘ores téenicas, también han aparecido otras alternativas en las que se han adoptado estrategias de programacién paralela ([Rytter, 85], [Alblas et al., 94]). Sin embargo, la ganancia en la cficioncia de algunos algoritmos paralelos exige que se disponga de computadores disefiados ‘con una arquitectura especial. Una vez introducido los conceptos fundamentales relacionados con los formalismos y analizadores sintacticos estamos en disposicién de resumir la idea central en la que se basa, €1 contenido de la memoria. Partiendo de una clase de graméticas enmarcadas dentro del modelo sintéctico de Chomsky, denominadas gramsticas de adjuncién de Arboles (TAG, Tree Adjoining Grammars), estudiaremos el analisis sintéetico de dichas graméticas desde la perspectiva del modelo propuesto por Sikkel. Al ser un documento como el que nos atafle el fruto de un trabajo de investigacién, en la siguiente seccién destacaremos el interés de las ‘gramaticas de adjuncién de arboles y cudles son, a nuestro juicio, los problemas a los que hemos pretendido dar respuesta. En la dltima seccién se hard un resumen de los resultados obtenidos. 1.1 Justificacién del trabajo Las graméticas de adjuncién de &rboles fueron propuestas originalmente por los autores Joshi, Levy y Takahashi [Joshi et al.,75], pudiendo considerarse que son la continuacién natural de otro formalismo anterior denominado teorfa de la cadena lingiifstica (Harris, 62] Aunque al principio los trabajos sobre las graméticas de adjuncién de arboles se centraron principalmente en el estudio de sus propiedades formales, fueron Joshi y Kroch quienes primero apuntaron qué caracteristicas de este formalismo podrfan ser aprovechadas a la hora de describir fenémenos lingitisticos ({Kroch y Joshi, 85], [Joshi, 85]). En el rea del Procesamiento del Lenguaje Natural, las graméticas de adjuncién de Arboles ocupan una posicién destacada junto con un grupo amplio de formalismos origina dos a partir del modelo de Chomsky. Basta comprobar las publicaciones y los organismos donde estos trabajos se publican para justificar dicha afirmacién. También podemos indicar 1.1, Justifieacién del trabajo la colebracién bianual de las jornadas TAG+ (International Workshop on Tree Adjoining Grammars and Related Formalisms) dedicadas a presentar trabajos relacionados con esta clase de gramaticas. Es de destacar que esta clase de graméticas ha sido aplicada en la descripcién de fendmenos lingtiisticos aislados de diversas lenguas entre las que se incluye la lengua castel- lana ({Bleam, 94}, [Carrillo et al., 95], [Carrillo et al., 95b], [Srinivias, 98]). Sin embargo, debido a su importancia ¢ implantacién mundial, creemos que la lengua espaiiola deberia ser objeto de un estudio mas detallado que condujera a la definicién de una gramética de am- plia cobertura. También ha servido de base para la descripcién, esta vez de manera amplia, de las lenguas inglesa ([Abeille et al., 90], [Paroubek et al., 92], [Doran et al., 94]) y france- sa ([Abeille, 88], [Abeille, 91b]). Este estudio ha dado como fruto dos entornos donde se incluyen la descripeién y gestin de informacién morfoldgica y sintdctica de ambas lenguas: cl sistema inglés se denomina XTAG [XTAG, 95] y el francés FTAG [Abeille et al., 99] E] interés cientifico de las graméticas de adjuncién de drboles, al menos desde la per- spectiva que nos ocupa, podemos asentarlo principalmente sobre dos pilares: lingiifstico ¥y computacional. Nuestro trabajo, debido légicamente a nuestro perfil investigador, est centrado en los aspectos téenicos que deberian dar soporte a los aspectos lingiifsticos. Las gramaticas de adjuncién de érboles pretenden caracterizar la clase de lenguajes que permite la descripeién de la mayor parte de los fenémenos lingtifsticos. De esta forma, la clase de lenguajes que eubren las graméticas de adjuncién de arboles es estrictamente mayor que el de las graméticas independientes del contexto aunque también es estrictamente menor que el de las gramaticas dependientes del contexto. Las caracterfsticas mas destacadas desde una perspectiva lingifstica son las tres siguientes [Joshi y Schabes,97}: ‘* Dominio de localidad extendido: los lenguajes descritos por las gramiticas de adjun- cin de Arboles son fruto de la composicién de un conjunto de drboles denominados elementales. Los arboles son estructuras con un dominio de localidad suficientemente amplio como para establecer las dependencias locales entre elementos lingiiisticos den- tro del mismo. Por contra, las producciones en las graméticas independientes del contexto, a las que podemos considerar como arboles con altura unitaria, necesitan caracterizar esta clase de dependencias a través de un conjunto de producciones. + Factorizacién de la recursién: los érboles elementales se dividen en iniciales y auxiliares, representando los primeros las estructuras bésicas frente a los segundos que representan. las estructuras recurrentes. Para obtener nuevos drboles se hace uso de una operacién denominada adjuncién que consiste en la inclusién de un arbol auxiliar dentro de otro 4rbol. Dicha operacién permite expandir las dependencias locales representadas en los Arboles elementales de modo que son capturadas de forma directa fenémenos como las dependencias de larga distancia (Joshi y Vijay-Shanker, 89}. # Lexicalizacién: Las graméticas de adjuncién de arboles estén muy en consonancia con las teorias lingiiisticas modernas en las que se otorga un papel preponderante 6 ap itto 1, ntradvcion a a informacién Iéxica. El cardcter lexicalista de estas graméticas procede de que los &rboles elementales deben contener al menos un elemento léxico. Esta restriceién conduce a una cierta simbiosis entre el concepto de gramética y diccionario, Esto no sucede, por ejemplo, cuando nos enfrentamos con las gramaticas independientes del contexto, ya que no se exige que en las producciones se incluyan lexemas. Una vez presentada la relevancia lingiifstica de las gramaticas de adjuncién de arboles nos centraremos en los aspectos computacionales. Si bien es cierto que existe un mimero importante de propiedades formales compattidas por la clase de graméticas independientes del contexto y de adjuncién de Arboles, estas tiltimas son esencialmente més complejas, Esta complejidad se manifiesta claramente en el contexto de los algoritmos para el anélisis sintdetico. En el caso de las gramaticas de adjuncién de drboles, éstas presentan un mayor coste computacional en el peor de los casos, tanto temporal como espacial, respecto al ofrecido por las gramiéticas independientes del contexto. Este dato no es sorprendente debido a ‘que las graméticas de adjuncién de Arboles son capaces de definir lenguajes mas complejos que las gramticas independientes del contexto (Joshi, 87]. No ha sido posible establecer Figurosamente una cota tedrica respecto al tiempo, ya que algunos intentos de hacerlo han sido desmentidos posteriormente. En principio, la conjetura mas probable es que dicho coste sea de orden O(n®) donde n es el tamaiio de la oracién de entrada (Satta, 94]. Este coste ¢s claramente superior al correspondiente a las gramaticas independientes del contexto que presentan un orden de O(n). Sin embargo, los costes temporales anteriores deben ser mirados con cierta prudencia debido a que son cotas superiores. Puesto que no parece razonable pensar que el andlisis, de gramaticas para lenguas naturales se corresponda con el peor de los casos, podriamos considerar que es preferible disefiar algoritmos cuyo comportamiento en el caso medio sea significativamente mejor. Como adelantanos anteriormente, uno de los enfoques recientes a la hora de estudiar los algoritmos para el andlisis sintctico, ha sido establecer la relacién entre las tareas de analizar y deducir. La analogia entre ambos puede resumirse de la siguiente manera: se definen un conjunto de reglas deductivas que controlan la forma en que se pueden combinar distintos andlisis sintcticos incompletos, dando lugar a nuevos andlisis mds cercanos a la solucién en el caso de que existan. De este modo, basta con aplicar sucesivamente dichas reglas deductivas hasta que no sean posibles mas combinaciones. En este contexto, los algoritmos son presentados mediante un sistema deductivo denominado esquema de andlisis. La ventaja del modelo deductivo radica en que confluyen de forma elegante la definicién y la solucién del problema ({Sikkel, 94), [Sikkel, 94b)). Efectivamente, el alto grado de abstraccién en que se sittia este enfoque es similar a las especificaciones ejecutables en la Ingenieria de la Programacién, También podemos observar una estrecha relacién con los demostradores automiticos de teoremas en la Inteligencia Artificial. El enfoque deductivo en el andlisis sintActico ha esclarecido los fundamentos sobre los que 1.2, Resumen del contenido se asienta la definicién de los algoritmos para el andlisis sintactico. También ha establecido toda una teorfa que permite obtener muevos esquemas a partir de uno dado, garantizando al realizar las transformaciones la consistencia, la completitud o incluso ambas propiedades. En algunos casos, estas transformaciones pueden ser utilizadas para mejorar el rendimiento medio de los algoritmos ([Sikkel, 95], [Sikkel y Nijholt, 96]). Aunque no cabe duda de que ¢1 interés principal del enfoque deductivo es ta especificacién, desde la perspectiva de la pro- ‘gramacién también presenta ventajas. Por un lado, es relativamente fécil definir prototipos ejecutables a partir de la definicién de un esquema lo que permite estudiar individualmente cada esquema o contrastar el comportamiento de varios. Los algoritmos para el andlisis sintdctico de graméticas de adjuncién de arboles no han sido estudiados en la medida en que lo han sido para las graméticas independientes del contexto. De hecho, en la literatura se considera que la definieién de algoritmos para el anélisis sintdctico de graméticas de adjuncién de rboles no es un problema trivial. A nuestro entender, un factor que ha influido a la hora de emitir este juicio ha sido la falta de uniformidad en la presentacidn de los algoritmos, ya que no ha favorecido ni la comprensién ni el estudio comparado. Bs justo aqui donde ereemos que el enfoque deductivo puede ser beneficioso a la hora de realizar un estudio global sobre el andlisis sintéctico para gramaticas de adjuncién de &rboles. Si somos capaces de definir los algoritmos mediante una misma filosofia, entonces podremos determinar con mayor claridad las relaciones existentes entre ellos [Alonso et al., 98]. Mas importante atin, podremos responder con mayor fiabilidad porqué y para qué son mas apropiados algunos esquemas frente a otros. Teniendo en cuenta que los algoritmos para el andlisis sintéctico de graméticas de adjun- cién de arboles presentes en la literatura son adaptaciones de analizadores para graméticas independientes del contexto, podemos reutilizar parte del trabajo ya realizado. Es decir, po- driamos definir nuevos esquemas para graméticas de adjuncidn de arboles adaptando otros ya existentes para graméticas independientes del contexto. Con ello no sélo aumentarfamos el conjunto de esquemas, sino que podrfamos estudiar las similitudes y diferencias entre el anélisis sintactico de ambas clases de gramiticas. 1.2 Resumen del contenido EI documento est organizado en torno a nueve capitulos donde se recogen tanto conceptos teéricos fundamentales - el estado del arte, incluido en los capitulos segundo y tercero - como 1 propio trabajo de investigacién realizado. A continuacién, comentaremos someramente el contenido de los capitulos, salvo éste, para que sirva de guia en la consulta de cada uno de ellos. El capitulo 2 se centra en el estudio del andlisis sintéctico desde una perspectiva com- putacional. ‘Tras introducir formalmente el concepto de gramética y analizador, veremos cémo definir este tiltimo bajo una dptica deduetiva, A continuacién presentaremos los con- ceptos fundamentales en los que se apoya la definicién de sistemas y esquemas de anélisis: go apitto 1. Introd items, reglas deductivas, deduecién y correccién. Finalmente se enumerardn las distintas relaciones matematicas que pueden establecerse entre dos esquemas, mostrando de camino su utilidad a la hora de obtener nuevos analizadores a partir de uno dado. El capitulo 3 presenta la definicién formal de las graméticas de adjuncién de érboles Junto con sus propiedades computacionales més destacadas. Se presentaré el formalismo desde 1a perspectiva de los sistemas de reescritura de Arboles y se situard dentro de la Jerarquia de Chomsky. Posteriormente veremos los aspectos més relevantes relacionados con la utilizacién de estas graméticas en el contexto lingtifstico. Finalmente, se presentardn ‘un conjunto de formalismos estrechamente vinculados con las graméticas de adjuncién de Arboles. El capitulo 4 gira principalmente en torno a la definicién de conceptos y notaciones que serdn utilizados de forma recurrente en los siguientes capftulos. El contenido profun- dizard en las caracteristicas generales que aparecen a la hora de definir esquemas de andlisis| para graméticas de adjuncién de Arboles: la representacién de los Arboles elementales, la estructura de los items y el cAleulo de la complejidad. También se expondran dos esquemas aticas de adjuncién de arboles, CYK y bu, para ejemplificar la notacién y los conceptos introducidos. En este capitulo destacaremos principalmente dos formas de rep- resentacién de Arboles elementales: la notacién multicapa y la notacién plana. La primera seré la utilizada para la descripcién de la mayoria de los esquemas. También veremos otras aplicaciones de las notaciones plana y multicapa que conducirdn a tres resultados colat- erales: una definicién axiomética de las graméticas de adjuncién de érboles, la relacién entre las gramaticas independientes del contexto y las graméticas de insercién de arboles, y un método para la lexicalizacién de gramaticas independientes del contexto a través de graméticas de adjuncién de arboles. Este capitulo finalizara con una somera historia de los distintos analizadores sintcticos deseritos en la literatura para gramaticas de adjuncién de tboles. El capitulo 5 presenta un conjunto de esquemas que son una extensién para gramaticas de adjuncién de arboles del conocido método de Earley definido originalmente para el andlisis sintActico de graméticas independientes del contexto. Los principales esquemas incluidos, E y S, se caracterizarén pot no garantizar la propiedad del prefijo vélido, Informalmente, 1 incumplimiento de esta propiedad conduce a que un analizador, aun siendo correcto, no detecti los errores tan pronto como éstos suceden. Junto con la presentacién de los esquemas, se realizard un estudio de la complejidad y de eémo se relacionan entre ellos, En el capitulo 6 se contimua el estudio de esquemas basados en el algoritmo de Earley pero ahora garantizando la propiedad del prefijo vélido. Mientras que en el capitulo ante- rior mostrabamos los motivos que provocan el incumplimiento de dicha propiedad, en éste ‘veremos las soluciones adoptadas para garantizarla, Junto con la definicién de los princi- pales esquemas de este capitulo - Earley, Nederhof y Schabes - se estableceré la relacién existente entre ellos y los esquemas del capitulo anterior. El estudio de la complejidad en este capitulo es de especial interés debido a que no ha sido hasta hace relativamente poco 1.9. Resultados obtenidos tiempo que se ha demostrado que el cumplimiento de la propiedad del prefijo vélido no supone necesariamente un aumento en el coste temporal. El capitulo 7 presenta principalmente dos esquemas, AVH y budVH, basados en una cextensién para graméticas de adjuncién de arboles del algoritmo definido originalmente por de Vreught y Honig para graméticas independientes del contexto. Frente a los esquemas de los capitulos anteriores que realizaban la lectura de la cadena de entrada en un tinico sentido de izquierda a derecha, en este capitulo se presentardn esquemas que utilizan una estrategia, de lectura bidireccional. Junto con un estudio de la complejidad se verd la relacién entre los cesquemas de este capitulo y los anteriores. También veremos la relacién de estos esquemas con el esquema VN, basado en el algoritmo para el andlisis de graméticas de adjuncién de Arboles descrito por Van Noord. El capitulo 8 incluye un estudio empitico del comportamiento de los esquemas ms relevantes presentados en los capitulos anteriores. Una de las ventajas relacionadas con la definicién de analizadores sintdcticos mediante esquemas de andlisis es la relativa facilidad con que pueden ser transformados en programas l6gicos haciendo uso de la maquina deduc- tiva de andlisis. Este capitulo introducird las nociones fundamentales de dicha maquina y las lineas basicas de transformacién de los esquemas en programas logicos. Finalmente, ¥ apoyéndonos en una implementacién de la méquina anterior, se discutirdn los resultados comparativos de las implementaciones realizadas para los esquemas més relevantes. Finalmente, el capitulo 9 haré un balance general del trabajo realizado incluyendo las conclusiones finales junto con una discusién de las lineas de trabajo futuras. 1.3 Resultados obtenidos Los resultados principales obtenidos en el trabajo, junto con la seccién del capitulo donde estiin desarrollados y las publicaciones asociadas, son enumerados a continuacién: # Se hace un estudio de las distintas alternativas relacionadas con la representacién de los drboles clementales, introduciendo una nueva notacién basada en producciones a la que se denominamos notacién plana (Seccién 4.1, (Diaz et al., 98b]). ‘* Se presenta un algoritmo de lexicalizacién de gramaticas independientes del contexto mediante gramaticas de adjuncién de rboles. (Secciéu 4.1.1, (Diaz et al, 96). ‘* Mediante la notacién plana se establece una definicién axiomatica de las graméticas de adjuncién de Arboles basada en cldusulas definidas. (Seccién 4.1.2, [Diaz y Toro, 97). ‘+ También haciendo uso de la notacién plana se establece la inclusién de los lengua- jes definidos por las graméticas independientes del contexto dentro de los lenguajes definidos por las graméticas de insercién de drboles. Estas graméticas son, esencial- mente, una restriccién de las graméticas de adjuncién de érboles. (Seccién 4.1.3, [Diaz. et al., 98a)). 10 Capitulo 1. Introduccion + Se define un esquema $ basado en el algoritmo de Schabes que no verifica la propiedad del prefijo vilido. (eccién 5.2) # Se establece la relacién entre el esquema $ y el esquema E. (Seccién 5.3). Se define un esquema Schabes basado en el algoritmo de Schabes que verifica la propiedad del prefijo vilido, Este esquema establece una nueva cota en la complejidad temporal del algoritmo de Schabes que pasa de O(n*) a orden O(n"), siendo n el tamaiio de la oracién de entrada. (Seccién 6.3, [Diaz et al., 98¢)) # Sc hace un estudio comparativo de las distintas estrategias adoptadas para garantizar la propiedad del prefijo vélido por los esquemas Schabes y Earley. (Seccién 6.4, [Diaz et al., 99) * Se define un conjunto de esquemas bidireccionales basados en una extensién para gramaticas de adjuncién de arboles del nétodo definido por De Vreught y Honig para graméticas independientes del contexto. (Secciones 7.1 y 7.2, [Diaz et al., 00). ‘* Se establece la relacién de los esquemas anteriores con el esquema buB y con el esquema VN definido a partir del algoritino de Van Noord para graméticas de adjuncién de Arboles. (Seccién 7.3.1, [Diaz y Alonso, 00) Se realiza un estudio comparado del comportamiento de los principales esquemas pre~ sentados en el trabajo. El experimento incluye un estudio del comportamiento de los esquemas cuando son aplicados a un pequeio subconjunto de una gramética para la Iengua inglesa. (Secciones 8.3 y 8.4, [Diaz et al., 00b], (Diaz y Alonso, 00b]) Capitulo 2 Analisis sintactico En este capitulo, definiremos el concepto de gramética siguiendo la propuesta realizada por Chomsky. A partir de este concepto, veremos qué entendemos por andlisis sintdctico de oraciones y eémo este problema puede plantearse desde una perspectiva computacional. ‘También introduciremos la teorfa general de Sikkel que permitiré estudiar con uniformidad las diversas estrategias aplicadas en la definicién de algoritmos para el andlisis sintéctico Silekel, 97]. La idea principal en la que se basa esta teoria consiste en relacionar el problema de determinar si una oracién es gramatical y el problema de demostrar frmulas en sistemas deductivos. Fruto de esta asociacién nacen los denominados sistemas y esquemas de andl sintdctico. Ademds de presentar los fundamentos en los que se apoya este nuevo marco te6rico, destacaremos sus ventajas a la hora de especificar y comparar, de forma homogénea, distintas estrategias de 2.1 Arboles definidos sobre alfabetos [Antes de pasar a definir con rigor el concepto de gramatica, y teniendo en cuenta que éstas, suelen hacer uso extensivo de estructuras jerarquicas arbéreas, fijaremos qué entendemos por arbol. Dado un conjunto V podemos construir secuencias a partir de sus elementos, Denotamos mediante V* el conjunto de secuencias finitas (palabras o cadenas) construidas con los elementos de V. Formalmente, V* es el monoide libre generado por los elementos del conjunto Vy la operacién binaria - de concatenacién, El s{mbolo - es habitualmente suprimido en las secuencias. La operacién de concatenacién es asociativa y con elemento neutro. Denominaremos palabra vacia a dicho elemento neutro y lo denotaremos mediante © El conjunto V+ = V-V* es similar a V* salvo que las secuencias tendrén, al menos, un elemento. Sea \’* el monoide libre generado por el conjunto de los ntimeros enteros no negativos V la operacién de concatenacién. Excepcionalmente, en este caso, denotaremos el elemento neutro mediante 0. Dados p,q € N’*, decimos que p < q si y sélo si existe r € A tal que u we apituto 2, Andtisis sintctico @ = p-r. Como ¢s uso comin, denotaremos mediante p j. Impondremos la restriceién adicional de que el conjunto D, sea finito. De esta forma, s6lo consideraremos arboles finitos - es decir, con un ntimero finito de nodos-. Denotaremos mediante Ty, al conjunto de todos los arboles decorados usando el alfabeto V. Un nodo de un &rbol 7 € rv serd, por tanto, un par de la forma (p, X), donde el componente p € D, seré denominado direccién y el componente X € V seré denominado etiqueta. Alternativamente, usaremos la notacién funcional 4(p) = X. La identificacién de los nodos de un drbol mediante el sistema de direcciones anterior, denominado notacién de Gémn [Gérn, 65], nos va a capacitar para que podamos intercambiar sin ambigiiedad tos dos conceptos de nodo y direccién de nodo. sf, las relaciones de dominio y precedencia lineal pueden ser extendidas de forma natural para relacionar nodos. Un nodo (p,X) domina (0 precede) a otro nodo (q,¥) si p domina (0 precede) a g. Como es uso comiin, mostraremos los érboles mediante una notacién gréfica més intel- igible que la propuesta anteriormente (Ver figura 2.1). Los nodos se representardn mediante su etiqueta mientras que la jerarquia impuesta por la notacién de Gérn quedaré patente mediante el siguiente convenio. Usaremos lineas de conexién entre nodos para representar que un nodo domina directamente a otro. La precedencia entre nodos vendré determinada, por la escritura de izquierda a derecha de éstos. Dado un drbol 7 € ry, podemos establecer una primera clasificacién de sus nodos aten- diendo a la relacién de dominio. Siguiendo este criterio, diremos que un nodo en 7 es un nodo hoja sino domina a ningiin otro nodo. Un nodo en + seré denominado interior si dicho nodo no es hoja. Aquel nodo en + que domina a todos los nodos del arbol, y que por tanto vendra caracterizado por tener la direccién 0, sera denominado nodo raft Una vez definido el concepto de &rbol, pasaremos a ver las funciones subérbol y superérbol ‘que nos van a permitir extraer nuevos drboles a partir de uno dado. 13 2.1. Arboles definidos sobre alfabetos =a ° s Yo os 22 NP v we Figura 2.1: Representacién de drboles Definicién 2.2 Dado 7 € tv yp € Dy, definimos las dos funciones y/p,7\p + tv > Tv ‘mediante: ai {(a,X) |(p-4,X) €y cong EN*} WGX) (GX Ev yee} donde 7/p es el subdrbol de respecto a p, y7\p es el superdrbol dey respecto a p. Bjemplo 2.1 Para el drbol y de la figura 2.1, el subdrbol y el superdrbol respecto al nodo con direccién 2, etiquetado VP, vendrian respectivamente definides por 9/2 = {0,VP),(1,V),2,NP)} 2 = {(0,8),(1,NP), (2,VP)) De la definicién anterior, vemos que las direcciones de los nodos de un subérbol son actualizadas para que su nodo raiz presente la direccién 0. De no hacerlo asi, las direeciones del subérbol obtenido estarfan en contradiccién con la definicién de érbol. Esta actualizacién, sin embargo, no es necesaria en el caso de superarboles. A veces, es especialmente interesante referirse a un subconjunto de los nodos que const tuyen un arbol. Destacaremos dos subconjuntos de nodos: aquel subconjunto formado tan sélo por los nodos hoja de un arbol (la frontera) y aquel subconjunto formado tan s6lo por nodos que mantienen la relacién de dominio (caminos). Definicién 2.3 Dado un drbol y € ry, su frontera ¥ viene dada por el conjunto: {(.X) € Dy|p £4 para todo q€ Dy} Un concepto relacionado con el de frontera, es el de cosecha. Informalmente, la cosecha de un Arbol es Ia cadena resultante de concatenar de izquierda a derecha las etiquetas correspondientes a los nodos situados en su frontera. wg Capita 2. Analisis sintictico Definicin 2.4 La funcién cosecha ¥ : 7y + V* se define mediante: ¥() = 10) si Dy = {0} VY) = YC) -¥O/2)----¥ (13) 961,2,...9 € Dy vj +1 Dy Ejemplo 2.2 Para el drbol y de la figura 2.1, la frontera y cosecha serian respectivamente 4 = {(L,NP),(21,V), (22, VP)} Y(7)=NPVNP jn 2.5 Una seeuencia ordenada de nodos pertenecientes ay € ry de la forma: < (Po, Xo), (Pr Xi)s-+1 (Pn, Xe) > es un camino dey si se cumple: py = 0 y ps = pit Ji para alin j; €.N’ siendo 0 Informalmente, extenderemos el concepto de camino a aquellos que no parten de la raf Dado 7 € zy, el conjunto de caminos P(>) es el conjunto formado por todos los posibles caminos de 7. Esta definicién puede ser generalizada a conjuntos de arboles, de modo que 8111-65 € Ty entonces P((1..-47n})) = Pla) U..-U PC) Bjemplo 2.4 Para el drbol + de ta figura 2.1, tendriamos que: PQ”) = {< (0,5), (NP) >, < (0,5), (2, VP), (21,V) >, < (0,8), (2, VP), (22, NP) >} 2.2 Gramatica y andlisis sintactico Aunque la definicién que daremos de sintaxis est sujeta a controversia, en un sentido amplio, podemos considerar que tiene como cometido el estudio de la estructura de las oraciones del Jenguaje ignorando, al menos en parte, su significado. Bajo este punto de vista, podemos ‘encontrar ejemplos de oraciones que estan bien construidas desde una perspectiva sintactica, y sin embargo, carecen de significado objetivo. En lo que nos concierne, nos centraremos exclusivamente en los aspectos sintcticos sin considerar el significado que le atribuimos. El enfoque utilizado a la hora de estudiar el fendmeno sintactico ha sido distinto a lo largo de la historia, Lugar destacado merece por su relevancia, tanto lingiifstica como computacional, la teorfa sintéctica propuesta por Chomsky. Esencialmente, este autor pro- pone un método de caracter descriptivo donde cobra especial importancia la biisqueda y determinacién de las leyes sintacticas que gobiernan las construcciones correctas. En con- traposicién, existiria un método prescriptive que sélo se ocuparia de determinar si la sintaxis de una oracién es correcta 0 no. 2.2. Gramétiea y andlisis sintdetico 15 Una oracién gramaticalmente correcta, puede ser dividida en constituyentes (categoria sintécticas) de acuerdo con un conjunto de reglas denominadas sintdcticas por dicho motivo. En general, la estructura asociada a una oracién es de indole jerarquica, debido a que los constituyentes, a su vez, pueden ser divididos en otros constituyentes. Por ejemplo, una oraci6n transitiva consta de un sujeto, un verbo y un objeto directo. A su vez, el sujeto y objeto directo pueden estar constituidos por un determinante y un sustantivo. En lo que sigue, una oracién equivaldré a una secuencia de palabras, Consideraremos que podemos reunir, en un conjunto finito, las palabras (simbolos terminales) con las que se construyen las oraciones de un lenguaje natural y también consideraremos que disponemos de un conjunto finito de categorias sintdcticas (s{mbolos no terminates). Una oracién gramatical sera representada mediante una estructura - en general, un Arbol - construida a partir de las reglas sintécticas (producciones) de la gramética. La estructura seré gobernada por ‘una. categoria sintéctica distinguida (axioma) que, en este caso, interpretaremos como la categoria oracién, Definicién 2.6 Una gramética G se define mediante una tupla (Vr, Vx,S,P) donde Vr y Vw son conjuntos disjuntos de simbolos terminales y no terminales, el simbolo S € Vv es un simbolo no terminal distinguido denominado arioma, y P es un conjunto finito de pares en V* x V* denominados producciones, donde V = VrU Vw. Atendiendo a la forma que puedan tener las producciones, las gramaticas se dividen en: regulares, independientes del contexto, cependientes del contexto y sin restricciones. Las gramaticas anteriores han sido enumeradas segiin la complejidad en la forma de sus pro- ducciones. Las graméticas regulares son las que presentan la forma més simple frente a las viltimas que no imponen ningtin género de restriecién. La jerarqufa impuesta por esta organizacién se denomina jerarquia de Chomsky. Debido a la importancia que han susci- tado en el procesamiento del lenguaje natural, nos centraremos tan sélo en las graméticas independientes del contexto. Las producciones de esta gramatica necesariamente son de la forma A 6 con A€ Vw y 6€V", Definicién 2.7 Dada una gramética G = (Vr,Vx,S,P), la relacién de derivacién > se define en el conjunto V* x V*, de la siguiente forma, & = ¢, si existen 6, 2, A€ Vw y 5, tales que € = 6; 82, ¢ = 01582 y A +5 € P. Denotamos mediante > el cierve reflerivo y transitive de la relacién = Aplicando sucesivamente la relacién de derivacién, implicitamente, estamos construyendo un Arbol denominado sintietico o derivado. Los rboles de esta indole verifican la siguiente restriccién: si un arbol derivado incluye un nodo interior A que domina directamente a los & nodos Ar, Ap,..., Ag expresados segiin el orden impuesto por la precedencia lineal, entonces A+ AyAy...Ay es una produccién de la gramatica. Los Arboles sintéicticos de una oracidn presentan ademés las siguientes caracteristicas: su nodo raiz estard etiquetado con el simbolo axioma $ y los nodos hoja estarén etiquetados mediante simbolos terminales 16 — Capitulo 2, Anitisis sintictico 6 la palabra vacta ¢, de forma que la cosecha del arbol se corresponderd con la oracién, Hay que tener en cuenta que una misma oracién puede ser representada por un conjunto de Arboles sintacticos. Decimos que, en este caso, la oracién es ambigua y denominamos bosque sintactico al conjunto de todos los arboles que la representa. Definicin 2.8 El conjunto de drboles T(G) de una gramdtica independiente del contesto G es aquel constituido por todos sus érboles derivados. El lenguaje descrito por una gramética independiente del contexto consistiré en todas las oraciones derivadas a partir del simbolo axioma aplicando sus producciones de manera que conduzcan a oraciones. Bajo esta definicién, una oracién seré correcta (gramatical) si pertenece al lenguaje descrito por la gramatica. En otro caso, la oracién no serd gramatical. in 2.9 Dada una gramética G = (Vr,Vw,$,P) el lenguaje de la gramética se L(G) = (we Vz |S Sw} Una de las caracteristicas mas destacadas de la teorfa de Chomsky es que las gramiticas son descritas mediante un formalismo capaz. de ser interpretado por un computador. Esta forma de pensar da un paso importante hacia el estudio de aspectos lingiifsticos desde una perspectiva computacional. Surgen asf, una serie de problemas que pueden ser susceptibles de ser definidos y resueltos mediante algoritmos y/o programas. Uno de los problemas més interesantes es justamente el andlisis sintdctico. Un analizador sintéctico, o analizador, es un algoritmo encargado de obtener, si existen, todos los arboles sintdcticos asociados a una oracién gramatical. Un problema estrechamente relacionado con el andlisis sintactico serfa el del reconocimiento. Un reconocedor es un algoritmo encargado de determinar si una oracién es gramatical. 2.3 El andlisis interpretado como deduccién En el contexto computacional, la definicién de algoritmos para el andlisis sintactico utiliza esencialmente una estrategia constructiva, Un analizador de este género calcula una serie de resultados intermedios que son utilizados para obtener, sucesivamente, nuevos resultados intermedios més avanzados - en el sentido de més cercanos a una posible solucién -. Si la oracién es gramatical, este proceso deberfa concluir obteniendo un resultado final a partir del que obtendriamos sus drboles sintdcticos. Aunque esta es fundamentalmente la forma en que proceden la mayor parte de los analizadores descritos en la literatura, la estrategia utilizada y la descripeién final de los algoritmos oculta esta similitud, El enfoque deductivo se caracteriza por relacionar el proceso de biisqueda de los Arboles sintécticos con la demostracién de teoremas en un sistema deductivo. La novedad del planteamiento radica en que las formulas del sistema deductivo, que denominaremos items, 2.3, Bl andlisis interpretado como deduccién 7 Actico. La tendran una interpretacién especifica relacionada con el problema del andlisis| forma en que calculamos los items en un sistema deductivo de esta indole es similar a la forma en que son deducidas las formulas en cualquier otto sistema deductivo. Partiendo de tun conjunto de items, aplicamos sucesivamente un conjunto de reglas deductivas (0 pasos deductivos) de forma que sean calculados todos los items que pueden ser deducidos por el sistema, La presencia o no de algunos items determinaré si una oraciGn es gramatical. En el caso de que lo sea, un examen cuidadoso del conjunto de los items caleulados nos data la oportunidad de construir todos sus drboles sintadcticos. Una consecuencia interesante de este hecho es la interpretacién ambivalente del sistema deductivo como reconocedor o analizador. EI propio bosque sintactico puede ser, a su vez, interpretado mediante una gramatica inde- pendiente del contexto que genera exclusivamente la oracién de entrada [Billot y Lang, 89]. Ejemplo 2.5 Definiremos un esquema para el método CYK definido para graméticas in- dependientes del contexto. En lo que sigue, subrayaremos los nombres para los esquemas aplicados a graméticas independientes del conterto con objeto de distinguir nitidamente que son aplicados justamente a esa clase de gramiticas. Dada G = (Vr,Vv,S,P) en forma normal de Chomsky [Aho y Ullman, 72] y una cadena de entrada ay,...a, conn > 1, el conjunto de items Tov se define de la siguiente forma: Toy = {[A,i,j]|A € Vw M0 ait ...a; No se exige que j 0 son denominados los antecedentes de la regla deductiva y 1 su consecuente. Podemos observar, por un lado, que es perfectamente posible una regla deductiva que no presente ningiin antecedente (axiomas) y, por otro, que las hipétesis tan sélo pueden participar en las reglas deductivas como antecedentes. La aplicacién de las reglas deductivas puede estar sujeta a que una determinada condicién evalie a cierto. Debemos hacer hincapié en que una regla deductiva es realmente un conjunto donde se representan un xiimero potencialmente infinito de ejemplares. Cada ejemplar se corresponde con la propia, regla deductiva pero aplicada respecto a un conjunto de items o hipstesis conocidos. Definicién 2.11 Dada wna gramética G € CG, un sistema P = (Z,H,D) se denominard instanciado cuando definimos una funcién Ho que asocia un conjunto de hipstesis con cada cadena de entrada a;...ay de forma que P = (Z,Ho(ay ...aq),D) es un sistema. Consideraremos que la funcién Ho sera idéntica para todos los sistemas y vendré definida mediante: Ho = {[a,i- 1A) |a= ai} U {ft 1,0} U {[8,n,0 + U} ag Capitulo 2. Anatisis sintcticn De la definicién, vemos que la funcién Ho se limita a establecer entre qué dos posiciones se encuentran situados los sfmbolos participantes en la cadena de entrada. Con objeto de dar una definicién general, se han considerado dos simbolos terminales nuevos #,8 ¢ Vir que delimitan a izquierda y derecha la cadena, Debido a que la funcién Ho sera constante para cada sistema, no haremos ninguna distincién entre sistemas instanciados ¥ no instanciados. Por la misma razén, no distinguiremos entre Ho y H. Definicién 2.12 Un esquema de andlisis P para una clase de graméticas CG es wna funcién que asocia un sistema P = (Z,H,D) a cada gramdtica G € CG. De esta forma dada un gramética G € CG y un esquema de anélisis P, o simplemente esquema, tenemos que P(G)(a; ..-@,) es un sistema. De forma andloga a los sistemas hablaremos de esquemas regulares y semiregulares. Ejemplo 2.7 Bl esquema CYK para gramética independientes del contesto se define «a partir del sistema CYK = (Toy, Hs Dey) donde Dey = Dic U DERE. La distincién entre sistema y esquema es de indole conceptual, si una cierta propiedad es cumplida en un sistema P para cualquier gramética G € CG y cadena de entrada ay ...ay entonces la propiedad seré cumplida para su esquema correspondiente P. Si procuramos que tan s6lo el conjunto de hipétesis dependa de la cadena de entrada, un sistema 0 esque- ma queda completamente determinado tan sélo con definir su conjunto de items y reglas deductivas. 2.4.2 Deduccién Una vez definido el concepto de sistema, veremos ahora como podemos caracterizar el conjun- to de items que deduce. La deduccién es el mecanismo fundamental por el que simulamos las composiciones que se realizan durante el proceso de reconocimiento. Es decir, interpretare- mos que el andlisis de una oracién respecto a una gramética equivale al calculo de todos los items deducidos por un sistema de andlisis para dicha oracién y gramética. Definicién 2.13 Sea P = (Z,H,D) un sistema donde Y,Y' C (HUT). La relacién de inferencia HC p(HUT) xT se define mediante: ¥ Fn si y s6lo si (Y",n) € D dado que ¥' CY Es decir, la relacién + es el cierre debido a la adicién de antecedentes en las reglas deductivas del sistema. Segiin vemos de la definicién, el mimero de antecedentes afiadido no. tiene porqué ser finito, Una secuencia de deducciones en un sistema P es un par (¥36,- conjunto gyin(H UZ) x Tf que cumple que para todo 1 < i AB,A > a,B > a}) y la entrada aa, el conjunto de items deducidos por el sistema CYK seria: #item |_ item regla deductiva aplicada 1 | [Ao] ‘Comienzo 2_ [12 ‘Comienzo 3 [B,0, 1) Comienzo 4 [B,1,2| Comienzo 3_[[5,0.2| | Complecién(1,2) CompleciGn(T,4) Podemos caracterizar de forma global los items deducidos por el sistema GYK de la siguiente forma: Voy = {[4,i,j]| A> ais ..43} 2.4.3 Correccién Una vez conocidos todos los items vilidos de un sistema, la presencia 0 no de algunos items permitiré determinar si una oracién es gramatical. En vez de introducir el concepto de validez seméntica a la hora de definir la correccién de un sistema o esquema, nos bastard con distinguir de forma adecuada qué género de items consideramos que conducen 0 no a un resultado satisfactorio. Puesto que el problema a resolver esté fijado de antemano, la distincién de los items vendré motivada claramente segyin el género de arboles representado por los items. Como vimos al estudiar las distintas clases de items, éstos se dividian en nulos, finales, intermedios y mixtos. Dado un sistema (semi)regular P = (Z,2, D) dividiremos su conjunto de items en dos: ago capitulo 2, Anatisis sintctico + el conjunto de items finales F CZ ‘* y el conjunto de items intermedios Z— F. El conjunto F, légicamente incluiré todos los items que sean finales. Es decir, aquellos que representen arboles de anélisis para alguna cadena de entrada. En general, estamos interesados en el bosque sintéctico asociado a una sola entrada, Para distinguir esta situacidn, dividiremos el conjunto de items finales en dos subconjuntos disjuntos, denominados conjuntos de items finales correctos e incorrectos. El conjunto de items finales correctos C tan s6lo incluiré los arboles de anélisis para una determinada cadena de entrada cuando ésta sea, efectivamente, gramatical Ejemplo 2.9 Siguiendo con el sistema CYK, su conjunto de items finales Foy. vendré determinado por el item [S,0,n], mientras que el conjunto de items finales correctos serdé Covk = Foy si la oracién de entrada es gramatical y Coy = 0 en el caso de que no lo sea. Defi jn 2.15 Sea V el conjunto de items deducidos por el sistema P. © Un sistema P serd consistente si FOV CC. © Un sistema P seré completo si FOV 2. © Un sistema P seré correcto si es completo y consistente, es decir, si FOV = C. Una ver definido qué entendemos por sistemas correctos, la extensiGn de este concepto a ‘esquemas es como cabria esperar. Un esquema (semi)regular P sera consistente, completo 0 correcto para una clase de graméticas CG si, respectivamente, P(G)(ax ... dn) €8 consistente, ‘completo o correcto para toda gramatica G € CG y cadena de entrada ay... ay Segiin hemos visto, la correccién de un sistema permite establecer si tina oracién es gra~ matical. Si el objetivo final es la obtencién de los drboles sintacticos debemos posteriormente considerar el conjunto de items vélidos. Veremos esquematicamente dos métodos clésicos para la obtencién de dichos arboles. Partiendo de los items finales, el primer método consiste en construir los arboles sintécticos de forma descendente aplicando las reglas deductivas en orden inverso a como fueron aplicadas. Esta mnétodo se aprovecha de que los items rep- resentan drboles sintéctico incompletos y que las reglas deductivas reflejan cémo han sido combinados éstos iiltimos. El segundo método consiste en anotar los items vélidos con la formacién de cémo han sido deducidos. La informacién deseada, que se encuentra dispersa, entre los items vélidos, es organizada mediante un grafo implicito que nos dice cémo estan relacionados los items. 2.5, Relaciones entre esquemas 25 2.5 Relaciones entre esquemas ‘Sin duda, una de las mayores ventajas ofrecidas por la definicién de analizadores sintdcticos mediante sistemas deductivos es la capacidad de establecer relaciones mateméticas entre ellos. Aunque la mayor parte de las relaciones también pueden ser definidas como cabria_ esperar para sistemas, en este caso es mds interesante su definicién para esquemas, ya que el estudio de Jas mismas se centra sobre los propios analizadores independientemente de la gramatica y cadena de entrada, Una ver definida la relacidn entre los esquemas, al igual que con cualquier otra relacién matemética, podemos estudiar qué propiedades cumplen. Otra consecuencia afiadida es que las relaciones inducen la construccién de una red donde se ponen de manifiesto las similitudes entre los analizadores. De esta forma los sistema deductivos, al mismo tiempo que permiten la especificacién y estudio de analizadores de forma aislada, permiten el estudio global y comparado de los mismos. Las propias relaciones pueden ser utilizadas de forma activa interpretandolas como trans- formaciones. Asi, podemos obtener nuevos analizadores a partir de uno dado, 0 incluso mejorar el rendimiento computacional de un analizador. Desde esta perspectiva, es intere- sante conocer qué propiedades respecto a la correccién son preservadas por una relacién. De esta forma, podemos conocer de antemano si un nuevo analizador producto de una transformacién es consistente 0 completo. Considerando que el conjunto de hipétesis es comiin a todos los esquemas, las relaciones vendrén descritas tan s6lo a través de los conjunto de items y de reglas deductivas. En lo que sigue, consideraremos los siguientes esquemas: Py = (Zi, H,Ds) y Pa = (Za, sDa). Denotaremos mediante + y Fa, respectivamente, las relaciones de inferencia definidas sobre los esquemas Py y Pa. Del mismo modo usaremos V; y Vz para referitnos a sus respectivos conjuntos de items valides. Podemos definir funciones que transforman items de un esquema en items de otro, es decir, funciones del tipo: f : Z, + Zy. Veremos primero una clase de funcién entre items, denominada regular, que seré de especial interés a la hora de relacionar esquemas. Las funciones regulares se caracterizan por conservar la informacién representada por los items. Es decir, todos los érboles que son representados por un jtem estan contenidos en la imagen del item. Posteriormente, generalizaremos la funcién f para que sea aplicable a conjuntos de items, reglas deductivas y secuencias deductivas. Definicién 2.16 Decimos que una funcién entre items f : I, + Ip es regular, si para todo ftem i € Ty y para todo drbol t € i, se verifica que t€ f(i) La funcién f, regular 0 no, extendida para cubrir conjuntos de items, dado Y € Z,, se define mediante: AY) = {€€ BEY : fn) = 8} es decir, f(Y) seria el subconjunto de Zz que contiene aquellos items que son imagen de algtin item contenido en Y. 26 —__________ Capitulo 2. Andlisis sintéctico Asumiendo que el conjunto de hipétesis es disjunto con respecto al conjunto de los items en T y Ty, y dado f(h) = h para todo h € H, la funcién f extendida a relaciones de inferencia o reglas deductivas se define: Fem «me F &) = fm) «+ Fem) & £(E) De forma andloga, podemos extender f a secuencias deductivas, de modo que la notacién F(A(P1)) = AtPa) ser una forma concisa de representar: Yoho ay bev. bo ay si y solo si existen Yi € p(HUZ) tal que f(Vi) = Ya y 24,...24 € Ty con f(t) = 2, tales que Viti at by. Fie Agruparemos las relaciones en dos grandes grupos segtin sean producto de una general- izacién o de un filtro. ‘+ La generalizacién es el fruto del refinamiento y/o la extensién de un esquema. La generalizacién consiste en afiadir més detalles a un analizador en el sentido de ampliar su conjunto de items, reglas deductivas o la clase de gramticas a la que es aplicable. La ampliacién puede resultar til desde una perspectiva computacional si conduce a mejoras cualitativas. © Un filtro es, en general, la relacién inversa al refinamiento. Ahora el propésito es conseguir mejoras cuantitativas en un analizador disminuyendo su nimero de items, roglas deductivas 0 secuencias deductivas. La disminucién seré posible si podemos asegurar que el filtro aplicado no influye en la correccién del esquema. 2.5.1 Generalizaciones Dentro de las generalizaciones, ver figura 2.2, podemos encontrarnos con las signientes rela- ciones: refinamiento de items, refinamiento de reglas deductivas y extensiones. Primero veremos cada una de ellas con cierto detalle para finalmente poner un ejemplo que involuera, a todas Un esquema P2 es un refinamiento de los items de un esquema Py si un item del esquema Pes partido en varios items en el esquema Pa. La particién puede obligar a que tengamos que adaptar también el conjunto de reglas deductivas del esquema Pa. Un caso trivial de refinamiento de items consiste simplemente en adoptar una nueva notacién de los mismos. En este caso, las reglas deductivas deberdn asumir esta nueva notacién en sus antecedentes, y consecuentes. 7 2.5, Relaciones entre esquernas fos - Filtro ‘Contracci6n ' auc e zs = [retain] iri inves Cd vam + > == ean he [ra 8 ears ee | ‘enanicno = oe jos 5 =H Pjotee = Pooh) { = = jh Figura 2.2: Relaciones entre esquemas Definicin 2.17 Decimos que el esquema Pz es un refinamiento de los items del esquema Py, denotado mediante Py “> Pa, si existe una funcidn regular entre items f : Tz > Ty, tal que: 1. T, = F(Z) (la funcién cubre todos los items de Z,) 2 A(P1) = f(A(P2)) En general, la relacién inversa al refinamiento de items se denomina contraccién de items y la representaremos mediante =. Por tanto, si se verifica Pa = Pa, entonces P, -"5 Pp. La propia filosofia en la que se basan los esquemas de andlisis se corresponde con una contraccién de items, ya que éstos comprimen en un sélo objeto todo un conjunto de Arboles Un esquema P2 es un refinamiento de las reglas deductivas de un esquema Py si una regla deductiva del esquema P, es descompuesta en varias reglas deductivas en el esquema, Pa. Es posible que esta descomposicién obligue a introducir nuevos items en el esquema Pa para almacenar los resultados intermedios debido al refinamiento efectuado. Definicién 2.18 Decimos que el esquema Pa es un refinamiento de las reglas deductivas pg apituto 2. Anatisis sinttctico del esquema P1, denotado mediante Py 2% Pz, si se cumple: LUCh 2 HICH Las relaciones anteriores pueden ser compuestas dando lugar al concepto de refinamiento. Definicién 2.19 Decimos que el esquema P2 s un refinamiento del esquema Py, denotado mediante Py 22% Po, si eristen esquemas P’ 0 P" tales que: 1. 0 bien, Py 2 P! = Py 2. o bien Py = P" Po Un esquema Po es una extensién de P, si el esquema Pz ¢s aplicable a una clase mayor de gramaticas. Esta relacién es la tinica que no puede ser definida para sistemas ya que involucra a toda una clase de graméticas. Definicién 2.20 Sea Py un esquema definido sobre una clase de gramdticas CG, y Pa un esquema definido sobre una clase de gramdticas CG2, decimos que P2 es una extension del esquema Py, denotado mediante Py 5 Pa, si se cumple: 1. CG, © CGy 2 Pa(G)(ar -.-ap) = Pa(G)(ar -.-an) para toda G € CG, y cadena de entrada ay .. An Definicién 2.21 Un esquema Pz es una generalizacién de Pi, denotado Py #3 Pp, si es una composicién arbitraria de refinamientos 0 extensiones. Enunciaremos ahora las propiedades mas destacadas de las generalizaciones (la de- mostracién de dichas propiedades se encuentra en [Sikkel, 97). Propiedad 2.1 Las generalizaciones estén relacionadas de la siguiente forma: todo refi- namiento de items 0 reglas deductivas es un refinamiento, todo refinamiento es una exten- sidn, y toda eatensién es una generalizacién, + Boss + ces + Bice Propiedad 2.2 Las yeneralizaciones >, =, #8, 2,28 y £8 son relaciones refleri- vas y transitivas. 29 2.5, Relaciones entre esquenas Propiedad 2.3 Respecto a la correccién, las generalizaciones verifican: + +5 preserva la completitud © SiP1 > Po, entonces la correccién del esquema Pa implica la correccién del esquema Py # la relacién # preserva la correccién. Ejemplo 2.10 Veremos cémo generatizar el esquema CYK para que pueda ser aplicado a cualquier gramética independiente del contexto. Es decir, la gramética no tendré porqué estar en forma normal de Chomsky. Como veremos posteriormente, el esquema resultante, que denominaremos bu, esté fntimamente relacionado con el analizador de Earley para graméticas independientes del contezto. Para demostrar que se verifica CYK &3 bub, definiremos una serie de esquemas intermedios que cubrirdn todas las relaciones de generalizacién vistas: CYK = CYK’ = ECYK =} bub El esquema GYK' es similar al esquema CYK salvo que sus items son refinados de ‘manera que un item CYK, supongamos [4,i,j], es enriquecido de la siguiente forma [A + be,i,j]. Bs decir, hemos detallado la produccién asociada al simbolo A del item, y por tanto, un item original se corresponde potencialmente con un conjunto de items en el nuevo esquema, El punto que decora ta produccién delimita qué seccidn de su parte derecha reconoce el segmento de la cadena de entrada comprendido entre las posiciones i+ 1 y j. En este esquema, puesto que la seccién derecha es vacia, indica que toda la produccién es Ia que hha reconocido el segmento. Esta interpretacién estd en consonancia con la aportada por los items del esquema CYK. Las reglas deductivas no requieren ser modificadas salvo que debemos adoptar en los antecedentes y en el consecuente la nueva definicién de item. Ahora bien, debido « que los items son mas explicitos a Ia hora de determinar, tanto los simbolos de la cadena de entrada como las producciones, las condiciones laterales que delimitan la aplicacién de las reglas deductivas pueden ser sustancialmente simplificadas Dada una gramética independiente del contesto G = (Vr,Viv,8,P) en forma normal de Chomsky, el esquema CYK' se define mediante el conjunto de items Tov: y el conjunto de reglas deductivas Doyx: = Dix, UDEYE, donde: [A > 60,1, jJ|A+5EPADSI w5- hal 2 [B> bresind)[C > 64, 5,4) [a BOs ik 30 Capituto 2, Anatisis sintctico El siguiente esquema va a refinar la regla deductiva DEY, de forma que una deduccién en el esquema CYK': [B > 69,4, j)[C > 620, j,k] + [A 4 BCe, i,k] va a ser obtenida en el nuevo esquema ECYK mediante la siguiente secuencia de deduc- ciones: b [A BC, ii] [A+ BC,i,i][B > 69,53) F(A 4 Be C.i,/] [As BeCyi,j][C > br0,j,8] [A> BOe i,k] Para conseguirlo tendremos que reorganizar tanto las reglas deductivas como el conjunto de items, Primero, debemos admitir producciones en los iteras cuyo punto no tenga porqué estar al final de su parte derecha. Segundo, debemos sustituir las reglas del esquema CYK' por otras, que partiendo el punto desde el principio de las producciones (D£% 4c), lo avance (PéExx u DE) hasta alcanzar su final. Una vez terminado el reconocimiento de ta produccién, se procede de forma ascendente al igual que en los esquemas CYK y CYK' El esquema ECYK, aplicable tinicamente a graméticas en forma normal de Chomsky, se define mediante el conjunto de items Troy y el conjunto de reglas deductivas Decyx Ditiyy U gyn UD EGY tales que: Tgovn = {[A > v9 wi j]|A we PADSIS I} ~ (AS 5d) Deeg, = Moe vean ind] (Odd +1] BYE = TA va ewyi,j + I pom - (Bs, j,kI[A + ve Buvi,d] pars [As pBow.iF] El esquema buE es idéntico al esquema ECYK, es decit Tux = Zeovk ¥ Pout Ducyk- La diferencia entre ellos es que buE es aplicable a cualquier gramstica indepen- diente del contexto. En general, como veremos en los capitulos siguientes, la extensién de esquemas no es necesariamente una relacién tan trivial como la mostrada. 2.5.2 Filtros Dentro de los filtros, ver figura 2.2, podemos encontrarnos con las siguientes relaciones: filtro estatico, filtro dindmico y contraccién de secuencias deductivas. Veremos cada una con cierto detalle al mismo tiempo que presentamos ejemplos. 31 2.5. Relaciones entre esquemas Un esquema Pz es un filtro estatico del esquema Py si son eliminados items o reglas deductivas redundantes del esquema P3. Por tanto, al suprimir los items o las reglas de- ductivas no alteramos el nimero de Arboles sintdcticos que pudiéramos obtener, aunque si podemos reducir el niimero de items vilidos, Estos filtros se denominan estéticos, debido a que la reduccién puede ser efectuada previamente al propio proceso de deduccién. Definicién 2.22 Decimos que el esquema P2 es un filtro estético del esquema Py, denotado mediante Py *% Pz, si se cumple: 1Q2h 2D: 2D Existe un género trivial de filtro estatico, que denominaremos elimin: y denotaremos mediante +%, que se caracteriza por que mantiene el conjunto de items vlidos. Un filtro de esta clase simplemente elimina aquellos items que jamés seran deducidos © suprime aquellas reglas imitiles que no se aplicardn. Decimos que Py 4% Pz si se cumple P, 2% Pa y ademés V; = Vp. Ejemplo 2.11 Veremos un ejemplo sencillo de filtro estdtico baséndonos en el esquema buE. Dada una gramética G = (Vp,Vw,$,P) y un simbolo no terminal A € Vy, éste se denomina reducido si cumple lo siguiente: (i) existen viw € Vi. tales que S > vAw y (ii) eriste 5 € Vit tal que A 6. Dada una gramatica G = (Vr, Vx, P) podemos obtener, a partir de ella, otra gramética reducida G’ = (Vp,Vj,,8,P"). Para conseguirlo basta, por una parte, con que Vj ineluya tan sélo los simbolos no terminales reducidos de Viv y, por otra, que P! contenga todas las producciones de P salvo aguellas que incluyen algin sinbolo no terminal que no sea redueido, Se puede demostrar que las graméticas son equivalentes, es decir L(G) = L(G"), y que da- da una oracién, perteneciente a ambos lenguajes, obtendremos los mimos drboles sintécticos. La reduceién tiene como cometido obtener una nueva gramédtica donde han sido eliminadas derivaciones que sabemos de antemano que no conducen a ninguna oracién gramatical. Si ‘analizamos una gramética no reducida, serdn calculadas todas las derivaciones, incluyendo las innecesarias. Bl filtro estatico simplemente eliminaré aquellos items que sabemos no sern de utilidad. El esquema buE!, que presentamos a continuacién, es un filtro estdtico del esquema buB, es decir, buE *% buB!. Se define mediante el siguiente conjunto de items. Tugs = {[A > veul|A> ww € PADSI SI} El conjunto de reglas deductivas es igual al del esquerna buE, por tanto Dyug: = Dout: ‘Un esquema Pz es un filtro dindmico del esquema Py si la validez de algunos items del esquema P; pueden depender de la validez de otros items del mismo esquema. Para con- seguirlo se hace uso de informacién contextual afiadiendo nuevos items a los antecedentes gg Caputo 2. Analisis sirtdctico de las reglas deductivas del esquema Pz. La diferencia de estos filtros con respecto a los estaticos, es que la reduccidn realizada requiere ser efectuada durante el proceso de dedue- cin, Un ejemplo clésico de filtro dindmico es la utilizacién de simbolos de lectura adelantada (look-ahead). En este caso, los items afiadidos a las reglas deduetivas se corresponden con hipétesis que permiten restringir su aplicacién siempre que un determinado simbolo de la palabra de entrada esté a contimuacién del esperado. Definicién 2.23 Decimos que el esquema P2 es un filtro dindmico del esquema P,, deno- tado mediante Py “2% Pa, si se cumple: 12h 2. by Dba Ejemplo 2.12 Pasaremos a ver el esquema basado en el conocido método de Earley para gramdticas independientes del contexto. Mostraremos que el nuevo esquema Earley es un {filtro dinémico det esquema buB, es decir buk “% Earley. Aunque el conjunto de items de ambos esquemas va a ser el mismo, Tyur = Tracey, las reglas deductivas van a ser ampliadas. Vimos que el esquema buE deducia todos aquellos items de la forma [B > #6,j,5] con 0. veaw,ijaj5+1) [A> vaeu,i,j +1) [As ve Bui] [B > 96,5,3) «(B+ 60,5, KA v« Buyini) fs vBeaik pene donde podemos observar que D§s, Dose v que Dewey 2.5. Relaciones entre esquemas 33. ASS PS ZX Pr Figura 2.3: Recorrido en el método Earley : ANS FS Figura 2.4: Recorrido en el método de la esquina izquierda Un esquema Po es una contraccién de secuencias deductivas del esquema P si sustitu- imos toda una secuencia deductiva del esquema Py por otra secuencia de menor longitud en el esquema Pz. Esta clase de filtro es la que mayor grado de reduccién efectiia debido a ‘que sustituye toda una secuencia de items. Definicién 2.24 Decimos que el esquema P2 es una contraccién de secuencias deductivas del sistema Py, denotado mediante P, = Pa, si se cumple: Lh2h 2. HK Bjemplo 2.13 Veremos ahora el esquema LC basado en el método de la esquina izquierda. Este nuevo esquema realiza una contraccién de secuencias deductivas del esquema Earley, es decir, Earley * LC. La contraccién consiste en reducir el ntimero de items deducidos durante la fase de prediccién. Un ejemplo de dicha contraccién podemos verlo en las figuras 2.3 y 24 donde se muestra la forma en que es recorrido un determinado arbol sintéctico por ambos métodos indicando mediante lneas de punto las predicciones que son suprimidas, Para simplificar las predicciones, el esquema LC se apoya en la relacién denominada esquina izquierda, Capitulo 2, Anélisis sintéctico Dada una gramética independiente del contexto G = (Vr,Viv.$,P), denominamos es- quina izquierda de una produccién al simbolo situado més a ta izquierda de la parte derecha de dicha produccién. Es decir, dada la produccién A + X86 € P, su esquina izquierda seré el simbolo terminal 0 no terminal X. Una produccién nula A + ¢ tendré como esquina izquierda a la palabra vacta, La relacién > definida en N x (VU {e}), con V = VrUVy, se define: Adel si existe A+5€ P tal que U es su esquina izquierda Denotamos mediante >} el cierre reflerivo y transitive de > A partir de la relacién anterior podemos ver que un étem [A + #Bé,i,i] serd deducido por el esquema Earley tan sélo cuando es vdlido el ttem (C+ ve Bus,h,i] con E>; A. Ademéds dicho étem verifica v # € salvo que i =0 y E = S. Para tratar este caso excepcional debemos asegurarnos de que el étem [S > ev,0,0) pertenece al dominio del esquema. Sin embargo, debido a la contraccién, los items de la forma [A + #6,i, i) siendo # € podrin ser suprimidos, Es decir, Tic C Tpartey. Con objeto de cubrir las operaciones de complecién que son suprimidas, introduciremos reglas deductivas asociadas a cada clase de esquina izquierda cuando ésta es un simbolo no terminal, un terminal 0 la palabra vacia. Bl dominio del ‘esquema vendria dado por: Fig = Ta) UF 2) UZ) donde [A Xvew,i,j]|A + Xow € PAD ve Bw hiloiitl] pe Me =“ Boaepiiey) ~~ PEP Cavebumil poy Boni 35 2.5. Relaciones entre esquemas Figura 2.5: Red para graméticas independientes del contexto [B+ 0, j,k [A> ve Bu,i,i] ue TA vB owt] Enunciaremos ahora las propiedades mas destacadas de los filtros (la demostracién de dichas propiedades se encuentra en [Sikkel, 97)) Propiedad 2.4 Los filtros se relacionan de ta siguiente forma: todo filtro estdtico es un filtro dindmico, y a su vez todo filtro dindmico es una contraccién de secuencias deductivas. ccs at Propiedad 2.5 Los filtros 2%, 2% y 4% son relaciones reflerivas y transitivas, Propiedad 2.6 Respecto a la correccién los filtros %,-2% y *% preservan la consisten- 2.5.3. Red de analizadores Como dijimos, las relaciones entre esquemas inducen a la construceién de una red de anal- izadores. Podemos considerar que esta red no es sino un resumen conciso donde se deter- mina la forma en que estén vinculadas las distintas estrategias. Debido a que el anélisis de gramaticas independientes del contexto ha sido objeto de numerosos estudios, la red de referencia es sin duda alguna la que corresponde a este género de analizadores. Sin énimo de ser exhaustivos ni precisos comentaremos una red simplificada donde tan sélo incluimos algunos de los analizadores més relevantes (Ver figura 2.5). Partimos del esquema CYK que utiliza una estrategia ascendente pura donde la lec- tura de la cadena de entrada es en una sola direccién aunque dicha lectura puede empezar 36 aptuto 2, Anatisis sintctico por cualquiera de sus simbolos. Este método tiene como limitacién que sélo es aplicable a ‘gramdticas independientes del contexto en forma normal de Chomsky. Al generalizar di- cho método para que su aplicacién cubra cualquier gramatica independiente del contexto, obtenemos el esquema buE que no ¢s sino una versiin ascenclente det método de Barley. Podemos reducir el nximero de items deducidos por el esquema buE, si, atin manteniendo la lectura de izquierda a derecha, ésta se efectiia desde el principio hasta el final de la cadena de entrada, Para conseguirlo efectuamos un filtro que incluird informacién descendente (prediccién), lo que nos conduce al esquema Earley. Podemos obtener una versién més econémica de este iiltimo método si comprimimos la etapa de prediccién. Para conseguirlo almacenamos la informacién relacionada con el elemento situado més a la izquierda de cada produceién, es decir su esquina izquierda, De este modo, al efectuar una prediceién descendemos directamente a través de las esquinas izquierdas de cada produccién, Esta estrategia nos conduce al esquema LC, que a su vez, puede ser considerado una versién especializada del esquema basado en nticleos HC en donde se refina el concepto de esquina. En este caso, la esquina - ala que se denomina miicleo - no necesariamente debe ser el s{mbolo situado més a la inquierda en Ja produccién. La eleccién del micleo, vendré motivada por razones lingiiisticas, Para establecer con mayor rigor la relacién entre los esquemas LC y HC disponemos del esquema dVH definido a partir del método descrito por de Vreught y Honig. Los dos esquuemas anteriores pueden ser considerados una contraccién de este dltimo esquema donde se incorpora informacion descendente. El esquema dVH utiliza una estrategia ascendente donde el reconocimiento puede comenzar sobre cualquier posicién de la cadena de entrada y donde la lectura se efectiia en ambos sentidos: es decir, tanto de izquierda a derecha como derecha a inquierda, Informalmente, si restringimos la lectura para que sea en un sélo sentido de izquierda a derecha nos conduciré al esquema de la esquina izquierda y si seleccionamos, los simbolos por donde se empezaré el reconocimiento (micleos) obtendremos una version basada en micleos. La red original para graméticas independientes del contexto puede ser entiquecida me- diante otros esquemas intermedios cuyo interés es més tebrico que préctico ya que sirven de nexo para relacionar otros esquemas més destacados. Un ejemplo de esta clase de anal- izadores es el esquema AVHO, al que podemos considerar una versién poco elaborada del ‘esquema dVH, cuya utilidad es relacionar las estrategias utilizadas por los esquemas dVH_ y buE. Capitulo 3 Gramaticas de adjuncién de arboles in este capitulo introduciremos las gramaticas de adjuncién de drboles discutiendo al mismo ticmpo las semejanzas y diferencias que existen entre cllas y las graméticas independientes del contexto. En primer lugar, daremos una definicién rigurosa de dichas graméticas y presentaremos sus propiedades computacionales més destacadas. En segundo lugar, veremos qué ventajas aportan a la hora de ser aplicadas al tratamiento lingiiistico, Finalmente, -veremos distintos formalismos estrechamente relacionados con esta clase de graméticas 3.1 Definicién de gramatica de adjuncién de arboles Una gramética de adjuncién de Arboles [Joshi et al..75] se define a través de un conjunto de arboles denominados elementales y una operacién de reescritura de arboles denominada adjuncién, Al comparar las gramaticas de adjuncién de arboles con las graméticas chom- skianas nos encontramos con una diferencia significativa. Las gramaticas chomskianas son un sistema de reeseritura de cadenas y sus estructuras elementales de derivacién son las pro- ducciones. Por contra, las graméticas de adjuncién de érboles son un sistema de reescritura de frboles. En [Carrillo et al., 98b] se incluye una introduccidn a esta clase de gramaticas y algunos de sus formalismnos relacionados. Podemos considerar que las producciones, estamos ahora pensando en las gram independientes del contexto, son efectivamente arboles cuya altura es la unidad. Puesto que no existe restriccidn alguna sobre Ja altura de los arboles elementales, el dominio de localidad que aportan las estructuras elementales de las gramaticas de adjuncién de arboles es mayor. Como veremos posteriormente, esta caracteristica va a traer consigo una serie de ventajas al aplicar estas graméticas en el contexto del procesamiento del lenguaje natural. Definicién 3.1 Una gramética de adjuncién de drboles G viene dada por (Vr, Vir, 1A) donde Vr y Vv son, respectivamente, alfabetos disjuntos de simbolos terminales y no ter- 37 BB Capitulo 8. Gramaticas de adiuncidn de drtoles LAAA AA Figura 3.1: Ejemplo de gramética de adjuncién de arboles minales, S € Vy es el simboto azioma de la gramética y, finatmente, (UA) € ry es un conjunto finito de drboles denominados elementales donde V = Vp U Vw U {¢} Los Arboles en J se denominan arboles iniciales. Los érboles en A se denominan Arboles auxiliares. Por convenio, usaremos la letra griega a para referimos a los arboles iniciales, 8 para referirnos a los érboles auxiliares y 7 para arboles elementales en general. Las ‘mencionadas letras griegas podrén ser decoradas con simbolos adicionales, si procede, Las gramaticas de adjuncién de Arboles imponen una serie de restricciones sobre las etiquetas de los nodos en los arboles elementales: ‘* la raiz en los Arboles iniciales estard etiquetada con el axioma, y las hojas estaran etiquetadas con terminales 0 la palabra vacia ¢. Formalmente, si a € I entonces ¥(a) € Vf y a(0) =$ * La rats de los arboles auxiliares puede estar etiquetada con cualquier simbolo no ter- minal. Las hojas estardn etiquetadas con terminales o la palabra vacfa salvo un nodo - denominado nodo pie - cuya etiqueta debe coincidir con la de su raiz, Es habitual decorar el nodo pie de un érbol auxiliar mediante el simbolo asterisco. Formalmente, si f € Ay (0) = X entonces X € Vw y Y(8) € VANVE * los demas nodos de los arboles elementales estaran etiquetados con simbolos no ter~ minales Ejemplo 3.1 Un ejemplo seria la gramdtica G = ({a, b}. {$,T},$, {ar, a2}, {81, 82}) euyos drboles son descritos en la figura 3.1. Si 8 es un drbol auxiliar cuya rafz (y por tanto, cuyo nodo pie) est etiquetada con el no terminal X, diremos que es un X-drbol auxiliar, De forma andloga hablaremos de X-Arbol inicial, cuando la raiz de un drbol inicial esté etiquetada con el no terminal X. El camino ‘que nos conduce desde Ia raiz hasta el nodo pie de un drbol auxiliar se denomina espina. La espina de un Arbol auxiliar delimita dos regiones dentro del mismo. Denominamos contexto 39 3.1. Definicion de gramétiea de adjuncién de érboles Y0.,0.8,) .- YVI2,Bal g é Figura 3.2: Operacién de adjuncién inquierdo (resp. derecho) de un arbol auxiliar a la regién del arbol constituida por aquellos nodos que se encuentran a la izquierda (resp. a la derecha) de los nodos situados en la espina, La operacién de adjuncién involuera un Arbol auxiliar 8 y un nodo con direceién p de ‘un arbol 7 cuya etiqueta coincida con la etiqueta de la raiz del auxiliar. Graficamente, la adjuncién consistira en podar el subdrbol de 7 respecto a p, incorporar un nuevo ejemplar de &rbol auxiliar 8 haciendo coincidir la raiz. de 8 con el nodo donde se ha provocado la, poda -el nodo con direccién p- y, finalmente, colgar del nodo pie de 8 el subérbol podado (Ver figura 3.2). Por tanto, el efecto inmediato de adjuntar un drbol auxiliar en un nodo de un Arbol, es dividir este tiltimo en un superérbol y un subérbol respecto al nodo donde se adjunta, Definicién 3.2 Derimos que 6 € A puede ser adjuntado en el nodo con direccidn p € D, de un drbol y € ry si se cumple que 7(p) = 8(0). En general, en una gramética de adjuncién de érboles podemos encontrarnos con un niimero indeterminado de Arboles auxiliares que cumplan esta condicién. Representaremos mediante Adj(7,p) el conjunto de arboles auxiliares que se pueden adjuntar en el nodo con direccién p del arbol 7. Definicién 3.3 Sea 6 € Adj(7,p) y supongamos que q es la direccién del nodo pie de B. El resultado de la adjuncién de 8 en el nodo con direccién p de, es ef drbol [p, 8] € 7 definido mediante: p.8] = \p Up BU (pa) (rip) donde By = {0a X) |X) € 1} 4g Capitulo 9. Gramaticas de adjuncién de drbotes Definicién 8.4 Dada una gramética de adjuncién de drboles G = (Vr,Vn.S,T,A) v7 € av usaremos la notacién y te 7 si y sdlo si existe algin § € A y algin p € D, con BE Adj(y,p), tal que se cumple que >’ = y[p,/5]. Decimos que 7! es un drbol derivado a partir dey. Denotaremos mediante +7; la claususa refleziva y transitiva de tc. \Veremos ahora qué entendemos por lenguaje y conjunto de drboles para una gramética de adjuncién de Arboles. El conjunto de rboles seran todos aquellos arboles derivados a partir de un 4rbol inicial de la gramética. El lenguaje seré todas las palabras formadas por la cosecha de todos los arboles incluidos en el conjunto de Arboles. Definicién 3.5 Sea G = (Vr,Vir,$,I,A) una gramética de adjuncién de drboles, el con- junto de drboles de G se define como: T@) 2 {yen |3a€T:aty } Definicién 3.6 Dada una gramética de adjuncién de drboles G = (Vr,Vy,S.1,A), eb lenguaje de G se define como: L(G) = {w € Vj |w = (7) cony€ T(G)} Ejemplo 3.2 El lenguaje descrito por la gramdtica G de Ia figura 3.1 se corresponde con L(G) = {a"b"|n > 0} 3.2 Caracterizacién de la adjuncién En primer lugar veremos la capacidad de descripeién recurrente que aporta la estructura de los Arboles auxiliares. Efectivamente, si § € Adj(7,p) entonces y[p.3](p) = 7(p) = 8(0) y por tanto 8 € Adj(7[p, 8],p). Denotaremos mediante y{p, 8)" la adjuncién n-ésima de 8 en Ia direccién p de +, dado ip, 8) = 7. En segundo lugar, mostraremos la diferencia existente entre la operacién de adjuncién y sustitucién, Supongamos que 8 € Adj(7,p), supongamos que la cosecha de + es de la forma ‘wow, € Vit donde la cosecha del subarbol 7/p es justamente w. Sea, ademas, w,Xwr la cosecha de! X-Srbol auxiliar 8, donde wy € Vj. (resp. wr € V7) es la cosecha relacionada, ‘con su contexto izquierdo (resp. derecho). Entonces la cosecha (Ver figura 3.3) asociada al 4rbol resultante de la adjuncidn de 8 en Ia direecién p de 7 seria de la forma: wowzwwnt. ‘Vemos pues, que la adjuncién puede considerarse como una sustitucién combinada del par de cadenas (wz, wa) a la izquierda y derecha respectivamente de la cadena w. Si alguna cadena del par anterior fuera la cadena vacfa, la cadena resultante de la adjuncidn seria. similar a la obtenida tras una sustitucién simple. Intuitivamente, esta complejidad adicional va a conducirnos hacia un formalismo con capacidad de reconocer una clase de lenguajes estrictamente mayor de la reconocida por las gramdticas independientes del contexto. En [Ménnich, 97] se caracteriza algebraicamente la operacién de adjuncién como una operacién de sustitucién de segundo orden, 9.2. Caracterizacién de la adjunctén 41 Figura 3.3: Esquema de una operacién de adjuncién Lx. LS AS BE Ar /\e /\e" Ay Figura 3.4: Composicién de operaciones de adjuncién Finalmente, veremos qué efectos produce la composicién de operaciones de adjuncién en la construccién de los arboles derivados. Supongamos que 3 € Adj(7,p) y que efectuamos Ia adjuncién de f en el nodo con direeciGn p de +. Si realizamos una nueva adjuncién de un Arbol auxiliar ’ en un nodo q del arbol derivado anterior, considerando que dicho nodo q procede del drbol # adjuntado, nos podemos encontrar con varios casos (Ver Figura 3.4) « Caso 1: Bl nodo con direccién q no pertenece a la espina de 3. Existen dos subarboles podados 7/p y 3/4, pero ninguno es subétbol del otro. ‘© Caso 2: El nodo eon direccidn q es un nodo de la espina de 6 distinto del nodo pie o rate. Existen dos subérboles podados 7/p y #/q de forma que el primero es estrictamente un subarbol del segundo. ‘© Caso 3: El nado con direccién q ¢s la raiz o el pie del arbol 8. Podemos interpretar que existe realmente un solo subarbol podado 4/p ya que los érboles auxiliares 9 y 6" estan encadenados. E| iiltimo caso conduce a una ambigiiedad cuando 8 y A! son el mismo arbol auxiliar, ya que obtenemos un mismo Arbol derivado, pero no sabemos si se ha obtenido adjuntando sobre la rafz o sobre el pie. En general, un arbol derivado no es suficiente para poder establecer 42 Capitulo 8. Gramaticas de adjuncién de arboles de forma clara las operaciones de adjuncién realizadas para obtenerlo. Esto conduce a la definicién de arbol de d in donde se recogeré esta informacién con mayor nitidez [Viiay-Shanker, 88]. Una vez més, vemos las diferencias existentes entre las gramiticas de adjuncién de arboles y las graméticas independientes del contexto. En estas tiltimas no existe distincién entre el concepto de arbol derivado y Arbol de derivacién. 3.3 El concepto de arbol Las graméticas de adjuncién de érboles dan una gran importancia al concepto de arbol. ‘Tanto es asi, que estas graméticas presentan tres clases de drboles. Veremos a continuacién con més detalle cada una de las distintas clases. 3.3.1 Arboles elementales Los drboles elementales son los que nos permiten la descripeién de los lenguajes. Hemos visto que los drboles elementals se dividen en iniciales o auxiliares segiin la etiqueta asociada a sus nodos. Los drboles iniciales se corresponden con las estructuras basicas de descripcién, frente a los Arboles auxiliares que se corresponden con las estructuras recurrentes. Veremos ahora, una clasificacién més detallada de los arboles elementales (Ver figura 3.5): « Arbol inicial nulo: aquel inicial cuya cosecha es € « Arbol inicial propio: aquel inicial cuya cosecha es Vit # Arbol auxiliar nulo: aquel auxiliar cuya cosecha es X, siendo X la etiqueta de su nodo pie «© Srbol auxiliar propio: aquel auxiliar euya cosecha es Vit XVjt, siendo X la etiqueta de su pie ‘© 4rbol auxiliar izquierdo: aquel auxiliar cuya cosecha es Vit X, siendo X la etiqueta de su pie ‘ rbol auxiliar derecho: aquel auxiliar cuya cosecha es XVj? siendo X la etiqueta de su pie. Es obvio que un Arbol elemental pertenece exchisivamente a una de las anteriores cat~ egorias. Segtin esta clasificacién, exigiremos que una gramética de adjuncién de arboles no incluya ningtin drbol auxiliar nulo, ya que de esta forma evitamos que la gramética sea infinitamente ambigua. Podemos también observar que la clasificacién no impone ninguna restriceién sobre la estructura interna del érbol. Por tanto, un érbol auxiliar izquierdo puede contener nodos ‘en su contexto derecho siendo Ia cosecha de dicho contexto nula, De forma andloga sucede con los arboles ausiliares derechos respecto a su contexto inquierdo. 43, 3.8. El concepto de érbot NALRASZ SEA! LYS Figura 3.5: Clasificacién de arboles elementales Denominaremos rbol auxiliar izquierdo estricto a un &rbol auxiliar izquierdo cuyos Xinicos nodos en su contexto derecho sean los nodos de la espina. De forma anéloga, denom- inaremos arbol anxiliar derecho estricto a un Arbol auxiliar derecho cuyos tinicos nodos en su contexto izquierdo sean los nodos de la espina, 3.3.2 Arboles derivados Los Arboles derivados son obtenidos tras efectuar operaciones de adjuncién. Si partimos de un Arbol inicial perteneciente a una gramatica de adjuncién de rboles G y efectuamos un niimero indeterminado de operaciones de adjuncién sobre los distintos arboles obtenidos, todos los arboles resultantes, incluido el inicial, pertenecerdn al conjunto de arboles T(G). Puesto que la cosecha de los érboles iniciales son sentencias, la cosecha de los arboles deriva- dos a partir de ellos seran también sentencias. Es decir, todo arbol derivado a partir de un 4rbol inicial tiene forma de érbol inicial. Segiin la definicién de adjuncién, no necesariamente se exige que un arbol auxiliar se adjunte en nodos de Arboles derivados a partir de un inicial, Bajo esta perspectiva, podemos considerar la adjuncién de un auxiliar en un nodo de otro rbol auxiliar. Bs de destacar que los drboles derivados a partir de un arbol auxiliar tendrén también forma de arbol auxiliar. Aunque estos érboles nunca pertenecerdn al conjunto de drboles de una gramética de adjuncién de drboles, si van a prestar un servicio destacado a la hora de simplificar la notacién mediante la cual determinamos cémo han sido obtenidos los arboles derivados. Si no somos ortodoxos, podemos considerar que una adjuncién no sélo pueda ser efectuada por un érbol auxiliar sino que también pueda ser efectuada por arboles derivados a partir de un auxiliar. Admitiendo la anterior revisién, podemos considerar que un érbol derivado en el conjunto 44 Capitulo 8, Cramaticas de aitjuncién de drboles T(G) es obtenido adjuntando un érbol auxiliar, o derivado de un auxiliar, en algyin nodo de un érbol elemental. El siltimo drbol elemental donde se adjunta deberd necesatiamente ser, ademés, inicial. De esta forma, es facil saber la direccién del nodo donde se adjunta ya que se corresponde justamente con la direccién del drbol elemental donde se realiza la adjuncién. 3.3.3 Arboles de derivacién Los Arboles derivados no aportan suficiente informacién acerca de cémo han sido construi- dos. Para resolver este problema se introduce una nueva clase de érboles, denominados de derivacién, donde se mostraré la historia de las operaciones de adjuncién realizadas. Seguire- ‘mos el convenio anterior de que los érboles derivados son fruto de adjuntar un arbol auxiliar © derivado de un drbol auxiliar en un drbol elemental. Un érbol de derivacién tendra la siguiente forma (Ver figura 3.6): * La rafx del arbol estaré etiquetada con el nombre de tin érbol inicial. # Todos los dems nodos - es decir, todos menos la raiz - estardn etiquetados con nombres de arboles auxiliares. * Si un drbol auxiliar ha sido adjuntado en la direccién p de un arbol elemental 7, entonces el nodo etiquetado con + en el drbol de derivacién dominaré directamente al nodo etiquetado con 8. Ademés, en este caso el nodo f estaré decorado con la direccién p de 7. « La precedencia lineal en el arbol de derivacién no es significativa ya que no esté per- mitida la adjuncién de dos arboles auxiliares en un mismo nodo. Por consiguiente, el orden de las operaciones de adjuncién efectuadas sobre un mismo drbol elemental os irrelevante. 3.4 Restricciones locales en la adjuncién Una gramética de adjuncidn de arboles con restricciones locales es una gramética de adjun- cién de arboles G donde se especifica para todo nodo etiquetado con un simbolo no terminal de cada arbol elemental ¥en G una y s6lo una de las siguientes restricciones: 1. Adjuncién selectiva (Selective Adjunction, SA): Sélo un arbol auxiliar incluido en un subconjunto no vacfo CC Adj(7, p) puede ser adjuntado en un nodo con direccién p de 7. El nodo seré decorado con el subconjunto C. Ahora bien, si Ces igual a Adj(y.p), centonces estamos evitando de hecho el exigir restricciones locales sobre dicho nodo. Si ‘ese es el caso, podemos obviar la decoracién del nodo. 2. Adjuncién nula (Null Adjunction, NA): Ningiin érbol auxiliar podré ser adjuntado en un nodo que presente dicha restriccién. Denotaremos esta restriecién decorando dicho 3.4. Restriceiones locales en la adjuncién — «8 ' 5 : s a ‘\ A / \ a N i \4 ¥ . / an y A bevone \ eas y 8 Figura 3.6: Arbol de derivacién B,: S {B,) 2 s NA € e Ss a +s b Figura 3.7: Restricciones de adjuncién nodo con NA o D. Es frecuente exigir esta clase de restriceién sobre los nodos pie de los Arboles auxiliares, ya que de esta forma evitamos la ambigtiedad presente al adjuntar sobre el nodo pie o la ratz 3. Adjuncién obligatoria (Obligatory Adjunction, OA): Al menos un érbol auxiliar de los pertenecientes al subconjunto no vacio C C Adj(y,p) debe ser adjuntado en el nodo en cuestién. Esta restriccién seré expresada decorando el nodo mediante OA, si C = Adj(7,p), 0 bien mediante OA(C) en caso contrario, Ejemplo 3.3 La gramdtica de la figura 3.7 es un ejemplo de gramética de adjuncién de drboles con restricciones locales. Es evidente que la clase de gramaticas de adjuncién de arboles sin restricciones locales es un subconjunto de la clase de gramaticas con restrieciones locales. Basta con asociar a todos los nodos una restriccién de adjuncién selectiva constituida por todos los arboles auxiliares que pueden ser adjuntados en cada uno de ellos. Sin embargo la utilizacién de restricciones 46 Capitulo 9. Graméticas de adjumcidn de drbotes L, LN “s™ a sm > Figura 3.8: Gramética para el lenguaje copia locales va a permitir aumentar los lenguajes reconocidos por las graméticas de adjuncién de arboles. Ejemplo 3.4 El conocido lenguaje dependiente del contevto copia L = (wew| w € {a,}+} ssdlo puede ser reconocido si introducimos restricciones de adjuncién. La gramdtica de la figura 3.8 reconoce dicho lenguaje. Las restricciones también van a ser un apoyo importante a la hora de caracterizar propiedades computacionales. Podemos considerar que al hablar de graméticas de adjuncién de Arboles, en la mayoria de los casos, damos por hecho la utilizacién de restricciones locales. Al adjuntar un drbol auxiliar en un nodo debemos actualizar las restricciones locales del ‘irbol derivado resultante. La forma en que lo haremos es la siguiente: si un érbol auxiliar 6 satisface las restricciones de adjuncién, al ser adjuntado en un nodo con direccién p de un Arbol (elemental o derivado) 7, los nodos del érbol derivado resultante 7’ presentar’in las siguientes restricciones: '* los nodos de 7 procedentes de 7 -salvo el propio nodo donde se ha efectuado la ad- juncién- mantendrén las mismas restrieciones locales que presentaba el érbol 7. ‘* los nodos de! procedentes de -incluido el nodo pie y rafz- mantendrén las mismas restricciones locales que presentaba el arbol 8. Ejemplo 3.5 La figura 3.9 muestra un drbol derivado para la graméticn que reconoce el lenguaje copia de la figura 3.8. El érbol ha sido obtenido adjuntando 5 en el nodo con direccién 2 de 81, y posteriormente, el drbol auritiar derivado resultante ha sido adjuntado en la direccién 0 del érbol inicial a. Las restricciones locales también exigen revisar la definicién de conjunto de arboles y enguaje. Sea G una gramética de adjuncién de Arboles con restricciones locales. El conjunto de Arboles de G, denotado T(G), se define como el conjunto de Arboles derivados a partir de un érbol inicial mediante un mimero indeterminado de operaciones de adjuncién siempre 8.5, Propiedades computacionales — a b s /\ Figura 3.9: Derivacién de Arboles con restricciones locales que, por un lado, se respeten las restricciones de adjuncién impuestas por la gramética y, por otro lado, el érbol derivado no incluya ningtin nodo con una restriccién de adjuncién. obligatoria, Bl lenguaje de G, denotado L(G), se define como la cosecha de todos los érboles incluidos en T(G) 3.5 Propiedades computacionales Las propiedades computacionales que presentaremos a continuacién se refieren tanto al con- junto de Arboles T(@) como a los lenguajes L(G) de una gramatica G incluida en la clase de gramaticas de adjuncién de Arboles con restricciones locales. Debemos indicar que a gunas de las propiedades que enunciaremos no requieren de restricciones locales para su cumplimiento, Existe un ntimero importante de propiedades [Vijay-Shanker y Joshi, 85] que son com- partidas tanto por los lenguajes independientes del contexto (CGL, Context-Fre Languages) ‘como por los lenguajes de adjuncién de arboles (TAL, Tree Adjoining Languages). En este sentido, son cerradas las operaciones siguientes: uniGn, interseccién, concatenacién, clausura estrella, sustitucién, homomorfismo y homomorfismo inverso. También se ha demostrado 48 apituto 8. Grarmaticas de adjuncidn de drboles que la interseccidn de un lenguaje de adjuncién de arboles con un lenguaje regular es un Ienguaje de adjuncién de arboles. En resumen, los lenguajes de adjuncién de drboles se car- acterizan por ser una familia abstracta y completa de lenguajes. También ha sido descrito un Iema del bombeo similar a los presentes en los lenguajes regulares e independientes del contexto, Existen dos propiedades interesantes desde el punto de vista lingiisticos que, al igual que los lenguajes independientes del contexto, son cumplidas por los lenguajes de adjuncién de arboles: la capacidad de ser procesados en tiempo polinémico y el cumplimiento de la propiedad de crecimiento constante. Ambas propiedades vienen motivadas por la intuicién de que las personas tardan un tiempo polinémico en comprender las oraciones y que el tamafio de éstas crece de forma lineal. También han sido definidos diversos autématas para el reconocimiento de lenguajes de adjuncidn de arboles. La mayoria de ellos se basan en extensiones de autématas de pila, manifesténdose, otra vez més, la enorme influencia que tiene la teoria relacionada con las graméticas independiente del contexto en los resultados obtenidos para las gramaticas de adjuncién de arboles. La saga comienza con una extensién del autémata de pila (EPDA, Embeeded Push Down Automata) donde los elementos de la pi- la son, a su vez, pilas [Vijay-Shanker, 88]. Posteriormente, en [Schabes y Vijay-Shanker, 90] se introduce una versién ascendente del autémata anterior (BUEPDA, Bottom-Up Embed- ded Push-down Automata). ‘Tras la presentacién de un modelo [Becker, 94] basado en dos pilas 2-SA (2-Stack Automata), han aparecido diversos trabajos dedicados a la definicién de mnevos antématas. Por una parte estarfa el modelo propuesto por los autores Clergerie y Alonso ([Clergerie y Alonso, 98}, [Clergerie et al., 98), [Alonso et al., 99]), que presentan el automata SD-2SA (Strongly Driven 2-SA) donde se generaliza el autémata de Becker para poder adoptar bajo un mismo modelo las estrategias ascendentes y descendentes. Por otra parte, estaria el modelo propuesto por Nederhof ([Nederhof, 98b], [Nederhof, 99]) que define el auiémata LIA (Linear Indexed Automata) ‘También podemos enunciar las siguientes propiedades para el conjunto de arboles T(G) de una gramética de adjuncién de Arboles G: el conjunto de todos los caminos incluidos en T(G) es un lenguaje independiente del contexto y ademés el propio T(G) puede ser reconocido en tiempo polinomial, siendo en el peor de los casos de orden O(n®), donde n es el niimero méximo de nodos incluidos en un Arbol elemental. Aqu{ se muestra otra importante diferencia respecto a las graméticas independientes del contexto, ya que el conjunto de los ‘caminos incluidos en el conjunto de Arboles de una gramética independiente del contexto es un lenguaje regular. Antes de caracterizar de forma precisa el lugar que ocupan las gramdticas de adjuncién de Arboles dentro de la jerarquia de Chomsky, matizaremos la definicién de equivalencia centre graméticas, Definicién 3.7 Diremos que dos graméticas son equivalentes en sentido débil cuando los lenguajes que reconocen ambas son iguales. Diremos que son equivalentes en sentido fuerte 8.5, Propiedades computacionates 49 fo} A JN Figura 3.10: Gramética para el lenguaje ab ‘cuando lo son en sentido débil, y ademds, para cada palabra perteneciente a sus lenguajes, ‘ambas aportan la misma deseripcién estructural. En el contexto de las gramaticas de adjuncién de rboles y de las graméticas indepen- dientes del contexto, la deseripcién estructural de una palabra no es otra que su érbol derivado, Propiedad 3.1 Dada una gramdtica de adjuncién de drboles Grac nos podemos encontrar en una de las siguientes situaciones [Joshi, 87): '* L(Grac) es independiente del contesto y existe una gramética independiente del con- teato Gore equivalente a Grac en sentido fuerte y, por tanto, en sentido débil. © L(Grac) es independiente del contexto y no existe una gramética independiente del contexto Gora que sea equivalente en sentido fuerte a Grac, aunque si lo pueda ser en sentido débil © L(Grac) es estrictamente dependiente del contezto. Ejemplo 3.6 La gramética de la figura 3.10, G = ({a,b,e},{$},S, {a}, {8}) reconoce el lenguaje independiente del contexto L(G) = {aeb" |n > 1} pero, sin embargo, se demuestra que sus drboles derivados no pueden ser obtenidos mediante wna gramética independiente del contezto. Ejemplo 3.7 La gramética de la figura 3.11, G = ({a,b,¢,d,¢},{S},S, {a},{3}) genera et lenguaje dependiente del contexto L(G) = {a"b"ec"d" | 1 < n}. Por tanto, los lenguajes independientes del contexto son un subconjunto estricto de los lenguajes de adjuncién de arboles. Sin embargo, es conocido que los lenguajes de adjuncién de Arboles son un subconjunto de los lenguajes indexados (IL, Indezed Languages), que a ‘su ver. estn contenidos en los lenguajes dependientes del contexto (CSL, Contest Sensitive Languages). 50 Capitulo 8, Gramations de adjuncin de drbotes Ors Be gm ° « Ss o4 é z Figura 3.11: Gramética para el Ienguaje a"b"ec"d” Propiedad 3.2 CFL C TAL C IL CSL Este resultado ha dado lugar a diversos trabajos con un doble cometido: por un lado, caracterizar la subclase de gramaticas de adjuncién de arboles que reconoce estrictamente los Ienguajes independientes del contexto ([Rogers, 94], [Schabes y Waters, 95]), y por otz0 lado, establecer formalmente las caracteristicas que separan a los lenguajes independientes del contexto y de adjuncién de érboles ([Ménnich, 97], [Rogers, 97], [Rogers, 98}} 3.5.1 Gramdaticas débilmente dependientes del contexto La intuicidn de que existia un conjunto de formalismos que compartian algunas de las propiedades cmunciadas anteriormente para las gramaticas de adjuncién de arboles, ha dado origen a la definicién de una clase de gramaticas denominadas débilmente dependientes del contexto (MCSG, Mildly Context Sensitive Grammars) ([Joshi et al., 91], (Weir, 88). En [Ortega, 96] se hace un estudio general de las caracteristicas de estos formalismos. Dentro de este grupo es obligado citar también a las graméticas nucleares (HG, Head Grammars) ((Pollard, 84}, (Roach, 87]), las gramatica lineales indexadas (LIG, Linear Indered Gram- mars) ({Duske y Parchmann, 84), (Gazdar, 85)), y las gramticas categoriales combinatorias (COG, Combinatorial Categorial Grammars) ([Steedman, 87], [Steedman, 90]).. Puesto que los lenguajes naturales no son dependientes del contexto, la propuesta de Joshi es que las gramaticas débilmente dependientes del contexto podrian ofertar los requi- sitos mfnimos necesarios para caracterizar de forma completa los lenguajes naturales. En este sentido, estas graméticas deberian reconocer un clase de lenguajes que incluya es- trietamente tanto os lenguajes independientes del contexto como algunos que permiten modelar ciertas clases de dependencias anidadas y cruzadas presentes en algunas lenguas naturales. Baséndose en criterios psico-lingiifsticos, los lenguajes incluidos en esta clase de- berfan cumplir la propiedad de crecimiento constante y deberian poder ser reconocidos en tiempo polinomial. 5.6. Aspectos lingisticos 5 3.6 Aspectos lingiiisticos Précticamente desde que fueron introducidas las gramaticas de adjuncién de arboles qued6 patente que algunas de sus caracterfsticas podian ser aprovechas para el reconocimiento de lenguajes naturales. Gran parte de estas ventajas procedian del dominio de localidad extendido y la factorizacién de la recursi6n presentes en los arboles elementales. Un beneficio adicional seria la naturaleza lexicalizada de estas graméticas ya que los étboles elementales exigian la presencia de simbolos terminales - estamos ignorando, ahora, los arboles iniciales © auxiliares nulos- Al aplicar estas gramaticas al reconocimiento de lenguajes naturales, los arboles iniciales se corresponden con estructuras lingtiisticas mfnimas (oraciones simples) mientras que los Arboles auxiliares también se corresponden con estructuras lingiisticas minimas pero con una faceta recurrente adicional (adjuntos de oraciones). El dominio de localidad extendido permite que dentro de un solo drbol elemental se puedan establecer dependencias como la concordancia, subcategorizacién o la presencia de huecos-rellenos. La factorizacién de la recursin permite modelar de forma natural dependencias de larga distancia, ya que son el resultado de la expansién de estas dependencias locales al aplicar la adjuncién sobre drboles auiliares. En sucesivas etapas se fueron afadiendo algunos detalles que no modificaban sustan- cialmente el formalismo original pero si lo dotaba de mayor flexibilidad para representar fenémenos lingiiisticos. De este modo surgen la operacién de sustitucién, el concepto de ancla y la incorporacién de las graméticas de adjuncién de érboles dentro de los formalismos basados en unificacién, 3.6.1 La sustitucién La operacién de sustitucidn [Abeille, 91] en las graméticas de adjuncién de arboles es similar ‘a la operacién de sustitucidn en las graméticas independientes del contexto. Ahora, sin embargo, la sustitucién se realiza entre drboles en vez. de producciones. Antes de proceder in, debemos hacer un inciso respecto a la propia definicién de graméticas de a su defini adjuncién de arboles: ‘ permitiremos que la raiz de los Arboles iniciales esté etiquetada con el axioma o cualquier otro simbolo no terminal « as etiquetas de los nodos en las hojas de los érboles elementales podrn también ser no terminales. Estos nodos, que denominaremos nodos sustitucién, estar’in decorados mediante J. Gréficamente, la operacién de sustitucién consiste en colgar un nuevo ejemplar de un Arbol inicial dentro de un nodo marcado para sustitucién de otro arbol, siempre que la etiqueta no terminal del érbol inicial coincida con la etiqueta del nodo sustitucién (Ver figura 3.12). Capitulo 2. Graméticas de adjuncién de drboles ¥ 4%: Figura 3.12: Operacién de susti Definicién 3.8 Decimos que a € I puede ser sustituido en el nodo, marcado para sustitu- cin, con direceién p de un érbol ~ € ry si se cumple que a(0) = 1p) De forma andloga a la operacién de adjuncién, en una. gramtica de adjunciéa de érboles podemos encontrarnos con un mimero indeterminado de érboles iniciales que pueden ser tuidos en un nodo. Denotaremos mediante Sus(7,p) todos aquellos drboles iniciales sust ‘que puedan ser sustituidos en el nodo con direccién p del Arbol +. Definicién 3.9 Sea a € Sus(y,p). Bl drbol resultante 9! € ry de sustituir a en el nodo con direccién p de marcado para sustitucién, se define de la siguiente forma: YsyuUp-a Los nodos marcados para sustitucién presentan una restriceién local de adjuncién nula, Podemos hablar, en un sentido amplio, de restricciones locales respecto a la operacién de sustitucin aunque éstas serdn implicitas. Todo nodo no matcado para sustituci6n presentaré una restriccién mula mientras que los nodos marcado para tal fin, presentan una restriccién de sustitucién obligatoria. constituida por todos los Arboles iniciales que puedan ser sustituidos en él. La construcci6n de érboles derivados no se ve sustancialmente alterada por la introduc- cién de la operacién de sustitucién, salvo que ahora han de tenerse en cuenta también las restricciones impuestas por la operacién de sustitueién, Con objeto de introducir esta op- eracién en los Arboles de derivacién ampliaremos la notaci6n de la siguiente forma (Ver figura 3.13): admitiremos que los nodos que no son rafces puedan estar ctiquetados con nombres de rboles iniciales y la conexién entre nodos involucrados en una operacién de sustivucién seré realizada mediante una linea discontinua, El conjunto de Arboles derivados y el lenguaje de una gramética de adjuncién de érboles, donde se permite la sustitucién, queda restringido a aquellos rboles derivados a partir de ‘S-drboles iniciales, donde se respetan las restricciones de adjuncién y sustitucién, siempre que no presenten restrieciones de adjuncién 0 sustitucién obligatorias. 38.6. Aspectos lingiisticos a. B ’ INP VP OVP kw NPP Ona | J/\ Arbol de deivacon a moo an VP kw a | ne ene ae Arbot devvado Se puede demostrar que una sustitueién puede ser simulada mediante una adjuncién, Por tanto, esta operacién no aporta ninguna propiedad computacional a las graméticas de adjuncién de érboles. Si este es el caso, cabria pensar para qué necesitamos la operacién de sustitueién, La motivacién como veremos es doble y tiene esencialmente un origen lingiifstico. Primero, al introducir los nodos sustitucidn se reduce drésticamente el rimero de arboles elementales necesarios para la descripcién de un lenguaje natural. Efectivamente, los ar- gumentos de una oracién (sujeto, objeto directo, etc) pueden ser representados de forma independiente mediante arboles iniciales. Segtin el caso conereto serén introducidos en la derivacién mediante la operacién de sustitucién. Segundo, la equivalencia obtenida al mod- clar una sustitucién mediante una adjuncién es débil, lo que daria lugar a arboles derivados sin una motivacién lingiifstica clara. 3.6.2 Lexicalizacién y el concepto de ancla En la lingiiistica computacional existe una corriente que tiende a dar gran importancia a la informacién léxica debido a la influencia que ejerce en los demds niveles del lenguaje. Este nuevo escenario ha sido propicio para desviar hacia el componente léxico ciertos aspectos que anteriormente eran contemplados en el componente sintdctico y, de camino, para estudiar la rentabilidad computacional que aportaba esta desviacién. Las graméticas de adjuncién de ‘Arboles pueden ser encuadradas de forma clara dentro de esta corriente debido a su cardcter lexicalizado. Una gramitica esté lexicalizada [Schabes, 90] si consta de: 1. un conjunto finito de estructuras, cada una de ellas asociada con un elemento léxico pd Capitulo 8, Graméticns de adjuncién de érboles 2. un conjunto de operaciones para la composicién de las anteriores estructuras, Como restrieciones adicionales hay que imponer que el tamaiio de dichas estructuras sea finito y que las operaciones conduzcan también a un niimero finito de resultados. Estas imposiciones nos garantizan, por na parte, que las graméticas lexicalizadas sean finitamente ambiguas, es decir, que toda sentencia finita puede ser analizada mediante un mimero finito de formas. Y, por otra, que ¢l reconocimiento de una oracién sea un problema decidible. Enel contexto de las gramaticas de adjuncién de érboles las estructuras serdn logicamente los arboles clementales. Para que una gramética de adjuncién de érboles esté lexicalizada debemos exigir dos condiciones a los arboles elementales: primero, no podremos admi- tir drboles iniciales o auxiliares mulos y, segundo, la frontera de un arbol elemental -salvo logicamente el nodo pie en los auxiliares- no puede estar constituida exclusivamente por nodos marcados para sustitucién. De este modo todo érbol elemental incluiré al menos un {tem léxico, o lo que es lo mismo, un terminal En contraposicién a lo que sucede con las gramaticas de adjuncién de Arboles, 10 to- das las graméticas independientes del contexto estan lexicalizadas. Basta con que alguna de sus producciones (estructuras elementales) no contenga ningyin sfmboto terminal a su derecha. Aunque es posible conseguir una versién lexicalizada si obtenemos su forma nor- mal de Greibach [Greibach, 65}, el resultado seria una gramética equivalente en sentido débil. Por tanto, podemos decir que la forma normal de Greibach no es un método general de lexicalizacién. En (Schabes, 90], se demuestra que el dominio de localidad extendido jun- to con la operacién de adjuncién permiten lexicalizar de forma satisfactoria las graméticas idependientes del contexto. En el contexto de las gramaticas de adjuncién de arboles especialmente disefiadas para reconocer lengnajes naturales, es frecuente que haya un terminal en un érbol elemental que juegue un papel preponderante respecto a los otros terminales. Por ejemplo, en las oraciones declarativas el verbo sucle ser el elemento léxico mas destacado, Denominaremos ancla a esta clase de terminal. Es posible encontramos con Arboles elementales - por ejemplo, en las oraciones correspondientes a expresiones idiométicas - donde un ancla esta realmente constituida por més de un simbolo terminal. La introduceidn del concepto de ancla va a traer consigo una serie de ventajas adicionales, 1. Podemos reducir el tamafio de la gramética si, en vez de incluir las anclas en los Arboles elementales, utilizamos simbolos preterminales. Estos simbolos preterminales agrupardn colecciones de simbolos terminales siguiendo prineipios lingitisticos, por ejemplo: verbo, sustantivos, adjetivo, ete, Si procedemos de esta forma, en los érboles clementales los nodos ancla estardn etiquetados con simbolos preterminales. Para distinguirlos, seran decorados con el simbolo 0, 2, La organizacién de la gramética puede ser efectuada a través de familias de arboles elementales. Una familia es una coleccidn de érboles que comparten un ancla y donde se reflejan distintos entornos sintécticos donde el ancla puede aparecer. Por ejemplo, 9.6. Aspectos lingitisticos ee Aas Mis, Figura 3.14: Unificacién y adjuneién la familia de verbos transitivos incluirfa arboles elementales para reflejar distintas clases de oraciones: declarativa, cléusulas de relativo, pasivas, preguntas respecto al snjeto o al objeto, ete. Sin embargo, aunque las familias favorecen la organizacién de la gramética, también implican un importante aumento en el tamafio de ésta, Para mitigar este problema se han planteado estrategias de compactacién y organizacién de gramaticas [Vijay-Shanker y Schabes, 92] 3. Las gramaticas de adjuncién de arboles pueden ser interpretadas bajo la dptica de un diccionario, Es decir, una entrada léxica se corresponderia con un ancla y cada sentido de un ancla equivaldrfa a uno de los drboles elementales donde participa como ancla 3.6.3 Rasgos Sin dnda, una de las aportaciones més importantes en la Tingiistica computacional es la descripcién declarativa de fenémenos lingiifsticos mediante rasgos. Un rasgo se define como un conjunto de pares atributo-valor, donde un valor puede ser atémico o asimismo otro rasgo. La composicién de rasgos se realiza mediante la operaci6n U de unificacién, Para un estudio més formal sobre la unificacién consultar ([Kasper y Rouends, 86], [Rounds y Kasper, 86]). Aunque los denominados formalismos basados en unificacién emplean los rasgos de diversa ‘manera, si podemos considerar que muchos de ellos se caracterizan por combinar los rasgos con un esqueleto sintéctico descrito mediante producciones. Las gramaticas de adjuncién de Arboles basadas en unificacién asocian dos rasgos, t y 6 denominados superior top ¢ inferior bottom - a cada nodo de un érbol elemental. Intuitivamente, podemos decir que el rasgo superior establece la relacién del nodo re- specto de sn superérbol mientras que el rasgo inferior lo hace respecto de su subérbol [Viiay-Shanker y Joshi, 88]. En el caso de nodos marcados para sustitucién o terminales no es necesaria la presencia del rasgo inferior. El efecto de la unificacién en las operaciones de adjunciGn y sustitucién puede verse en las figuras 3.14 y 3.15. El papel de los rasgos en las graméticas de adjuncién de arboles no es necesariamente el mismo que en las graméticas independientes del contexto. Por ejemplo, fendmenos como 56 Capitulo 8. Grammaticas de adjrncién de drboles tr Xr ix”. 4 xen Figura 3.15: Unificacién y sustitucién la subcategorizacién son modelados directamente en los arboles elementales y no mediante rasgos. De hecho las gramaticas de adjuncién de arboles van a hacer tan s6lo uso de rasgos con valores finitos Los rasgos pueden ser empleados para la elimi 6 sustitucidn. De esta forma, los rasgos de los nodos participantes en Ia operacién no unificardin en el caso de que no se satisfagan las condiciones exigidas por las restrieciones locales. Por ejemplo, una restriccién obligatoria sobre un nodo equivaldra a que sus rasgos; superior ¢ inferior sean incompatibles. El conjunto de arboles de una gramética de adjuncién de Arboles basada en unificacién s6lo admitird drboles derivados a partir de un $-érbol inicial, jacidn de restrieciones locales de adjuncién siendo S el axioma de la gramética, donde los rasgos superiores e inferiores de todos sus nodos sean compatibles. Realmente, los nodos de estos érboles presentardn tan sélo un rasgo, que serd el resultado de unificar los rasgos superior e inferior de cada uno ellos. 3.7 Formalismos relacionados En la literatura podemos encontrarnos con numerosos formalismos sintdcticos que estan intimamente relacionados con las graméticas de adjuncién de Arboles. La mayorfa de ellos se nos a las gramiiticas asan en modificar la operacién de adjuncién o en afiadir nuevos mecan para su aplicacién a diversos problemas. Enunciaremos brevemente algunas de las propuestas «que més eco han suscitado junto con la aportacién que ofrecen, Las graméticas de adjuncién probabilisticas son una extensién de las gramiticas de adjuncin de drboles en las que se incorpora conocimiento de tipo estadistico en el proceso de derivacién ([Schabes, 92], [Nederhof et al., 98], [Nederhof et al., 98b]). El método consiste en anotar probabilidades en los arboles clementales de forma que la suma de todas ellas sea la unidad. A partir de aqui se puede inferir Ia probabilidad de que una determinada adjuncién 0 sustitucidn sea efectuada. Existen distintos formalismos con ligeras diferencias que adoptan este modelo. El interés de este modelo procede de que el espacio de biisqueda de soluciones jento se tienen en cuenta las derivaciones més puede reducirse ya que durante el reconoci frecuentes. 87. 3.7. Formalismos relacionados Las gramaticas de insercién de arboles (TIG, Tree Insertion Grammars) es una restriecién de las graméticas de adjuncién de arboles que reconoce exclusivamente lenguajes indepen- dientes del contexto, Una gramética de insercién de drboles se define de forma andloga a las graméticas de adjuncién de drboles salvo que no se admiten érboles auxiliares nulos ni propios. La operacién de adjuncién es restringida: (3) no se permite la adjuncién de un Arbol auxiliar izquierdo (resp. derecho) sobre un nodo de la espina de un arbol auxiliar derecho (resp. izquierdo) y (ii) no se permiten la adjuncién en nodos, excluida la espina, situados en el contexto derecho (resp. izquierdo) de arboles auxiliares izquierdos (resp. derechos). También se permite la adjuncién simulténea sobre un mismo nodo de un con- junto de érboles auxiliares descritos mediante dos secuencias ordenadas: una de arboles auxiliares izquierdos y otra de arboles auxiliares derechos. El orden de los érboles en la secuencia establece el orden en que se efectsian las operaciones de adjuncién en el nodo. Las ventajas fundamentales que aporta son que se mantiene el cardcter lexicalizado y se disminuye el coste computacional - que ahora es similar al presentado por las graméticas independientes del contexto-. Los antecedentes de esta clase de gramaticas proceden de los, trabajos [Schabes, 93] y (Schabes y Waters, 93]. Su definicién posterior queda establecida cn [Schabes y Waters, 95] y [Schabes y Waters, 96] Las gramaticas de adjuncién de érboles sincronas es un enriquecimiento del cardcter descriptivo de las graméticas de adjuncién de arboles mediante el que se establece la corre- spondencia entre dos gramaticas distintas ([Shieber y Schabes, 90], [Shieber y Schabes, 92], (Shieber y Schabes, 94]). Los Arboles elementales de las dos graméticas son sincronizados respecto a las operaciones de adjuncién y sustitucién. Para conseguirlo, ambas operaciones son aplicadas simultdneamente sobre pares de nodos relacionados pertenecientes cada uno de ellos a arboles elementales de cada una de las dos gramaticas sincronizadas. La aplicacion mis directa de este formalismo es la traduccién automética, aunque puede ser también usado ‘en el contexto de la interpretacién semédntica o la generacién de lenguajes. Las gramaticas de deseripcién de érboles (DTG, D-Tree Grammars) parten de una no- cién de érbol ligeramente distinta de las gramaticas de adjuncién de arboles ya que las relaciones de dominio entre los nodos son menos estrictas. Las operaciones ori adjuncién y sustitucién son sustituidas por las operaciones de subsercién y adjuncién de hermanos. El resultado es un formalismo incomparable con las graméticas de adjuncién ya que la clase de lenguajes dependientes del contexto reconocida por estas gramiticas y las de adjuncién de arboles no es idéntica. Los autores consideran que, frente a las graméticas de adjuncidn de drboles, las gramétieas de descripcién de rboles permiten expresar con mayor uniformidad fenémenos lingiifsticos como el del movimiento de argumentos en preguntas. Los antecedentes de estas graméticas deben buscarse en los trabajos [Vijay-Shanker, 92] y [Rogers y Vijay-Shanker, 92]. Su descripcién formal se introduciré posteriormente en. [Rambow et al., 95] y [Rambow et al., 95]. Las graméticas de adjuncién multi-componente se distinguen esencialmente en el modo en el que es interpretada la operacién de adjuncién ([Schabes, 90], [Boullier, 99]. En este pg Capitulo 8. Grarmations de adjuncién de drboles formalismo, en vez de un érbol auxiliar, podemos adjuntar un conjunto de arboles auxiliares. Existen varias versiones dependiendo de si se admite la adjuncién de conjuntos de arboles ausiliares sobre un mismo nodo o sobre distintos nodos. Este formalismo ha sido utilizado para modelar fenémenos lingtifsticos como la extraposicién y cierto género de variaciones en el orden de las palabras que aparecen en algunos lenguajes naturales. Una aportacién de las gramaticas de adjuncién de arboles al contexto del etiquetado son las super-etiquetas (Super-Tags) ({Joshi y Srinivas, 94] y (Srinivas y Joshi, 00}). El mode- Jo se basa en asociar a los items léxicos estructuras més ricas que las categorias clésicas. Aprovechéndose del cardcter lexicalizado de las gramiticas de adjuncidn de arboles, los items éxicos se corresponden con anclas que seleccionan familias de arboles elementales. Cada, 4rbol elemental se corresponderfa con una super-etiqueta donde se combina tanto informa- ci6n relacionada con la estructura de la frase como de sus dependencias. La desambigitacién efectuada por las super-etiquetas podria considerarse como un analisis sintdctico preliminar (almost-parsing) ya que se filtrarfan un miimero importante de drboles elementales. ‘Tras la reduccién de los arboles, quedaria una segunda etapa donde se combinarian mediante la operacién de adjuncién y sustitucién. Capitulo 4 Andlisis sintactico de gramaticas de adjuncién de arboles En este capitulo se presentaran conceptos y notaciones que serén abundantemente utilizados en los capitulos siguientes al definir esquemas de anélisis para las graméticas de adjuncién de Arboles. Fundamentalmente, se dardn las pautas generales que son utilizadas en la definicién de los conjuntos de items y e6mo proceder para calcular la complejidad espacial y temporal en el peor de los casos. En la tiltima seccién, haremos una resefia de los analizadores sintdcticos definidos en la literatura para las gramiticas de adjuncién de arboles, También incluiremos dos esquemas para graméticas de adjuncién de érboles, denomi- nados buE y CYK, que servirén de ejemplo en el uso de la notacién, Ambos esquemas estén relacionados de forma andloga a sus homénimos para graméticas independientes del contexto. Los esquemas de los siguientes capitulos estdn estrechamente relacionados con el esquema buE. Dentro del capitulo se presentarén las notaciones que han sido utilizadas con mayor profusién a la hora de representar drboles elementales en el contexto del andlisis sintédctico dle gramaticas de adjuncién de érboles. Consideramos que el problema de la representacién no es banal, ya que la comprensién de los esquemas puede verse seriamente afectada debido a la notacién, Veremos que estas notaciones son de utilidad en mbitos distintos a la definicién de esquemas, 4.1 Representacién multicapa y plana ‘Antes de plantear Ia representacién de drboles elementales, introduciremos una notacién simplificada [Alonso et al., 98] para sus nodos en donde no se tiene en consideracién la direccién de éstos. Utilizaremos las letras N, M7, ... para identificar sin confusién los nodos de un drbol elemental 7. Cuando queramos referimnos de forma explicita a la rafz de un drbol elemental -y lo haremos mediante R7. Para referirnos al nodo pie de un arbol auxiliar 8, 59 60 ___ Capitulo 4. Anétisis sintactico de graméticas de adjuncién de drboles utilizaremos F. Si N7 estd etiquetado con un simbolo no terminal, diremos, por brevedad, que N° es un no terminal. También diremos que V7 es un terminal o la palabra vacia, si su etiqueta pertenece a los simbolos terminales o es la palabra vacia, respectivamente. Mediante Sus(N7), denotaremos el conjunto de arboles iniciales que pueden ser susti- tuidos en el no terminal NY marcado para sustitucién. De forma andloga, denotaremos mediante Adj(N?), el conjunto de arboles ausiliares que pueden ser adjuntados en el nodo no terminal N7. Supondremos la existencia de un rbol auxiliar ficticio al que denominare- mos nil. Mediante esta notacién tendremos la oportunidad de caracterizar con sencillez las restricciones locales de adjuncién asociadas a los nodos. En el caso de que nil € Adj(N"), entonces no seré obligatoria la adjuncién en el nodo N7. Una adjuncién obligatoria sobre el nodo N7 vendra caracterizada por un conjunto Adj(N") no vacfo de arboles auxiliares con la restriceién adicional de que no estaré incluido nil. La restriccién nula sobre un nodo N7 seré denotada mediante un conjunto Adj(V7) que tan s6lo incluiré mil. Una ver introducida la anterior notacién, pasaremosa ver la representacién de los dtboles elementales. Como dijimos, los items pertenecientes al dominio de los esquemas son el medio utilizado para caracterizar reconocimientos parciales de la cadena de entrada. Desde la per- spectiva de las graméticas de adjuncién de &rboles, la informacién de los items debe inter- pretarse respecto a un determinado nodo en un Arbol elemental. La forma mas directa de precisar el nodo consiste en determinar su direccién en el arbol elemental. En su perjuicio podemos decir que el uso de direcciones conduce habitualmente a una notacién engorrosa. Evidentemente, cabe la alternativa de representar grificamente el drbol elemental completo al que pertenece, destacando de algtin modo el propio nodo. Podemos imaginar que esta notacién, a la hora de definir los esquemas, presenta los mismos inconvenientes que la ante- rior. Incluso, podemos afiadir, que al no ser necesario disponer del conocimiento relativo a. todos los nodos de! arbol, esta notacién supone un exceso de informacién. Existen alternativas a este exceso de informacién que se basan en el concepto de pro~ duccién. Al igual que en las gramaticas independientes del contexto, las producciones se caracterizarén por presentar en su parte izquierda un simbolo y en su parte derecha una se- cuencia (posiblemente vacfa) de sfmbolos. La idea principal consiste en hacer corresponder un rbol elemental y con un conjunto no vaeto y finito de produceiones con tales carac- teristicas. Claramente, con esta representacién desmenuzamos la estructura del drbol en pequeiias subestructuras. Sin embargo, si las producciones son definidas con cuidado, estas subestructuras aportardn tan sdlo la informacién necesaria para realizar el anzlisis. Basadas en esta estrategia de representacién mediante producciones, presentaremos las notaciones multicapa y plana [Diaz et al., 98b]. Consideramos que para la definicién de es- ‘quemas la més apropiada es la primera, ya que combina de forma equilibrada la informacion necesaria con una notacién simple, La segunda, aunque equivalente a la primera, da li- gar a definiciones de esquemas més complejas. Veremos, sin embargo, otros contextos més adecuados para su utilizacién. 61 4-L. Representacién multicape y plana 4.1.1 Representacién multicapa La representacién multicapa utiliza una estrategia vertical. Sea G = (Vr, Viv,$,J,A) una gramatica de adjuncién de arboles, y sea y € [UA un érbol elemental. A cada nodo interior NN? del arbol 7 se le asociaré una produccién de la forma siguiente: N14 NINZ...NI donde Nj, N3,..-,N7 es la secuencia de los r > 0 nodos dominados directamente por N”, ordenada segsin el criterio de precedencia lineal. Utilizaremos letras griegas - salvo las vya reservadas para referirnos a Arboles elementales: a, 8 y 7 - cuando queramos representar secuencias de nodos, posiblemente vacfas, en la parte derecha de una produccién. Para simplificar la notacién en las producciones, usaremos los siguientes convenios: primero, si la etiqueta de N7 es el simbolo no terminal a € Vr entonces utilizaremos el propio simbolo a. Lo dicho anteriormente también es aplicable para el caso en que la eti- queta sea la palabra vacia €. Aceptado este convenio y salvo que se indique lo contrario, consideraremos la parte derecha de las producciones como la concatenacién de las etiquetas de los nodos del subérbol Las producciones serdn simplificadas al actuar ¢ como elemento neutro de dicha operacién. De este modo, tan sélo apareceré.¢, en el caso de que la etiqueta de todos los nodos par- ticipantes en la parte derecha de una produccién sea la palabra vacia. Si este es el caso la produccidn resultante seré una eproducci6n. Denotaremos mediante P(>), el conjunto de todas las produeciones asociadas con los nodos interiores del Arbol elemental 7. Podemos extender este conjunto a toda la gramética, de forma que definimos P(@) = U,erus P()- Ejemplo 4.1 Para la grumética de la figura 4.1 tendréamos que su representacién con pro- ducciones multicapa serta la siguiente: Pla) P(B) donde hemos incluido superindices en los nodos etiquetados con no terminales para distin- guirlos. Respecto a las restricciones de adjuncién tendrfamos que: Ss? +6} |S! + aS*d, S? + bS%c} Dado 7 € IU A, como minimo tiene adjudicada una produccién, es decir [P(7)| 2 1. El iimero efectivo de producciones dependerd claramente de la propia estructura del arbol. A partir del examen aislado de las producciones adjudicadas a un érbol auxiliar no podemos saber si un nodo pertenece a su espina. 62__ Capitulo 4. Anétisis sintactico de gramdticas de adjuncién de drboles TAS Js Figura 4.1; Gramdtica para el lenguaje a"b"ec*a" Aunque esta notacién conduce a un conjunto de producciones similares a las presentes en las gramaticas independientes del contexto, debe quedar claro que la relacién es tan s6lo aparente, ya que la operaciGn de sustitucién no es equivalente a la de adjuncidn. Sin embargo, podemos extender el concepto de derivacién en las gramaticas independientes del contexto, al conjunto P(G) de la siguiente forma: dado N* — 6 € P(7) y wi,w2 € V*, entonces la relacién de derivacién = en P(+) se define mediante w, N74» = ww. Representamos: mediante 3 el cierre reffexivo y transitivo de =}. Para incluir la operacién de adjuncién, extendemos la relacién al conjunto P(G) de forma que si R® 3 1 Fv, y 8 € Adj(N7) con NY + 6 entonces: wi Nun 3 wirrdvswe. EBjemplo 4.2 Siguiendo con la representacién multicapa de la gramédtica de ta figura 4.1, tendriamos que: S° 3 ¢ y que S! 4 aS*d % abSed y como f puede ser adjuntado en S°, tendriamos que S° % abecd. Con la notacién propuesta, el lenguaje definido por una gramatica de adjuncién de Arboles G vendra dado por: L(G) {w €V"|3a eT: R* 3 w} A la hora de definir los esquemas, la notacién anterior seré ampliada mediante la incor- poracién de dos nuevos nodos que denotaremos mediante sus etiquetas T y [Nederhof, 97] Por definicidn, ningiin arbol auxiliar podra ser adjuntado en ninguno de ellos. El nodo T dominaré directa y exclusivamente la raiz. de todos los arboles elementales, convirtiéndose por tanto, en si nueva raiz. Asi mismo, el nodo pie de todos los Arboles auxiliares dominaré, exclusiva y directamente al nodo L. Con estas consideraciones, los nods anteriores am- pliardn el conjunto de produeciones relacionadas con los Arboles elementales de forma que T+ RY € P(y) para todo 7 € IUAy F® +.1€ P(8) para todo B € A. El lenguaje generado por una gramatica de adjuncién de arboles, tras introducir estos dos nodos ficticios, no se ve alterado debido a la restriccién de adjuncién nula impuesta sobre ellos. El motivo de introducirlos es exclusivamente de indole téenico, ya que permitirén 4.1. Representacién multicapa y plane 6 simplificar la definicién de los esquemas al establecer el contexto para los nodos raiz y pie en los arboles elementales. 4.1.2 Representacién plana La representacién plana [Diaz y Toro, 97] utiliza, en cambio, una estrategia horizontal y se basa a su vez en la representacién textual de un arbol elemental 7, descrita de forma, recurrente de la siguiente manera: Sea G = (Vp,Vv,5,J, A) una gramética de adjuncién de érboles, y sca y € [UA un Arbol elemental. # Si el nodo N7 es un nodo hoja etiquetado con un simbolo terminal a € Vir entonces sul representaci6n sera a”. # Si el nodo N7 es un nodo hoja etiquetado con la palabra vacfa € entonces su repre- sentacién sera ¢. * El nodo pie F? de un arbol auxiliar 8 seré representado mediante F9() # Siel nodo N es un nodo interior que domina directamente, ordenados segtin Ia prece- dencia lineal, a los r > 0 nodos Nj,NJ,...,.N? entonces su representacién serd: NNN} ....NZ7) donde Nj” ¢s la representacidn textual del nodo Ny con St Sesh} {81 > S}aS?bS}. 8p + SheShdSh} donde hemos incluido superindices en los nodos etiquetados con no terminales para dis- tinguirlos. Las restricciones de adjuncidn son las mismas que se indicaron para ln repre- sentacién multicapa de esta gramética. Igual que sucedia con la notacién anterior, podemos extender para R(@) el concepto do relacién de derivacién definida para las graméticas independientes del contexto, Dado a4 W(a) entonces a => W(a), y si se cumple a = wi NJENjw» y 8 € Adj(N?) entonces => wi W,(3)4Wp(3)w2. Representamos mediante > el cierre refiexivo y transitivo de =. Ejemplo 4.4 Siguiendo con la representacién plana para la gramética de la figura 4.1, tendréamos que: a 3 S¥eS% y como 8 puede ser adjuntado en S°, tendrfamos que a 3 S]aS}bS}eSheSpdsh. Si denotamos mediante PR(w) la proyeccién de la cadena w donde se suprimen los simbolos izquierdos y derechos asociados a los nodos, el lenguaje definido por una gramatica de adjuncién de Arboles G vendré dado por: LG) = {we V*|3a € Tra S ww = PRw)} Como caracteristicas de esta representacién podemos apuntar que el mimero de produc- ciones adjudicadas a los Arboles elementales es constante, independientemente de la estrue- tura del arbol elemental. Es decir, s6lo una produccidn en el caso de ser un &rbol inicial y dos producciones en el caso de ser un Arbol auxiliar. Bl examen aislado de las producciones relacionadas con los drboles auxiliares nos permite saber si un nodo pertenece a la espina © no. Si N7 es un nodo interior no perteneciente a la espina, su par de simbolos asocia- dos (NZ, Nj) se encuentran en la misma produccién. En caso contrario, se encuentran en distinta produccién, 4.2 Aplicaciones de la representacién plana y multicapa Es fécil comprobar que la notacién plana y multicapa son equivalentes. Sin embargo, la notacién multicapa es més adecuada para la definicién de esquemas. La razén es que presenta, 65 4.2. Aplicaciones de la representacién plana y multicapa una simbologia mas simple debido a que existe una correspondencia tnica entre los nodos cn el Arbol y los nodos en las producciones. A continuacién veremos que la representacién, de los arboles elementales mediante conjuntos de producciones no es util tnicamente en el contexto del anélisis sintéctico. 4.2.1 Lexicalizacién de gramaticas independientes del contexto La forma normal de Greibach no puede ser considerada un mecanismo adecuado para la lex icaliaacién de gramaticas independientes del contexto debido a que se pierde la equivalencia, en sentido fuerte. Una alternativa serfa extender el dominio de localidad. Para conseguirlo se pueden usar graméticas basadas en sistemas de reescritura de drboles y utilizar a éstas como mecanismo de lexicalizacién [Schabes, 90]. Sin embargo, las estructuras elementales de la gramatica resultante imponen restricciones excesivas a la hora de elegir los elementos léxicos. En el mismo trabajo anterior, Schabes demuestra que dada una gramética inde- pendientes del contexto Gere es posible obtener una gramética de adjuncién de arboles lexicalizada Gag equivalente en sentido fuerte a Gora donde los elementos léxicos estén lingiiisticamente bien motivados. Es decir, las graméticas de adjuncién de drboles tienen la capacidad de lexicalizar a las gramaticas independientes del contexto [Carrillo et al., 960]. La definicién de graméticas lexicalizadas exigen que no sean infinitamente ambiguas. Esta propiedad, en las gramaticas independientes del contexto, implica que no son permi. tidas producciones de la forma A -+ A, siendo A un simbolo no terminal de la gramética. ‘Tampoco deben admitirse producciones que conduzcan a derivaciones del género A 3 A. Por otra parte, la lexicalizacién obliga a que la palabra vacfa no pertenezca al lenguaje de la gramética. La notacién multicapa para arboles elementales es la base para definir el siguiente al- goritmo de lexicalizacién de graméticas independientes del contexto mediante graméticas de adjunci6n de arboles ([Carrillo et al., 96), [Diaz et al., 96]). Dada una gramitica inde- pendiente del contexto Gora = (Vr,Vi 5, P) finitamente ambigua y sin eproducciones, obtendremos una gramética de adjuncién de arboles lexicalizada Grag = (Vr, Vn, S,1, A) ‘equivalente en sentido fuerte. El algoritmo iré sucesivamente generando los érboles sintacticos que pueden ser obtenidos mediante las producciones de P, considerndolas de partida como arboles de altura unidad. Debemos recordar que las derivaciones son el fruto de la aplicacién de la operacién de susti- tucién en alguno de los nodos frontera de los arboles sintacticos. En una etapa determinada del algoritmo dispondremos de un conjunto de arboles sintécticos asociados a derivaciones de la forma B 4 w, siendo B un no terminal y w una secuencia no vacfa de terminales y no terminales. El objetivo sera caleular todos los drboles sintacticos para la gramética Gore que se adapten a las siguientes clases de derivaciones, S3w AS wiAw, 66 __ Capitulo 4. Anélisis sintdctico de graméticas de adjuncién de drboles siendo S$ y A simbolos no terminales - el primero de ellos, ademds el axioma -, y siendo w, wy Y tw2 secuencias no vacias de simbolos terminales. De esta forma dichos drboles sintacticos serdn interpretados como Arboles elementales de Ia gramatica Gag El algoritmo utiliza la siguiente propiedad debida a los autores Joshi, Levy y Takahashi [Joshi et al.,75] para construir Ia nueva gramatica. Propiedad 4.1 Para toda gramdtica independiente del contexto Gora existe una gramética de adjuncién de drboles Grac equivalente en sentido fuerte, donde los drboles elementales de Grac cumplen las siguientes restricciones: 1. Sia es un érbol inicial, entonces en cualquiera de sus caminos las etiquetas de sus nodos serén distintas. 2. Sif es un drbol auriliar, entonces en cualquiera de sus caminos las etiquetas de sus nodos serdn distintas, no siendo considerada la etiqueta de la raiz del drbol auziliar. Este teorema nos aporta un mecanismo de rechazo de generacién de Arboles sintcticos, ya que para cada nueva sustitucién bastaré comprobar si el rbol resultante cumple o no esta propiedad. En el momento que un Arbol sintéctico cumpla la propiedad de ser elemental quedaré agotado. Si fuera inicial, las etiquetas de todos sus nodos frontera deberdn ser terminales y no habré posibilidad de aplicar nuevas sustituciones. Si fuera auxiliar, todos sus nodos frontera serian terminales salvo el nodo pie. El algoritmo que proponemos para llevar a cabo el proceso de construccién es el siguiente: Ter = {P}; Tory = (PH; Tag = 05 mientras Tier #0 T=$; para cada #1 € Tier ssi elemental(t;) > Tig = Tag U Ct1}s Jotras > para cada ty € Tos T :=T Usustituir(ts, ti); fpara; fsi; fpara; Tuer fmientras; El proceso de construccién es finito y su demostracién se basa de nuevo en el teorema anterior. Puesto que el alfabeto de simbolos no terminales es finito, supongamos [Viv] = n, si el proceso leva a cabo mds de n sustituciones en algiin camino de un arbol sintactico, habré repetido un simbolo no terminal, lo que viola el teorema y provoca la eliminacién 4.2. Aplicaciones de la representacién plana y multicapa —____ 67 de dicho drbol. Las estructuras de datos que usa el algoritmo son 4rboles y conjuntos de Arboles. Son arboles t, y to , ¥ conjuntos de arboles Teyg, Tiags Tiers ¥ T, donde © Tj ¢8 el conjunto de las producciones contenidas en P interpretadas como arboles de altura unidad © Tray €8 €l conjunto en el que se almacenan los arboles agotados y que constituirén, finalmente, los drboles elementales de la gramética Gag '¢ Tuer eS el conjunto formado por los drboles sintacticos construidos en cada etapa del algoritmo. # Tes el conjunto formado por todos los arboles sintacticos que se derivan a partir del conjunto Ter mediante los arboles incluidos en Teyo. Se utilizan dos fanciones en el algoritmo: « clemental(t) es un predicado que indica si un arbol sintdctico ¢ es inicial o auxiliar, © sustituir(to.t:) calcula el conjunto de arboles derivados a partir de todas las posi- bles sustituciones de t2 en th. Si un drbol derivado no cumple el teorema desc anteriormente, no se incluye en el conjunto. Ejemplo 4.5 Para la gramética independiente del conterto cuyo conjunto de producciones viene definido mediante: {S 4 NPVP,VP > advVP,VP > v,NP +n} tendriamos que el conjunto Teyy vendria dado por los érboles pl, p2, p3 y pA de la figura 4.2, mientras que el conjunto Tyeg resultante de la aplicacién del algoritmo constarta de los Grboles oy 8 de la misma figura 4.2.2 Representacién mediante clausulas Las graméticas de cléusulas definidas fueron uno de los primeros modelos axiométicos para las gramaticas independientes del contexto. A cada produccién de la gramética se asocia una cléusula definida en la que cada s{mbolo no terminal es aumentado con dos argumentos que representan posiciones de la cadena de entrada. Bn el contexto de la semantica operacional del lenguaje de programacién PROLOG, los programas I6gicos resul- tantes [Pereira y Shicber, 87] implementan algoritmos de analisis descendentes con lectura de la cadena de entrada en el sentido de izquierda a derecha . De forma similar a las graméticas independientes del contexto, las graméticas de adjun- cién de Arboles pueden ser axiomatizadas usando cléusulas definidas. La axiomatica para gramiticas de adjuncién de Arboles, debida a Lang, establece la siguiente relacion: cada 68 __ Capitulo 4. Analisis sintdetico de graméticas de adjuncién de érboles * 2 oot $ os we ae /\ /* { | i od S\N 44 ooo Figura 4.2: Gramética independiente del contexto lexicalizada Arbol elemental es asociado con una cléusula, de modo que el conjunto de c ser también interpretado como un analizador descendente [Lang, 90] Sea a = a1,...4n, con n > 0, la cadena de entrada a analizar y G = (Vr,Vi,S,1,A) ‘una gramatica de adjuncién de érboles. La axiomética de Lang adjudica cuatro indices ‘a cada nodo no terminal 7 € UA. El predicado nodo(X, 1, K,L,.M) establece que si un Arbol auxiliar # € Adj(N7) es adjuntado en el nodo N7 etiquetado mediante X, la cadena de entrada reconocida por el nodo N7 seré ay41...ay y la cadena de entrada reconocida por el nodo pie F* de 8 seré ax41-.-az, siendo0 , entonces continuaremos con el reconocimien- to de los demas nodos del érbol + y el simbolo izquierdo asociado con N7 en PAdj(7) ¢s sustituido por (]. Cuando se alcanza el simbolo derecho de 7, sabremos que no se ha efectuado ninguna adjuncién sobre el nodo. Por tanto, continuaremos con el reconocimiento de los demas nodos del érbol 7. Podemos observar que el argumento de adjuncién realiza dos funciones dependiendo del mo- mento en que se aplica: en el contexto izquierdo juega el papel de productor mientras que 4.2. Aplicaciones de la representacién plana y multicapa — 71 en ef derecho juega el papel de consumidor. Al acabar el reconocimiento, el argumento rep- resenta las operaciones de adjuncién realizadas sobre cada nodo, por tanto, este argumento ¢s un reflejo del arbol de derivacién La axiomatiea basada en la notacién plana asocia a cada drbol elemental una cliusula definida donde a cada nodo del arbol se Ie afiade tan sélo dos indices relacionados con posiciones de la cadena de entrada. Ademés, cuando el nodo es no terminal se indicaré si se refiere a un sfimbolo izquierdo 0 derecho y se afiadiré el argumento de adjuncién que controlar las secuencias de operaciones de adjuncién efectuadas sobre él. Durante el re- conocimiento de los nodos de un arbol elemental, el argumento PAdj acttia realmente como una pila. De este modo, un nodo no tiene que buscar su elemento asociado en PAdj, le bastard con observar su cima, El predicado nodo(X,, J) establece que el nodo cuya etiqueta es el simbolo terminal X domina el segmento de Ia cadena de entrada situado entre las posiciones I y J. El predicado nodo(X, left, 1, J, PAdj) indica que el simbolo izquierdo de un nodo etiquetado con X domina el segmento de la cadena de entrada ay41 ...ay siendo PAdj su argumento de adjuncién. Bl predicado nodo(X, right, I, J, PAdj) es similar, pero ahora respecto al sfmbolo derecho det nodo. El predicado inicial( Alfa, X,1,J,PAdj) establece que el arbol inicial, cuyo nombre es Alfa y cuya raiz esta etiquetada con el no terminal X, domina el segmento de la cadena de entrada situado entre las posiciones Jy J y su argumento de adjuncién es PAdj. Andlogamente, el predicado auriliar(Beta, left, I, J, PAdj) establece que el con- texto izquierdo del drbol auxiliar cuyo nombre es Beta y cuya rafz esté etiquetada con el no terminal X, domina el segmento de la cadena de entrada situado entre las posiciones I y J, siendo PAdj su argumento de adjuncién. De forma anéloga, ahora respeeto al contexto derecho del Arbol auxiliar, se define el predicado aucitiar(Beta, right, 1, J, P Ad) El programa PROLOG resultante para la gramética de adjuncién de arboles de la figura 4.3, donde a0 y 80 son los nombres que identifican a los rboles elementales a y 8 respecti- vamente, seria: inicial(a0,s,1,J,PAaj) :~ nodo(s,left,1,K,PAd§) nodo(e,K,L), nodo(s,right,L,J,PAdj). auxiliar(b0,1eft,9,1,J,PAdj) := nodo(s, 1eft,1,K,PAdj), nodo(e,K,L), nodo(s,1eft,L,J,PAdj), auxiliar(b0,right,s,1,J,PAdj) 72____ Capitulo 4. Anétisis sintactico de graméticas de adjuncién de drboles nodo(s,right ,T,L,PAdj), nodo(e,LyK) nodo(s right K,J,PAaj) nodo(A,I,J) :~ palabra(A,I,J). /* Lectura del terminal A */ nodo(X,C,1,1, (1). /# No adjuncién +/ nodo(X,C,1,J, {BetalPAdj]) /+ Adjuncion del 4rbol auxiliar Beta */ auxiliar(Beta,X,C,1,J,PAdj). En el programa anterior se ha considerado que no existen restrieciones de adjuncién. Frente a Ia propnesta de Lang, esta axiomatica, realiza un reconocimiento estricto en el sentido de izquierda a derecha, evitando tener que realizar la conjetura de qué segmento de la cadena de entrada sera reconocido por el nodo pie. Por tanto, la interpretacién de los {indices relacionados con las posiciones de entrada pueden ser implementados mediante listas de diferencias. Finalmente, como quedé dicho, la axiomatica resultante no es simplemente un reconocedor ya que mediante el argumento de adjuncién obtenemos el drbol de derivacién, 4.2.3 Graméticas de insercién de drboles e independientes del con- texto Partiendo de la representacién plana de los arboles elementales, y aplicando adecuada- mente las restricciones que las gramaticas de insercién de érboles imponen sobre los arboles auxiliares, podemos probar directamente que si L(Grra) es el lenguaje generado por una gramética de insercién de arboles sin restricciones locales Gry, existe una gramética inde- pendiente del contexto que genera dicho lenguaje. Las graméticas de insercién de Arboles restringen la clase de arboles auxiliares de for- ma que sélo se admiten arboles auxiliares izquierdos 0 derechos. Si un arbol auxiliar 3 es izquierdo, su contexto derecho debe generar Ia palabra vacia y, ademés, no es posible adjuntar ninguna clase de rbol auxiliar en ningiin nodo que se encuentre en su contexto derecho. Por tanto, Bp > € y los simbolos izquierdos o derechos que aparecen en W(Sx) son s6lo significativos desde una perspectiva estructural. Es decir, la produccién contextual izquierda es cquivalente a Sx + ¢. Un razonamiento andlogo puede ser aplicado a las pro- ducciones izquierdas de los arboles auxiliares derechos. Dado un Arbol auxiliar izquierdo, en las producciones resultantes de la simplificacién, los nodos de su espina estardn representa- dos exclusivamente por sus sfmbolos izquierdos. Si el drbol auxiliar fuera derecho, sucederia o mismo, salvo que ahora sélo aparecerian los simbolos derechos. Ejemplo 4.7 Las producciones de la gramética de insercién de drboles de la figura 4.4, tras la simplificacién anterior servan: 4.3, Bstructura de los items IAN AN Figura 44: Gramatica de insercién de rboles a+ Set, Bl, + 'S0TPeT ESE Slave BA se Bn > TLSeSRTR ‘Tras la simplificacién, el resultado de una operacién de adjuncién es equivalente al de tuna sustitucién. Veremos tan sdlo el caso para los drboles auxiliares izquierdos, ya. que para los drboles derechos es andlogo. Si se adjunta un arbol izquierdo 9, se aplica la produecién 1, ~+ W(x) sobre el simbolo izquierdo del nodo donde se va a efectuar la adjuncién. El simbolo derecho del nodo, si existe, necesariamente tendré que ser sustituido por la Gnica produccién posible 8 -> €. El hecho de que los nodos de la espina estén representados por un sélo simbolo, es coherente con la restriccién impuesta por las graméticas de insercién de Arboles que sélo permite la adjuncién de un arbol izquierdo (resp. derecho) en Ia espina de un Arbol auxiliar izquierdo (resp. derecho). La adjuncién simulténea seré equivalente a sucesivas sustituciones sobre la raiz. de los Arboles auxiliares intervinientes. Las formas sentenciales resultantes, contendrian simbolos izquierdos o derechos sobre los que no se ha efectuado ninguna adjuncién. Este problema se resolveria afadiendo una €-produceién para cada simbolo (izquierdo o derecho) que exista en la gramética, Por tanto, siguiendo todas estas consideraciones Hegamos a que la gramética resultante es independiente del contexto y genera el mismo lenguaje que el descrito por la gramética de insercién de arboles. 4.3 Estructura de los items Los esquemas de los siguientes capitulos serdn definidos para la clase de graméticas de adjuncién de rboles con restrieciones locales y la cadena de entrada a1...an, conn > 0, donde reservaremos el simbolo m para identificar el tamatio de la cadena de entrada. El 74___ Capitulo 4. Anélisis sintdctico de graméticas de adjuncién de drboles conjunto de hipétesis ser& siempre el mismo: H = {(a,j,f+l|ajs1 =a con 0 2 indices, de forma que: Uri=miumu...Upe oat 78_________ Capitulo 4. Andlisis sintdctico de graméticas de adjuncidn de érboles Definiremos ademas la operacién p p__ siel valor de p esta definido B=) (p) en otro caso Al definit los esquemas, veremos que cada una de las anteriores oper: respectivamente, en cada una de las alternativas de transmisién, ynes son utilizadas, 4.4 Bjemplos de esquemas Presentaremos ahora dos esquemas {Alonso et al., 9b), que por una parte mostrarén el uso de la notacién explicada anteriormente, y por otra parte, permitirén establecer relaciones entre los esquemas de los capftulos siguientes. Los dos esquemas que presentaremos a continuacién adoptan exclusivamente una es- trategia ascendente realizando la lectura de la cadena de entrada en tuna sola direccién de inquierda a derecha. El primer esquema, que denominaremos CYK, es una extensién para, gramaticas de adjuncién de arboles del algoritmo definido originalmente para graméticas independientes del contexto por los autores Cocke, Younger y Kasami. El segundo esquema, es una reformulacién del algoritmo de Barley en el que la estrategia ascendente - es decir, las reglas deductivas de prediccién - se establecen al empezar el proceso de andlisis. Para referirnos a este segundo esquema usaremos el nombre buE (Bottom-Up Earley). Existe una relacién estrecha entre los dos esquemas ya que puede demostrarse que el esquema buE es una generalizacién del esquema CYK. Ambos esquemas presentan una Timitacién préctica ya que su comportamiento medio respecto a la complejidad temporal coincide con el comportamiento peor. Respecto a la transmisién del segmento reconocido por el nodo pie, ambos esquemas utilizan las estrategia de comunicacién a través de los nodos de la espina y sus hermanos derechos. 4.4.1 El esquema CYK La importancia histérica del algoritmo CYK en el contexto del andlisis sintéetico para gramiticas de adjuncién de Arboles es indiscutible ya que ha sido la base para la defini- cin de varios algoritmos. De hecho, el primer analizador sintéctico para estas graméticas descrito en la literatura se basaba precisamente en él, El esquema CYK sélo es aplicable a gramaticas de adjuncién de arboles cuyos étboles elementales presentan las siguientes restricciones: (i) un nodo interno, salvo el nodo pie, dominaré directamente un maximo de dos nodos y (ji) los nodos etiquetados con simbolos terminales o la palabra vacfa no tendrén nodos hermanos. Estas restricciones son una adaptacién de la forma normal de Chomsky para graméticas de adjuncién de arboles. El dominio Toy sobre el que se define el esquema viene dado por items de la forma: (N”.i.J,p.q, adj) 44. Bjemplos de esquemas 79 tales que N? es un nodo de un Arbol elemental -y etiquetado con un simbolo no terminal. Los indices 0 < i < j delimitan posiciones de la cadena de entrada. Si p y q tienen un valor definido, entonces 7 es un Arbol auxiliar y se verifica i < p , ORO} Anite Agia) La regla deductiva Dé}, continua el reconocimiento del superérbol respecto del nodo M* sobre el que se ha efeetuado una adjuncidn del érbol ausiliar 8 una vez que se ha completado el reconocimiento de éste. En esta regla deductiva podemos comprobar la utilidad del componente adj. El consecuente establece su valor a true con objeto de evitar mas de una adjuncién sobre el nodo M7. . [R®, jm, k,l adj] [M?, k,l, py, false] [M7,j,m,p.4, true) Be Adj(M7) Respecto al conjunto de items vélidos Voyic viene dado por aquellos items: (N.tip.qadi) tales que, sip y q presentan valor entonces N° 4 aig -..apF!agy1 ---43, ¥ en otto caso, N? Sy ais1...aj. Si sobre N7 se ha completado una adjuncidn adj seré cierto mientras que en otro caso serd falso, E| conjunto de items finales se define mediante: Foy = {[R°,0,n, -, -,adj] |a € 1} 4.4.2 El esquema buE El esquema buE es obtenido a partir de una generalizacién del esquema CYK donde se suprime la restriccién impuesta por este tiltimo sobre la forma de los Arboles elementales. El interés de este esquema se debe también a su condicién de nexo entre el esquema CYK y los esquemas que veremos en los capitulos signientes. El dominio del esquema Tnur se define [N74 vewiind donde N? -+ mu es una produccién en P(y), siendo ~y un érbol elemental. Los indices 0.< i veawi5,pa) [NT 3 vaew,ing + 1p.a) La regla deductiva D&'"? continua el reconocimiento del superarbol respecto a M7 una vez que el subérbol dominado por 41 ha sido completamente reconocido ¥ siempre que no én de adjuncién obligatoria. Esta regla deductiva generaliza las reglas de- duetivas DEYe" y DEY" admitiendo nodos que dominan directamente un mimero arbitrario de nodos, permitiendo, por tanto, suprimir la restriecién de que los érboles elementales de la gramética sean binatios. [0 60,7 j,pGlINT 3 ve MW, 1,9 0a) [NT 3 vA? ©0,3,,pUP.GUG)] La regla deductiva DEsf continua el reconocimiento del superarbol respecto a Mf” donde se ha efectuado la adjuncién del érbol auxiliar 6 una vez que éste ha sido completamente reconocido. El movimiento del punto en el consecuente, que se sitiia detréis de M7 permite suprimir el componente adj del esquema anterior, ya que de este modo se evita la posibilidad de smiiltiples operaciones de adjuncién sobre M7 [T+ Re, jm, kyl] [M7 + 60,k.t,p.4] IN? sve MW, i0 a) [No eu,im,pUy.q0e] Respecto al conjunto de items validos Vjygp incluye aquellos items pomp = a = nil € Adj(M7) Dead = 8 € Adj(M*) [NT > rewind tales que si p y q presentan un valor conocido entonces v + aj41 ---apF%ag41-..ay y en otro caso v3 aig «4 El conjunto de items finales viene dado por: Foue = {(T + R%°,0,n,-,-]]a€ I} 82________ Guapitulo 4. Anstisis sintdctico de graméticas de adjuncién de érboles 4.5 Estudio de la complejidad Debido a las caracteristicas en la definicién de los items, el estudio de la complejidad en el ‘caso peor respecto al tiempo y al espacio se ve simplificado de manera importante, siempre tomando como referencia O(n) donde n es el tamatio de la entrada. Un ligero estudio del componente 7 en los items y de las reglas deductivas bastara para obtener el valor deseado p. Un anilisis més exhaustivo incluirfa la constante multiplicativa debida a los componentes N‘(N7), y en menor medida, ¢. En general, la constante aportada por (NV) seré mayor cuanto mayor sea la gramética en el sentido de que sus Arboles clementales inclayan un mimero mayor de nodos. Ha de ser tenido en cuenta, que este factor puede influir muy negativamente en la préctica, debido a que las gramiticas para lenguajes naturales de amplia cobertura incluirén una gran cantidad de arboles elementales. La complejidad espacial (respecto a la memoria) dependeré del mimero maximo de items ‘que puedan ser deducidos. Supongamos que el componente ¥ en los items consta de una coleccién de & > 0 niimeros naturales, Dada una gramatica de adjuncién de arboles y una cadena de entrada de tamafo n, por la naturaleza de la informacién otorgada por los indices sabemos, que si estan definidos, el rango de sus valores estaré comprendido entre Oy n. Por tanto, el mimero de posibles items respecto a 7 serd de O(n"). Como ejemplo, podemos comprobar que la complejidad de los esquemas buE y CYK anteriores presentan ‘una complejidad espacial de O(n*) ya que sus items incluyen cuatro indices é, j, py 4 El coste temporal de una regla deductiva dependeré exclusivamente de cémo son com- binados los componentes T participantes en dicha regla. Un primer céleulo aproximado se corresponde con O(n?) donde p es el mimero maximo de valores repetidos en los indices de los antecedentes de una regla deductiva. Sin embargo, un estudio més exacto permite suprimir aquellos valores, denominados no relevantes, que tan s6lo aparecen una vez en los antecedentes de una regla deductiva [Nederhof, 97]. Esta reduecién es posible debido a que siempre podemos definir una regla deductiva intermedia J+ J', donde un ftem con q valores es transformado en otro item I’ con q’ < q valores, omitiendo aquellos que no sean rele- vantes en una regla deductiva D. Una ver obtenido I’, éste pasa a sustituir al ftem I como antecedente en la regla deductiva D en cuestién. Esta técnica de definir reglas deductivas intermedias también puede ser aplicada para reducir la complejidad temporal. El efecto de una sola regla deductiva puede ser también obtenido en varias etapas realizando calculos parciales. Si un subconjunto de los antecedentes comparte exclusivamente varios valores repetidos, y sus demas valores no afectan a la cohe- sin de la propia regla deductiva, entonces pueden ser combinados previamente y su resultado ser el que los sustituya en la siguiente etapa. Un ejemplo de aplicacién de esta técnica puede ser el esquema buE definido anterior- mente. Si calculamos su complejidad, veremos que ésta es de O(n”) ya que la regla deductiva Do 4.5. Estudio de la complejidad [T + Re, j,m, ,b, 1] [M7 + 60,k. 7.4] IN pve Munn ipsa WN Sve Maida) 4 IN ooMveu,hmpup,qua] °° Aer) ¢s la que presenta més indices repetidos, siendo en concreto j, m, ky 1, i, py q. Tan s6lo debemos considerar una de las parejas de indices, (p,q) y (p’,’), ya que sabemos que como mucho un par es el que tiene valores definidos. De hecho, el operador U es realmente una forma de unificar en una sola regla deductiva las tres siguientes reglas deductivas: [T > Ree, j,m,, kyl] [M* — 60,k,l,—, -] ft INT eM tA — =) (MO SINT UM? ew,i,m,— Be Agar) Dose" = Be Adj(M) [T+ Ree, jm, hl] [M? + 68, k,1,-,—-] IN? 4 ve Mw, i,j,p,a') [N73 MPa Be Adj(M”) Aplicando la técnica comentada sobre DE¥f, si la dividimos en las dos reglas deductivas EGE v DEA? definidas: iagt = [T > Re, jm, byl] [M7 > 64, kyl Df © adj(at”) aoa [7 8s, jm pall cade. LM" de, jmp, ql] [N* > ve M7,i,5,7',4'] Dw = TNT pMvew.LmpUpgugl [NT 9 uM ew,impUP GUE) ‘entonces tendremos que la primera regla deduetiva consume los valotes k y I produciendo un item intermedio (M7 > 58,5, msp,all que recoge la informacién necesaria para continuar con el proceso de complecién. Este item informa de que el subérbol completado con raiz M” ha analizado el segmento de la ‘cadena de entrada comprendido entre las posiciones j y m, ocultando que en el anélisis ha_ intervenido el Arbol auxiliar 8. También incluye la informacién del segmento reconocido por su nodo pie, si procede. Esta informacién es reutilizada por la segunda regla deductiva para, 84__ Guapitulo 4. Analisis sintdctico de graméticas de adjuncién de drboles proseguir el andlisis. Con esta divisién, podemos observar que la complejidad de la regia deductiva (y del esquema buE) se ha reducido a O(n®). Esta complejidad es la misina que presenta el esquema CYK. No ha sido rigurosamente demostrado si existe una cota superior en el coste temporal para el peor de los casos en el andlisis secuencial de graméticas de adjuncién de arboles. La conjetura més probable es que sea de O(n°) siendo n el tamafio de la entrada (Satta, 94]. Aunque existen trabajos donde se afirma lo contrario (2), tal afirmacién no viene contrastada por una demostracidn rigurosa. La situacién mas desfavorable se presenta cuando, al menos, se han realizado operaciones de adjuncién sobre la espina de un érbol auxiliar, ya que en este caso debemos acarrear la informacién de como minimo dos subérboles podados. Este caso ‘va a propiciar que en las reglas deductivas de complecidn de adjuncién existan cuatro indices repetidos - aquellos que delimitan los segmentos relativos a los dos subarboles podados -. En el anélisis sintactico para graméticas independientes del contexto, la complejidad temporal en el caso peor es de O(n") y procede de la combinacién de dos reconocimientos efectuados sobre segmentos adyacentes, lo que obliga a repetir tres indices. ‘Teniendo en cuenta que el proceso de reconocimiento de una adjuncién es un caso particular de esta situacién - se combinan los reconocimientos del Arbol auxiliar y el arbol elemental donde se ha realizado la adjuncién- y lo anterior dicho respecto a los indices relacionados con el nodo pie, parece improbable rebajar la complejidad de O(n®). Sin embargo, esta reflexién no deja de ser nuevamente una conjetura. Los esquemas que presentaremos en este trabajo corroboran dicha reftexién ya que su complejidad temporal no baja de O(n®). Algunos trabajos (Satta y Schuler, 98], reducen esta complejidad a O(n°) aplicando re- stricciones en la forma de los arboles auxiliares y la operacién de adjuncién, Esta restriccién, si bien reduce el mimero de lenguajes reconocidos, se justifica afirmando que pueden ser re- conocidos la mayoria de los fenémenos lingiiisticos més relevantes. También podemos citar [Harbusch, 97] donde se establece la relacién entre las gramticas de adjuncién de arboles y las gramaticas de dependencias restringidas (CDG, Constraint Dependency Grammars) definidas en ([Maruyama, 90], [Maruyama, 90b]). El interés de este trabajo consiste en que en la literatura han sido definidos analizadores para estas iiltimas gramédticas cayo coste temporal en el peor de los casos es de O(n"). Cabe pensar que la complejidad relacionada con el anélisis sintactico de graméticas de adjuncién de arboles es demasiado elevada como para considerar a las graméticas de adjuncién de Arboles un formalismo itil desde una perspectiva computacional. Sin embargo, esta afirmacién puede ser matizada ya que el comportamiento temporal en el caso medio de la mayorfa de los esquemas es significativamente mejor. Aunque también es una conjetura, parece razonable pensar que un uso normal del lenguaje natural no se corresponde con abundantes situaciones para el caso peor, por tanto, es preferible que el comportamiento medio del esquema sea lo mejor posible. Finalmente, el hecho de que las graméticas de adjuncién de arboles sea un formalismo lexicalizado beneficia de manera significativa el proceso de reconocimiento [Schabes et al., 88] en el siguiente sentido. El andlisis empieza con 85 4.6. Breve historia una primera etapa donde se filtran aquellos érboles elementales cuyas anclas no participan cen la oracién de entrada. Una segunda etapa consiste en aplicar el algoritmo de anélisis| tan sélo a los érboles no filtrados. En situaciones reales, el espacio de biisqueda puede ser severamente reducido al aplicar esta etapa de criba. 4.6 Breve historia Los algoritmos para el andlisis sintactico de gramiticas independientes del contexto han ejer- cido una poderosa influencia en el andlisis sintactico de graméticas de adjuncién de érboles. Efectivamente la mayoria de ellos son extensiones para gramaticas de adjuncién de arboles de analizadores previamente definidos para gramaticas independientes del contexto, Sigu- iendo esta estrategia, la extensién consiste fundamentalmente en la inclusién de la operacién de adjuncién dentro del proceso de anélisis. Otra estrategia utilizada, donde no se hace uso de la extensién como tal, consiste en considerar las gramaticas de adjuncién de érboles como una restriccién de las derivaciones permitidas en las gramaticas independientes del contexto. El andlisis se divide en dos etapas partiendo de un esqueleto independiente del contexto relacionado con la gramitica de adjun- cidn de arboles - por ejemplo, la representacién multicapa de dicha gramatica -. La primera, etapa consiste en aplicar a dicho esqueleto un analizador para gramaticas independientes del contexto, La segunda etapa consiste en efectuar una criba de las derivaciones incorrectas desde la perspectiva del analisis para adjuncidn de arboles. Una variacién de esta estrategia {Carrillo et al., 98} consiste en efectuar la criba, al mismo tiempo que se realiza el anélisis, mediante la atribucién del esqueleto sintéctico. EI primer analizador - propuesto por los autores Joshi y Yokomori en 1983, aunque no publicado - utilizaba como base el método CYK y adoptaba una estrategia en dos etapas. Aunque inicialmente se plantes que su complejidad temporal en el peor de los casos era. O(n), posteriormente se demostré que realmente era exponencial. Ante este resultado, podemos decir que el primer analizador polinémico, con coste temporal O(n®) y espacial O(n), fue descrito en [Vijay-Shanker y Joshi, 85] y consistia en una extensién del método CYK. Este mismo algoritmo ha sido redefinido bajo distintas propuestas y notaciones en otros trabajos entre los que podemos citar ([Vijay-Shanker y Weir, 93b],[Shicber et al., 95)). Harbusch [Harbusch, 90], presenta un analizador en dos etapas basado también en el método CYK y propone que su complejidad temporal es O(n* inn). Sin embargo, este resultado ha sido cuestionado en trabajos posteriores [Poller, 94] Schabes inicia la saga de algoritmos polinémicos que son extensiones del método de Earley. Como veremos, y al contrario de lo que sucede con este método para graméticas independientes del contexto, dichos algoritmos se dividen en dos clases dependiendo de si cumplen [Schabes y Joshi, 88b] o no [Schabes, 90] la propiedad del prefijo vélido. Informal- mente, esta propiedad garantiza que un analizador detectaré los errores tan pronto como estos suceden, En el caso de las graméticas de adjuncién de arboles, si no se garantiza, 86 __ Capitulo 4. Anélisis sintdctico de graméticas de adjuncién de drboles esta propiedad se aleanza O(n*) para la complejidad espacial y O(n®) para la temporal. El propio autor, en [Schabes, 91], discute, por primera vez, las dificultades a la hora de garantizar dicha propiedad, sugiriendo que la solucién a este problema pasa por aumentar tanto la complejidad espacial a O(n") como la temporal, que pasa a O(n”). Por esta época, también aparece el algoritmo de Lang [Lang, 90], del que surge Ia axiomatica presentada, anteriormente basada en cldusulas definidas. Aunque parte de presupuestos distintos, el algoritmo propuesto por este autor, es muy cercano al algoritmo de Schabes que no veri fica la propiedad del prefijo vélido y mantiene su misma complejidad temporal y espacial, Posteriormente, Nedethof [Nederhof, 97], presenta una extensién de Earley que garantiza, la propiedad del prefijo vélido, donde se mejoran los resultados del analizador de Schabes; a complejidad temporal se mantiene en O(n®) y la espacial se reduce a O(n®). Este anal- izador corrobora que la conjetura original de Schabes no era totalmente cierta. Al igual que sucedfa con el método CYK, también existen analizadores en dos etapas basados en el método de Earley ({Poller, 94], [Poller y Becker, 98]). Este analizador mantiene los costes computacionales comentados y no verifica la propiedad del prefijo valido. Utilizando el modelo de Sikkel para la definicién de los analizadores, (Alonso et al., 98] cestablece la relacién entre los algoritmos tabulares anteriores ¢ introduce un nuevo analizador que es la extensién de la versién ascendente del método de Barley, Nuevamente, este anal- izador presenta una eficiencia de O(n®). En ({Alonso et al., 99], [Alonso et al., 00)) se de- finen dichos algoritmos para el andlisis de graméticas indexadas de indices, Partiendo de al- -goritmos de andlisis sintactico para esta clase de graméticas, en ({Vijay-Shanker y Weir, 93], [Boullier, 96)), se define Ja representacién compacta de los bosques sintacticos mediante gramticas independientes del contexto, Este trabajo, indirectamente permite la descrip- in de dichos bosques para el caso de las gramaticas de adjuncién de arboles, ya que ambas clases de gramaticas reconocen el mismo género de lenguajes, Los primeros algoritmos bidireccionales con coste temporal de O(n®), son definidos por Lavelli y Satta [Lavelli y Satta, 91], y posteriormente por Van Noord (Noord, 94]. El primero combina la estrategia ascendente y descendente, mientras que el segundo es esencialmente ascendente. El analizador de Lavelli y Satta presenta varias limitaciones: sélo es aplicable cuando los arboles elementales no presentan nodos sustitucién ¢ incluyen tan sélo un ancla, Ambas limitaciones son superadas por el analizador de Van Noord mediante la introduecién de la operacién de sustitucién y el concepto de micleo en el contexto de un Arbol elemental. Por tanto, podemos decir que este iiltimo autor establece el primer analizador basado en miicleo (Head Corner) para graméticas de adjuncidn de Arboles. Schabes junto con Vijay-Shanker ([Schabes, 90}, [Schabes y Vijay-Shanker, 90]) son los primeros en definir una extensién del método LR(k) para graméticas independientes del contexto. La propuesta original presentaba algunos errores que fueron subsanados por Kiny- on [Kinyon, 97]. En su trabajo, introducia ademés la operacién de sustitucién y admitia multiples acciones en la tabla. Los dos métodos anteriores utilizan como base la versién ascendente del autémata EPDA (Binbedded Push-Down Automata) propuesto por Schabes. 87 4.6. Brove historia Un aiio después, Nederhof [Nederhof, 98], presenta un nuevo algoritmo basado en los clésicos ‘autématas de pila (PDA, Push Down Automata). Si bien su algoritmo reduce la complejidad a la hora de construir las tablas en el método de Kinyon, sin embargo, da lugar a tablas de un tamaio prohibitivo. Prolo, en [Prolo, 00], presenta una mejora del método de Neder hof, donde el tamafio y mimero de confiictos en las tablas se reduce de forma dréstica. En [Alonso et al., 97] se propone una versidn de este clase de algoritmos para el reconocimiento de gramaticas lineales indexadas. En los iiltimo afios ha recobrado especial interés la biisqueda de téenicas para mejo- rar el rendimiento de los analizadores. En este sentido se han aplicado técnicas para compactar el recorrido de los Arboles elementales mediante autématas de estados finitos ({Evans y Weir, 97], [Evans y Weir, 98]). Esta téenica, aunque no reduce la complejidad temporal en el peor de los casos, simplifica de forma significativa el proceso de reconocimiento en el caso medio. Siguiendo esta clase de compactacién, Lopez mejora la propuesta anterior definiendo una representacién que permite su aplicacién a estrategias de andlisis generales ({Lopea, 98}, [Lopez, 98b], (Lopez, 00]). Otra aproximacién basada en estados finitos es la propuesta en ([Harbusch, 4), [Harbusch et al., 98], (Harbusch y Woch, 00]) donde se de- fine un analizador para graméticas de adjuncién de drboles cuyos arboles clementales son definidos esquemsticamente al anotar los nodos con expresiones regulares (Weir, 88]. Tam- bién podemos apuntar otros trabajos que utilizan una combinacién de técnicas, como el propuesto por Halber que presenta una algoritmo tabular bidireccional [Halber, 98] que integra diversas estrategias: las super-etiquetas, informacién estadistica y compactaciones basadas en estados finitos. Una estrategia distinta es la propuesta por (Kercadio, 98], que presenta un analizador basado en Earley que garantiza la propiedad del prefijo valido. Este trabajo realiza una representacién de los rboles elementales de forma que el andlisis es realizado en base a derivaciones independientes del contexto que son restringidas para que efectivamente los lenguajes generados sean de adjuncién de drboles. ‘También han sido definidos algoritmos paralelos para gramaticas de adjuncién de arboles, En este caso, y aprovechéndose de computadoras con una arquitectura especial, la comple- jidad se reduce drésticamente, pudiendo Megar a ser lineal. El primer trabajo se basaba en una extensién paralela del método CYK [Pallis et al., 90] que posteriormente fue gener alizada en [Pallis y Wei, 92]) para ser aplicada a cualquier clase de graméticas. Estos dos trabajos son mejorados posteriormente por Nurkkala y Kumar aplicdndolos sobre maquinas ‘con una arquitectura diferente ([Nurkkala y Kumar, 94], [Nurkkala y Kumar, 94b)). Final- mente, Rajasekaran [Rajasekaran, 96] define un algoritmo paralelo basado en la versién ascondente del método de Barley. Sin embargo, este algoritmo es aplicable tan sélo cuando los arboles elementales son binatios. Capitulo 5 Esquemas basados en Earley sin prefijo valido Este capitulo agrupa un conjunto de esquemas que son una extensién para gramaticas de adjuncién de érboles del analizador sintactico de Earley (Barley, 68] definido para gramaticas independientes del contexto. Al igual que sucede en el método original, todos los esquemas que presentaremos son secuenciales y efecttian la lectura de los simbolos de la entrada en un linico sentido de izquierda a derecha, Sin embargo, debemos hacer una salvedad ya que, si bien el método de Barley para graméticas independientes del contexto garantiza la propiedad del prefijo vilido, éste no es el caso para los esquemas que presentaremos. Informalmente, cuando la propiedad del prefijo valido no es garantizada por un algoritmo para el anélisis sintactico, entonces el algoritmo, atin siendo correcto, no necesariamente detecta los errores tan pronto como éstos se producen, En el capitulo siguiente veremos nuevos esquemas que sorteardn esta dificultad. Dada una gramética independiente del contexto @ = (Vr,Viv,$,P) ¥ una cadena de entrada ay .,.a,, con n> 0, el algoritmo de Earley, que combina tanto la estrategia ascen- dente como la descendente durante el reconocimiento de la entrada, se define haciendo uso de items de la forma [Sikkel, 97} [A vew,i donde A+ vw es una produccién de P que es decorada en el {tem mediante un punto para, dlividir su lado derecho en dos mitades: indicando la primera, v, qué parte de la produccién ha sido ya totalmente reconocida y la segunda, «, qué parte queda atin por reconocer. El primer simbolo en la produccién situado tras el punto - si existe - se corresponde con el simbolo actual de reconocimiento en el item. Una produccién con su mitad derecha vacia, w = ¢, significa que ha sido totalmente reconocida. Los indices 0 < i < j determinan el segmento de la cadena entrada ai41 ...d que ha sido reconocido por v. Las reglas deductivas del método de Earley, son las siguientes: 80 99 Capito 5. Bsquemas basados en Barley sin prefijo vétido 1. El andlisis comienza con la prediccién de todas las producciones de P cuyo simbolo de la parte izquierda sea el axioma S. [S3+5,0,0) 2, Supongamos que el reconocimiento de una produccién de P ha alcanzado la posicién j-ésima de la cadena de entrada y que su simbolo actual de reconocimiento es un terminal a € Vp. La regla deductiva lectura avanzaré el punto hasta situarlo detrés del terminal a si coincide con e! simbolo situado entre las posiciones jy j +1 de la cadena de entrada. [A> veani lai +1) TAS vaew,i,5 +I 3. Dada una produccién en P cuyo simbolo actual de reconocimiento es un no termi- nal B € Vy, la regla deductiva prediceién comenzard el reconocimiento de aquellas producciones de P cuya parte izquierda coincida con B. El cardcter descendente del método de Earley procede de la aplicacién de este género de prediccién. [As ve Busing] B > 8.5.7) 4, Dada una produccién de P completamente reconocida con un simbolo no terminal B€ Vy ensu parte izquierda, la regla deductiva complecién contimia el reconocimiento de aqueltas producciones de P cuyo simbolo actual de reconocimiento es el no terminal B. Para aplicar la regla deductiva debe verificarse que los reconocimientos efectuiados por ambas producciones se correspondan con segmentos colindantes de la cadena de entrada. La complecién es la que otorga el cardcter ascendente al método de Earley. (B+ 60,j'. [A 3 v0 Bonini?) ois vBeaigy La extensién del esquema de Earley para gramaticas de adjuncién de arboles se realiza a través de las siguientes modificaciones: ‘+ en el contexto de las graméticas de adjuncién de érboles el simbolo actual de re- conocimiento se corresponde con un nodo en un Arbol elemental. # los indices i y j delimitan ahora el segmento de cadena reconocido respecto del nodo actual de reconocimiento. '* se aiiaden dos indices, p y q, que determinan el segmento de la cadena de entrada dominado por el nodo pie de un érbol anxiliar. Comenom gr : Comienzo y Final de andlisis Y NY Figura 5.2: Lectura de terminal el reconocimiento empieza estableciendo como nodo actual de reconocimiento la raiz de los arboles iniciales (Ver figura 5.1). la lectura apenas se ve alterada, salvo que ahora se realiza en el contexto de un nodo en un arbol elemental (Ver figura 5.2) la prediccién y complecién (de subérboles) establecen el principio y final del re- conocimiento de un subérbol perteneciente a un drbol elemental (Ver figura 5.3). se afiaden la prediccién y complecién de un nodo pie que establece el principio y final del reconocimiento del subarbol sobre cuya ratz se efectud la adjuncién del érbol auxiliar al que pertenece el pie (Ver figura 5.4) : Prac de Compe de ‘bel sre Figura 5.3: Prediccién y Compleci6n de subérbol 92 ap ttuto 5. Bsquemas basados en Earley sin prefijo vitido Prac Comes do ‘sane ‘oon a ee Figura 5.4: Predi ion y Complecidn de pie y adjuncién « se afiaden la prediccién y complecién de adjuncién que determinan el principio y final del reconocimiento de un arbol auxiliar adjuntado sobre un nodo de un arbol elemental (Ver figura 5.4). Presentaremos primero un esquema, al que denominaremos E [Alonso et al., 9b]. De forma similar a lo que sucede cuando se trata de las graméticas independientes del contexto, este esquema puede ser obtenido a partir del esquema buE visto en el capitulo anterior. Efectivamente, el esquema bu no es més que una versién puramente ascendente del esque- ma E donde se establece de partida la prediccién de subarboles para cualquier posicién de Ia cadena de entrada. A continuacién, veremos el esquema S [Schabes, 90] obtenido a partir del algoritmo original de Schabes que no garantiza la propiedad del prefijo valido, Este algoritmo tiene un interés histérico adicional ya que fue precisamente el primer analizador sintéctico para ‘gramaticas de adjuncién de arboles basado en el algoritmo de Earley. Una vez definidos ambos esquemas, By 8, veremos cémo estén relacionados. Podemos adelantar que, aunque ‘ambos esquemas se basan en la misma estrategia de reconocimiento, el esquema E aprovecha mejor la informacién ofrecida por los valores de los indices en los items. El resultado final serd que el esquema E utiliza reglas deductivas mas simples que el esquema S. Finalmente mostraremos la relacién entre el esquema $ y el algoritmo original en que se basa mediante Ja definicién de una serie de esquemas intermedios Los esquemas principales que veremos presentan una complejidad temporal de O(n") y una complejidad espacial de O(n‘) en el peor de los casos. Ahora bien, al adoptar una estrategia combinada ascendente y descendente, en la mayorfa de los casos, se reduce con- siderablemente el niimero de items deducidos respecto de los esquemas buE y CYK. En el caso medio, su comportamiento temporal es también mejor que el obtenido por los esquemas 5.1. El esquema E Figura 5.5: Items del esquema E anteriores. 5.1 El esquema E El dominio Zz sobre el que se define el esquema E coincide con Zu, y consta de items de la forma: [N7 > vew,i,j,p.a] donde N? + vw es una produccién en el conjunto P(7) siendo 7 € TU A. Los indices 0. ve M14, i,j,p.4] [T > RF 3,5,-.-] fet = Be Adi(M) La regla deductiva Dg", una vez completado el reconocimiento del subérbol con raiz M7”, contimia el reconocimiento del superarbol respecto del mismo nodo. Si M7 pertenece a la espina de 7, entonces los indices p y q presentarn algdn valor. De igual forma, si alguno de los nodos contenidos en v pertenece a la espina de 7, entonces serén p' y q’ los que presenten algtin valor. Esta regla deductiva transmitiré sus valores de forma ascendente a través de los nodos de la espina, y a partir de éstos, a través de los nodos hermanos situados ala derecha de los nodos de la espina. [M7 > 39, J d.p.g) IN" > ve MwW,4, J's [N13 v7 eu,h, pup. ad] pgm nil ¢ Adj(M7) La regla deductiva DE/* efectiia la complecién del nodo pie, una vez completado el reconocimiento de un subérbol con rafz M7 donde esté permitida la adjuncién del Arbol auxiliar 8. Con la complecidn se empieza el reconocimiento del contexto derecho del érbol 8 y se establecen los valores relacionados con el segmento de la cadena de entrada reconocido Co ees Te Figura 5.6: Complecién de adjuncién en el esquema E por el nodo pie. Este segmento coincide con el reconocido por el subérbol sobre euya rafz MP se ha efectuado la adjuncién del arbol auxiliar. Los valores de los indices p y q, que son ignorados, serén nuevamente tenidos en cuenta en la regla deductiva Dg** cuando se haya reconocido totalmente el érbol auxiliar cpt [M7 > de kyla pra) [FO 9 0 4, Ft M”) DE [F? 1k I,kT] B€ Adj(M?) La regla deductiva DE“ (ver figura 5.6) tras terminar el reconocimiento del arbol auxiliar 8 adjuntado en M7, prosigue con el reconocimiento del superarbol respecto del mencionado: nodo. La complecién de adjuncién terminaré por cribar aquellos items innecesarios que hayan sido introducidos por la regla deductiva Df!*. La correccién del esquema est pre- cisamente avalada por la aplicacién de esta regla deductiva donde se exige la coincidencia de los valores k, Ly j. [T + R%e,j,m, hed] [M7 + 60,k,L.p,a] [NT > ve Mai, 5,04] SUNT eam pup aug] °° Aa) El conjunto de items finales es el mismo que el del esquema buE, y consiste en: Fe = Fie = {[T 4 B80,0,n,-,-]]a€ T} Respecto al conjunto de items validos Vp, si un item [N° v ¢w,i,j,p,q] pertenece a dicho conjunto, podemos garantizar que v 3 aj,1...aj en el caso de que los valores de ¥ q no sean conocidos. Si p y q presentan valor, entonces 7 es un drbol auxiliar y » 3 Gir. @pFTaq41 ..-@;. Sin embargo, a pesar de la prediccidn incorporada al esquema E, no 96 Capito 5. Bsquermas basados en Earley sin prefijo vdlido necesariamente existira un Arbol inicial a y un mimero 0 O7...0}, tendremos que utilizar Ios items relacionados con cada uno de los nodos 7 con 1 < t O} © O}...07_,O7,t.j1,P1.01) Wari einUermUcrad NS ASHP) La regla deductiva D§% se corresponde con la complecién del nodo pie respecto de cualquier nodo M” donde se pueda adjuntar 8 [Mr 3 0703. [Mr 5 O70}. OF OF 0, bth Pres Ge) O24 © OF shea dea P1491) [M7 + 0} 603. ot 107 kyl, p1s a1] k FPL R LRT Be Adj(M7) 98 __ Capitulo 5. Esquemas basados en Earley sin prefijo wilido La regla deductiva D§* se corresponde con la complecién de adjuncién del érbol auxiliar 8 adjuntado en M?. Esta regla deductiva, al igual que Dg’, garantizard la correccién del algoritmo ya que criba los items innecesarios deducidos por la regla DE. [T > Ree, j,m, k,l] [M7 + OO} ...O7 Of, lea L-Prs dr] [M7 +p OF}... Of # Of bras let Pras [MP 07 00}... OF 07 slp) peat Z [7 3M? 0w,3,m,UE 8 € Adj(M") El conjunto de items finales, igual que en el esquema E, consiste en: Fs = Fp ={[T + R%,0,n,-,-]|a€ I} Respecto al conjunto de items vélidos Vs, si un item [NY + vM7 ew,i,j,p,q] pertenece ‘a dicho conjunto, podemos garantizar que M7 3 aj41...a; en el caso de que los valores de p y q no sean conocidos, Si p y q presentan valor, entonces 7 es un érbol auxiliar y M7 % aigr...apFag41...a;. Sin embargo, a pesar de la prediccin incorporada al esquema, no necesariamente existird un arbol inicial a y un nimero 0 < h < i tal que Ro 4 ay...an Fp y ROS anss...a)M%. La causa procede, justamente de que el esquema S no garantiza la propiedad del prefijo valido. Por tanto, el conjunto de items validos Vs, incluird mas items de los necesarios para efectuar el reconocimiento. La complejidad en el peor de los casos respecto al espacio y al tiempo coincide con Ja del esquema E. Para alcanzar igual complejidad temporal debe tenerse en cuenta que los antecedentes relacionados con la produccién M7 > OJ ...O% en las reglas deductivas de complecién deben ser aplicados parcialmente. Mediante esta técnica obtendremos las posiciones donde comenzé y terminé el reconocimiento de dicha produccién y sus valores Py q asociados. Una vez conocidos todos esos valores, deberdn ser contrastados con el antecedente restante para poder aplicar la regla deductiva. 5.3 Relacién entre los esquemas E y S Al comparar los esquemas E y § podemos comprobar que el mimero y significado de las reglas deductivas es similar. Asf, nos encontramos con reglas deductivas para el comienzo del anélisis, la lectura de simbolos terminales y seis reglas deductivas dedicadas a la prediecién y complecién de subrboles, nodos pie y adjuncién, La diferencia en las reglas deductivas es debida a los antecedentes utilizados en la complecién, Los items de ambos esquemas también incluyen tan s6lo cuatro indices: dos indices, i y j, relacionados con el segmento de la cadena de entrada reconocido por los arboles incluidos cen el {tem junto con dos indices, p y q, relacionados con el nodo pie de los arboles auxiliares. 5.3. Relucién entre los esquemas E y $ La diferencia fundamental es la forma en que es interpretada la informacién correspondiente al indice i y la forma en que se trasmiten los valores p y 4. Dado un item [N? + vM” ew, i, j,p, q], en el esquema §, el indice i representa la posicién de la cadena de entrada donde empez6 e! reconocimiento del nodo M7. En el esquema E este indice indica la posicién donde empezé el reconocimiento de N7. Segiin sea interpretado el significado del indice i, la forma en que se transmitiran Ios valores de los indices i y j variaré, influyendo en la composicidn de los antecedentes de las reglas deductivas relacionadas con la complecién de subérbol, adjuncién y nodo pie. El esquema E adopta una estrategia més sencilla que el esquema S, ya que dada una produccién M” -+ Of ...07, mantiene el valor del comienzo de reconocimiento de la pro- duccién en todos los nodos OF con 1 < t OF 6 0}...07_,02,i,ju.Praal [Nt ve Mw,i ipa] ogre . [NT 3 eM wij, nil € Adj(M7) [1 > Ree, j,mht] [M7 + O70} ...Of_ Of, b—-1,,Prs a] (M7 > OfO}...O7_, © OF slay bet, Pr—154r—1) [MP + Of OF...0 Of bslspss ai] It vedios jal Dg = [N73 v7 ew, 3,m,U} Be Adj(M") Respecto al conjunto de items finales coincide con el esquema S: Fy =Fe= Fe Proposicién 5.1 S “% s! Prueba 5.1 Al ser por definicidn el conjunto de items de ambos esquemas iguales, y co- incidir todas las reglas deductivas menos las relacionados con la complecién de subérbol y adjuncién, bastard con demostrar que DS"? Crs y que D§*4 Cts, (i) Dado nil € Adj(M7), si se cumple DE” [M7 - 0703 ...07_,O}@, jr—1,5.Pe. de] [M7 + O70}... Op_y © OF ,jr—a int Pry drt) [M7 ~ 0} ¢0}...07_,0},%, 51.91.01) [NY > uM? 0 4,5,U; 101 5.3. Relacién entre los esquemas Ey S entonces, puesto que M7 no presenta restriceién de adjuncién obligatoria, usando DE"? tendremos también [M7 + Of0}...O2 0}, jr—1,5.Pr dr] [MP + O10}... 08 © OP pa asde-as Prosar [M7 > Of ¢0}...07_,07,i,5:, p14) (NY > uM? 00, ,5,Upa1 Ps User Pal (ii) Finalmente, sea 8 € Adj(M7), al cumplirse Dg [T > Re jmykl) [My > OFOJ...02 Of bea. ls rode [M1 + 0703 ...08, © OF be—aylr—tsPr1sdr-al (ae OF ot 02. Paenea (NT > ve Mw, i,j, 7,9) [N79 OM? #w,j,m, JS Per entonces, al poder ser adjuntado 1 en M", aplicando DE tendrfamos que [1 We, j,k] [M7 > O70} 02 O36, 1y-1sti rode] [M7 > O70} 0%, OF be asteatsProtsdeoad [M7 > 07 «0}...07. [NT 3 uMy OF ksh pr a] ad 7 A través del esquema $” cambiamos la interpretacién del indice i siguiendo la adoptada por el esquema E. Esto implica que en las predicciones se estableceré el valor del indice i, que siempre es conocido: en la regla deductiva de comienzo sera 0 y en las reglas deductivas de prediccién de subérbol, nodo pie o adjuncién coincide con el valor de j, ‘También es necesario que las reglas deductivas de lectura y complecién mantengan el valor de i tras ser aplicadas. Estas reglas deductivas también deberdn transmitir entre los nodos hermanos los valores del los indices p y 4 Como consecnencia de estas modificaciones, durante el reconocimiento de LA. produccién M7 + O}...Of, la informacién de los indices i, p y q ité siendo trasmitida a través de todos los nodos que domina directamente, Finalmente seré el tiltimo nodo el que ofreceré la informacién necesaria para realizar la complecién. Al refinar los items de esta forma, el conjunto de items validos coincidiré con el del esquema E: Vs" = Ve. El dominio del esquema S" es igual al del esquema anterior, y por tanto, igual al de los esquemas $ y Es Tsp = Ty = Is = Te 102 Capitulo 5. Esquemas basados en Barley sin prefiio wélido El esquema se define mediante las siguientes reglas deductivas: Dew = DEK UDSUDE UDES U DEP UDG" U DE! UD donde las reglas deductivas de prediccién, de comienzo y lectura de terminal son las mismas que las definidas para el esquema E, Dini = Dirt eit ppst DES = DES Dstt = Det mientras que las reglas deductivas de complecién se definen mediante [M7 + O}03...0}_, O38, 3'.5, Pryde] 10} «OF [M7 > O]0§ Of, # O25! 5r—tyPr—1se—1] [RY OF OF OF 108 Fetal mp [NT 40 M%,i iP i uM" grr = [NT OM 0st, POPs OTI meager) [ar + 070} [Mo + O70; 22h, Prod] OF Kyla Pray Gr) [M? - O} ©O}...02_,0}. kh. psa) [FP 0 1 kk, FF Sie kik Be Adi(M”) [T > Re, j,m,k,t] [M" + O}O}...O7_,Of¢, kyl, Prsde] [M7 > O70} ...O7, ©O},kybp-1,Pr=15r—1] we + OF a Crip hte puel oy 2, i,5,Pid [NY 5 uM? ew, i,m,p, Up,ar Ua) Des B€ Adi(M") Respecto a los indices para el pie de las reglas deductivas de complecién se cumple que: * 0 bien todos los pares de indices (px, qr), dado 1 < t < r, no presentan valor conocido 103 5.3. Relacién entre los esquemas E y S © o bien existe 1 < t Tyr definida: HM > 5,4.4,—.-) FIN 3 vM7 ow, i,j,p,a)) = iM? + 05,-,j,-)-] IN? 3 M7 ow,i',j0'sa] donde se cumple que v > aiy1...a» y MY 4 ay4r...ay y ademds, respecto a los valores de los indices del nodo pie, se verifica que: 1. si (p,q) = (—,—) entonces (p/,q') 2. si (pg) #(—s—) WY aig. apF Yager ...y entonces (p/, 4) 9. si (p.g) #( Se puede demostrar que la funcién es regular y mantiene las cadenas de derivaciones. { a) J) MOS arg eec pF ages «a5 entonces (p',4') = (Bra) Queda, por iltimo, establecer la relacién entre el esquema anterior y el esquema B, Proposicién 5.3 S" = E Prueba 5.3 Por definicién tenemos que Tz = Ts». Quedarta probar también que Ds 2 De, y como al definir las reglas deductivas hemos comprobado que todas eran iguales salvo las relacionadas con la complecién de subérbol, adjuncién y nodo pie, tendremos que probar tan sélo la inclusién de éstas. Ahora bien, si observamos estas reglas deductivas en el esquema 8", nos podemos dar cuenta que, dada la produccién M* + O} ...O7, los consecuentes ‘uilizan tan sé6lo la informacidn del item donde el punto estd situado al final de la produccién, Es decir, si ignorumos el resto de los items donde el punto se encuentra situado en otro sitio que no sea el final de dicha produccién, ta regla deductiva se comportarta de forma anéloga. Ahora bien, si procedemos de esta forma, podemos ver que las reglas deductivas resultantes serfan iguales a sus homénimas en el esquema E. De agué se deduce, por tanto, que Ve = Vs. t 104 Capitulo 5. Bsquemas basados en Barley sin pref vilido 5.4 El algoritmo de Schabes sin prefijo vdlido Presentaremos ahora el esquema Sp que es una adaptacién del método basado en Earley ropuesto por Schabes que no garantiza la propiedad del prefijo vélido. Veremos que a partir de este esquema So y mediante transformaciones se obtiene el esquema S. El algoritmo original esta diseniado mediante técnicas de programacién dinmica y hace uso de arboles decorados con un punto en uno de sus nodos. La situacién del punto puede ser caracterizada, do la siguiente forma: «© (Left-Above, la): un punto situado en la parte superior de la izquierda del nodo *M” «© (Left-Below, 1b): un punto situado en la parte inferior de la izquierda del nodo M7 © (Right-Below, rb): un punto situado en la parte inferior de la derecha del nodo M, *# (Right-Above, ra): un punto situado en la parte superior de la derecha del nod M7" Para establecer la estrategia ascendente con prediecién se define un recorrido del punto dot € {la,1b,rb,ra}, a través de los nodos de un rbol elemental. El recorrido tiene por cometido capturar todas las posibles operaciones de adjuncién que puedan efectuarse. El recorrido empieza en la posicién la de un nodo raiz.y termina en la posicién ra del mismo nodo raiz. El movimiento del punto a través de los nodos de un arbol se realiza del siguiente modo (Ver figura 5.7): ‘+ si el punto esté en la posicién Ja, se presentan dos casos. Si el nodo est etiquetado con un no terminal se desplazaré hacia la posicién lb del mismo nodo. Si el nodo est etiquetado con un terminal se desplazaré hacia la posicién ra del mismo nodo. ‘+ Si el punto est en la posicién 1b, el punto se desplazaré hacia la posicién la de su primer nodo hijo, si existe. En el caso de que el nodo sea pie, tras su complecién el punto se situard en la posicién rb del nodo pie. ‘* Si el punto esta situado en la posicién rb, entonces el punto se desplazara hacia la posicién ra del mismo nodo. * Si el punto esté en la posicién ra, también se presentardn dos casos. Si el nodo tiene algiin hermano a su derecha, el punto se desplazaré hacia la posicién Ia de su nodo hermano. Si el nodo no presenta hermanos, el punto se desplazard hacia la posicién rb de su nodo padre. La informacién de los reconocimientos parciales efectuados por el métoclo de Schabes se almacena en estados, que no son més que una tupla de la forma: (y,pos, dot, i, j'p.q) 5.4. Bl algoritmo de Schabes sin prefijo vétido 105 ANI ' ge ge ye Figura 5.7: Recorrido del punto en drboles elementales donde + es el nombre de un érbol elemental, pos € D, la direecién de un nodo en el arbol + ¥ dot un elemento en el conjunto {la,1b,rb,ra} que determina la situacién del punto en €l nodo (pos). Los indices i y j', en el caso de presentar un valor conocido, determinan el segimento de la cadena de entrada reconocido por (p) y verifican 0 < i 1 nodos, desplaza el punto desde el siltimo nodo O} hasta M7 (Ver Figura 5.10). arent 2 LOR TULIP yey vOVOLe dso haa M7 + vOJOY 1og____ Gapitulo 5. Bsquemas basados en Barley sin prefijo vilido ZN Figura 5.9: Proceso Move Dot Down del esquema So AEN > LEN Tianea opal any bes] 6 (ibe Figura 5.10: Proceso Move Dot Up del esquema So [O}, 10, ra, 5.5,Pes Qe) [03 ,ra, jx, 52,52, P22) (Of. ra i,j dpra) (907, 70,4,5,5,UESt PU Para el proceso Left Predictor son necesarias las reglas deductivas DE?" y DEP. La primera se aplica si es posible una adjuncién de j sobre M7, lo que propicia empezar el re- conocimiento de una nueva ocurrencia del Arbol auxiliar 9. La segunda ignora la posibilidad de adjuncién sobre el nodo M? etiquetado con un sfnbolo no terminal, siempre que este nodo no presente restriccién obligatoria de adjuncién. (Ver Figura 5.11), M7 + O70}...0} a 1 ge aaa) 109 5.4. Bl algoritmo de Schabes sin prefijo vilido “Re t Figura 5.11: Proceso Left Predictor del esquema So Re nil € Adj(M?) El proceso Left Completor requiere de una sola regla deductiva DE® que es aplicada cuando ha concluido el reconocimiento de un auxiliar # hasta su nodo pie, pasdndose a reconocer él subirbol podado por la adjuncién (Ver Figura 5.12). La propiedad del prefijo valido es violada por la aplicacién de esta regla, al igual que sucede con las reglas Dg! y Dg. Adj(M” Ba] Be Adj(M") Dos reglas deductivas, Dg?" y D&??, son necesarias para el proceso Right Predictor. La primera se aplica si finalizé el reconocimiento de un subérbol con raiz M” sobre el que se adjunt6 un Arbol auxiliar 8. Si se cumple dicha condicién entonces se empezard el 110 ____. Capitulo 5. Bsquemas basados en Barley sin prefijo wilido . . Ik.Llp.a] “oN = fj ipa] fihipa) Figura 5.13: Proceso Right Predictor del esquema So reconocimiento del resto del drbol 9. La segunda prepara la complecién de un subérbol con raiz M7 siempre que no sea obligatoria la adjuncién sobre dicho nodo (Ver Figura 5.13) pir = (M7,rb, kb p.g) (PU so (F876, B00, bl) 8 @ Adj(M") M SS rad jing) ME AWOM) Finalmente, el proceso Right Completor se define mediante la regla deductiva DE, que ¢s la encargada de la complecién de la operacién de adjuncién efectuada sobre el nodo M? (Ver Figura 5.14). La correccién del algoritmo, a pesar de no cumplir la propiedad del prefijo valido, es garantizada por la aplicacién de esta regla, al igual que sucede con las reglas DE" y D§e [R% ra, juny my Kyl] [M7 rb kyl Py DR = M96 saa se TW, ra, j.m,m, pod] oa El conjunto de items finales viene dado por: Fey = {{R°,ra,0,n, lee T} Respecto al conjunto de items vélidos Vg, si un stem [M",dot,ra, i,j’, j.p, 4] pertenece a dicho conjunto, podemos garantizar que j’ = j y que M7 3 aiy1 ...aj cuando los valores de py q no sean eonocidos. Cuando son conocidos p y g, entonces 7 es un érbol auxiliar y se cumple que M7 3 ais1...dpF'"ag41...4j. Por las mismas razones que fueron expuestas en el esquema E, la prediccién incluida al esquema So, no es suficientemente fuerte como para garantizar la propiedad del prefijo vlido. Por tanto, existiré un mimero indeterminado 5.4. Elalgoritmo de Schabes sin prefijo vilido — Re ZN | Lommel) [k.te.4] Figura 5.14: Proceso Right Completor del esquema So de items deducidos que no seran de utilidad. La inclusién de estos items no afectaré a la correccién del algoritmo, por que en tiltimo término, seran descartados por la regla deductiva Dé, 5.4.1 Relaci6n entre el algoritmo y el esquema S Partiendo del esquema So construiremos una serie de esquemas intermedios que daré lugar a una compresiGn de las secuencias deductivas del algoritmo original de donde obtendremos el esquema S. Efectivamente, podemos observar que en algunas de las reglas deductivas del esquema anterior no se modifican los indices en los items, limitdndose a garantizar el correcto desplazamiento del punto en los nodos de los drboles elementales. Estas reglas deductivas, al contrario que las otras, no aportan informacién significativa en el proceso de reconocimiento por lo que pueden ser suprimidas sin afectar a la correccién del algoritmo. ‘Al suprimirlas, si se alterara el conjunto de items validos. La serie de esquemas que a continuacién desarrollaremos es la siguiente: So 8; $5 824% 85 “3 81-8 Brevemente, el esquema S suprimir el componente j" de los items del esquema So. El esquema S2 aitadiré el nodo ficticio 1 a los Arboles auxiliares. El esqueia Sg suprimiré las posiciones [b y rb de los items del esquema 82. Posteriormente, Sq suprimirs las posiciones a de los items del esquema Sg cuando éstas proceden de nodos hermanos. Finalmente el esquema S sera un cambio de notacién del esquema Sq donde se adoptaré la notacién ‘multicapa para representar los drboles elementales. De la serie anterior podemos observar {que existen dos contracciones consecutivas. Aunque es perfectamente posible unirlas en una sola transformacién, las hemos dividido con la intencién de que el razonamiento sea més claro. Empezaremos por el esquema 1 que es précticamente igual al esquema So salvo que se hha suprimido el indice redundante j'. Si observamos con cuidado las reglas deductivas del esquema So, comprobamos que si el indice j’ tiene un valor conocido, éste se corresponde 112___ Gapituto 5. Bsquemas basados en Barley sin prefijo vélido con el valor de j, Puesto que el valor del indice j es siempre conocido, parece razonable pensar que la informacién aportada por j' es redundante. De este modo, el dominio Ts, contendré items de la forma [M7 dot, i,j, p.4] siendo todos sus componentes andlogos a los incluidos en Zs,. El conjunto de items validos para S1, sera similar al presentado para el esquema Sq salvo que los items deducidos no incluyen el indice suprimido j'. Las reglas deductivas se corresponden con las siguientes: Ds, = UDI UDS! UBS? U DEM U DEA U DBM UDE" U DE? U DEE UDR" U DE u DE cuyo significado es similar al de las reglas deductivas del esquema So ni a" * Ree te! pga = id + Wla%,la, -, * (ra 55 40-4 [02.745 drt ds Pro Oe) (03, ra, ju, j2,p2.42] (Of raisjipal py 2 —[Otrat ira) ayy oroy...07 8 TM rb US a ° = Ola, ~5=) =] a py (Ra, Be Adj(M) nil € Adj(M”) 13 5.4. Bl algoritmo de Schabes sin prefijo vdlido 8 Adj(M") 1 2 (MO rb kL psa) PPM, rss 1F9, 75, Bl, Rl) J pe agiur) pla 2 [MU rb iPod e 4j(M2) SE ra, 5,p.) RP ra, j,m, k,l) (M7,7b, kt, P,g) ‘1 pee 2 era, jmblIM hd ge sai [WP ra, jamal) aris El conjunto de items finales viene dado por: Fe, = {[R",ra,0,n,~,—] a € T} Proposicién 5.4 So = $1 Prueba 5.4 Definimos la siguiente funcién f :Ts, > Ts, tal que SCM iJ" Pra) = (Mi5.P.4) La funcién es trivialmente regular, segtin la relacién existente entre j y j', y nos conduce, por las mismas consideraciones, a secuencias deductivas semejantes. t En la siguiente transformacién, que nos conduciré al esquema S2, introduciremos en el proceso de reconocimiento el nodo ficticio . Por tanto, el dominio Zs, constara de todos Jos items incluidos en Zs, al que afiadiremos aquellos items donde el nodo puede ser también -L. Abusando de la notacién, el nodo afiadido indicaré mediante .° el arbol auxiliar al que nos referimos. Al afiadir el nodo estamos facilitando la uniformidad en el significado de los puntos cuando éstos se encuentran o bien a la izquierda {la, 1b) 0 bien ala derecha {ra,rb}. De este modo, preparamos las contracciones que seran realizadas en los esquemas siguientes. El con- Junto de items validos del esquema Sz, aumentard respecto al esquema anterior afiadiéndose los items relacionados con el nodo 4 en el caso de que se hayan efectuado operaciones de adjuneién: 1. Sien Vs, son validos los items de la forma [F?,15,~,—,,—] entonces también son vélidos en Vs, los items de la forma: [7 ta,-,-.8, =] [19,08 -,- hs] 14___________ Gapstuto 5. Bequemas basados en Barley sin prefiio vido 2. Si en Vs, son validos los items de la forma [F*,rb, k,l, k,l] entonces también son validos en Vs, los items de la forma: {19,ra,k,1,k,0] [P76 bt, RO) Las reglas deductivas se corresponden con las siguientes: Ds, = DE UDE UDE? U DE U DEM U DE UDE U Dw? U Dee U DEP" u DE u DE donde Dlg = Dk S51 = DS vis = Die Duet = py pilee py ited = pytann Dep! = Ds DBp = DSP pe = De mientras que las reglas que difieren, que son semejantes a DES y DE", se definen de la forma siguiente: Be Adj(M) [M7 rby kyl peg) (19506, =, (19,76, BERT Dee Be Adj(M?) El conjunto de items finales coincide con el del esquema anterior: Fs, = Fs,. mn 5.5 Si > Sp 115 5.4. Bh algoritmo de Schabes sin prefijo vélido Prueba 5.5 La inclusién de los items de S, en Sz esté garantizada por la propia definicién de Zs, que se limita a aradir a Ts, los items para el nodo ficticio 1. Todas las reglas deductivas de Sy estén presentes en Sq salvo DES y DEP". Veamos que ambas pueden ser simuladas usando reglas deductivas de Sz (i) Dado 8 € Adj(M7), supongamos cierto DE° [Feu [MP1 =k, Entonces, puesto que el nodo 1 es el primer y tinico descendiente de F°, aplicando DEM tendriamos (Ft, =, (23,ta,=, uv puesto que L° es considerado por definicin un simbolo no terminal con restriccién de adjuncién nula, usando Dg? [1 la, —h, (am, =] vy de aqui, basta aplicar DES, ya que puede ser adjuntado en el nodo M7 (ii) Por tiltimo, dado 8 € Adj(M), sea la regla deductiva DE?", (Arb, ky Lys) [F8,U [F8.rb, El, kd] usando el mismo razonamiento anterior, tenemos que al ser L” el primer descendiente de F%, aplicando D&“4 tendrvamos [F*,lb, ~k,—,-] (ta, ,k,==] y puesto que L° es considerado por definicién un stmbolo no terminal com restriceién de adjuncién wula, usando Dg” y de aqui, mediante D&?", al poder adjuntar 8 en M7, tenemos que (107, rb, kyl py] [LU (19, 7b CT] 116 _____ Capitulo 5. Bsquemas basados en Barley sin prefijo wélido ¥ por tanto, utilizando DEe”, ya que por definicién nil € Adj(.L8), tendrfamos [LA rb, kyl kell (rah L Rd Jo que finalmente, al ser L° el tinico nodo descendiente de F*, aplicando DY? (Psa, htt) (F870, 1, t) t El esquema anterior da pie a poder realizar la primera compresién de secuencias de- ductivas del algoritmo original de Schabes. En el siguiente esquema, 8g, suprimiremos las posiciones 1b y rb en los nodos. Podemos observar que las posiciones la y 1b se utilizan bésicamente para la fase de- scendente. El cambio de la a Ib es realizado por todos los nodos etiquetados mediante no terminales y no afecta a los valores de los indices en los items. La diferencia entre ambas posiciones es, realmente, conceptual. La posicién la prepara la decisién de si se va a realizar una prediccién de subérbol o de adjuncién. La posicién Ib es posterior a dicha decisién. Co- mo consecuencia, suprimir alguna de las dos posiciones no afecta seriamente a la correccién dol esquema, si la transicién se realiza desde la posicién la de un nodo a la posicién ta de su primer nodo hijo. Las posiciones ray rb se relacionan con la fase ascendente. El cambio de rb a ra produce efectos distintos en los valores de los indices dependiendo de que sobre un nodo M™ ‘etiquetado con un no terminal se haya realizado una complecién de subitbol 0 de adjuncién. Para poder unificar ambas posiciones, podemos modificar la complecién para que se efectiie a partir de los nodos dominados directamente por M” y no a partir del propio nodo M”. Esta forma de proceder evitard también que puedan efectuarse varias operaciones de adjuncién sobre un mismo nodo. El tinico problema para modificar el modo en que se efectiia la prediccién (de padre a hijo) o la complecién (del iltimo hijo al padre) seria el nodo pie ya que este nodo no presenta descendientes en los arboles elementales. El problema en nuestro caso no es tal, debido a que en el esquema Sz introducimos el nodo ficticio 4. que nos garantiza que los nodos pie también dominan a algin nodo. Por tanto, el dominio Zs, del esquema Sg incluye tan s6lo aquellos items del esquema Zs, que verifican que dot € {Ia,ra}. El conjunto de items vélidos coincide con los del esquema. anterior, salvo que no aparecen los items con posiciones Ib y rb: Vsy = Vs. Ts, Las reglas deductivas para Sg son las siguientes: Ds, = DSU DS U DSP UDMA Dyed Ube U DEP U Dee U DE? UD 5.4. Bl algoritmo de Schabes sin prefjo wslido 7 donde dnt = pint Ds: st gs = DES = DSS 2 = Die = Dee pie apie pe ig =e pep mientras que las demas reglas deductivas vienen dadas por i=] oh saa. [ML Psy {07, la, M? + O75 Anil € Adj(M") [02,4 5r-1,5Pr er] (03,04, jude, P2s42) petne 2 (Onret JPA) ars of03...07 a 8 (MP rai, 5UIS1 Pes Ue ae] te 2 LP =) aso eM PS * Otte e ea] MOAB E Ad) [O} rata L Pes te) {0}, ra,t,l2,P2,42) [O},ra, ky hp a] (ita, Tra, kel] pee = M? + OJO}...02 18 € Adi(M7) [R? ra, j,m, kyl) [O}.1a,tp as Prsde] {0}, ra, l1,l2,p2, a2) a [O},ra, kt pr.ai) PE Be racimUtne M? + OJO}...07 18 € Adj(B”) a) EI conjunto de items finales coincide con el de los dos esquemas anteriores: Fs, = Fs, = Fy Proposicién 5.6 S2 => Ss ig____ Capitulo 5, Bsquemas basados en Earley sin prefijo uélido Prueba 5.6 En la definicién ha quedado claro que Ts, €s wn subconjunto estricto de Ts, ya que éste siltimo ha suprimido los items con posiciones Ib y rb. Queda, por tanto, probar que §,2h8,, lo que demostraremos mediante 3,2 Ds, para las reglas deductivas en Ds, que no sean iguales a alguna en Ds, (i) Supongamos DE", siendo M7 + 075 tal que nil € Adj(M™) [AP ta, (Ota, entonces al ser M7 un no terminal sin restriccién obligatoria de adjuncién, aplicando DEp tenemos que (M7, a, [a puesto que O" es el primer hijo de M7 usando Dé (ii) Dado M7 + 070} ...O7 con niil € Adj(M?), si se cumple DY? (O} 70, 51 5sPre de] [0], ra, j1,J2,P2, 4%] [O},ra,i.ju pia) (M7, ra,i, i, Uy entonces aplicando D&it*?, (O} 70, 552 5,Pre de] (O} ra, js, jo,P2-49) (O}.raisjnpra) (M7, 7b,i,5, Ula Por xy como M? es un no terminal que cumple nil € Adj(M"), aplicando D&?? (M2, rbsi, 5. UtzI Peo Ui gel yPoUr (iii) Dado 8 € Adj(M") y M7 > 076, al cumplirse DEE 5.4. Bh algoritmo de Schabes sin prefijo vélido 119 tenemos que, puesto que por definicién L es un no terminal que cumple nil € Adj(L*), aplicando DE [L8,la, sk] 17,06, = val poder adjuntar 8 en M7, mediante DEs [NF 10, = y puesto que O7 es el primer hijo de M? por D&d#t (M?, 6, -,k,-,-] (0%,ta,=,k, ==) (iv) Dado M7 -+ O7O}...O3 tal que 8 € Adj(M7), al cumplirse DS’, [OF ra, feast Pes ae) [O},ra, tla, pe, 42) [O}.ra,k. hpi as] [LP ta, ~) k=) =] (Fra, 8,0 Fl entonces aplicando Dua? [O}, 7a, bb, Pes Ge] [O}.ra,hlo,p2,a2) [O},ra,ks tis pigs) y aplicando D&2", ya que nil € Adj(1"), tendriamos que y de los dos resultados anteriores, junto a que 3 puede ser adjuntado en M7, mediante Dat [MO 76, k GL Upet Pes Uper a (19 1b, =» [3,8 kL, uv por tanto, aplicando Dg! ya que 4° es un no terminal con restriccién de adjuncién ula, tendriamos 120____ Capitulo 5. Bsquemas basados en Earley sin prefijo valida [LPs 1b, yt kyl} Tra, kt kt) (v) Finalmente, considerando M7 + 0}03...0} tal que 8 € Adj(M7), y suponiendo De [R¥,ra, j,m, k,1) [O},ra,t-—15 1 Pr de) [0},ra,t1,t2,p2.42) [Oj ra, ksti,pr.a0] (M7, ra, jm, Upar Poin oe) entonces, aplicando DY, [OZ,ra,te—a.1,Prsar) [03,7a,h1,l2,p2, 92) [Of ra, p1.g1) 17,76, 0U) a de agué, como 8 puede ser adjuntado en M”, aplicando DE tendriamos [R®,ra, jm, kyl] [M7 rb, kyl, Usa pe Usa ad [M7,ra,5,m, Up Pes Ue t El siguiente esquema Sq realiza una nueva comprensién de secuencias deductivas, ésta vez sobre el esquema anterior. Supongamos una produccién M + 07030}. Si dicha pro- duccién participa completamente en el proceso de reconocimiento, entonces serdn deducidos items para los siguientes pares nodo-posicién de punto: (O7,1a), (O},ra), (O} 1a), (O},ra), (03,2), (OZ, ra) El segmento de cadena de entrada reconocido entre los pares (O],ra) y (O},1a) es el mismo. De igual forma para (O},ra) y (O%,la). La tinica diferencia es la actualizacién de los valores de los indices en los items cuando el punto se desplaza de ra a la. Basandonos en la anterior propiedad, Ia nueva comprensién consiste en eliminar la posi- ci6n Ia cuando ésta procede de un nodo hermano, La compresién efectuada va a obligar a dividir algunas de las reglas deductivas en dos. Cada una de ellas distinguiré si el movimiento del punto se va a realizar desde un nodo con hermano a su izquierda (reglas deductivas euyo nombre acaba con ¢! sufijo CHI) o sin hermano a la izquierda (el mismo nombre de regia 12. 5.4. Bl algoritmo de Schabes sin prefijo vdlido deduetiva, pero ahora acabado con el sufijo SHI). Bl efecto inmediato de esta transformacion es la eliminacién de la regla deductiva D1. Las reglas deductivas duplicadas son nuevamente unificadas en el esquema $ al adopter Ja notacién multicapa. Precisamente el esquema Sq facilitaré el cambio de notacién, a pesar de que su comprensién se vea complicada por el aumento de reglas deductivas. El dominio del esquema Sq contiene tinicamente aquellos items [M¥,dot,i,j,p,q] del esquema Sg tales que 1. dot = ra si y s6lo si NY 4 vP™MMw € PQ) 2. dot € {la,ra} si y sélo si N7 + Mw € PC EI conjunto de items vélidos coincide con el del anterior, salvo los items que han sido suprimidos en el dominio del esquema: Vs, = Vs, Zs, Las reglas deductivas se corresponden con las siguientes: Ds = DES UDEISH y DEICHT U SersAT UDS2CHT y DMMSHT y pUMCH pala UES! pepe U Dke u DE U DE donde Dat! = Dg = Daz! = DS pian = yeas Dk; = Dts De? = Der Da = DSS mientras que las demés reglas deductivas se definen de la siguiente forma: pgasnt 2 hd+ Mele A) yr gs [a ra, 5,5 + 1,—, (a.9,5+ UIP" rai,J.p.a) pgtent NY 3 Ptaw * [0 ra,5,5 + 1,—,—] [lai pease [Calan “ lea ga- pgaout 2 Paraiieal ys prey (Pra, j.5 122 Capitulo 5. Bsquemas basados en Earley sin prefijo vélido El conjunto de items finales coincide con el de los esquemas anteriores: Fs, = Foy = Fey = Fs, Proposicién 5.7 Sy *3 Sq Prueba 5.7 Hemos visto que por definicidn el conjunto de items Zs, ¢8 un subconjunto de los items del esquema Sg. Queda por tanto demostrar que F3,2'3,. Parn demostrar esto tiltimo, basta probar +3, Ds, para las reglas deductivas de Sq que no tienen un equivalente en el esquema Ss (i) Dado N + af, si se cumple D&S [a,,5 + 1 [a ta, ~ 5, [erra,j,7 +1, entonces directamente aplicando DS" (a, 5,5 + 1 [a ta, [or ra,j,5 += (ii) Dado N7 + vP aw, si es cierto DEO" ia la,,5+U[P rai,s, [o?,ra,j,5 +1, entonces al ser P? el hermano derecho més cereano aa”, aplicando De! [P? ra,i 3, (a7, la, y aplicando Dt [a,j + Mla t [or,7a, 5,5 +1, 5.4. Bl algoritmo de Schabes sin prefijo wélido —____123 (iti) Suponiendo que N* + €76, si se cumple DS2SH1 [eyla, lenra,d, entonces directamente aplicando DS? (Cla, -55, (raj) (iv) Sea NY + vP%e%w, dado DE2CH [P'.ra.i.d, (raj. entonces al ser P? el hermano derecho mds cereano a €¥, aplicando D&{#" y aplicando DS? (®) Considerando M7 + O76 y N? + M%w con nil € Adj(M%), entonces dado peas entonces mediante Dt (vi) Supongamos N? ~+ vP™M7w y que M? -+ 06, si se cumple nil € Adj(M”), dado pyaicu [Pr.ra,i,5pa) [Orta 5. puesto que P? es el hermano derecho sds cereano a M*, aplicando Dia! [P% ras i,5 Pea) —wria, =, y de agui, aplicando DY, ya que O7 es el primer hijo de M? y éste cumple nil € Adj(M™) 124 Capitulo 5. Bsquemas basados en Barley sin prefijo wilido (M7 ta, — d= [Or ta, (vii) Sea N” + M6 tal que B € Adj(M") y supongamos cierto DE2S!! (ta, (RP ,Ta, entonces, directamente aplicando D&?, al poder ser adjuntado 8 en M™ [MP ta, ~, (RF la, (viti) Finalmente, considerando NY + vP'M7w tal que 8 € Adj(M"), si se verifica peecHt se [P? ra, i,j [RP la, entonces, al ser P? el hermano més cercano a M7 tendremos que aplicando De! [Porat ipsa Wa 5. y como 6 puede ser adjuntado en M%, aplicando DE? [M* ta, —.j.-)=] [RF a, =, t Pasaremos ahora a ver cémo se relaciona el esquema Sq con el esquema S. En este tiltimo ‘esquema, al adoptar la notacién multicapa, podremos, por un lado, unificar las reglas deduc- tivas que en el esquema Sq estaban divididas en dos, y por otro, también podemos eliminar la regla deductiva relacionada con la palabra vacia. También seran simplificadas las produc- ciones donde intervienen nodos etiquetados con la palabra vacfa fruto de la consideracién de la palabra vacia como el elemento neutro de Ja concatenacién. El conjunto de items validos no va a variar respecto al esquema anterior, Vs = Vs,, ya que $ no es mAs que un cambio de notacién respecto al anterior- de arboles decorados con punto a producciones decoradas con punto-. Respecto a los nombres de las reglas deductivas el esquema S adopta la terminologia introducida al hablar de la extensién para gramaticas de adjuncién de arboles del algoritmo de Earley. Proposicién 5.8 Sy 2S 125 5.4. Bl algoritmo de Schabes sin prefijo vilido Prueba 5.8 Definimos la funcién biyectiva f : Ts, + Ts definida de la siguiente forma: S(M™ ta, i,j, P.a)) F((M™,rayi,j,pea)) IN? + oM76,i,i.p.4] IN? > UM? 0 0,i,j.Psd] que efectivamente puede demostrarse que es regular y mantiene las secuencias de deriva- ciones ya que tan sélo ha afectado a ta forma en que son descritos los drboles contenidos en los items. $ Capitulo 6 Esquemas basados en Earley con prefijo valido Este capitulo incluye un conjunto de esquemas relacionados estrechamente con los del capitulo anterior ya que también son extensiones para graméticas de adjuncién de drboles ico de Earley [Earley, 68] para graméticas de adjuncién de arboles. Quiere esto decir que adoptarén también una estrategia mixta, en el sentido de incorporar del analizador sint una fase descendente (prediceién) combinada con una ascendente (complecin). Aparecerén el mismo género de reglas deductivas que en los esquemas Ey $: de comienzo (Ver figura 5.1), de lectura de terminales (Ver figura 5.2), la prediccién y complecién de subérbol (Ver figura 5.3), y finalmente la prediccién y complecién de nodo pie y adjuncién (Ver figura 5.4). La diferencia sustancial entre los esquemas que presentaremos y los del capitulo anterior es que ahora s la propiedad del prefijo vilido. Como dijimos, mientras que el algoritmo de Earley para gramaticas independientes del contexto directamente garantiza la propiedad de prefijo valido, és e garantizs 10 es el caso para las graméticas de adjuncién de arboles. Propiedad 6.1 Un analizador sintdctico satisface la propiedad de prefijo vdlido cuando, al leer el segmento a, ...a, de la cadena de entrada ay...4n, garantiza que hay un seg- mento, by ..-bm, donde b; no tiene porqué formar parte de ta cadena de entrada, tal que 1... A4b1...bym e8 un segmento udlido para alguna palabra del lenguaje. La propiedad del prefijo valido se fundamenta esencialmente en una visién descendente del proceso de andlisis. Los esquemas Ey $ no cumplen dicha propiedad debido a que no se realiza ninguna comprobacién que relacione el subérbol y superarbol respecto a un nodo M? divididos por una operacién de adjuncién. Al proceder de este modo, se dan temporalmente como vélidas operaciones de adjuncién que, en el peor de los casos, hasta no alcanzar la raiz del drbol auxiliar adjuntado, no se mostrarén como incorrectas. La forma de detectar cuanto antes esta disfuncién es incluir informacién adicional que detenga de partida estas derivaciones innecesarias. Para garantizar dicha propiedad, los esquemas 127 128______________ Gapituto 6. Bsquemas basados en Barley con prefijo vélido de este capitulo frente a los del capitulo anterior, aumentan la complejidad espacial en el peor de los casos. Veremos, sin embargo, que no necesariamente sucederd lo mismo con la complejidad temporal. Presentaremos tres esquemas denominados Earley, Nederhof y Schabes. Desde una perspectiva histérica fue el analizador sintadctico debido a Schabes (Schabes, 90], en el que se basa el esquema Schabes (Diaz et al., 98¢), e! primero en garantizar la propiedad de prefijo valido. Al exponer el algoritmo el propio autor argumentaba que el cumplimiento de dicha propiedad para las graméticas de adjuncién de arboles suponfa una dificultad afiadida que obligaba a aumentar el coste temporal a O(n). El razonamiento en que se basaba para apoyar la tesis de este aumento era que el conjunto de eaminos en la clase de gramaticas de adjuncién de arboles es un lenguaje independiente del contexto. En el caso de las graméticas independientes del contexto, ese conjunto es regular, Io que facilita el cumplimiento de la propiedad. Con el tiempo, Nedethof ([Nederhof, 97], [Nederhof, 99}]) ha demostrado que dicha conjetura no era cierta, y que es posible mantenerse dentro de la barrera de O(n®), aunque desde el punto de vista de la complejidad espacial aumente a O(n*) El esquema Earley [Alonso et al., 99b] nace de la relacidn entre los esquemas del capitulo anterior y el esquema Nederhof definido a partir del algoritmo del mismo autor. Podemos considerar que el esquema Nederhof es una mejora en la complecién de adjuncién del ‘esquema Earley que permite reducir la complejidad a O(n®). Veremios que seré también el esquema Earley el que nos permitird establecer la relacidn entre los esquemas Nederhof y Schabes. Podemos adelantar que las estrategias adoptadas por los tres esquemas anteriores no difieren en exceso. Sin embargo, la economia de indices [Diaz et al., 99] es explotada de forma més satisfactoria por los esquemas Earley y Nederhof dando origen a esquemas més simples, y en el caso de Nederhof, a una reduccién de la complejidad. 6.1 El esquema Earley Se puede probar que el esquema Earley es un refinamiento del esquema E de la seccién anterior donde se ha incluido un nuevo indice A en los items, Este indice bastard, como veremos, para relacionar el subrbol y superdrbol dividido por una adjuneién. El dominio Tcsrey 8€ define mediante items de la siguiente forma: [Ns vow hij.pea] donde NY -+ vw es una produccidn perteneciente a P(7), siendo un arbol elemental, y donde los indices 0 < h < i 60,h, k,l.p,q) [F801 j,kk,-] per Barley = Ge Ag(M) [T > Re, j, jm, yl} we 2 Se bl pa) val oe ve Mahi W a + Pistley = RT uM ew,h,i,m,pup,qug) °< Ada) El conjunto de items finales viene dado por: Feaciey = {[T + R%*,0,0,n,-,-]] a € T} El conjunto de items validos Vesriey viene dado por aquellos items incluidos en Tirtey de la forma: INT + veuhyiiipral tales que existe un arbol inicial @ que verifica R® > ar ...anR%p con RY anyr.aiN6, Enel caso de que p y q no tengan valor conocido, serd cierto que v % ajyy .--a). Si7 es un 4rbol auxiliar, y p y q presentan algiin valor, entonces v > ai41 -..apF%aye1 ---45 Este esquema presenta una complejidad de O(n) debida a la regla deductiva DEM4., (ver figura 6.2). Si dividimos esta regla deductiva aplicando la misma técnica que fue utilizada en 1 esquema bu, entonces podemos alcanzar una complejidad de O(n") que es superior a la de os esquemas de los eapitulos anteriores. Veremos en el siguiente esquema, que podemos obtener una nueva versién que reduzca la complejidad a O(n®) 6.2. Bl esquema Nederhof 131 Figura 6.2: Items del esquema Earley 6.2 El esquema Nederhof Elesquema Nederhof que mostraremos, ¢s realmente, una ligera mejora [Alonso et al., 99¢] respecto de la definici6n original realizada por Nederhof. Se puede demostrar que este esque- ‘ma es un refinamiento de las reglas deductivas del esquema anterior en donde se introduce ‘un nuevo conjunto de items que permitira la reduecién de la complejidad temporal hasta O(n®), La idea consiste en distribuir el esfuerzo realizado por la regla deductiva para la complecién de adjuncién de forma que se reduzca la complejidad. Si observamos Ea, podemos ver las siguientes relaciones entre sus antecedentes: : el item del subérbol con raiz M7 se relaciona con el item del arbol auxiliar 8 tan s6lo mediante los indices ky 1 el item del subarbol respecto a M” se relaciona con el superdrbol respecto a M7 mediante el indice h «el {tem del superirbol respecto a M? se relaciona con el item del arbol auxiliar 8 mediante el indice j Partiremos la regla deduetiva en tres. La primera, D&&io 240 gg, Consumira los indices k y | obteniendo un nuevo item donde: (i) se ignora el indice h y (ii) se establecen los nuevos limites, j ym, del segmento de la cadena de entrada reconocido por M?. Este nuevo item es recuperado en dos nuevas reglas deduetivas que continuardn el reconocimiento del superérbol respecto a M7. Cada una de ellas, D&adt sor ¥ DEAE or eStd especializada, respectivamente, dependiendo de que M” pertenezca a la espina 0 no de + (este tiltimo caso, también incluirfa que ¥ no fuese un rbol auxiliar). Si M7 pertenece a la espina de 7, los indices p y q del item para el subérbol respecto a M7 deberdn tener valor. Para garantizarlo recuperamos 132__ Capitulo 6. Bsquemas basados en Barley con prefijo valido en Deeg nor €l item descartado en la primera divisién DG2#,..;- Por tanto, el conjunto de items validos Vwedernor 8 esencialmente el mismo que Veariey Salvo que ahora los items deducidos a partir de las reglas deductivas relacionadas con la complecién de adjuncién serdn los obtenidos segtin que se aplique la combinacion DG2#9,,.r Seguida de DE ,o¢ 0 la combinacién D2) yo seguida de DE 24? o¢- rederhot = Teneiey UTNea donde el conjunto de items Zyea es idéntico a Zz. Es decir, los items del esquema Earley donde se ha suprimido el indice h. Las reglas deductivas se corresponden con: Dredernot = Pklorror U DStdernor U DRCSeot U Pristeot U Pkt Seternot U Pxeternor U DSeianot U P&ademnor U DSedenot donde Die Diner XSiernor = Dies Dydternor = Play Pedeenot = Perey Dititenor = Datay Diderot = Pay mientras que la complecidn de la adjuncidn se define mediante las siguientes tres reglas deductivas aa [TR Nederhot = Sof ky I)[M” > 69, ky lsp.4) Be Ag(M) jm; pd) [M7 + 69, hk l.p,q) afl ag = LN ve Mt hid PXcteenet [NY 3 0M? ew. him, 4) 8 Adj(M7) [NT SUM ua, him,p. 4) eel El conjunto de items finales es idéntico al del esquema Earley: Fredernot = Ferasiey La complejidad en el caso peor es debida ahora a la aplicacién de la regla deductiva DGeilnor en la que tan s6lo intervienen seis fndlices. Los indices k y Uno son relevantes a la hora de efectuar el célculo ya que s6lo son utilizados en el segundo antecedente. 133 6.3. Bl esquema Sehabes 6.3 El esquema Schabes El esquema Schabes se obtiene a partir del algoritamo de Schabes que garantiza la propiedad del prefijo vélido que veremos al final del capitulo. El esquema es bésicamente una contrac ci6n de las secuencias deductivas del algoritmo de Schabes donde se adopta la notacién multicapa de forma que las produeciones son decoradas con puntos para delimitar el nodo actual de reconocimiento. A pesar de las contracciones, el esquema respeta fielmente la estrategia utilizada por Schabes en su algoritmo. El dominio Tschaves Viene dado por items de la forma: [N73 vee, h,i,p.g S768) donde N7 + vw es una produccién en P(7) siendo + un arbol elemental. Los indices 0. v0 aw, hy j,p, qr star, tb) a (V7 vaew,h,j + 1p.4, start b] La regla deductiva DES... realiza la prediccién de un subérbol con raiz M? siempre ue no presente una restriccién obligatoria de adjuncién. Podemos observar que los valores de los indices p, g, ¢ y b son transmitidos hacia el subérbol. [Nv PEs = AR Mw, h, j.p,q,star, tb) sh, jopag. star, tb] nil € Adj(M?) La regla deductiva DEj4yq, tiene por cometido la prediccién de una adjuncién del arbol auxiliar 8 en el nodo M7. [N+ v9 Mw, h jp.as [T > oR 5,5, Ee sat ge Agia) La regla deductiva DE{t,,, se corresponde con la prediccién del nodo pie. El valor compartido de j en los antecedentes limita la aplicacién de esta regla deductiva de modo que se predicen subarboles en cuya rafz M” se haya efectuado previamente una adjuncién. En el consecuente se indica que M7 es ahora el nodo estrella y que las posiciones j y k se corresponden con el segmento de la cadena de entrada reconocido por el contexto izquierdo 135 6.3. Bl esquema Schabes del Arbol # adjuntado en el nodo estrella, Los valores de p y q son trasmitidos al subarbol con raiz M7, [P30 1, j,k,—,-,star,t,0) pete [N? > ve M7, ha jopsgy star! t18] Seba [M7 65h F,p.0, M75 A) Be Adi(M*) La complecién de subérbol es realizada mediante D&'%,., siempre que el nodo M7 no presente una restriccién obligatoria de adjuncién. La aplicacién de esta regla deductiva se restringe a que dicho nodo no coincida con el nodo estrella, lo que indica que sobre él no se ha efectuado ninguna adjuncién. pom [M7 + 4e,h, j,p,q, star, tb] Schabes = TN > vM7 ew, h,j,p.a,star,t,D] M? # star Anil € Adj(M") La regla deductiva DEZ‘,,., se corresponde con la operacién de complecién del nodo pie. Al ser M7 el nodo estrella, se garantiza que sobre él ha existido una adjuncién. Mediante los indices jy # compartidos por los antecedentes se corrobora que la adjuncién ha sido ‘efectuada por el arbol auxiliar 9. opt (MO + be, hylpeg M73, 4) [PY > @ 1,5, bs —sstar, tO] aa Phare = [PF Le jb hatar,t,0] eat La complecién de una adjuncidn es tratada por la regla deductiva DE44),... Puesto que M7 es el nodo estrella, podemos asegurar que sobre él se ha efectuado una adjuncién. La coincidencia de los valores j, # y I garantizan que la adjuncién en + fue efectuada por el Arbol auxiliar 8. [T + Ree, j,.m,k,l,-,-,-) (M7 > 50,157,954 8] ad [NT + ve Mw, hi j.p.d star, tb] a Schhbes = TNT vMT ew, h,m,p.qzatar,tb AGM) El conjunto de items finales se define mediante: Fecnabes = {[T + R%*,0,n,—,—3-,-)-]]a€ Tf El conjunto de items validos Vschabes ¥ ne dado por aquellos items de la forma: [NT > vow h.jp.a, star, tb) tales que existe un arbol inicial a que verifica R° 4 a; ...a,R%p y existe h < i < j que cumple Rt any1..a:N74. En el caso de que p y q no tengan valor conocido, serd cierto que v 3 ajyy...a)- Si 7 es un drbol auxiliar, y p y q presentan algiin valor, entonces Vaiss sy aqgs1 ---0;. Si se han efectuado operaciones de adjuncién en los nodos del camino que empieza en R y termina en N%, entonces $? es el nodo més profundo donde se ha efectuado una adjuncién y se verifica que S? 3 aya... 136 Capituto 6. Bsqueras basaddos en Barley con prefijo witido El esquema Schabes presenta una complejidad temporal en el caso peor de orden O(n"), debido a que la regla deductiva D&3,., presenta un total de nueve indices repetidos (h, J, k, Lm, p, qt, 6). La complejidad puede ser reducida utilizando un paso intermedio a la hora de realizar la complecién de una adjuncién, de modo que se parte D&$4s,.. en dos reglas deductivas de la siguiente forma: [T + Re,j,m,k,,--5-] ay (M72 beh lng MH kl + Schabes = MTS dechmp.gP gy 8S AGO) [LM > 60, hn, B.7.M?5,-T) [N75 ve Mu, hy j.p., star, tb] peat Sithe = TS VAT ew, him Baatarsay ASAT) Esta nueva versién supone una importante reduccién de la complejidad, ya que pasa de orden O(n®) a orden O(n"). Esta complejidad es debida a la aplicacién de las reglas deduetivas D&w,.., D&I... y D&I... que presentan siete variable repetidas. Aunque esta mejora iguala a la obtenida por el esquema Barley, sin embargo, no aleanza la complejidad del algoritmo de Nederhof. 6.4 Relacién entre los esquemas Earley, Nederhof y Schabes Si comparamos los esquemas Earley y Schabes podemos comprobar que existen grandes similitudes. Ambos esquemas son extensiones del algoritmo de Earley que conducen a un mismo conjunto de reglas deductivas con comportamiento similar. Dejando aparte la es- tructura de los items relacionada con los indices, los antecedentes en las reglas deductivas coinciden salvo que el esquema Earley utiliza un antecedente més en las reglas deductivas Dears ¥ Peary Respecto a los indices en los items, también podemos observar cierta semejanza. Los dos esquemas inchuyen los indices h y j, donde h indica donde empezé el reconocimiento de un Arbol elemental, y j la ultima posicién de la cadena de entrada que reconocié. La pareja de indices (p,q) indican el segmento de la cadena de entrada reconocido por el node pie, sin embargo la forma en que se trasmiten sus valores es distinta. En el esquema Earley se transmiten de forma ascendente por los nodos de la espina, y de éstos a través de sus nodos hermanos derechos. En el esquema Schabes se transmiten a través de todos los nodos del contexto derecho del arbol auxiliar. Estudiaremos ahora qué sucede con el resto de los indices, ya que, justamente en ellos, es donde encontraremos la diferencia fundamental entre ambos esquemas. Fl esquema Earley incluye un indice i que no esta presente en los items del esquema Schabes. Del mismo modo, este tiltimo esquema incluye los indices t y b, junto con su 6.4. Relacidn entre los esquemas Barley, Nederhof y Schabes —_____ 137 componente asociado star, que no estan presentes en el primero. Informalmente, y dejando aun lado el componente star, podemos decir que puesto que el nimero de indices juega un papel significativo en el calculo de la complejidad, el esquema Barley parte con ventaja al utilizar un indice menos, Dada una produccién decorada con un punto N? + vew, el indice i indica la posicién de Ja cadena de entrada donde comenzé el reconocimiento de v mientras que los indices ¢ y b delimitan el contexto izquierdo de un drbol auxiliar 9 adjuntado en un nodo, el nodo estrella, que domina a N7. El papel jugado por el par de indices t y b en el reconocimiento de la cadena de entrada queda justificado en la aplicacién de las reglas deductivas DES eg, DEL ies ¥ DEiilness Y8 que corroboran que la adjuncién ha sido predicha y completada de forma satisfactoria. A continuacién, partiendo del esquema Schabes, realizaremos una serie de transforma- ciones que permitiré comprobar que las diferencias comentadas no son tan grandes como pueden parecer a primera vista. Es decir, existe una relacién entre el indice i y el par de indices t y b. Asi, podremos establecer con claridad la relacién directa entre los dos esque- mas, y por afiadido, la relacién indirecta entre el esquema Schabes y Nederhof. Para confirmar esta relacién construiremos la siguiente cadena de esquemas intermedios: Schabes Schabes’ = Schabes” 4% Schabes" = Earley Brevemente, el esquema Schabes’ afiadiré los antecedentes de las reglas deductivas del esquema Earley que no estan presentes en Schabes. El esquema Schabes" incluird en los items del esquema Schabes' el componente i de los items del esquema Earley. Finalmente, Schabes" suprimiré los indices t y b junto con el componente estrella. Empezaremos por el esquema Schabes' donde tan s6lo afiadiremos antecedentes a las reglas deductivas de complecién de subarhol y nodo pie. Como efecto secundario sera elim- inada la condicién de que el nodo actual coincida con el nodo estrella a la hora de realizar la complecién de un subarbol. El conjunto de items validos Vschabes’ €8, por tanto, un subconjunto de Vscnanes, debido al filtro establecido en las reglas deductivas de complecién. El dominio Tsenates coincide con el del esquema Schabes, mientras que sus reglas de- ductivas son las siguientes: Dscrabes! = Daves UPSinvev U DSBs U PSs’ UD ES es U DSchaves! U DESives U PSs donde DkBiaves = Peiaves DEirarvew = PStrabes DESiavow = DEaves ere _ pert Déchaves’ = Pchaes vad Pea Deano = DSchanes 138___ Gapituto 6. Esquemas basados en Barley con prefijo vétido = plead rabea’ = PSchabes mientras que las otras dos reglas deductivas se definen [M7 60, h, 5.7.0, star, 0] cmp g IN eM kypravstar ti , Dictabes’ = TNT oMTeu,h iba star,t.) MS AGM”) [M7 60,,1.p,¢.0, 5.4] [F8 + © L,j,k,——, star, t, 5] 2 INT ve a, hj. p.aystor’, 0) PPS ei h,l,star,t,5) eae El conjuntos de items finales coincide con cl del esquema Schabes: Frchaves! = Fechabes Proposicién 6.1 Schabes -“% Schabes' Prueba 6.1 Dado que son iguales tanto el conjunto de items de ambos esquemas como todas las reglas deductivas salvo dos, bastard probar que HEcapes2 DE Mvoy ¥ Eenabes2 PSotives (i) Dado nil € Adj(M7), supongamos que se cumple DE,uy, €8 decir, bos Prd star, t,0][N7 > v¢ Me, yk, [NY 3 OMT 0, he 5,84, star, £0] start) entonces necesariamente M? 4 star, ya que por los antecedentes sabemos que star dom- ina tanto a. N7 como a M™. Por tanto, aplicando Dejih,q,, tenemos que (M7 60, j.padiatar, tb] [Nt SUM 6.5.8.4 star, f] (ii) Supongamos que 8 € Adj(M?) y se cumple DES ay [M> + 69, hl, p.q,M™, 5,4] [F9 + © 1,j,k,-,—,star,t,6] IN? > ve Mw, hj, p,q, star’ t's B] [FF 31°71 E,L star, tb) entonces, aplicando directamente DE"... ya que 8 puede ser adjuntado en M7 ten- ariamos que [M7 > 60, hil,p,0, M5, ALF? 3 0 1,3, [FF 91 oie L star, 0] =, star, t,] 6.4. Relaciin entre los esquemas Earley, Nederhof y Schabes —______ 139 El siguiente esquema Schabes” consiste en un refinamiento de los items de Schabes’ basado en incluir el componente i del esquema Earley. Por tanto, el dominio del esquema, ‘Tschaves” €8 similar al dominio Tschabes' Salvo el nuevo indice j incluido. Las reglas deductivas vienen dadas por el conjunto: ini 36 re em Dkiaew U DEEnabaa” U DESabea U DS cen Pst ese Pad Cad UDESiven U Dchaner U PSchaves U DSStabew Dchabes"” i6n es similar a la del esquema Schabes' salvo la introduccién del nuevo yin =F Sere be) P&thwvee = FF eRe, 0,0,0,5 yo p+ MIN? > ve aw, hi, jpg, star, tb] Sean DEE an Oe ee ene nil € Adj(M") Diya = Moree ihpaste ll 5 © agian) [F? > 0 1, j,k, k,—.—, star, t,8] [M7 50, h,k, 5,9, 4, star, t,8] [M7 50,h,k.l.p.a, M75, 8) [FP 0 Liki, =, star, 0) Plane Sr eteemann PeAMOP) [T 5 Re, 5,5,m,k—)-.-] [he wth jpgetn tl El conjunto de items vilidos Vschabes viene dado por (N74 ye, i,5,P.G S78) 140 Caprtuto 6. Bsquemas basados en Earley con prefijo vélido tales que existe un drbol inieial a que verifica R® $a; ...ayR7p donde RY 3 ayys...aiN76, y donde v 4 a;s1..-aj en el caso de que p y q no tengan valor conocido. Si 7 es un érbol ausiliar, y p y q presentan alggin valor, entonces v 3 a:42-..apF"aq41...aj. Si se han efectuado operaciones de adjuncién en los noclos incluidos en el camino que empieza en RY y termina en N7, entonces $7 es el nodo mis profundo donde se ha efectuado una adjuncién y se verifica que SY api -.-ay. El conjunto de items finales viene dado por: Foeuabes" = {{T + R%*,0,0,n, -,-,-,-,-]]a € I} Si observamos las reglas deduetivas para la complecién de adjuncién y la prediccién y complecién de pie, veremos que los valores j y k relacionados con el nodo estrella para el item de la produccién M7 + 6 estan duplicados en los otros antecedentes. Més atin, dichos valores son recogidos en los indices no asociados « los nodos estrella de los otros antecedentes. Dado un ausiliar $ adjuntado en un nodo Mf”, la coincidencia de valores anterior es debida a dos razones: # la posicién donde empezé la prediccién de coincide con la posicién donde terminé el reconocimiento del contexto derecho del superérbol respecto a M? + si ha sido adjuntado en M7, la posicidn donde empez6 el reconocimiento del subérbol con raiz M? coincide con la posicién donde terminé ef reconocimiento del contexto inquierdo del érbol auxiliar 8. Las demés reglas deductivas se limitan a mantener los valores de los indices relacionados con el nodo estrella salvo que se efectiie una mieva adjuncién que provoca que se olviden temporalmente los valores anteriores hasta que se efectiie otra adjuncién. Queda asf claro, que la funcién de los indices t y b en los esquemas basados en el algoritmo de Schabes puede ser asumida por los indices he i en el esquema Barley y, por tanto, también en Nederhof. El razonamiento anterior nos lleva a que la estrategia adoptada para garantizar la propiedad del prefijo valido en los esquemas Earley y Schabes no es tan distinta como puede parecer a primera vista. Es simplemente, el modo en que esta estrategia es disefiada lo que diferencia a ambos esquemas. La pregunta de Nederhof respecto a la relacién ex- istente entre su algoritmo y el de Schabes, debe plantearse ahora desde la perspectiva de que ambos utilizan la misma estrategia pero el esquema de Nederhof realiza un disenio més econémico al utilizar menos indices y realizar la misma funcién, Proposicién 6.2 Schabes’ = Shabes" Prueba 6.2 Definimos la funcién f : Tscnaves —? Tscnaves" definida de la siguiente forma: SIN? + v 00, h,5,p.4, star,t,b]) = [N7 + vew,h,i,j,p'sq', star, tb) id 6.4. Relacién entre los esquemas Barley, Nederhof y Schabes donde v % a;41...a). Puede demostrarse que la funcién es regular y que mantiene las secuencias de derivaciones. t E] diltimo esquema, Schabes", es una contraccién de items sobre el esquema anteri- or donde se han suprimido los componentes estrella y sus dos indices asociados. El do- minio del esquema es andlogo al del esquema Earley. El conjunto de items vlidos viene definido a partir de los presentes en el conjunto Vschabes. De este forma, si [N7 > ve hi, isp.q, star, tb] 8 un {tem valido en Vsetavee entonces el item [N” > vew, hyi, jPod] pertenece al conjunto Vseyarey". Las reglas deductivas vienen dadas por el conjunto: Dechaves” = DeMahearn U DSSsanen» U DE Shes U Dente DE Sea U DSSiveen U DEBinea U DEE cuya definicidn es similar a la del esquema Schabes” salvo la eliminacién de los componente comentados. Esta eliminacién de componentes conduce a que algunas reglas deductivas sean iguales a las definidas en el esquema de Earley: ini pint _ pins Déciiabres” = Desrey = PNederhot oe pss, = se Dcnabes” = Piariey = PNedernot Pad, = DEAL. = Dead DEavew = PEstey = Pierrot er pelt. = nett DExirew» = Dikicy = PNeterhat siendo la definicién de las otras también parecidas a sus correspondientes en el esquema, Earley salvo la forma en que es transinitida y gestionada la informacién correspondiente a los indices p y q. IN? ved per, al es [MY 5.7. I pile Aaja) | Dediavest = fe Agi(M) DSsidbes” nil € Adj(M7) [N73 vA 0, hi, 5, Bd) [T+ Re jim kl) [MO 60.419.) [N73 ve Mw, hi, 5,P.4] Cad i [N? 0M eu, fyi.) 'Schabes!” = Be Adj(M%) El conjunto de items finales coincide con los de los esquemas Earley y Nederhof: Frcnaves!” = Feartey = Frederhot M2 Capstula 6, Esquemas basados en Barley con prefiio vitido jén 6.3 Schabes" => Schabes" Prop. Prueba 6.3 Definimos la funcién f : Tschabex" —> Tschabes definida de ta siguiente forma SUN? > vewyhi,jpqystar, t 0) IN? > vow heinipd) Puede demostrarse que la funcidn f es regular y también, por induccién, se puede demostrar que conduce a secuencias de derivacidn equivalentes. + La tinica diferencia que resta entre este tiltimo esquema y el esquema Earley procede de los pares de indices p y q, ya que aunque la seméntica de los indices en ambos esquemas es la misma, es decir, delimitan el segmento de la cadena de entrada dominada por un nodo pie, el modo en que son transmitidos sus valores por las reglas deductivas difieren. En Earley los valores p y q son trasinitidos de forma ascendente a través de los nodos de la espina y sus hermanos derechos. En el esquema Shabes", dichos valores son trasmitidos a través de todos los nodos del contexto derecho del arbol auxiliar. Para que la informacién sea transmnitida igual, basta con reducir el mimero de nodos en Shabes””’ que tienen valor asociado a py q. Proposicién 6.4 Schabes"” = Earley Prueba 6.4 Definimos la funcién f : Tsenavos” > Trasiey definida de la siguiente forma: UN? > veushinipal) = IN? 4 vewhii, dado que 1. Si(p.q) 2. Si (p,q) # (=, —) y se cumple v > ai41...dpF%ag41---a; entonces (p,q) = (p',4'). ¥ en otro caso (p,q!) = —) entonces (p',4') Puede demostrarse que la funcién es regular y que mantiene las secuenctas de deriva~ ciones. t 6.5 El algoritmo de Schabes con prefijo vdlido El algoritmo de Schabes, a partir del que se obtiene el esquema Schabes, es una extension del algoritmo de Earley donde ahora se garantiza la propiedad del prefijo vélido. El método ¢s presentado mediante un algoritmo basado en téenicas de programacién dinamica dirigida or conjuntos de estados y procesos. La mecéinica de los procesos presenta pocas diferencias respecto al algoritmo que no garantiza la propiedad del prefijo vélido, Las diferencias més notables son el aumento de la informacién contenida en los items y que algunos procesos (Left 143 6.5. Bl algoritmo de Schabes con prefijo vitido Figura 6.4: Items del esquema Schabeso Predictor y Left Completor) son desdoblados para tratar distintas situaciones relacionadas esencialmente con el nodo pie. AL igual que en los esquemas Earley y Nederhof, la informacién aiiadida a los items tiene esencialmente un cardcter descendente. Presentaremos ahora el esquema Schabeso, que es la adaptacién del algoritmo original en un esquema, procediendo de forma similar a a utilizada en el capitulo anterior al desarrollar el esquema SO. El dominio Zsehaveso del esquema se define mediante los siguientes items: [M?, dot, h, j.p.4,57,t,0] donde M” es un nodo del Arbol elemental + y dot € {la,1B,ra,rb} es la posicién en la que esta situado el punto en el nodo M’. Los indices 0 < hk < j delimitan el segmento de Ja cadena de entrada reconocido por el sirbol ~ desde su rafz hasta el node M7. El nodo estrella $", denominado nodo estrella, es aquel nodo de 7y més profundo que domina directa © indirectamente al nodo M7 y sobre el que se lia reconocido parcialmente una adjuncién. Los indices p, q, ty b tienen igual significado que sus equivalentes en el dominio Zschabes (Ver figura 6.4). Al igual que hicimos en el esquema S hemos utilizado la notacin M7 en vez. de indicar el Arbol junto con la direccién del nodo. Abusando de la notacién, representaremos mediante a” y €% aquellos nodos del arbol + euya ctiqueta sea respectivamente el sfmbolo no terminal @ ola palabra vacia, El esquema Schabeso se define mediante el siguiente conjunto de reglas deductivas: ns et pse us Dscnabery = Dbavesy U PSctabeay U PSStaveey U Poche U Piaress au tn ena < WDE U PE, U PSShabase U PSLharesy U Dbstabene Le fin pie 6 UDESabeso U Pesiene U Pehabesy U PSsivess 144___ Capitulo 6. Bsquernas basados en Barley con prefijo vélido LN Z™ Disnewss] tuna Ze ~~ Y” Zan Ze Ininasanl blnnarl Figura 6.5: Proceso Sean del esquema Schabeso La regla deductiva D&Mi,negy Comienza el reconocimiento con la prediceidn de la raiz de los Arboles iniciales PiBhavere (R°1a.0.0, Las reglas deductivas DSS},yeqy ¥ D&Sabege 800 las que constituyen el proceso Sean, (Ver figura 6.5). Ambas realizan, respectivamente, el reconocimiento de nodos etiquetados con simbolos no terminales o la palabra vacia. De, = (odd + UD estaba jpagsstart ‘sehabeno = “Tay, ra, hj + Lap, qp star, t,D] [© sta, h, jpg, star, tb] (@7,ra,h, j,p,q, tar, tb] Sea Dchaveso El proceso Move Dot Down, (Ver figura 6.6), consta tan sdlo de la regla deductiva, Did, .«, donde se desciende el punto desde un nodo padre M” hacia su nodo hijo mas a la inquierda 07 putas 2 (M7, lb,h, Jpg, start, 8] sehabew = TOF, La, h dnp. q,atar,t,6) MY > O°8 El proceso Move Dot Up, (Ver figura 6.7), incluye dos reglas deductivas encargadas de desplazar el punto entre nodos de arboles elementales. La regla deductiva D&fut.., mueve €l punto desde un nodo O7 hacia su nodo hermano mas cercano por la derecha Of, si existe. La regla deduetiva D&ii2.,, desplaza el punto desde un nodo O7 hacia su nodo padre M”, si existe, cuando O7 sea su iltimo hijo. ann 2 (OfarOshdrrast0r.8) gry, verona Déchtbeso = (OF. Ja,h,jvp.c.atar,t,6) M” VOLO} pelgue = (Oaranls jamaystar tb) sibs * Ta rR poacstane.o) MAO 6.5. Bl algoritmo de Schabes con prefijo vilido 45 LX fh, j.p.a.star, tb) [h.i.p.a,star, 45) Figura 6.6: Proceso Move Dot Down del esquema Schabeso [h.i.p.a.star, tb] NOL th.ip.q.star, tb] (hip.qstar ub] Figura 6.7: Proceso Move Dot Up del esquema Schabeso El proceso Left Predictor, (Ver figura 6.8), consta de tres reglas deductivas que combinan la prediccién de subarbol sobre nodos que no presentan restriccién obligatoria de adjuncién con la prediccién de nodo pie. La regla deductiva DEF .ye5, 8¢ aplica si es posible una adjuncién de 8 sobre M?. La regla deductiva Duyexq ignora la posibilidad de adjuncién sobre el nodo no terminal M* cuando éste no es el nodo pie de un étbol auxiliar. La regia deductiva DUZ23,,., es similar a DgZ2,,.,, salvo que ahora el nodo en cuestin es el nodo pie de un arbol auxiliar 8. Schabesn pin ”, q.star, tb) Schabese = [RF Ta, j,j,—. =.=) =} Be Adar) [M7 la, h, j,p.4.star,t,b) [M7 16,h, dsp. star,t,6) TE AGO) ACM 4 FY) starstb] i star, tb) nile Adi(F") M46 Capituto 6. Fesquemas basados en Barley con prefijo vélido » (hi.pea.star. tb] > [r.pravstar. tb] stan tb) Figura 6.8: Proceso Left Predictor del esquema Schabeso El proceso Left Completor, (Ver figura 6.9), consta de dos reglas deductivas encargadas de la prediccidn del nodo pie de un auxiliar 9. La regla deductiva DEj! ye, S¢ aplica tan s6lo cuando el nodo F” sobre el que se adjunté era a su vez el nodo pie de un arbol auxiliar 7. La regla deductiva D&gayeq, €S semejante, salvo que ahora el nodo M” sobre el que se adjunté no era un nodo pie. La aplicacién de esta regla garantiza la propiedad del prefijo. vilido ya que sdlo se predicen subirboles sobre cuya rafz se haya efectuado previamente una adjuncién a. [F9,1b jks ky —ystar, t,B)[F 7 lay hy j, a [F7, 1b, h, kk, =, P25, B] satan! 1,0] Be Adj(F?) [F°, Ib, j,k, k, ~, star, t,] Deine, = MCila hd prgestar’ tO) Senabeso TMT hk, psd, MT IK] Be Adj(M7) N(M7 ¢ F*) El proceso Right Predictor, (Ver fignra 6.10), combina la complecién del nodo pie, DEF verge unto con la complecién de subérbol DER .es,- La primera se aplica tan sdlo si el nodo estrella coincide con el nodo M” donde se efectué la adjuncién, lo que garantiza Junto con sus valores j y k asociados la propiedad del prefijo valido. Al contrario, la segunda se aplica tan s6lo si la raiz M” del subérbol que va a ser completado no coincide con el nodo estrella y no es obligatoria la adjuncién sobre dicho nodo. pie. [M7 1b hy pegs M5, K] LF®, Ub, bak — ‘Schabeso [F3, rb, 5,1, kL, star, t, 8] start ye sgi(at) pre. (Mt,rb,hj,p.q start.) Wee * raha paatane dy Mare MT Anil Adj) 6.5. Bl algoritmo de Schabes con prefijo wilido — aT ZN | x ie cB) _ 7 i. Figura 6.9: Proceso Left Completor del esquema Schabeso Finalmente, el proceso Right Completor, constituido sélo por la regla deductiva DES, yen ¢s la encargada de la complecién de un 4rbol auxiliar adjuntado en un nodo M”, (Ver figura 6.11). La aplicacidn de esta regla deductiva garantiza que se ha efectuado correctamente la adjuncién ya que M7 debe coincidir con el nodo estrella y sus valores j y k asociados exigen la coordinacién del subérbol y el superrbol respecto a M? y el &rbol auxiliar 8. [R9,ra, jm, kyl.) [M7 rb, ht, p,q, M7, 5.4) [a0 ta, h,jspoan star, tb] [7 ra,h,m,p.qatar,t,y 8 © AGM) El conjunto de items finales viene dado por: Fechabero = {{R°.ra,0,n,-,-,-)-1—] a € 1 Respecto al conjunto de items validos, si un item: [M7,ra, h,j,p.4,57,t,b] est incluido cen Vschabeny» entonces existe un drbol inicial a que verifica R* 3 ay ...a,Rp tal que existe h Si Schabes Brevemente, el esquema Schabesy unificara las reglas deductivas relacionadas con la prediccién de subérboles. El siguiente esquema Schabes2 introducira el nodo ficticio L en Jos drboles auxiliares. El esquema Schabesg suprimiré las posiciones [5 y rb del punto en los nodos mientras que Schabes, supritnird el punto situado en ra cuando éste procede de un nodo hermano. Finalmente, el esquema Shabes seré obtenido al pasar de la notacién de Arboles decorados con punto del esquema Shabes, al de producciones multicapa decoradas con punto. Podemos ver, que a partir del esquema Schabesg, las transformaciones efectu- adas son similares a las realizadas sobre el esquema del capitulo anterior Sp. Las técnicas aplicadas, por tanto, seran semejantes. El resultado final nos conduciré a un analizador mas econémico que el original debido a que se comprimird de forma importante el conjunto de items validos sin alterar ni la correc- cién ni la estrategia adoptada por el algoritmo original de Schabes. En la cadena anterior podemos observar que existen dos contracciones consecutivas. Aunque es perfectamente posible unir las dos transformaciones en una sola, las dividiremos con la intencién de que el razonamiento sea mds claro, Empezaremos con la descripcién del esquema Schabes;. En el esquema anterior las reglas deductivas Duy jus, ¥ Dhabes, distinguen, respectivamente, si el nodo sobre el que se prepara la prediccién es 0 no un nodo pie. En el caso de que sea un nodo pie, el re- 6.5. El algoritmo de Schabes con prefijo vilido DrnB.aim ia) (hi. 8.4.star tb) ZN Tripastac 0] Figura 6.11: Proceso Right Completor del esquema Schabeso conocimiento del subérbol podado por Ja acljuncién comienza en la misma posicién donde ‘acabé el reconocimiento de dicho nodo. Si ignoramos dicha coincidencia, los consecuentes de DEE es, ¥ DeEyesy Seran semejantes, ya que los valores de lo indices relacionados con 1 pie en el antecedente, presenten 0 no valor, seran transmitidos tal cual al consecuente. El conjunto de items validos Vécnabes, Ser practicamente igual a Vscnabess Salvo que si son validos en Vscnabeso 10s items de la forma [F7,1b,j,k, k,—,star,t,0] entonces éstos serén sustituidos en Vsenabes, por items de la forma [F",1b, j,k, ~,—, star, t, ). El esquema Schabes; presenta igual dominio que el esquema Schabeso. Las reglas deductivas son las siguientes: Eni set ps2 aaa rd, Daves, U PSShates, U PSsiabes, U Dedhaben: U Pbchaen, ue Ent att E92 ol UDSehaies, U Pédiatoss U Pschabess U Pschaben, U PSchaess UDEFapes: UPSaear U PSchaves, U P&chadess Dschabesy donde se verifica que ni = Dla DhBkaren, = D&Sinvere get Ds chobess DS D: Pll, = Peon DBeiiaies, = DSchaboso eer Disiaves, = PSSavery pint plat 'Seiabes; = Pschabeso 150__________ Gapituio 6. Bsquemas tasados en Barley con prefijo watido 2 - Dyshaveny = Pavers D&Sranoss = PSradors las demés son précticamente iguales a sus correspondientes en el esquema Schabeso salvo que los items afectados por la modificacién aparecen sin el indice actualizado, pee [F8,la, j,k, —.—, star, t, 0] 'chabes, TFB. 1b, j,k, =) —, star, f,5) nil ¢ Adj(F) per (PP Ubi ky ~~, star, tO] [Flashy jatar’ UY DScrabeas = FP. — FS, Be Adj(F?) [F°, 10, j,k, (WC La, h, j,p94, star’ t',0] ie 2) (MO pF Dchabes [M7,U6,R,kyp.qMv,j,8} PC AG) AA #F’) wr, (Mr hyp. ay M75, K] LPO UD js) star tb) 5 Disianen, = TPF rbsf. tk star, 8] Be Adi(M) El conjunto de items finales Fsenaves, € igual que el del esquema Schabeso. Proposicién 6.5 Schabeso = Schabes: Prueba 6.5 Definimos la siguiente funcién f : Tschabess + Tschabess IMIN, dot, h, j,p.4, star, t,0]) = [N, dot, h, j,p.q, star, t, 6] siempre que dot # tb y NY # F", y en otro caso J (UE? 6,5, =, —, star, tb) = (F718, j, By ky —, star, 0) que es trivialmente regular. Es facil probar que f(Aschates:) = Aschatess por induceién. De hecho, existe una relacién uno a uno entre los items deducidos por ambos esquemas con la xinica diferen- cia de que los nuevos items no presentan valor en el indice modificado. La correccién del esquema Schabes: estdé también garantizada porque la transformacién aplicada no afecta al conjunto de arboles subyacentes descrito por los items. t El siguiente esquema que veremos, el esquema Schabess, explotard la transformacién realizada en los items por el esquema Schabes; ¢ incluiré los simbolos ficticios 1. Este nuevo simbolo que daré lugar a un aumento en el conjunto de items respecto al algoritmo original de Schabes, es fundamental para el desarrollo posterior, ya que propicia la compactacién de las secuencias deductivas en las signientes transformaciones. Debido a que en los actuales 151 6.5. Bl algoritmo de Schabes con prefio vélido ‘esquemas no disponemos del contexto necesario para determinar el érbol auxiliar al que nos referimos cuando usamos el nodo L, decoraremos este tiltimo con el érbol auxiliar al que corresponde. Dicha esta salvedad en la notacidn, pasaremos a definir el esquema. El dominio Zsenabess Para este nuevo esquema es idéntico al del esquema Schabes; salvo ‘que los firboles elementales incluyen el nuevo nodo introdueido. El conjunto de items vélidos Vsenabess incluye todos los items validos del conjunto Vsenabes, donde ademas: 1. Si en Véchabes: Son validos los items de la forma [P*, 1b, j,k, —,—, star, t, b], entonces: también son validos en Vscuabers los items de la forma: [W9,la, j,k, —,—, star, t, 0] [19,t0,3,k, -.—, star, tb) 2. Si en Vschabes: Son validos los items de la forma [F®, rb, j,1,k,1,star,t,b] entonces: también son validos en Vichabess los items de la forma: [19 ,ra,j,tykyty star, tb) [L9, rb, jt kl, star, tb) Las reglas deductivas son las siguientes: do et sea waa age ideo Dschabess Ddiavess U DSctabess U PStiavess U PSthabes, U Dachabess U PSchaiess pL pe be Ret ry pRe UDEEhapes, U DsGhadees U Picuavern U Psthabess U Pachabess U Pschabers donde ni pint = pln Echabess = PSchabes, = Pschabeso ct sel _ psa Schabess = Dciaben, = PSchabeso 2 pst, = psa. SShabers = DSciabess = PSshatero aa = Maa Dichaboss = = Dseiabess dui _ plu _ pda Déchabess = Pchatios, = PSchaboso Wide _ pale _ pede DBchabess = Dscinbes: = PSchabero ee ptt _ pint DeBanen, = Pesinienr = Pesiabers 2 ie pte Dicnabess = Pschiabes = PSehsbeso D&Ssabers = Padus = PSchatero La regla deductiva DU,,,,, es realmente la fusién de DY... ¥ DeShabes,: De forma andloga DESanes, €8 la combinacion de DEGh.yey, ¥ D&abexy & la que se afiade el uso del nodo L. La regla deductiva DEP... ¢8 similar a DEEhyes, con la diferencia del uso del nodo LL. 152_____ Capitulo 6, Zsquemas basados en Barley con prefijo vitido oe (Mah imarstar to Pichavess = 47, 1b, j.p.qcatar,t,0) Me Ad(M”) [9,16 yh —,—, star, ts 6] M10, hy j.pge star's t, ¥] Ss . oo TH 1h RsPa GH] el og IMT rb hy lapsas M5, K)[L9. Ub dubs asta, t 8) . PSone = (15,10, jl, kul, star, 0] Be Adar) El conjunto de items finales es igual que cl de los dos esquemas anteriores: Fescnabesa = Fecnabon, = Fichabess Proposicién 6.6 Schabes; = Schabes2 Prueba 6.6 Puesto que ya vimos que los items del esquema Schabess son wna ampliacion de los incluidos en et esquema Schabes;, tan sdlo queda probar que F3chavesy St Schabess Para demostrar lo anterior veremos que efectivamente se cumple Dsenates: CPSchabess- De mostraremos este enunciado tan sélo para las reglas que han sido modificadas. (i) Supongamos que M? no es et nodo pie del érbol 7 y cumple que nil € Adj(M), dando lugar mediante Dyfernes, @ la siguiente deduccién (M7, la, [MO lbh, j.p,q, stan entonces, dado que no es obligatoria la adjuncién en MY, usando Dudirirose [M2 1a, h, jp. 4, star,t,b] [M7,16,h. jp, 4, star,t,0] (ii) Al cumplirse Duce,» Considerando nil € Adj(F*) [F?,la, j,k, —,—, star, t,8] (F916, 3, B, — — star, t, 8] puesto que nil € Adj(F®), tenemos que mediante DEE sey [F%,ta,ish, [F8,1b, 5,4, =:star,t,0] = star, t,8] (iti) Sea 8 € Adj(F"), dada ta vegla deductive DEves, [F9,1b, j,k, —,—, star, tl, bl) [P7,la,h,j,—, star’ t!,B'] [F7,1b, ke, =, = PK] 6.5, Bl algoritmo de Schabes con prefijo vilidg —________ 153 entonces, dado que 1° es el primer y sinico hijo de F, aplicando D&{i4,.., tenemos que [FP 1b, j,k. aj, star, tt bl} tar, tb] y 4 continuacién, como por definicién 1% es un no terminal con restriccién nula de adjun- cién, aplicando Dey (1% la, jk, [D5 y de aqui, como en FY podemos adjuntar 8, usando DiS.yexs [19,10 5,Rs star, t, 0) [F,la, h, j,—, star’, t',B'] [F*,1b, hk, =) =F 5K] (in) Respecto a DES. , considerando 3 € Adj(M7) no siendo M7 un nodo pie, si se Scab: cumple {F9,1b, j,k, —)—, star, t,B][M7, la, h, j,p,4, star", t,o) [M716 he, k.p.q. M7, 5,8) entonces, y de forma similar al caso anterior mediante DMM... y Duprey tenemos que tart) star, t,0] y como i puede ser adjuntado en el nodo M, por DESsyexs [1P 0b, js =, star, t,6)[M",la, h,j,p.qystar’st!,] [M7 10, ks psg, M75, 8] (w) Finalmente, dada DEe jog, con 8 € Adj(M7) Schaben, [M7 7b, hy lsp.q, M7, 5, A) LF? Ib, js ky) —,atar, tb] [FB rb, jt, kal, star, tb) entonces al ser por definicién 1° ef primer hijo det nodo pie de 6 podemos aplicar aaa Desclicvess (B91, j,k, ~.—, star, th bl] [14 la, j,k, —,—, star, t,5] 1s4______ Capitulo 6, Esquemas basados en Barley con prefijo vitido -y de aqui, usando Derpes,, ser 1° un no terminal con restriccién de adjuncién nula por definicién, tenemos que y ahora, mediante Devjes, Ya que podemos adjuntar 8 en M*, [My hats gs M75, LAU [L510, 5,1 sl, star, tb] starsty6) puesto que 1° es, por definicién un nodo con restriccién de adjuncién nula, se verifica que 184 star, de lo que se deduce mediante DE?,,.., que (18,1b,f.t kt, star, t,6) [D?,ra, 5,1, star, t,5] yal ser 1° el dnico, y por tanto, tltimo hijo del nodo pie de B aplicando D&ite,., [18,r@, jl, kel, star,t, b] (FF 10,5, 1.8L ater.) t El refinamiento que hemos realizado sobre el esquema Schabesa ha tenido como objeto unificar el modo en el que actsian, por una parte, las posiciones en el conjunto {la, 1b}, y por otra, las posiciones {ra,rb}. De esta forma podemos suprimir las posiciones Ib y rb, lo que supondré una contraceién en la secuencia de derivaciones. Podemos observar que las posiciones la y Ib se corresponden con la fase descendente mientras que las posiciones ra y rb con la fase ascendente. La transicién de la a lb es realizada por todos los nodos etiquetados con simbolos no terminales sobre los que se efectiia ‘una prediccién de subarbol o nodo pie. La posicién la prepara la decisién de si se va a realizar una prediccién de subarbol 0 de adjuncién. La posicién Ib es el reflejo posterior de dicha decisién, En el nuevo esquema, la actualizacién - si procede - de los valores de los indices en. el paso de la a [bse realizaré en el paso desde un nodo padre al primer nodo hijo que domina, La existencia de este nodo para el caso del nodo pie es garantizada por la introduceién del nodo ficticio L. La transicién de rb a ra tiene el efecto contrario al de los puntos situados en la izquierda, esta vez, respecto a la complecién de subérbol 0 adjuncién. Ahora, la transicién de rb a ra se realizaré de forma ascendente entre un nodo padre y su dltimo nodo hijo. Nuevamente, el nodo ficticio .L introducido solventa el problema de la transicién ascendente respecto al nodo pie. El conjunto Tschabese €8 ttn subconjunto del dominio Zschapess donde han sido suprimidos los items donde dot = 1b o dot = rb. El conjunto de items validos coincide con los del esquema. anterior salvo que han sido suprimidos también dichos items: Vechabesy = Vsenabess/WZschabess

Você também pode gostar