Você está na página 1de 4

Modelo Probabilstico del Lenguaje

Los modelos probabilsticos tienen varias ventajas. Pueden ser entrenados convenientemente a partir de los datos: el aprendizaje es justo una cuestin de contar ocurrencias. Tambin son ms robustos, reflejan el hecho de que no todos los hablantes estn de acuerdo en que frases son parte de un idioma actualmente, y pueden utilizarse para la desambiguacin: la probabilidad de elegir la interpretacin ms probable. Un modelo probabilstico del lenguaje define una distribucin de la probabilidad sobre un conjunto de cadenas. Algunos ejemplos de modelos: el bigram y el trigram, son modelos del lenguaje usados en el reconocimiento del habla. Un modelo unigram asigna una probabilidad a cada palabra del lxico. El modelo asume que las palabras estn elegidas independientemente, asi que la probabilidad de una secuencia es el producto de la probabilidad de sus palabras, dada por . La secuencia siguiente de 20 palabras fue generada al azar a partir de un modelo unigram de las palabras de este libro: Lgico sea al igual que la confusin a puede enderezar el agente de los intentos que es la meta era Un modelo bigram asigna una probabilidad a cada palabra, dependiendo de la palabra anterior. Un modelo bigram de este libro genera al azar la siguiente secuencia: Planeando los sistemas expertos puramente de diagnostico son acercamiento de computo muy similar seran representados compacto usando el dedo En general, un modelo n-gram condiciona una palabra a las n 1 anteriores, asignando una probabilidad . Un modelo trigram de este libro genera al azar la siguiente secuencia: Planificacin y programacin se integran el xito de bayes simple que el modelo es justo una fuente anterior posible para Incluso con esta pequea muestra, debera estar claro que el modelo trigram es mejor que el modelo bigram, mejor que el modelo unigram. Los modelos asimismo convienen: el modelo trigram asigna a su secuencia al azar una probabilidad de , el bigram , y el unigram . Con medio milln de palabras, de un libro no contiene bastantes datos para producir un buen modelo bigram, permitiendo solamente un modelo trigram. En el lxico de un libro hay cerca de 15,000 palabras distintas, as que el modelo bigram incluye millones de pares de palabras. Claramente, por lo menos 99.8 % de estos pares tendrn una frecuencia de aparicin cero, pero no queremos que nuestro modelo diga que todos estos pares son imposibles. Necesitamos alguna manera de suavizar las frecuencias con valor cero.

La manera ms simple de hacer esto se llama, suavizar aadiendo uno: agregamos uno al contador de cada bigram posible. Si en la recopilacin hay N palabras y B bigram posibles, entonces a cada brigram con un contador real c se le asigna una estimacin de probabilidad de . Este mtodo elimina el problema de los n-gram de probabilidad cero, pero la asuncin de que cada contador sea incrementado exactamente en uno es dudosa y puede conducir a estimaciones pobres. Otra aproximacin es el suavizado por interpolacin lineal, que combina los modelos trigram, bigram unigram por interpolacin lineal. Definimos nuestra estimacin de la probabilidad como:

Donde C3 + C2 + C1 = 1. El Ci de los parmetros puede ser fijo, o puede ser entrenados con un algoritmo EM. Es posible tener valores de los Ci que dependan de los contadores n-gram, de modo que pongamos un peso ma alto en las estimaciones de la probabilidad que se derivan de registros mas altos. Un mtodo para evaluar un modelo del lenguaje es como sigue: primero, dividir su corpus en un corpus de entrenamiento y un corpus de prueba. Determinar los parmetros del modelo con base en los datos del entrenamiento. Entonces calcular la probabilidad asignada al corpus de prueba por el modelo; cuanto mas alta l probabilidad mejor. Un problema con esta aproximacin es que P(words) es demasiado pequea para laas cadenas largas; los nmeros podran causar desbordamiento de capacidad inferior de punto flotante, o podran ser difciles de leer. En vez de probabilidad podemos calcular la perplejidad de un modelo en una cadena de prueba de palabras

Donde N es el numero de palabras. Cuanto mas baja es la perplejidad, mejor es el modelo. Un modelo n-gram que asigna a cada palabra una probabilidad de 1/k tendr perplejidad k; se puede pensar en perplejidad como el factor de ramificacin medio. Como ejemplo de que puede hacer el modelo n-gram, consideremos la tarea de segmentacin: encontrar los limites de palabras en un texto sin espacios. Esta tarea es necesaria en japons y chino, idiomas que se escriben sin espacion entre las palabras, pero asumimos que la mayora de los lectores se sentirran mas comodos con ingles. La oracin Esfacilleerpalabrassinespacios Para nosotros es de hecho fcil de leer. Puede ser que se piense que es porque tenemos conocimiento completo de la sintaxis, semntica y de las practicas del ingles. Mostraremos que la oracin se puede descifrar fcilmente por un modelo simple de palabra unigram. 0725 | Karem M. P. 2

Vimos anteriormente como la educacin de Viterbi, se puede utilizar para solucionar el problema de encontrar la secuencia mas probable a travs de un retculo de las posibilidades de la palabra. La figura muestra una versin del algoritmo de Viterbi diseado especficamente para el problema de la segmentacin. Toma como entrada una distribucin de probabilidad de la palabra unigram, P(Word), y una cadena. Entonces, para cada posicin i de la cadena, almacena en best [i] la probabilidad de la secuencia mas probable que la atraviesa desde el comienzo hasta el i. Tambin almacena en words [i] la conclusin de la palabra en la posicin i que produjo la mejor probabilidad. Una vez que haya acumulado los vectores best y words mediante programacin dinmica, entonces trabaja al revs con palabras para encontrar el mejor camino.

Algoritmo basado en el Viterbi para segmentacin de palabras. Dada una cadena de palabras con los espacios eliminados, recupera la segmentacin ms probable en palabras.

0725 | Karem M. P.

En este caso, en un modelo unigram, la mejor secuencia de palabras con probabilidad . Comparando las partes de la secuencia, vemos por ejemplo que tiene probabilidad en el unigram, mientras que tiene una probabilidad mucho ms baja , a pesar del hecho de que las palabras e e y son comunes en las ecuaciones de un libro. De forma similar tenemos:

. Por tanto unigram. es 100 veces ms probable que segn el modelo

0725 | Karem M. P.

Você também pode gostar