Escolar Documentos
Profissional Documentos
Cultura Documentos
Introducción al
Procesamiento del Habla
Prof. Agustín Gravano
Departamento de Computación, FCEyN
Universidad de Buenos Aires
Procesamiento del Habla
● Objetivo de la disciplina:
– Construir sistemas informáticos capaces de manipular
efectivamente el lenguaje oral.
● Subtítulos, traducciones, interfaces, resúmenes, ...
● Objetivos de este curso:
– Estudiar las bases necesarias para construir sistemas de:
● Reconocimiento automático.
● Síntesis del habla.
● Detección automática de características del hablante: id,
lenguaje, género, edad, etc.
Procesamiento del Habla
● Programa del curso:
– Lunes: Acústica, fonética y fonología.
● Sonido, onda, fono, fonema, espectrograma.
– Martes: Reconocimiento del habla.
● Mezclas de gausianas (GMM), Modelos ocultos de Markov (HMM).
– Miércoles: Síntesis del habla.
● Síntesis concatenativa, HMM, articulatoria y de formantes.
– Jueves: Usando el reconocimiento y la síntesis del habla.
● Pre- y pos-procesamiento en ASR y TTS. Sistemas de diálogo hablado.
– Viernes: Detección de características del hablante.
● Aprendizaje Automático. Detección de id, lenguaje, género, edad, etc.
Bibliografía
● Jurafsky & Martin, “Speech and Language Processing”, 2nd
ed., Prentice Hall. 2009.
● Johnson, “Acoustic and Auditory Phonetics”, 2nd ed.,
Blackwell. 2003.
● Benesty, Mohan Sondhi & Huang (Eds.), “Springer
Handbook of Speech Processing”. Springer-Verlag, 2008.
Acústica
¿Qué es el sonido?
Sonido
● Fluctuaciones de presión en el aire causadas por
fuentes como instrumentos musicales, bocinas de
autos, voces, etc.
1) Las ondas se propagan por el aire y llegan al oído.
2) El sistema auditivo las traduce a impulsos neuronales.
3) El cerebro los interpreta como sonido.
Propagación del Sonido: Analogías
● Sonidos periódicos
– Ondas periódicas simples
– Ondas periódicas complejas (o compuestas)
● Sonidos aperiódicos
– Ruido blanco, sonido transitorio.
Ondas Periódicas Simples
● Ondas senoidales.
● Ciclo: Cada repetición del patrón senoidal.
● Período (T): Duración del ciclo.
● Frecuencia (f): Cantidad de ciclos por segundo.
– En otras palabras: Cantidad de veces que el patrón senoidal
se repite por segundo.
– Se mide en hertz (Hz).
– 1 Hz = 1 ciclo por segundo.
– f = 1/T
● Ej: T=0.01s, f=100Hz
Ondas Periódicas Simples
● Amplitud: Desviación
máxima de fluctuación de
la presión por sobre la
presión atmosférica
normal.
● Fase: Timing de la forma de
onda relativo a algún punto
de referencia.
Ejercicio en Python:
ej1-acustica.py
Ondas Periódicas Complejas
● Ondas periódicas complejas: Ondas cíclicas
formadas por múltiples ondas senoidales.
– Ej: onda formada por senoidales de 100 y 1000Hz.
Ondas Periódicas Complejas
Amplitudes
Frecuencias
● Fast Fourier Transform (FFT)
– Algoritmo eficiente para computar el espectro de una
señal a partir de un número de muestras.
Visualizaciones
● Al agregar una dimensión temporal al espectro
energético, obtenemos un espectrograma.
tiempo →
Onda
Espectrograma
Sonidos Aperiódicos
alveolar
pos-alveolar/palatal
dental
velar
uvular
labial
faríngea
laríngea/glotal
Consonantes: Punto de articulación
● Ejemplos en español:
– Labial: bilabial [p] [m]; labiodental [f].
– Dental: [θ] zorro en español peninsular.
– Alveolar: [s], [n], [t], [r].
– Palatal: [ɲ] ñato.
– Velar: [ŋ] hongo, [k] casa, [x] juez.
– Laríngea: [h] hasta.
Consonantes: Modo de articulación
● ¿Cómo se restringe el flujo del aire?
– Oclusiva: Se bloquea el paso del aire y luego se lo libera:
[p] [t] [k] [g].
– Nasal: El aire sale por la nariz: [m] [n].
– Fricativa: Se fuerza el aire por un canal angosto,
generando una fricción turbulenta: [f] [s].
– Africada: Comienza como una oclusiva, pero termina
como una fricativa: [t∫] techo.
– Aproximante: Se restringe poco el flujo del aire, sin
bloquear ni producir fricción turbulenta: [l].
– Vibrante: Se hace vibrar la lengua: [r].
Consonantes sordas vs. sonoras
● ¿Vibran las cuerdas vocales?
– Sí: consonante sonora.
● Ejemplos: [m] [n] [b] [d] [l] [r] [g] ...
– No: consonante sorda.
● Ejemplos: [f] [s] [p] [t] [k] [x] [∫] [h] ...
Español
s a p o m a n t a
Fenómenos fonéticos importantes
● Reducción (o hipoarticulación): acortamiento de los
sonidos, por ejemplo por hablar rápido.
● Eliminación (consistente) de fonemas: fósforo.
● Hiperarticulación: pronunciación muy marcada
(exagerada) de cada sonido.
● Co-articulación: Coordinación de movimientos
articulatorios para la realización de un sonido.
– Ejemplo: en pa, la lengua adopta la posición articulatoria
de [a] mientras se está articulando [p].
● Asimilación: La pronunciación de una sílaba se
acomoda a la de una vecina: hongo, desde.
Herramientas de Análisis: Praat
● http://www.praat.org
● Creado por Paul Boersma y David Weenink, del Instituto
de Ciencias Fonéticas de la Universidad de Amsterdam.
● Herramienta de procesamiento del habla con fines
generales.
– Edición, segmentación, rotulado, manipulación de
prosodia, batch scripting, y más.
● Mucha documentación online. Buscar “tutorial praat”.
ejercicios-fonetica-y-fonologia.pdf
(Con soluciones.)