Você está na página 1de 40

Escuela de Verano RIO 2016

Departamento de Computación, FCEFQyN


Universidad Nacional de Río Cuarto

Introducción al
Procesamiento del Habla
Prof. Agustín Gravano
Departamento de Computación, FCEyN
Universidad de Buenos Aires
Procesamiento del Habla
● Objetivo de la disciplina:
– Construir sistemas informáticos capaces de manipular
efectivamente el lenguaje oral.
● Subtítulos, traducciones, interfaces, resúmenes, ...
● Objetivos de este curso:
– Estudiar las bases necesarias para construir sistemas de:
● Reconocimiento automático.
● Síntesis del habla.
● Detección automática de características del hablante: id,
lenguaje, género, edad, etc.
Procesamiento del Habla
● Programa del curso:
– Lunes: Acústica, fonética y fonología.
● Sonido, onda, fono, fonema, espectrograma.
– Martes: Reconocimiento del habla.
● Mezclas de gausianas (GMM), Modelos ocultos de Markov (HMM).
– Miércoles: Síntesis del habla.
● Síntesis concatenativa, HMM, articulatoria y de formantes.
– Jueves: Usando el reconocimiento y la síntesis del habla.
● Pre- y pos-procesamiento en ASR y TTS. Sistemas de diálogo hablado.
– Viernes: Detección de características del hablante.
● Aprendizaje Automático. Detección de id, lenguaje, género, edad, etc.
Bibliografía
● Jurafsky & Martin, “Speech and Language Processing”, 2nd
ed., Prentice Hall. 2009.
● Johnson, “Acoustic and Auditory Phonetics”, 2nd ed.,
Blackwell. 2003.
● Benesty, Mohan Sondhi & Huang (Eds.), “Springer
Handbook of Speech Processing”. Springer-Verlag, 2008.
Acústica
¿Qué es el sonido?
Sonido
● Fluctuaciones de presión en el aire causadas por
fuentes como instrumentos musicales, bocinas de
autos, voces, etc.
1) Las ondas se propagan por el aire y llegan al oído.
2) El sistema auditivo las traduce a impulsos neuronales.
3) El cerebro los interpreta como sonido.
Propagación del Sonido: Analogías

Analogía más adecuada:


Sonidos

● Sonidos periódicos
– Ondas periódicas simples
– Ondas periódicas complejas (o compuestas)

● Sonidos aperiódicos
– Ruido blanco, sonido transitorio.
Ondas Periódicas Simples
● Ondas senoidales.
● Ciclo: Cada repetición del patrón senoidal.
● Período (T): Duración del ciclo.
● Frecuencia (f): Cantidad de ciclos por segundo.
– En otras palabras: Cantidad de veces que el patrón senoidal
se repite por segundo.
– Se mide en hertz (Hz).
– 1 Hz = 1 ciclo por segundo.
– f = 1/T
● Ej: T=0.01s, f=100Hz
Ondas Periódicas Simples
● Amplitud: Desviación
máxima de fluctuación de
la presión por sobre la
presión atmosférica
normal.
● Fase: Timing de la forma de
onda relativo a algún punto
de referencia.

Ejercicio en Python:
ej1-acustica.py
Ondas Periódicas Complejas
● Ondas periódicas complejas: Ondas cíclicas
formadas por múltiples ondas senoidales.
– Ej: onda formada por senoidales de 100 y 1000Hz.
Ondas Periódicas Complejas

Ejemplo: onda compleja


formada por 4 senoidales
Sonidos Aperiódicos
No tienen un patrón que se repita regularmente.
Ejemplos:
● Ruido blanco: Fluctuación aleatoria de presión.

– Espectro plano: igual amplitud para todas las frecuencias.


– Estática de radio, viento entre los árboles, [s], [f].
● Ondas transitorias: Fluctuaciones súbitas de presión
que no se sostienen ni se repiten.
– Portazos, disparos, mouse clicks, [p], [t].
Análisis de Fourier
● Cualquier función puede descomponerse en una
suma de ondas senoidales.
● Espectro energético:

Amplitudes

Frecuencias
● Fast Fourier Transform (FFT)
– Algoritmo eficiente para computar el espectro de una
señal a partir de un número de muestras.
Visualizaciones
● Al agregar una dimensión temporal al espectro
energético, obtenemos un espectrograma.

tiempo →
Onda
Espectrograma
Sonidos Aperiódicos

Ruido blanco Onda transitoria


Ejercicio en Python: ej1-acustica.py
Procesamiento Digital de Señales
● Señal analógica (continua): La línea de tiempo tiene
valores de amplitud con precisión infinita en todos
los puntos.
● Señal digital (discreta): La línea de tiempo tiene sólo
una secuencia de valores de amplitud con precisión
finita.
Procesamiento Digital de Señales
● Un micrófono convierte oscilaciones de presión en el
aire (sonido) en oscilaciones de voltaje.
– Los dispositivos analógicos (discos de vinilo, cassettes) las
guardan como señales continuas.
– Los dispositivos digitales (computadoras, CDs) las
convierten y guardan como señales discretas.
● Conversión Analógica-Digital (Digitalización)
1) Muestreo: Discretización del tiempo.
● Tasa de muestreo. Ej: 8 kHz (teléfono), 44.1 kHz (CD), 16 kHz.
2) Cuantización: Discretización de la amplitud.
● Precisión de las muestras. Ej: 16 bits.
Ejercicios
● Escuchar bach.wav (44.1kHz, 16bits)
– Fragmento de Partita en Sol Mayor de J. S. Bach.
play FILENAME
● Bajar sampling rate a 16, 8, 4 kHz y comparar.
sox IN.WAV -r FREQ OUT.WAV
● Subir sampling rate de 4 kHz a 44.1kHz.
– ¿Por qué no vuelve a estar en buena calidad?
● Crear espectrogramas de los audios y comparar.
sox IN.WAV -n spectrogram -o OUT.PNG
Acústica – Resumen
● Sonidos periódicos y aperiódicos.
– Ondas periódicas simples y complejas.
– Ruido blanco; ondas transitorias.
– Análisis de Fourier. FFT. Espectrograma.
● Procesamiento digital de señales.
– Tasa de muestreo; precisión.
● Herramientas: sox y Python.
Fonética y
Fonología
Los sonidos del lenguaje
¿De estas figuras, cuál se llama Buba y cuál Kiki?
Los sonidos del lenguaje

● ¿Quién estudia los sonidos del habla?


– Lingüistas (fonólogos), fonoaudiólogos, lexicógrafos,
cantantes, maestros de idiomas.

● ¿Qué preguntas se hacen?


– ¿Cuál es el inventario de un idioma X?
– ¿Cómo se producen los sonidos?
– ¿Qué sonidos comparten dos idiomas X e Y?
– ¿Cómo varía la producción de un sonido según el
contexto en que se produce?
Fonética articulatoria
¿Cómo se producen los sonidos del habla?
Clases de sonidos
● Vocales:
– Generalmente sonoras, poca restricción o bloqueo del
flujo del aire (ej: [a] [e] [i] [o] [u]).
● Consonantes:
– Restricción o bloqueo del flujo del aire (ej: [s]).
– Sonoras vs. sordas (ej: [m] vs. [s])
● Semiconsonantes: [j] labio, [w] agua.
● Semivocales: reino, causa.
Consonantes: Punto de articulación
● ¿Dónde se restringe el flujo del aire?

alveolar
pos-alveolar/palatal
dental
velar

uvular
labial
faríngea

laríngea/glotal
Consonantes: Punto de articulación
● Ejemplos en español:
– Labial: bilabial [p] [m]; labiodental [f].
– Dental: [θ] zorro en español peninsular.
– Alveolar: [s], [n], [t], [r].
– Palatal: [ɲ] ñato.
– Velar: [ŋ] hongo, [k] casa, [x] juez.
– Laríngea: [h] hasta.
Consonantes: Modo de articulación
● ¿Cómo se restringe el flujo del aire?
– Oclusiva: Se bloquea el paso del aire y luego se lo libera:
[p] [t] [k] [g].
– Nasal: El aire sale por la nariz: [m] [n].
– Fricativa: Se fuerza el aire por un canal angosto,
generando una fricción turbulenta: [f] [s].
– Africada: Comienza como una oclusiva, pero termina
como una fricativa: [t∫] techo.
– Aproximante: Se restringe poco el flujo del aire, sin
bloquear ni producir fricción turbulenta: [l].
– Vibrante: Se hace vibrar la lengua: [r].
Consonantes sordas vs. sonoras
● ¿Vibran las cuerdas vocales?
– Sí: consonante sonora.
● Ejemplos: [m] [n] [b] [d] [l] [r] [g] ...
– No: consonante sorda.
● Ejemplos: [f] [s] [p] [t] [k] [x] [∫] [h] ...
Español

Ejemplos de posibles transcripciones fonéticas:


bebé be 'βe chancho 'ttʃan ttʃo
dedo 'de ðo ñoqui 'ɲo ki
gagá ga 'ɣa zorro 'so ro / 'θo ro
enfermo eɱ 'feɾ mo jaque 'xa ke
hongo 'oŋ ɣo mosca 'moh ka / 'mos ka
lluvia 'ʃu βia / 'ʒu βia / 'ʝʝu βia / 'ʎu βia patio 'pa tjo

(Link útil: Teclado IPA http://ipa.typeit.org/full/)


Vocales
● Todas son sonoras.
● Apertura o altura: ¿cuán alta está la lengua?
– Abierta [a]; medio [e][o]; cerrada [i][u].
● Localización: ¿dónde está su parte más alta?
– Anterior [a][e][i]; centro; posterior [o][u].
● ¿Cuán redondeados están los labios?
– Redondeados [o][u]; no redondeados [a][e][i].
● Secuencias de sonidos vocálicos.
– Simple [e] vs. diptongo [ej] vs. Triptongo [uej].
– Hiato: caer, zoológico, período, chiíta.
Vocales: Disposición de la lengua
Vocales

Demo: [formant.exe] http://www.speech.kth.se/wavesurfer/formant/


IPA para el español: Vocales
Fonos y fonemas
● sopa vs. desde vs. mosca vs. “es uno”
Diferentes formas de pronunciar la “s”.
● Fonos: Sonidos de un idioma. Not.: [∙]
● Fonemas: Clases (abstractas) de sonidos que permiten distinguir
palabras de un idioma. Not.: /∙/
● Ejemplos en español:
– desde, sopa, mosca: varios fonos [h], [s], [x] para el fonema /s/.
– nada, enfermo: fonos [n], [ɱ]; fonema /n/.
– gol vs. agua: fonos [g], [ɣ]; fonema /g/.
– [d] y [δ] son alófonos del fonema /d/ (dado).
En inglés, /d/ y /δ/ son dos fonemas (dose vs. those).
– /p/ y /b/ son fonemas (peso vs. beso).
En chino mandarín, [p] y [b] son alófonos del mismo fonema.
Fonos en acción

s a p o m a n t a
Fenómenos fonéticos importantes
● Reducción (o hipoarticulación): acortamiento de los
sonidos, por ejemplo por hablar rápido.
● Eliminación (consistente) de fonemas: fósforo.
● Hiperarticulación: pronunciación muy marcada
(exagerada) de cada sonido.
● Co-articulación: Coordinación de movimientos
articulatorios para la realización de un sonido.
– Ejemplo: en pa, la lengua adopta la posición articulatoria
de [a] mientras se está articulando [p].
● Asimilación: La pronunciación de una sílaba se
acomoda a la de una vecina: hongo, desde.
Herramientas de Análisis: Praat
● http://www.praat.org
● Creado por Paul Boersma y David Weenink, del Instituto
de Ciencias Fonéticas de la Universidad de Amsterdam.
● Herramienta de procesamiento del habla con fines
generales.
– Edición, segmentación, rotulado, manipulación de
prosodia, batch scripting, y más.
● Mucha documentación online. Buscar “tutorial praat”.

Ejercitación para Praat: ejercicios-praat.pdf


Fonética y Fonología – Resumen
● Fonética: Estudia los sonidos del habla.
– Representaciones: Ortografía, IPA, ARPABET.
– Fonética articulatoria:
● Cómo se producen los sonidos.
● Clases de sonidos: según punto y modo de articulación.

● Fonología: Función de los sonidos en el lenguaje.


– Fonemas (ej: /s/) vs. fonos (ej: [s] en sopa, [h] en desde).

ejercicios-fonetica-y-fonologia.pdf
(Con soluciones.)

Você também pode gostar