Você está na página 1de 6

REVISIÓN BIBLIOGRAFICA DE UNA REPRESENTACIÓN TIEMPO-

FRECUENCIA CEPSTRUM DE UNA SEÑAL CON RIESGO VOCAL.


María Fernanda Guevara, Karen Lisseth Quiroga, Carlos Alberto Prada

Resumen El procesamiento de señales usando


cepstrum es una técnica no lineal con una
El presente artículo muestra una revisión amplia variedad de aplicaciones en áreas
bibliográfica en definiciones básicas de la tales como el procesamiento de voz,
representación cepstral de una señal con imágenes y monitoreo de equipos. [2]
riesgo vocal, tales como: cepstrum y La señal de voz es un proceso aleatorio y no
ventaneo; al igual que contiene la estacionario. Esto supone un inconveniente
interpretación matemática y sus campos de a la hora de analizar la señal, no obstante es
aplicación; creando un sistema de posible salvar este problema si se tiene en
reconocimiento de voz mediante el uso de cuenta que a corto plazo de tiempo (del
algoritmo MFFC. También se estudia la orden de ms) la señal es casi-estacionaria
esto da lugar a un tipo de análisis donde se
importancia de su tratamiento espectral, que
obtienen segmentos o TRAMAS de señal
consigue reducir la cantidad de material de pocos ms denominado análisis
acústico sin perder la información que localizado. [1]
permanece en ella.

Abstract
II. MARCO TEORICO
This paper shows a bibliographic revision
in basic definitions of the cepstral Conceptos generales de la voz
representation of a signal with vocal risk, La voz es un conjunto de sonoridades
like: cepstrum and window function;also it producidas por el funcionamiento de los
contains the mathematical interpretation órganos de la fonación. El instrumento de la
and its aplication's fields; creating a voice voz comprende:
recognition system through the use of
 El aparato respiratorio es el motor
MFFC algorithm. The importance of its que proporciona al sonido la
spectral treatment is also studied, which intensidad, la fuerza, la potencia y
manages to reduce the amount of acoustic el sostenimiento. Está comprendido
material without losing the information that por los pulmones, el fuelle y el
remains in it. depósito de aire. El aparato
respiratorio se divide en dos partes:
Palabras claves: Voz, Procesamiento  Vías respiratorias
Digital de Señales, Ventaneo, Cepstrum, superiores: constituidas
Matlab. por las fosas nasales, la
faringe nasal, y los senos o
cavidades accesorias es la
primera parte del trayecto
I. INTRODUCCIÓN que debe efectuar el aire,
el cual debe penetrar por
Se denomina reconocimiento del habla al las aletas nasales.
proceso de extraer información lingüística  Las vías respiratorias
de una señal de voz. [1] inferiores están
constituidas por la laringe,
la tráquea, los bronquios y
los pulmones. El pulmón la resonancia será mal
es el órgano esencial de la producida.
respiración. El aire se  Partes blandas móviles:
almacena en los alvéolos Son las paredes musculo-
pulmonares. membranosas de la faringe:
el velo del paladar blando,
 El órgano vocal vibrante es el la lengua, las mejillas y los
generador del sonido, y le labios. Pero existe un hueso
proporciona la altura por las móvil, el maxilar inferior.
vibraciones de las cuerdas vocales. Estas partes deben estar
Está compuesto por la laringe con sanas, libres, y ser bien
la glotis, las cuerdas vocales y los móviles. Si hay una
ventrículos. La laringe es el órgano amígdala lingual
donde nace el sonido y se encuentra voluminosa o amígdalas
tapizada por una membrana aumentadas de volumen,
mucosa, provista de glándulas los movimientos de la
secretoras. En medio de la laringe lengua o del velo del
hay una región llamada glotis, que paladar serán trabados,
está constituida por las cuerdas dificultados, y, sobre todo,
vocales que son dos bandas móviles esas masas constituirán por
que, unidas en su parte anterior, su volumen un obstáculo a
dejan entre sí un espacio triangular la salida de los sonidos. La
que es la glotis. Para determinar la colocación de la voz será
apertura o cierre de la glotis existen defectuosa, disminuirá la
los músculos tensores y resonancia y el alcance será
constrictores respectivamente. el menor. [4]
músculo de las cuerdas vocales
tensa las cuerdas vocales, llamado
también tiroaritenoides. Ventaneo

 El sistema de resonancia es el que El mecanismo que nos permite, dada una


proporciona al sonido el timbre, el señal de voz, realizar un análisis localizado
color y la riqueza armónica. Es el mediante el uso de tramas consecutivas se
reforzamiento del sonido. También denomina ENVENTANADO de la señal.
permite la colocación de la voz y el
Se denomina ventaneo a la aplicación
alcance. Está compuesto por los (multiplicación) sobre la señal de voz
resonadores y las cavidades de completa de una función limitada en el
resonancia. Este puede dividirse en: tiempo (ventana), lo que produce una sueva
señal de voz, cuyo valor fuera del intervalo
 Partes duras fijas: son las definido por la ventana es nulo. [6]
partes óseas: el maxilar
superior, los huesos de las
fosas nasales, de los senos
y de la bóveda palatina
ósea, y los dientes. Estas
partes son duras, rígidas y
fijas. Para que favorezcan
la resonancia es necesario
que sean lisas y parejas. Si
hay vegetaciones en la
nasofaringe, pólipos en las
fosas nasales, líquido o pus
en los senos, un a mucosa
espesa, la voz será sorda y Figura 1. Ventanas temporales mas empleadas
[6]
Cepstrum. es comúnmente llamado cepstrum y se
determina usando.
Al considerar que el modelo del tracto
vocal se comporta como un sistema lineal 𝐶(𝑞) = 𝑟𝑒𝑎𝑙(𝐹𝑇 −1 (𝑙𝑜𝑔[𝐹𝑇(𝐶(𝑡))]))
hemos de suponer que la salida es el
resultado del producto de convolución con Ecuación 5. Expresión Matemática del
la función de transferencia del sistema. El Cepstrum[8]
Análisis Cepstral tiene el objetivo de Donde FT-1 y FT son la Transformada
desconvolucionar la salida para separar la Inversa de Fourier y la Transformada de
entrada de la función de transferencia del Fourier de la señal de entrada C(t)
sistema para ello tiene en cuenta la respectivamente. Debido a la operación
siguiente observación: logarítmica aplicada a la magnitud del
𝑠(𝑡) = 𝑒(𝑡) × ℎ(𝑡) espectro de la señal, componentes pequeños
asociados al fenómeno de fuga de
Ecuación 1. Convolución [7] frecuencias “Leakage” son amplificados y
afectan el cepstrum resultante.
Calculamos la transformada de Fourier
Se emplea para identificar armónicos o
𝑆(𝜔) = 𝐸(𝜔) . 𝐻(𝜔 ) bandas laterales en el espectro e identificar
su importancia relativa Se define el
Ecuación 2. Transformada de Fourier [7] cepstrum como la transformada inversa de
fourier del logaritmo del espectro de la
A continuación aplicamos las propiedades
señal (transformada de Fourier de la señal
de los logaritmos y obtenemos: temporal). [3]
log|𝑆(𝜔)| = 𝑙𝑜𝑔|𝐸(𝜔)| + 𝑙𝑜𝑔|𝐻(𝜔)| 𝐹 −1 [log 𝐹 [𝑥(𝑡)]]
Ecuación 3. Propiedades de los Logaritmos [7] Ecuación 6. Transformada de Fourier de la
señal temporal
Antitransformamos
El tono o F0 es la frecuencia más baja de un
1 𝜋 espectro de frecuencias. Aunque su
𝑐[𝑛] = ∫ 𝑙𝑜𝑔|𝑆(𝜔)|𝑑𝜔 procesamiento en algunos programas de
2𝜋 −𝜋
análisis acústico comienza a estar resuelta,
𝑐[𝑛] = 𝑐𝑒𝑥𝑐𝑖𝑡𝑎𝑐𝑖ó𝑛 [𝑛] + 𝑐𝑡𝑟𝑎𝑐𝑡𝑜 [𝑛] a nosotros nos interesan únicamente ciertas
variaciones intencionales y estructurales del
Ecuación 4. Antitransformada [7] tono durante la locución del presentador de
informativos. Estas son las propiedades que
deben tener las variaciones de F0 que
buscamos:
En pocas palabras, el análisis empleando
cepstrum es usado para determinar 1. Vocales y silábicas : solo hay tono
periodicidades en el análisis espectral de cuando hay vibración de las
cuerdas vocales (sonoridad); no es
una señal y para separar el efecto de
solo que las cinco vocales del
funciones de transferencia variables en el español sean las grandes
tiempo en una convolución de señales. Los generadoras de vibración, sino que
picos en el cepstrum, “rahmonics”, son un son las únicas cuya naturaleza
indicador de la presencia de armónicos en permite controlar el tono con
el espectro y su ubicación en el eje función discursiva.
“Quefrency” del cepstrum corresponde al 2. Periódicas y estables: a cada
movimiento articulatorio, al vibrar
periodo de la señal en el dominio del
las cuerdas vocales, los ciclos o
tiempo. El cepstrum real de una señal C(t) formas que toman las ondas
sinusoidales en sus fases se repiten III. DESARROLLO
y generan sonoridad, por lo que la
generación de grandes variaciones A continuación se muestran los
precisa de un tiempo mínimo de resultados del algoritmo escogido para
ajuste y control. la Representación Cepstrum de una
3. Melódicos: la energía de las Señal Vocal.
vibraciones, o periodicidad de las
ondas (cantidad de vibraciones por
unidad de tiempo) deben ser
coherentes a lo largo de una señal,
según los rangos definidos por las
capacidades articulatorias humanas
y los ritmos internos de la locución
informativa.

Campos donde se emplea el Cepstrum

Las áreas de aplicación de las técnicas


cepstrales son variadas incluyendo:
Figura 2. Señal Capturada
 Radar y sonar, donde el procesado
con cepstrum puede usarse para
tratar de reducir las interferencias
de la reflexiones.
 Procesado de voz donde se estima
la frecuencia fundamental del
hablante (pitch) y envolventes del
espectro.
 Exploración y detección símica
tanto terrestre como marítima,
donde por ejemplo se trata de
determinar la profundidad de las
fuentes y de explorar el fondo
oceánico.
 Ondas de los electroencefalogramas Figura 3. Transformada de
(EEG) donde se localizan Fourier
determinados eventos
electrofisiológicos que aparecen
correlados.
 Otras áreas de interés como la
deconvolución de funciones de
densidad de probabilidad.
 Otros trabajos son por ejemplo la
restauración de grabaciones Figura 4. Señal de Espectrograma
antiguas o el procesado de
imágenes. [5]

Figura 5. FBE (matriz de energía


del banco de filtros)
[2] Jabid E, Q., Gerson, T., & Sergio, Q.
(2012). Estudio de fallas incipientes en
rodamientos usando la técnica de la
envolvente y cepstrum Study on incipient
fault bearing detection based on enveloping
and cepstrum techniques. Ingeniare :
Revista Chilena De Ingeniería, Vol 20, Iss
3, Pp 350-359 (2012), (3), 350.

Figura 6. Frecuencia Mel [3] Besa, G. A. J., & Carballeira, M. J.


Cepstrum (MFCCs) (2018). Diagnóstico y corrección de fallos
de componentes mecánicos (2a. ed.).
Recuperado de: https://ebookcentral-
Se escogió el código de MFCC, ya que es el
proquest-com.proxy.umb.edu.co
más fácil para realizar el proceso de
reconocimiento de voz; debido a que su [4] M. H. y. A. L. A. Katherine García
sintaxis es menos compleja a diferencia de Cruz, «RECONOCIMIENTO DE
los otros algoritmos (SBC). Igualmente el CARACTERÍSTICAS VOCALES
código elegido es el que mejor filtra el ENFOCADO A LA IDENTIFICACIÓN
ruido externo para de esta manera poder DE HABLANTES,» 2014. [En línea].
tener un mejor resultado y claridad en las Recuperado de:
gráficas; para ayudar a un previo análisis. http://web.usbmed.edu.co/usbmed/fing/v5n
2/pdf/Articulo_Reconocimiento_Caracterist
icas_Vocales.
IV. CONCLUSIÓN
[5] V. G. V. García, «DESARROLLO DE
Los algoritmos utilizados para el análisis UN SISTEMA DE PROCESADO DE
cepstral son los MFCC y el Espectrograma; SEÑAL PARA EVALUACIÓN NO
los cuales son sistemas de reconocimiento DESTRUCTIVA ULTRASÓNICA,» 2009.
de voz. Estos se encuentran unificados en [En línea]. Recuperado de:
un solo código. http://ceres.ugr.es/~alumnos/sigpro/index.ht
ml.http://ceres.ugr.es/~alumnos/sigpro/cap3
Este código presenta un ancho de banda que .html
se puede modificar y es seleccionable para
las bandas de filtro. También se puede [6] «Análisis Localizado de Voz,» Madrid,
escoger las variables, el tipo de muestra, de Universidad Autónoma de Madrid, p. Tema
fácil manejo, fácil acceso, tiene coherencia 2. Recuperado de:
o sea se puede complementar con el http://arantxa.ii.uam.es/~jortega/Tema2_AS
espectrograma. Debido a estas AL_def.pdf
características principales se escogieron
[7] J. M. Mata, «Diseño e implementación
estos códigos para ser utilizados en nuestra
de un sistema de control por voz,» [En
investigación.
línea]. Disponible en:
https://upcommons.upc.edu/bitstream/handl
e/2099.1/4841/Mem%C3%B2ria.pdf?seque
V. BIBLIOGRAFIA nce=1&isAllowed=y.

[1] Diseño E Implementación De Un [8] G. T. y. S. Q. Jabid E. Quiroga,


Sistema De Control Por Voz." 2008. «Estudio de fallas incipientes en
Recuperado de: EBSCOhost rodamientos usando la técnica de la
envolvente y cepstrum,» Revista chilena de Realizo sus estudios de básica primaria y bachillerato
ingeniería, vol. Vol.20, nº 3, pp. 350-359, en el Colegio San Agustín de Aguazul (Casanare) en
el año 2013, actualmente es estudiante de Ingeniería
2012. Biomédica en la Universidad Manuela Beltrán de
Bucaramanga.

Karen Lisseth Quiroga


Rey

Nacida el 13 de junio de 1997


en Piedecuesta, Santander. A
sus 5 años inicia sus estudios
en la escuela María auxiliadora,
desarrollando toda su primaria en dicho colegio; su
bachiller lo inicio en el INEM con el objetivo de
profundizar sus habilidades en el área de ciencias, en
sus últimos años de bachillerato desarrollo un
proyecto enfocado en la química representando
nacionalmente a su institución. Culmino su bachiller
en el año 2013 y con un enfoque social en el año
2014 inicia sus estudios en la Universidad Manuela
Beltrán donde eligió la carrera de ingeniería
biomédica y se ha desempeñado en áreas como:
Química (desarrollando un proyecto de extracción de
aceité natural), Física (Desarrollando una maqueta a
pequeña escala de una montaña rusa, basada en la
conservación de la energía), estos dos proyectos
participaron en la feria de la ciencia UMB.
Actualmente cursa séptimo semestre.

María Fernanda Guevara


Wilches

Nacida el 30 de Abril de 1996


en Bucaramanga, Santander.
Durante su infancia se destacó
por ser una niña muy activa y
comprometida en sus labores, participaba en
actividades como: teatro, ballet, boy scout, tennis de
campo. Realizo su primaria en el Colegio Integrado
Santa Teresita y su bachillerato en la Institución
Educativa Nuestra Señora del Pilar, donde se interesó
por la contabilidad y dedico sus últimos años de
bachillerato para simultáneamente obtener el título de
auxiliar contable SENA. En el año de 2012 culmina
su estudio con grandes honores. Un año y medio más
tarde ingresa a estudiar ingeniería Biomédica en la
UMB, actualmente cursa séptimo semestre de dicha
carrera.

Carlos Alberto Prada


García.

Nacido en Yopal (Casanare) el


15 de octubre de 1996. Hijo de
Juan Carlos Prada Casanova y
María Eulice García Herrera.