Você está na página 1de 6

1

Modelado de la cclea como en un Sistema no


Lineal y respuesta del modelo a sonidos voclicos
Gloria Carolina Fernndez Otlora y Alfredo Restrepo Palacios
Laboratorio de Seales, Departamento de Ingeniera Elctrica y Electrnica
Universidad de Los Andes, Bogot, Colombia
ResumenEste artculo presenta el desarrollo de un trabajo
basado en la simulacin de la respuesta a estmulos sonoros de la
membrana basilar mediante la solucin de la ecuacin de
propagacin de onda en una membrana en 2D con densidad de
masa y tensin no uniformes, obtenindose una ecuacin
diferencial en derivadas parciales no lineal. El objetivo, adems
de obtener un sistema no lineal selectivo en tiempo-frecuencia, es
reconocer sonidos voclicos mediante la identificacin de
patrones de vibracin sobre la membrana.
ndice de TrminosCclea, ecuacin de propagacin de onda
en 2D membrana basilar, sistema no lineal, reconocimiento.

I. INTRODUCCIN
Las tcnicas ms conocidas para el reconocimiento de
voz son tcnicas lineales basadas en la transformada de
Fourier. En este artculo se explora la posibilidad de hacer
reconocimiento de fonemas basandose en un mtodo no
lineal el el que se caracterizan sonidos, especficamente los
sonidos voclicos (a, e, i, o, u).
En el odo humano se realizan los procesos de recepcin
y transduccin del sonido, enviando la seal resultante por
el nervio auditivo, antes de que el cerebro permita la
percepcin del sonido. Dentro de la cclea ocurren
fenmenos fsicos, qumicos y elctricos que constituyen
un paso inicial en la percepcin del sonido. La cclea
presenta un comportamiento impredecible con un modelo
lineal, que se quiere modelar aproximadamente con la meta
de hacer reconocimiento de voz, as, se pretende que el
sistema sea tambin sensible a la frecuencia de la seales
sinusoidales en forma anloga a como la cclea responde a
stas.

II. LA CCLEA

Figura 1. El odo interno.

En la base de la cclea existen dos orificios: la ventana


oval y la ventana redonda, cada una de ellas cerrada por
una membrana. Cuando la cadena de huesecillos del odo
medio transduce el sonido, el estribo golpea contra la
ventana oval, produciendo un movimiento en el lquido de
la cclea y a su vez de las membranas basilar y de Reissner,
logrando as una respuesta de las clulas ciliares que estn
ubicadas en el rgano de Corti, sobre la membrana basilar,
las cuales reciben y envan seales nerviosas desde y hacia
el cerebro donde se lleva a cabo el reconocimiento del
sonido [1], [2], [3].

III. MODELO EN MATLAB DE LA MEMBRANA


BASILAR

La membrana basilar tiene una longitud aproximada de


32 mm. Cuando el estribo vibra contra la ventana oval, se
producen oscilaciones en los cilios de las clulas sobre la
membrana basilar, a medida que la vibracin en el lquido
viaja por el interior de la cclea. Los tonos agudos hacen
vibrar la membrana basilar cerca de las ventanas, donde es
ms delgada y rgida que cerca del final de la cclea (cien
veces ms rgida), los tonos graves hacen tambin vibrar la
membrana basilar cerca del final de la cclea, donde es ms
flcida y cinco veces ms ancha.

La cclea es un rgano del odo interno con forma de


tubo cnico arrollado en espiral, ms ancha en la base que
al final; que estirada tiene entre 30 y 35mm de longitud
aproximadamente; est llena de lquido (perilinfa y
endolinfa) y rodeada por paredes seas rgidas; en su
interior existen dos membranas: la de Reissner y la basilar,
que dividen la cclea en 3 compartimientos.

Figura 2. La cclea, extendida.

La membrana basilar se simul en Matlab mediante una


tela en forma de trapecio con dimensiones aproximadas
a las descritas anteriormente. Sobre esta tela se solucion
la ecuacin diferencial en derivadas parciales que describe
la propagacin de una onda en una membrana no
homognea en 2D [4]:

2U
1
U
U

=
+ To( x, y )
To( x, y )
2
( x, y ) x
x y
y
t

siguientes se utilizaron seales de voz de cuatro personas


diferentes, dos hombres y dos mujeres representadas en los
cinco sonidos voclicos para cada persona. Las seales de
voz fueron adquiridas mediante el programa GoldWave a
una tasa de muestreo de 11025 Hz y con una duracin de
400ms cada una, posteriormente a cada seal se le elimin
el nivel DC.
Como cada seal de voz dura 400ms, sta se compone de
4410 muestras, lo que significa que en ese intervalo de
tiempo existen 4410 soluciones, una para cada tiempo de
cada muestra.

con condiciones iniciales:

U (t = 0) = 0
U ' (t = 0) = 0
y condiciones de frontera:

U ( x = 0, y = 0, t ) = excitacin (t )
adems, se consideraron dos casos. El primero con la tela
libre, es decir, sin ser fijada por ninguno de sus lados
teniendo como nica condicin de frontera la excitacin (en
el lado izquierdo del trapecio). El segundo caso es con la
membrana fija, es decir con condiciones de frontera iguales
a cero para los tres lados restantes.
Para solucionar la ecuacin se utiliz el mtodo de
elementos finitos del toolbox de Matlab para ecuaciones
diferenciales parciales, sobre la siguiente regin de
solucin [5], [6]:

IV. SELECCIN DE LA DENSIDAD Y LA TENSIN


Inicialmente se buscaron una tensin y una densidad para
la membrana en el modelo, que permitieran que el modelo
respondiera a sinusoides de diferentes frecuencias en forma
cualitativamente similar a como lo hace la membrana
basilar. Inicialmente, se busc que para frecuencias altas la
excitacin resultante se fuera atenuando a lo largo de la
membrana, es decir que la respuesta se notara ms hacia la
base y que para las frecuencias bajas la excitacin fuera
ms notoria hacia el extremo final de la membrana. Esto se
hizo tanto para el caso de la membrana libre como para el
de la membrana fija. Para el caso de membrana libre, se
mantuvo la densidad constante e igual a 1. Luego de hacer
pruebas con diferentes tensiones, se encontr que se
obtiene una buena respuesta con la tensin:

T ( x) = x.e x
Para llegar a esta conclusin se simul la respuesta de la
membrana durante 400ms, notndose para esta tensin T,
una atenuacin para las frecuencias altas y una excitacin
mas pronunciada para las bajas al final de la membrana. A
continuacin se muestran algunas grficas de la respuesta
de la membrana, en t = 400ms.
Time=0.3999 Excitacion:sin(1000t)
20
15
30
10

20

Figura 3. Modelo triangulado de la membrana.

Esta regin contiene 640 tringulos y 369 nodos. La


solucin est contenida en una matriz donde a cada tiempo
de solucin ti le corresponde un valor de U en cada nodo
de la regin.
Las excitaciones para las primeras pruebas fueron
sinusoides de diferentes frecuencias; para las pruebas

10

-10

-5

-20
0.5

-10
0.4

4
3

0.3

0.2

1
0.1

Figura 3.a

-15

finalmente,

Time=0.3999 Excitacion:sin(10000t)
25

( x) = x

20
30

15

20
10
10
5
0
0

Algunas respuestas a sinusoides en t = 400ms bajo los


anteriores parmetros se muestran a continuacin.

-10
-5
-20
-10
-30
0.5

-15
0.4

4
-20

0.3
2

0.2

-25

1
0.1

Figura 3.b

Time=0.3999 Excitacion:sin(100000t)

x 10

20

x 10

Figura 4.a

3
15
2
10

-1
0.5

0
0.4

4
3

0.3
2

0.2

-5

1
0.1

Figura 3.c

Para el caso en que la membrana est sostenida, igual se


hicieron repetidas pruebas y, teniendo en cuenta que la
membrana es cerca de 100 veces ms rgida cerca de las
ventanas que al final de la cclea, se escogi una tensin
lineal dada por:

T ( x) = 28.28 x + 100
Con base en esta tensin se busc una densidad, se escogi

Figura 4.b

Membrana sostenida:

Figura 4.a Vocal A

Figura 4.c

V. RESPUESTA A SONIDOS VOCALICOS


Luego de escoger una densidad y una tensin segn la
respuesta esperada a sinusoides, se hicieron las pruebas con
sonidos voclicos como excitacin. Para esto, cada archivo
.wav se ley en un vector de datos donde la primera
posicin corresponde a la condicin de frontera en t=0,
hasta la posicin 4410 correspondiente a la condicin de
frontera en t=400ms.
Algunas de las respuestas en
t=400ms se pueden ver ms abajo.
Luego de tener la matriz solucin correspondiente a cada
vocal, se grafic el rango (osea, el valor mximo menos el
valor mnimo) de la respuesta en cada nodo de la regin;
para esto, se parti el espacio en hexgonos, de tal forma
que cada nodo fuera el centro de un hexgono y as
colorear todo el hexgono del valor que toma el rango en el
nodo que corresponde a su centro; el fondo en el caso de la
membrana sostenida corresponde al cero de la imagen.
Esto se hizo con el fin de identificar las regiones de mayor
excitacin durante el intervalo de tiempo; como los
resultados tenan inicialmente cambios muy grandes, con el
fin de suavizar un poco la imagen de resultados, se sac
logaritmo al rango. Para identificar ms fcilmente los
cambios entre respuestas se hicieron videos con las
imgenes obtenidas a partir de las matrices. Con estas
graficas es fcilmente diferenciable la voz de un hombre de
la de una mujer; la de los hombres se proyecta mucho ms
clara durante toda la membrana, en cambio la de las
mujeres es oscura en casi toda la regin, habiendo
segmentos ms claros slo hacia el final de la membrana,
en vocales como la i. Con estas graficas an no es posible
diferenciar claramente una vocal de otra. A continuacin se
muestran algunas de las grficas para los dos casos
(membrana libre y membrana sostenida), tambin algunas
respuestas a sinusoides.

Figura 4.b Vocal A

Figura 4.c Vocal I

Figura 4.d Vocal I

Membrana libre:

oscuras verticales, las es son oscuras en casi toda la regin,


las os son mucho ms oscuras en la parte central que las us
y se alcanzan a notar las lneas verticales. Las es son claras
en casi toda la membrana al igual que las es, no se alcanza
a notar una diferencia clara entre a y e con ste anlisis. A
continuacin se muestran algunos ejemplos.

Figura 4.e Vocal U

Figura 5.a Vocal U

Figura 4.f Vocal U

Figura 5.b Vocal U

Figura 4.g Vocal O

Figura 5.c Vocal O

Figura 4.h Vocal O

Para identificar las vocales se trabaj nicamente con la


membrana sostenida; para ello se utiliz la media en
cambio del rango y se puede decir que las es tienden a ser
mas claras en toda la regin, las us mantienen un nivel
intermedio y se les marca ms claramente unas lneas

Figura 5.d Vocal O

Figura 5.d Vocal A

Figura 5.e Vocal A

Figura 5.f Vocal I

frecuencias, lo que hace que se puedan diferenciar


fcilmente las voces femeninas de las masculinas.
El modelo actual no tiene en cuenta el lquido ni la forma
real de excitacin del sistema la cul se hace a travs del
lquido, y no de la membrana, factores que deben influir
radicalmente en la respuesta de la membrana.
Se dise un sistema no lineal para diferenciar sonidos; en
ste trabajo se exploraron tan solo algunas de las muchas
posibilidades que ofrece la ecuacin de onda, la membrana,
las condiciones de frontera y en general todos los
parmetros de solucin de la ecuacin diferencial, que
hacen que el problema pueda ser abordado de muchas
maneras diferentes
y seguramente habr forma de
optimizar la solucin mediante la variacin de la tensin, la
densidad, la forma de la membrana, las condiciones
iniciales o las de frontera .
El mayores inconveniente est en el tiempo de ejecucin
del algoritmo que resuelve la ecuacin diferencial, ya que
en algunos se necesitan hasta 12 minutos para obtener la
respuesta de la membrana a una seal de voz; el tiempo de
ejecucin depende entre otras cosas de la tasa de muestreo
de la seal, la tolerancia al error, el tamao de la regin de
solucin, el nmero de tringulos y el nmero de nodos.
Los trabajos futuros debern dirigirse a la bsqueda de un
algoritmo de la solucin de la ecuacin de onda que sea
ms eficiente que el utilizado actualmente, para luego
mediante prueba y error, buscar unas tensin y densidad
ms adecuadas para para la caracterizacin de sonidos, as
como permitir el uso de una base de datos ms amplia, es
decir, trabajar con seales provenientes de mas de cuatro
personas.
Los resultados de este trabajo son una buena base para
seguir explorando un sistema que inspirado en el
funcionamiento del odo humano reconozca sonidos,
mostrando una alternativa diferente al anlisis de Fourier en
el tratamiento de seales de voz.

REFERENCIAS

Figura 5.h Vocal I

VI. CONCLUSIONES
Este modelo de membrana arroja buenos resultados en la
diferenciacin de frecuencias de sinusoides, aunque no es
tan refinado (y por lo tanto aun no est listo) para
reconocer fonemas. Se puede decir que se logra imitar en
alguna medida el comportamiento real de la membrana
basilar, an estando lejos de sus especificaciones reales de
tensin y densidad (que son desconocidas). Es claro que la
membrana simulada responde selectivamente a diferentes

[1] http://www.bcm.tmc.edu/oto/research/cochlea/Hearing/
Fecha de consulta: 24 de Agosto de 2003, Tema general:
Cochlear Biophysics Laboratory
[2] http://psych.athabascau.ca/html/Psych402/Biotutorials/25/par
t1.html Fecha de consulta: 24 de Agosto de 2003, Tema
general: The Human Ear
[3] George, G. Somjen. (1986), Neuro Fisiologa. Buenos Aires.
ED. Panamericana.
[4] Crawford Jr., Frank S. 1971 Berkeley Physics Course v.3.
Barcelona. Reverte, S. A
[5] Burden, Richard L. 2002. Anlisis numrico. Mxico, D.F.
Thomson Learning.
[6] COMSOL AB. 2002. Partial Differential Equation Toolbox
Users Guide version 1. Natick, MA 01760-2098. The
Mathworks

Você também pode gostar