Você está na página 1de 7

Cmo analizar espectrogramas

Esta es una explicacin bsica sobre algunas de las figuras ms llamativas y claras
que podemos encontrar en la representacin de los sonidos a partir de sus caractersticas
fsicas en espectrogramas.

En un espectrograma encontramos una representacin grfica de los sonidos que


se realiza de manera mecnica. La lnea horizontal representa el tiempo (normalmente,
no ms de 10 segundos), de izquierda a derecha por la convencin de escritura. En
vertical aparecen representadas las vibraciones sonoras (peridicas o aperidicas),
medidas en hercios (vibraciones por segundo). Los sonidos del habla no son simples, de
manera que pueden presentar manchas a distintas alturas, que corresponden a las
distintas vibraciones que se superponen.
El siguiente (figura 1) es un espectrograma que recoge el ruido de fondo en una
habitacin: como se ve, no aparecen en l objetos definidos, sino solo un gris general.
La posicin relativamente ordenada de algunas manchas grises un poco ms oscuras
corresponde seguramente a ruidos constantes como la electricidad, un frigorfico, el
propio ruido del ordenador, etc.

Fig. 1. Ruido de fondo

Cuando aparecen sonidos especficos sobre el ruido de fondo, se superponen a l,


como veremos en el siguiente, que recoge la palabra Vienes (Fig. 2). Como se, pueden
aparecer tambin otros pequeos objetos, pero en lo fundamental se ve la representacin
del ruido de fondo a la izquierda y la derecha, y una representacin concreta en grises
oscuros en el centro.

Fig. 2. Vienes

Si nos fijamos en la anterior imagen, podemos descubrir algunas cosas: lo primero


que aparece (considerando siempre el orden de izquierda a derecha) es el ruido de
fondo. Luego aparecen manchas claramente ms oscuras, y finalmente esas manchas se
disuelven y desaparecen, de modo que vuelve a quedar solo el gris claro del principio.
Lo siguiente que podemos tener en cuenta es la distincin entre esas manchas, es
decir, la representacin grfica de cada fonema. Cada fonema tiene unas caractersticas
acsticas que nos permiten distinguirlo (perceptivamente) de los dems, y el

1
espectrograma recoge visualmente esas caractersticas. Por ello, el espectrograma
permite reconstruir un discurso.
Hay una distincin bsica: los sonidos afinados (los que tienen el rasgo [+sonoro],
es decir, aquellos en los que vibran las cuerdas vocales) presentan formantes. Los
formantes aparecen en el espectrograma como manchas oscuras ordenadas en
horizontal. Una vocal permite ver varias de estas manchas horizontales superpuestas
(Fig. 3).

Fig. 3. [e]

En la figura 3 encontramos el espectrograma de una [e] muy alargada. A su


izquierda vemos el gris correspondiente al silencio, y a su derecha, lo mismo. En la
larga parte central, vemos un conjunto de manchas ordenadas en una disposicin
horizontal: los formantes. Concretamente, las vocales se diferencian por las alturas de
las dos primeras de esas manchas. Aunque las frecuencias pueden cambiar
relativamente, hay unas coordenadas tpicas para la /a/, la /e/, la /i/, la /o/ y la /u/ que
permiten reconocerlas (esas coordenadas estn recogidas en el tema 6).
Para facilitar la interpretacin del espectrograma, es posible mostrar lneas o
puntos rojos que se superponen a las manchas de los formantes (en ingls, en Praat:
formants) y aclaran mecnicamente la altura de vibracin. Lo mostramos en la figura 4,
a partir del mismo espectrograma de la Fig. 3.

Fig. 3. [e] con los formantes retocados

Las lneas rojas representan los formantes de manera ms evidente: el primero


(F1) es el que est ms cerca del borde interior de la imagen; el segundo (F2) es el que
est inmediatamente por encima del primero. Los otros no tienen especial importancia
para definir las vocales.
Obviamente, para poder definir una vocal es necesario tener un punto de
referencia: o bien se nos dan las alturas en hercios, o bien se nos ofrece un punto de
comparacin con otras vocales. La figura 4 muestra una [u] y una [i] junto con las
alturas en hercios.

2
Fig. 4. [u i]

Puede verse una vez ms el gris claro correspondiente al silencio a la izquierda, en


el centro y a la derecha; y entre los tres intervalos de silencio, las dos vocales. Aunque
el programa no detalla las frecuencias en hercios (hay que hacerse una idea a partir de
los dos extremos), la diferencia de posicin de los formantes 1 y 2 permite reconocer
estas dos vocales.

Consonantes
Aparte de las vibraciones peridicas sin modificar que caracterizan a las vocales,
el espectrograma recoge tambin otros aspectos sonoros, como los que pueden producir
las consonantes. Naturalmente, solo vamos a presentar algunos de los grupos ms
caractersticos.
Las nasales se caracterizan por el hecho de que son tambin sonoras y continuas,
de manera que aparecen casi como vocales, solo que los formantes en altura son ms
suaves, y en cambio aparece otro formante aadido mucho ms bajo, en contacto con el
extremo inferior de la imagen (Fig. 5).

Fig. 5. Maana

Esta palabra contiene las tres consonantes nasales del espaol: puede notarse la
diferencia con las tres vocales [a] que se intercalan. Lo que rompe el silencio es la [m],
en la que ya se ve el formante de nasalidad junto a la lnea de los 0 hercios. El resto de
los formantes aparece muy debilitado en los tres sonidos nasales, y fuerte en las vocales.
Hay que notar, sin embargo, que cuando una vocal aparece entre dos consonantes
nasales se pronuncia nasalizada: esa es la razn por la que esos tres sonidos [a] incluyen
tambin el formante de nasalidad.
No vamos a entrar en las diferencias entre las tres nasales.

Las oclusivas sordas son fciles de reconocer porque se caracterizan por la


interrupcin del flujo de aire, con lo que aparece una columna de silencio entre dos
sonidos. A la derecha de esa columna puede notarse con mayor o menor claridad la
presencia de una finsima columna que representa la explosin que se produce tras la
oclusin. La figura 6 representa la palabra Petaca, que contiene las tres oclusivas sordas
del espaol.

Fig. 6. Petaca

3
Como se ve, la interrupcin del sonido es total, y la columna de la explosin
puede verse con cierta claridad, sobre todo en la ltima: el sonido [k].
De paso, podemos volver a ver la diferencia de altura de los formantes
correspondientes a la [e] y las dos [a]. En este sentido, puede verse que la posicin
horizontal se mantiene perfectamente en la parte central de los tres sonidos, pero no
siempre en sus extremos: esa es la consecuencia del cambio (rpido, pero real) que se
produce en la cavidad oral para pasar de la posicin de la consonante a la de la vocal;
ese cambio recibe el nombre de coarticulacin.
Frente a las oclusivas sordas, las oclusivas sonoras no son tan obvias: se mantiene
una mnima vibracin, que a veces no es suficiente para que el programa la reconozca
como formantes, pero que el ojo s puede interpretar. A continuacin aparece el
espectrograma relativo a la palabra bodega, que contiene las tres oclusivas sonoras del
espaol.

Fig. 7. Bodega (oclusivas)

Tambin aqu hay una interrupcin de la salida del aire, pero se mantiene un
pequeo formante gris claro en la lnea inferior (similar al formante de nasalidad, pero
en un gris un poco ms suave, segn la articulacin). Esa sonoridad es la que marca el
inicio de la primera oclusiva sonora, la [b] que aparece sealada con una lnea negra
vertical.
Sin embargo, una palabra como bodega aparece de esta manera solo cuando se
realiza una articulacin extremadamente cuidada; lo normal es que las oclusivas sonoras
intervoclicas se debiliten hasta el punto de no ser ms que aproximantes: los rganos
articulatorios se acercan un poco, marcan la posicin, pero no se tocan. El resultado es
el que vemos en la figura 7.

Fig. 7. Bodega (aproximantes)

Puede verse que la vibracin y los formantes se mantienen, y las consonantes se


limitan a provocar una mnima prdida de fuerza en los lmites entre las tres vocales.

Fricativas sordas
Las fricativas se caracterizan por la aparicin de una importante cantidad de
vibracin que no es peridica y que tiene bastante intensidad en las frecuencias ms
elevadas (en lo alto del grfico. Adems, las sordas [f] [] [x] y [s] cortan tambin la
vibracin de las cuerdas vocales, de manera que esa mancha en lo alto se superpone al
silencio en la parte baja del grfico. Es lo que vemos en el siguiente espectrograma,
donde se suceden las palabras fosa ceja (Fig 8).

4
Fig. 8. Fosa ceja

Hay que interpretar que la [f] empieza en el punto en el que en lo alto se oscurece,
aproximadamente en el punto en el que he dibujado una lnea vertical. A partir de ah,
las vocales presentan los formantes que les corresponden pero son ms suaves en la
parte superior, mientras que las fricativas sordas se aclaran en la parte inferior y se
oscurecen en lo alto.
Puede aadirse, aunque es difcil ver esta diferencia con claridad, que la [f] y
sobre todo la [s] son ms estridentes, es decir, la intensidad lograda en las frecuencias
ms altas es mayor que en las otras dos fricativas. Esto se refleja en los grises casi
negros de la [s] en lo alto del espectrograma.

El nico fonema africado en espaol /t/ se caracteriza por la sucesin de dos


imgenes un poco diferenciadas: la de la oclusin y la de la friccin que la contina. Lo
vemos en este grfico que representa la palabra eche.

Fig. 9. Eche

Las tres lneas verticales marcan los lmites entre la vocal y la oclusin, entre esta
y la friccin, y entre la friccin y la otra vocal. Como puede verse, el resultado es muy
similar al que tendramos si combinsemos una oclusiva [k] o [p] y una fricativa sorda
[x] o [f], como ocurre en palabras como opcin, objeto, laxo, etc.

Las consonantes laterales no se distinguen por una imagen especialmente vistosa,


pero en cambio las rticas s, al menos en la articulacin ms cuidada. Frente al
correlato rtico simple (o percutivo), la rtica mltiple o vibrante se caracteriza
visualmente en el espectrograma por la aparicin de un conglomerado de mnimas
oclusiones y vocales (llamadas esvaravticas), como lo que se ve en la figura 10. Sin
embargo, para que se aprecie la diferencia entre una articulacin esmerada y una
normal, repito la palabra erre, la primera vez con cuidado, la segunda sin l.

Fig. 10. Erre erre

5
Como se ve, en el segundo caso encontramos tambin esa vibracin, pero mucho
ms difuminada en una consonante continua, mientras que en el primer caso tenemos la
posibilidad de reconocer el nmero exacto de oclusiones que se han producido.
Se puede apreciar tambin que las oclusiones no impiden la vibracin de las
cuerdas vocales, de manera que entre las mnimas columnas de la [r] se mantiene la
continuidad de los formantes propios de las vocales.

Si recogemos ahora la imagen del espectrograma de la palabra Vienes, podremos


sealar en l los segmentos.

j e ne s -
Fig. 11. Vienes

En este espectrograma puede verse la sonoridad grave del sonido oclusivo sonoro
[], que se abre en una explosin para dar lugar a la /i/, que por formar parte de un
diptongo se pronuncia un poco de paso, breve (por eso es la semiconsonante [j]). Estas
dos vocales del diptongo interactan de manera que los formantes dejan de ser
horizontales durante un tramo bastante amplio, aunque finalmente se estabilizan en la
[e]. La nasal [n] presenta las caractersticas normales, un formante de nasalidad pegado
al lmite inferior y algo de sonoridad, pero ms suave, en el resto de las frecuencias. La
otra [e] tiene las mismas alturas que la primera aunque en las frecuencias ms altas se ve
un formante (F5) que desciende para adoptar la articulacin de la [s]. Como hemos
dicho, solo los dos primeros formantes definen a la vocal, as que no nos importa esa
transformacin en los ms agudos. Por ltimo, el sonido [s] se caracteriza por la falta de
frecuencias bajas (un gris en la parte inferior del grfico) y la aparicin paulatina de una
mancha bastante informe en lo ms agudo, que adems es de un color muy oscuro
(estridencia).

Entonacin
El espectrograma permite mostrar las vibraciones en escala de grises, pero
tambin pueden superponerse sobre l algunos elementos que sirven de ayuda: ya
hemos visto la posibilidad de remarcar las alturas exactas de los formantes por medio de
lneas y puntos rojos, y ahora veremos que la entonacin de la fundamental puede
aparecer como una lnea azul (en ingls, en Praat: pitch). Los siguientes son
espectrogramas que recogen una lnea musical simple (mondica): puede verse que la
lnea azul se sita en posiciones exactamente horizontales, es decir, que la frecuencia de
la vibracin fundamental se mantiene constante (figuras 11 y 12).

6
Fig. 12. Arpegio en los violonchelos

Fig. 13. Un violn solo: notas muy breves

Esto es muy til para analizar la entonacin en el habla (Tema 9). Por ejemplo, el
siguiente espectrograma recoge el enunciado Vienes? Con entonacin de interrogativa
total (figura 5).

Fig. 14. Vienes? Atender a la entonacin (lnea azul).

Hay que entender que la frecuencia de la fundamental no aparece recogida en el


espectrograma normal (solo en esta lnea azul superpuesta). Lo que muestra el
espectrograma son las texturas de las ondas sonoras.

Você também pode gostar