Repaso Logopedia PDF

TEMA 3
Percepcin del Lenguaje

As dice uno de los personajes de la esplndida novela de J avier Maras, Tu rostro maana.
Fiebre y Lanza, sobre el habla humana. Era a propsito de la campaa britnica durante la
Segunda Guerra Mundial que alertaba de los peligros de hablar sin cuidado con los dems,
por miedo a los espas nazis. A pesar de su longitud no me resisto a incluirlo (y animar
tambin a leer la novela):

De pronto a la gente le fue presentada su propia lengua como enemiga invisible, [...] se la hizo desconfiar de la
actividad a la que se entrega y se ha entregado siempre de manera natural, sin reservas, en todo tiempo y en
todo lugar, no slo aqu y entonces; se nos enemist con lo que ms nos define y ms nos une: hablar, contar,
decirse, comentar, murmurar, y pasarse informacin, criticar, darse noticias, cotillear, difamar, calumniar y
rumorear, referirse sucesos y relatar ocurrencias, tenerse al tanto y hacerse saber, y por supuesto tambin
bromear y mentir. Esa es la rueda que mueve al mundo, J acobo, por encima de cualquier otra cosa; ese es el
motor de la vida, el que nunca se agota ni se para jams, ese es su verdadero aliento. Y de pronto se le pidi a la
gente que lo apagara, ese motor; que dejara de respirar, [...] aquello por lo que vivimos y de lo que todos pueden
disfrutar y valerse sin excepcin, los pobres como los ricos, los incultos como los instruidos, los viejos como los
nios, los enfermos como los sanos, los soldados como los civiles. Si algo hacen o hacemos todos que no sea
una estricta necesidad fisiolgica, si algo nos es verdad comn en tanto seres con voluntad, eso es hablar,
J acobo. [...]"
El hombre ms sabio del mundo hablar con mayores orden y propiedad y precisin, y con mayor provecho
para sus oyentes tal vez, [...] Pero no necesariamente hablar ms ni con mayor soltura que el ama de casa
semianalfabeta que no calla en todo el da un segundo [...] El hombre ms viajado del mundo podr contar
infinitas historias amenas y maravillosas, incontables ancdotas y aventuras de pases inauditos, remotos,
exuberantes y peligrosos. Pero no necesariamente hablar ms ni con mayor desparpajo que el tabernero rudo
que nunca ha salido de detrs de su barra y slo ha visto en su vida las veinte calles y el par de plazas de que se
compone su aldea recndita. (Maras, 2002; pp. 409-410, de la edicin de Alfaguara).

Este fragmento ilustra brillantemente el valor del habla en la vida cotidiana humana. Aqu,
sin embargo, nos vamos a centrar slo en su percepcin y en los procesos que lo hacen
posible. Para comprenderlo mejor, conviene entender antes cules son los mecanismos
bsicos de la audicin. Al mismo tiempo, debemos conocer cul es la naturaleza fsica del
estmulo: cmo se genera desde el punto de vista articulatorio y, tratndose de un estmulo
sonoro, cules son sus bases acsticas.

2 Psicologa del Lenguaje (texto: Julio Gonzlez)

AUDICIN

Para percibir el lenguaje hablado, lo primero que tiene que ocurrir es que el estmulo ingrese
en el sistema cognitivo a travs del odo, uno de nuestros rganos sensoriales. Veamos antes
unas notas generales sobre los mismos y los patrones de energa a los que son sensibles.

Energa y rganos sensoriales

Los organismos disponen de sistemas especializados en captar patrones de energa que
reflejen la estructura del entorno de un modo til para su supervivencia. Gracias a la
evolucin biolgica, la naturaleza ha dado con diversas soluciones especficas.

En la Figura#podemos observar todo el espectro electromagntico de la radiacin de la energa, de acuerdo
con su naturaleza ondulatoria. Gracias a las ondas, la energa viaja y se transmite en diferentes frecuencias de
oscilacin. Una oscilacin por segundo se conoce como hertzio (Hz) o hercio. Cuanto ms rpida es la
frecuencia oscilatoria, la longitud de onda, es decir el trayecto que recorre una oscilacin en el espacio, es
menor. En el caso de las frecuencias visibles, si la luz viaja a unos 300.000 kms por segundo de forma
constante, cuantas ms oscilaciones presente en un segundo (colores azules y violetas), menos longitud le
corresponde a cada oscilacin. Si es un color con menos oscilaciones (rojo), la longitud de onda es mayor.

La energa con mayor frecuencia oscilatoria son los rayos gamma, que vibran en torno 10
24
veces por segundo;
o sea un milln de trillones de veces por segundo; se dan mucha prisa por oscilar! Su longitud de onda es
cortsima, ms pequea que un tomo y, por tanto, su poder de penetracin en los cuerpos es enorme. Los
rayos gamma son emitidos por las sustancia radiactivas, como el uranio, el plutonio, etctera; pero el principal
productor de rayos gamma es el Universo.
Un poco ms lentos (1 trilln de veces por segundo) oscilan los rayos X, cuya capacidad de penetracin les
permite atravesar los tejidos blandos, pero no los duros como los huesos, de ah su aplicacin diagnstica en la
medicina. Los gases calientes del universo los emiten.
A continuacin, el espectro visible, o la gama de frecuencias que pueden captar nuestros ojos es un margen
estrecho que abarca menos de un 2% de todo el espectro electromagntico. Su ventaja es que son ondas
emitidas (reflejadas) prcticamente por todos los objetos de nuestro planeta (salvo los transparentes como el
aire) y, en consecuencia, muy informativas respecto a la estructura del entorno. Su frecuencia de vibracin est
en torno a 10
15
(1000 billones) veces por segundo y la longitud de onda sobre una milsima de milmetro. Su
rango va desde frecuencias rpidas para el color violeta (por encima est el ultravioleta, no visible para
nosotros) hasta frecuencias ms lentas para el rojo (por debajo est el infrarrojo, tampoco visible, aunque s
perceptible como calor).
Las microndas son ms lentas en su vibracin (varios millones de veces por segundo) y con una longitud
mayor de onda (1 cm). Adems de sus aplicaciones culinarias, nos informan de la estructura de la Va Lctea y
de otras galaxias lejanas; en estas frecuencias se sita el rdar.
Las siguientes ms lentas son las radiofrecuencias, que emiten las estrellas del universo y tambin las que
captan nuestros receptores de radio y TV. Sus vibraciones se cuentan en megahertzios, es decir, slo millones
de ciclos por segundo y su longitud de onda abarca kilmetros.
Y finalmente llegamos a las audiofrecuencias, o energa que vibra con una frecuencia que puede captar
nuestro odo: desde tan slo 20 veces por segundo hasta 20.000 (20-20.000 Hz es nuestro rango auditivo).
Estas frecuencias tambin se pueden medir en kilohertzios (mil hertzios). Por encima de 20.000 Hz estn los
ultrasonidos, inaudibles para nosotros los humanos.

O sea, de todas las posibilidades que ofrece el espectro electromagntico, nos hemos especializado en
"capturar" y procesar slo unos rangos frecuenciales relativamente estrechos (espectro visible y audible) que
han sido claves para nuestra supervivencia como especie. Si durante la evolucin como vertebrados y
mamferos, las radiofrecuencias, pongamos por caso, hubieran sido importantes para sobrevivir (localizacin
de alimento, deteccin de depredadores radioelctricos, etc.) hoy probablemente dispondramos de rganos
sensibles a las mismas y, tal vez, admiraramos la arrebatadora belleza de un paisaje elctrico. En el reino
animal las posibilidades se ensanchan. Somos ciegos a la radiacin ultravioleta, pero las abejas y otros insectos
3. Percepcin del Lenguaje 3

ven el "color" ultravioleta en muchas flores. Muchos pjaros perciben el campo magntico terrestre para la
navegacin migratoria. Gatos y lechuzas ven en la noche con intensidades lumnicas muy bajas. Algunos peces
tienen receptores elctricos. En la actualidad se investiga si algunos animales pueden percibir ondas de bajas
frecuencias anticipatorias de terremotos y tsunamis.

En el ser humano, es la visin el rgano sensorial ms informativo del entorno, en trminos
fsicos. Se habla de que quiz ms del 80% de toda la informacin fsica que recibimos del
exterior entra por los ojos. De hecho, si de pronto perdiramos un sentido, sera la vista el
que, con ms probabilidad, nos colocara en una situacin comprometida para nuestra
integridad (conduciendo un vehculo, trabajando en un andamio, cruzando una calle, etc.).
Lo que no sucedera con el odo y otros sentidos. Pero el sentido de la audicin tiene
"truco" en los humanos. Por culpa del lenguaje, dentro de ese estrecho canal de informacin
fsica entra un verdadero torrente de informacin simblica, clave para nuestra
representacin mental del mundo, tanto inmediato como remoto, y, en ltima instancia, para
nuestra supervivencia como civilizacin.

Rayos X
Visible
Microondas
Radiofrecuencias
Ultravioleta
Infrarrojo
10
6
m =1000 km
10
5
m =100 km
10
3
m =1km
1m
10
-2
m =1cm
10
-6
m
10
-10
m
Ultrasonidos
(radar)
(radio, TV)
Agudos
Graves
Audio
Rayos
Gamma
10
24
Hz
10
18
Hz
10
15
Hz
10
9
Hz
20.000 Hz
20 Hz
F
r
e
c
u
e
n
c
i
a

d
e

o
s
c
i
l
a
c
i
n

Longitud
de onda
(metros)
10
-14
m

Figura#. Espectro electromagntico y ubicacin de las frecuencias ondulatorias que percibimos
los humanos (espectro visible y audible).

Odo

El odo es el rgano sensorial responsable de la audicin y el equilibrio, aunque slo nos
ocuparemos de la primera. Como hemos visto, nuestro rango de audicin abarca frecuencias
comprendidas entre 20-20.000 ciclos por segundo, o hertzios (Hz). En realidad, el comn de
los mortales nos quedamos en torno a los 16.000 Hz o un poco ms; slo gente joven, con
muy buen odo, y en condiciones perfectas de escucha, alcanza a percibir un tono agudsimo
de 20.000 Hz. Los animales varan ampliamente en sus rangos auditivos; en la Tabla#
presentamos algunos. Un ratn es sordo a los sonidos graves; es decir, no percibe cualquier
frecuencia inferior a 1000 ciclos por segundo. La chinchilla tiene un rango prximo al
humano y su odo es semejante al nuestro, por lo que se la emplea bastante en estudios sobre
fisiologa auditiva. Murcilagos y delfines nos sobrepasan ampliamente en la capacidad de
percibir frecuencias altas. Los primeros utilizan un mecanismo de ecolocalizacin de presas
(insectos voladores) a travs de ultrasonidos; los segundos disponen de un sistema de sonar
o localizacin de objetos en medio acutico.

El odo humano se compone de tres partes: odo externo, medio, e interno. En la Figura#
vemos su esquema general y el recorrido que siguen las vibraciones acsticas del estmulo.
Para mayor claridad se muestra al caracol extendido, completamente "desenrrollado". La
clave de la audicin reside en las "arrugas" que las vibraciones producen en la membrana
basilar del caracol. Sobre ella se dispone el verdadero rgano auditivo, u rgano de Corti,
como veremos luego.

El odo externo est formado por el pabelln auricular (oreja) y el conducto auditivo
externo, un tubo de forma irregular de unos 25 milmetros de longitud y tapizado de
glndulas secretoras de cera. La oreja, entre otras funciones, nos ayuda a localizar la fuente
del sonido; no suena igual un sonido proveniente del frente que de atrs, porque las orejas
proyectan una "sombra" sonora. Al contrario que otros mamferos, no disponemos de
control motor sobre los pabellones para una orientacin activa.

El odo medio consta de la cavidad timpnica, un hueco seo lleno de aire y ocupado por
los huesecillos auditivos, que van desde el tmpano hasta el caracol, en el odo interno. El
tmpano es una membrana que recibe las vibraciones de los sonidos que entran en el
conducto auditivo. Su sensibilidad es extraordinaria, le afecta cualquier pequea vibracin;
si fuera algo ms sensible, escucharamos el movimento browniano de las molculas del
aire, lo cual no sera nada interesante para la audicin (un zumbido constante). Los
huesecillos forman una cadena articulada de tres piezas, martillo, yunque y estribo, cuya
misin es transmitir el sonido desde el tmpano hasta la ventana oval del caracol. Actan
como un sistema de palancas que traducen las vibraciones del tmpano en microvibraciones
de menor recorrido pero de mayor impedancia, es decir, percuten con ms "fuerza" sobre el
caracol. Esto es necesario a causa de los fluidos que contiene el caracol, de modo que las
vibraciones tienen que pasar desde un medio ereo a un medio lquido, que ofrece ms
resistencia. Los huesecillos son controlados por los msculos del estribo y el tensor del
tmpano. Gracias al llamado reflejo timpnico o acstico, si recibimos sonidos de gran
intensidad (una explosin; el ruido de un martillo neumtico), estos msculos se contraen
reduciendo la cantidad de energa transmitida y protegiendo, as, al odo interno.

Tabla#Rangos frecuenciales de audicin para distintas especies animales. Hz: hertzios o ciclos por segundo.

Humano: 20 Hz - 20.000 Hz
Chimpanc: 100 Hz - 20.000 Hz
Gato: 30 Hz - 50.000 Hz
Perro: 50 Hz - 46.000 Hz
Chinchilla: 75 Hz - 20.000 Hz
Rata: 1.000 Hz - 60.000 Hz
Ratn: 1.000 Hz - 100.000 Hz
Conejo: 300 Hz - 45.000 Hz
Paloma: 200 Hz - 10.000 Hz
Gorrin: 250 Hz - 12.000 Hz
Rana: 100 Hz - 3.000 Hz
Tortuga: 20 Hz - 1.000 Hz
Murcilago: 3.000 Hz - 120.000 Hz
Delfn: 1.000 Hz - 130.000 Hz

membrana basilar
Figura#. Esquema del odo y de la trayectora que siguen las vibraciones acsticas. Para mayor claridad
grfica se ha representado al caracol extendido. La audicin ocurre gracias a las "arrugas" que se
producen en la membrana basilar. Adaptado de Ramirez Camacho (1990).


membrana tectoria
rgano de Corti
membrana basilar
perilinfa
perilinfa
fibras nerviosas

Figura#. Cclea o caracol. A la derecha, detalle ampliado de un corte transversal de la cclea. Las fibras
nerviosas procedentes del rgano de Corti se renen en el nervio auditivo

membrana tectoria
clula
ciliada
membrana basilar
membrana tectoria
fibras nerviosas
clulas
ciliadas
externas
cilios
clulas
ciliadas
internas

Figura#. Estructura del rgano de Corti. A la derecha se muestra el mecanismo de generacin del
impulso nervioso al inclinarse los cilios de las clulas ciliadas.

El odo interno contiene el aparato sensorial propiamente dicho rgano de Corti,
encerrado en el caracol o cclea. La cclea (Figura#) es una estructura sea con forma
espiral, que recuerda la concha de un caracol despus de dar dos vueltas y media sobre s
misma. Un corte transversal de la cclea nos muestra dos canales amplios, uno superior y
otro inferior, rellenos de un fluido fisiolgico conocido como perilinfa. Entre ambos,
separado por tabiques membranosos, el canal coclear alberga al rgano de Corti sumergido
en otro lquido de composicin distinta, la endolinfa.
El rgano de Corti (Figura#), as llamado en honor del anatomista Corti (1822-1876) que
desarroll una tcnica de tincin reveladora de su estructura interna, se compone de un
conjunto de clulas ciliadas colocadas sobre la membrana basilar y protegidas por encima
por un manto o techo membranoso, llamado membrana tectoria (del latn tectum, techo).
Estas clulas se disponen en tres hileras externas (clulas ciliadas externas) y una hilera
interna (clulas ciliadas internas), separadas entre s por clulas de sostn. Las clulas
ciliadas se llaman as porque su parte superior termina en una serie de pelitos, o cilios,
conectados a la membrana tectoria. Estos clios son claves para la audicin.

Audicin

En esencia, la audicin consiste en la transformacin de una forma de energa en otra que
sea manejable por el sistema nervioso. Concretamente, la transduccin de la energa
mecnica del sonido en energa elctrica que conduce el nervio auditivo al cerebro. Su
mecanismo ntimo est relacionado, como hemos dicho, con los cilios de las clulas
ciliadas: cada vez que stos cambian de orientacin, es decir, se inclinan hacia un lado u
otro, una reaccin bioqumica genera un impulso neuroelctrico que abandona la clula por
una fibra nerviosa (Figura#, parte derecha).
Los cilios se inclinan cada vez que la membrana tectoria se desplaza respecto a las clulas
ciliadas, en un movimiento de cizallamiento, como resultado de las vibraciones acsticas.
En cada odo, toda la informacin auditiva es transducida por unas 15.000 clulas ciliadas,
de las cuales juegan un papel esencial las 3.500 clulas ciliadas internas. Los impulsos
nerviosos se canalizan a travs de aproximadamente 30.000 fibras nerviosas que se agrupan
en el nervio auditivo (octavo par craneal). El 95 % de estas fibras proceden de las clulas
ciliadas internas.

membrana basilar
Frec. Alta
Frec. Media
Frec. Baja
440 Hz
880 Hz
1400 Hz
onda compleja

Figura#. Deformacin de la membrana basilar por las ondulaciones del sonido. Los puntos de mxima
deformacin dependen de la frecuencia vibratoria del estmulo. A la derecha, la membrana basilar acta como
una analizador de frecuencias de un estmulo complejo.

Recapitulemos, cuando el sonido alcanza el odo, sus vibraciones se transmiten, va tmpano
y cadena de huesecillos, hasta la membrana basilar del caracol, sobre la que se dispone el
rgano de Corti. Las ondulaciones se desplazan a lo largo de la membrana basilar
(Figura#), causando la activacin de las clulas ciliadas (no visibles en la figura) al cambiar
la posicin de stas y moverse sus cilios. Aqu es importante reparar en un detalle: gracias a
las diferencias de elasticidad de la membrana, sta acta como un analizador de frecuencias.
La onda se desplaza sobre la membrana basilar marcando zonas de mxima deformacin, o
picos, en las que se produce una activacin mxima (ms impulsos nerviosos) de las clulas
ciliadas. Estas zonas dependen de la frecuencia vibratoria del estmulo. Si el sonido es muy
agudo tiene una frecuencia alta, la onda es ms marcada al principio de la membrana
basilar. Si el sonido es grave tiene una frecuencia baja, la onda es ms pronunciada al
final de la membrana basilar. Con las frecuencias medias, el punto de mxima deformacin
se localiza entre ambos extremos. Cada parte de la membrana basilar corresponde, as, a una
frecuencia distinta; es como si las teclas de un piano se colocaran a lo largo de su recorrido.
De hecho, si, de forma artificial, se estimula elctricamente un punto de la membrana, la
persona oye un tono que es ms agudo o grave, segn la parte estimulada.
Todo esto sucede con los tonos puros, constituidos por una nica frecuencia. En la
naturaleza y en el lenguaje, los sonidos estn formados por ondas complejas que incorporan
varias frecuencias distintas a la vez. La membrana basilar acta as como si fuera un
analizador de frecuencias (un analizador de Fourier) presentando simultneamente varios
picos o zonas ms pronunciadas que reflejan las frecuencias componentes.

Otro rasgo importante de la membrana basilar: las caractersticas elsticas del tejido
membranoso hacen que los puntos correspondientes a las frecuencias bajas estn ms
separados entre s que los de las frecuencias altas. Esto es el origen de nuestra mayor
sensibilidad para discriminar frecuencias bajas, frente a las altas (p.e., percibimos como

distintos dos sonidos de 220 y 225 Hz, pero no de 5.000 y 5.005 Hz). Esto tiene
consecuencias en las propiedades generales de nuestra audicin y, en particular, del
lenguaje: los primeros formantes, que son bandas frecuenciales crticas para percibir las
vocales y muchas consonantes, ocupan posiciones bajas en el espectro acstico (por debajo
de 2.500 Hz).

Toda la informacin neuroelectrica es transmitida por el nervio auditivo hasta el cortex
cerebral. Conviene sealar tres observaciones:

Dos tercios de las fibras nerviosas procedentes de un odo cruzan hacia el hemisferio
cerebral opuesto (contralateral), mientras que un tercio se queda en el hemisferio del
mismo lado (ipsilateral). Esto significa que la mayor parte de la informacin acstica
se proyecta inicialmente al hemisferio opuesto; luego pasar inmediatamente al otro
hemisferio gracias al cuerpo calloso. En los experimentos con estmulos de lenguaje
es habitual encontrar la llamada ventaja del odo derecho, porque la informacin
llega principalmente al hemisferio izquierdo, que es el dominante para el
procesamiento lingstico.
Los impulsos nerviosos son transmitidos por el nervio auditivo desde el rgano de
Corti hasta la corteza cerebral, pero no de forma directa sino a travs de 4-5
(dependiendo de si cruzan o no de lado) estaciones de relevo, o ncleos nerviosos
donde se establecen sinapsis entre las conexiones. Hay evidencia de que la seal
neuroacstica es sometida a ciertas transformaciones en cada ncleo, por lo que sta
llega a la corteza cerebral bastante "trabajada", con cierto nivel de elaboracin pre-
perceptiva.
La seal nerviosa se proyecta sobre el rea auditiva primaria en la corteza temporal
del cerebro. Esta rea tiene una organizacin tonotpica, de manera que las distintas
frecuencias o tonos activan diferentes neuronas, dispuestas ordenadamente sobre la
corteza de menor a mayor frecuencia. Tonos adyacentes estimulan neuronas
(columnas neuronales) adyacentes. Despus, la informacin pasar a las reas
auditivas secundarias para someterse a nuevas transformaciones, que sern claves
para interpretar lo odo (identificar objetos sonoros, percibir el lenguaje, crear una
representacin sonora del entorno, etctera).


ARTICULACIN DEL HABLA
En la produccin del habla intervienen de forma coordinada ms de un centenar de
msculos pertenecientes a grupos musculares distintos y controlados por nervios diferentes.
Hablar es un verdadero prodigio de ingenieria biomecnica que requiere una finsima
sincronizacin entre muchos movimientos en secuencias complejas. Desde el punto de vista
motor, es tal vez la conducta ms complicada del repertorio humano (Fink, 1986). Por
ejemplo, la lengua, el rgano ms mvil del cuerpo, tiene encerrados en un pequeo espacio
diecisiete msculos independientes. Ninguna otra parte del cuerpo, ni siquiera la mano,
ejecuta de forma natural movimientos comparables en rapidez y complejidad a la de los
rganos del habla. nicamente la digitacin de un pianista experto podra servir de
comparacin. Probablemente, la responsabilidad central de esta extraordinaria orquestacin
motora recae en estructuras neurales relacionadas con el rea de Broca y determinados
circuitos subcorticales.

Se pueden distinguir tres funciones fisiolgicas que concurren simultneamente en la
produccin del habla: a) respiracin, que provee la energa mecnica necesaria mediante el
suministro de aire a presin, b) fonacin, que genera la fuente del sonido o materia prima
acstica gracias a las cuerdas vocales, y c) articulacin, que "moldea" la materia prima a
travs de los rganos articulatorios del tracto o conducto vocal (Figura #). Hay rganos
articulatorios fijos (paladar duro u seo, cavidad nasal, dientes) y mviles (labios, lengua,
velo del paladar o paladar blando, y la mandbula).

Las cuerdas vocales son dos estructuras anatmicas ubicadas en la laringe que el dueo
puede controlar de forma voluntaria. Cuando se respira en silencio, permanecen relajadas y
separadas, dejando circular el aire que entra y sale de los pulmones. Para hablar, el hablante
tensa determinados msculos que las mantienen prximas y, al pasar el aire a presin a su
travs, vibran con una frecuencia determinada, en movimientos rpidos de apertura y cierre
(Figura#). Mientras hablamos, controlamos los msculos respiratorios (diafragma y
msculos intercostales) para ir dosificando tanto la presin como la cantidad de aire que
gastamos. Las cuerdas vocales participan en la produccin de las vocales y las consonantes
sonoras (/b/, /d/, /g/, /m/, /l/, etc.); no intervienen, sin embargo, en las consonantes sordas
(/p/, /t/, /k/, /s/, /f/, //, etc., ver el cuadro general de las consonantes castellanas en el
captulo 1) (// es el smbolo fonolgico que representa la z castellana).
J ugando al mismo tiempo con la presin del aire y la tensin que comunicamos a las
cuerdas vocales, podemos modificar la frecuencia de vibracin y entonar melodas. As es
como generamos, tambin, la entonacin del lenguaje y, con ella, hacemos preguntas,
transmitimos emociones, expresamos matices, etctera, segn unas pautas en gran medida
universales, pese a la diversidad de lenguas.
El sonido vibratorio por s solo no es lingstico, no comunica mensajes ni porta vocales o
consonantes; ni siquiera suena a humano. Si nuestras cuerdas vocales estuvieran
implantadas en el cuello dando directamente al exterior, sonaran ms a una chicharra de
verano que a una voz humana. Es a su paso por la garganta, ms exactamente, a travs del
tubo o tracto vocal, cuando el sonido vibratorio adquiere las resonancias propias de la voz y
se articula en habla, se modula acsticamente para crear los segmentos fonticos.


Teora de la fuente y el filtro. La produccin de habla responde a un modelo fsico,
ampliamente aceptado por la comunidad cientfica: la denominada teora de la fuente y el
filtro (Fant, 1960). Aunque su origen es anterior, el desarrollo matemtico se debe al sueco
Gunnar Fant. En esencia, el modelo considera que el sonido del habla se forma gracias a la
conjuncin de dos factores: la fuente y el filtro. La materia prima acstica se crea en la
fuente, o punto donde se genera el sonido base que luego habr que filtrar o modelar. Esta
fuente se sita en las cuerdas vocales si se trata de sonidos sonoros (vocales y consonantes
sonoras). En el caso de las consonantes sordas, la fuente est en el punto de la boca donde se
produce el ruido consonntico; por ejemplo, en las fricativas es el paso estrecho donde el
aire fricciona con fuerza al pasar a su travs (entre la lengua y los alveolos, en la /s/; entre
los dientes superiores y el labio inferior, en la /f/; etc.).
El sonido generado en la fuente se propaga a travs del tracto vocal y, de acuerdo con los
principios de la fsica de tubos, es sometido a sus resonancias, sufre un proceso complejo de
filtrado, donde unas frecuencias se refuerzan y otras se atenan. Es como si una materia
prima fuera esculpida acsticamente y recibiera una forma determinada. Son los mismos
principios fsicos que rigen, por ejemplo, en un rgano musical de tubos, expresables a
travs de complejas frmulas matemticas.

paladar
alveolos
velo
vula
lengua
labios
epiglotis
dientes
laringe
cuerdas
vocales
glotis

Figura#. Corte esquemtico del tracto vocal, con los principales rganos que intervienen en la fonacin
(cuerdas vocales) y articulacin (labios, lengua, dientes, paladar, etc.) de los sonidos del habla.


Desde el punto de vista acstico, el tracto vocal de un varn medio, medido desde las
cuerdas vocales hasta los labios, equivale a un tubo recto cilndrico de 17.5 cm de largo
(Pickett, 1999) y 5 cm
2
de seccin (Figura#). El tracto de la mujer es, en promedio,
alrededor de un 15 % ms corto (14.75 cm). El hecho de que el tubo sea recto o curvado,
como en el caso real, es irrelevante acsticamente. Lo importante de verdad es que el tubo
experimente una constriccin o estrechamiento en alguna parte de su recorrido.
Dependiendo del lugar donde aparezca esta constriccin, cambia completamente el juego de
resonancias del tubo, o las frecuencias concretas que se potencian y se atenan, dando lugar
a resultados acsticos muy distintos. Precisamente cuando hablamos creamos estas
constricciones gracias a nuestros rganos articuladores, sobre todo la lengua. La funcin de
filtro que ejerce el tracto vocal a travs de sus resonancias es lo que marca la diferencia
entre, verbigracia, una /a/ y una /e/.
En la produccin de las consonantes la constriccin es ms cerrada que en las vocales,
hasta el extremo de que en las oclusivas se produce, de hecho, una oclusin o cierre
completo. Segn el lugar del tracto vocal donde se produce la constriccin principal,
hablamos de consonantes labiales, dentales, palatales, velares, etc.; es lo que se llama el
punto de articulacin. La forma en que se crean los fonemas constituye el modo de
articulacin. Por ejemplo, los sonidos nasales como la /m/, o la /n/, se forman al intervenir
un segundo juego de resonancias, gracias a la cavidad nasal; esto ocurre porque
voluntariamente abrimos el paso del aire con nuestro velo del paladar.

Cuando el control motor de los msculos implicados falla a consecuencia de un dao
neurolgico, se articulan mal los fonemas y se obtiene un habla con poca inteligibilidad. Es
lo que ocurre en las disartrias (por parlisis cerebral, traumas, accidentes vasculares, o
enfermedades neurodegenerativas como: parkinson, esclerosis mltiple, esclerosis lateral
amiotrfica, ataxias, etctera). A diferencia de las afasias, el lenguaje en sentido estricto est
preservado, el dao solo afecta al habla en su aspecto motor. El disrtrico entiende
perfectamente el lenguaje de los dems, y tiene una representacin mental clara de lo que
quiere decir, su dificultad reside en el envo de las rdenes motoras. Tambin tiene
problemas, al reves que el afsico, para imitar gestos con la boca o la lengua y mover
msculos individuales; en los casos ms gravs se presenta sialorrea (babeo) y dificultad en
la deglucin. Si en el afsico de Broca estaban daadas las "partituras" de la orquesta
motora, aqu es la ejecucin de los instrumentos individuales lo que falla.


Figura#. Un ciclo vibratorio de las cuerdas vocales durante el habla, en un varn con la voz
muy aguda. En un segundo caben 222 ciclos como este.

constriccin

17.5 cm

labios

cuerdas vocales
Figura#. Acsticamente, el tracto vocal de un varn medio equivale a un tubo de 17.5 cm
de largo. La forma recta o curva es irrelevante; pero una constriccin en una parte de su
recorrido tiene importantes consecuencias acsticas.


BASES ACSTICAS DEL HABLA
Abordar el lenguaje oral desde el punto de vista material, de su realizacin fsica o acstica,
es referirse al habla; por lo que aqu emplearemos los trminos lenguaje o habla humana
de forma indistinta. Lo primero que no hay que olvidar es que el lenguaje es sonido y, por
consiguiente, participar de todas las propiedades de ste. Para entender esto, hemos de
hacer previamente un rpido repaso de las principales caractersticas del sonido.

Ondas acsticas

El sonido se produce cuando un cuerpo vibra y comunica la vibracin a las molculas del
entorno (aire, agua) y esta energa es recibida por el odo. En el vaco no puede escucharse
el sonido porque faltan las molculas que tranportaran la energa vibratoria. Cuando una
piedra cae en un estanque de agua, se forman ondas concntricas que se expanden a travs
de la superficie tranquila. Si observamos qu ocurre con un corcho de pesca o cualquier otro
objeto flotante, vemos que se mueve arriba y abajo, pero no se desplaza en sentido lateral.
Lo que se desplaza realmente es la onda, la energa ondulatoria; las molculas individuales
slo se mueven localmente y comunican el movimiento a las vecinas.
Cuando un objeto vibra en el aire, ocurre algo parecido, pero debemos imaginarlo en tres
dimensiones: esferas concentricas que se expanden desde el punto de la vibracin. Nuestro
cerebro es una maquinaria biolgica que, entre otras cosas extraas y maravillosas, tiene la
capacidad de extraer significados a partir estos movimientos moleculares. En ese
movimiento vibratorio u ondulatorio, las molculas se acercan y se separan entre s,
transmitiendo las sacudidas de unas a otras (Figura #). Podemos representar dicho
movimiento mediante una onda, o lnea ondulante que sube y baja formando "picos" y
"valles". Los picos corresponderan a los momentos en que hay una presin positiva y las
molculas se juntan, y los valles a los momentos de presin negativa, en los que las
molculas se separan.

Las piezas bsicas del sonido son las ondas puras o simples, que no pueden descomponerse
en ninguna otra. Tambin se llaman ondas sinoidales o sinusoidales, porque en su frmula
matemtica interviene la funcin seno. En la naturaleza prcticamente no existen ondas
puras (slo complejas), pero las podemos conseguir por medios electrnicos u ordenadores,
y tambin mediante un dispositivo fsico fabricado con ese propsito: el diapasn (Figura
2#). El diapasn sirve para afinar los instrumentos de msica, produciendo una onda pura
cuya vibracin corresponde a la nota La, de 440 hertzios (Hz) o vibraciones por segundo. Al
pellizcar los extremos del diapasn, stos vibran y comunican su movimiento a las
molculas del aire, sonando con un sonido limpio que sirve de referencia a los msicos.

Una onda pura est formada por una sucesin de ciclos o patrones de vibracin que se
repiten en el tiempo. Cada ciclo lo forman un pico y un valle (Figura 3#) que suben y bajan
en torno a un punto central de energa cero. Dependiendo de la velocidad de vibracin, las
ondas varan en el nmero de ciclos que caben en un segundo, dando lugar a la dimensin o
variable frecuencia. Las ondas que nacen de movimientos vibratorios rpidos, tienen una
frecuencia alta, con muchos ciclos por segundo (o hertzios) y se perciben como agudas. Las
ondas que nacen de movimientos vibratorios lentos, tienen una frecuencia baja, con pocos
ciclos por segundo y se perciben como graves. Cada objeto slido tiene una frecuencia de

vibracin caracterstica; en igualdad de condiciones un
cuerpo largo vibrar ms lentamente que uno corto. As
sucede, por ejemplo, con las cuerdas de una guitarra:
cuanto ms corta es la parte libre dejada por los dedos
contra el mstil, ms rpida vibra y ms agudo es el
sonido; cuanto ms larga, ms lenta es la vibracin y
suena ms grave. En los humanos, las voces masculinas
son ms graves porque las cuerdas vocales de los
varones son ms largas que las de las mujeres.
Como se ha dicho, la frecuencia de una onda se mide
en ciclos por segundo (cps) o hertzios (Hz). Un hertzio
(o hercio), es un ciclo por segundo y debe su nombre en
recuerdo del fsico alemn Heinrich Rudolf Hertz (1857-
1894).

Otra dimensin importante es la intensidad, o
amplitud del desplazamiento de la onda. Si se pellizca
el diapasn de forma suave, sus extremos vibrarn con
un recorrido o amplitud pequea y el sonido se percibir como de baja intensidad. Si se
pellizca el diapasn fuertemente, sus extremos vibrarn con gran amplitud y el sonido se
percibir con gran intensidad. Aunque existen diferencias entre ambos conceptos, a efectos
nuestros vamos a considerar intensidad y amplitud como equivalentes. Su unidad de medida
es el decibelio (dB), o la dcima parte de un belio, as llamado en honor al fsico escocs y
norteamericano Alexander Graham Bell (1847-1922), inventor del telfono.

Diapasn: nota LA (440 Hz)

Figura 2#. Diapasn o dispositivo fsico construido para emitir una onda pura de 440 ciclos por
segundo, equivalente a la nota LA.


amplitud
0

un ciclo

Figura 3#. Onda pura o simple, tambin llamada sinoidal o sinusoidal. En ella se ha marcado un ci-
clo y la amplitud entre un pico y un valle. La lnea central corresponde a cero energa.

La suma de varias ondas simples da lugar a una onda compleja. En la Figura 4#podemos
observar que tres ondas simples, sumadas aritmticamente punto a punto, dan como
resultado una onda compleja que tambin tiene ciclos que se repiten. Estos ciclos tienen una
forma ms complicada, pero claramente se aprecia un patrn de vibracin que tambin se
repite en el tiempo. Como ejercicio, fjese el lector en las frecuencias y amplitudes de las
tres ondas simples: la segunda onda tiene una frecuencia doble que la primera (caben 6
ciclos donde en aqulla hay slo 3) y, por tanto, suena ms aguda; la tercera tiene un
frecuencia cuatro veces mayor que la primera (caben 12 ciclos) y suena an ms aguda.
Respecto a la amplitud o intensidad, la primera y tercera son iguales, mientras que la
segunda tiene la mitad de amplitud y suena, por tanto, ms dbil. Matemticamente, pasar
de las ondas simples a la compleja es sencillo: se trata simplemente de sumar cada punto
con el correspondiente de las otras. El paso inverso, es decir, descomponer una onda
compleja en sus ondas simples, es ms complejo y el procedimiento matemtico se conoce
con el nombre de Anlisis de Fourier, en honor al ingeniero y matemtico francs J ean-
Baptiste J oseph Fourier (1768-1830).

En la naturaleza lo que existen son ondas complejas, formadas por la suma de muchas ondas
simples. Hay dos clases de ondas complejas: peridicas, que tienen ciclos o patrones
complejos de vibracin que se repiten de forma peridica (como la de la Figura 4#), y
aperidicas, en las que no se pueden apreciar ciclos repetitivos. Perceptivamente son muy
distintas: en las primeras omos un sonido dotado de un tono o tonalidad; es el caso, de las
notas musicales, de un silbido, de una sirena, o de las vocales y consonantes sonoras; las
segundas se perciben como ruidos, sin tono, como ocurre con los ruidos causados por un
soplo, un golpe, una friccin, una explosin, o las consonantes sordas. A modo de resumen,
vase el esquema de la Figura 5#.
Unas y otras son la suma de muchas ondas simples; entonces a qu obedece la dife-
rencia? Muy sencillo: las ondas peridicas resultan de ondas simples que guardan entre s
una relacin armnica; es decir, que todas ellas tienen una frecuencia mltiplo (doble,
triple, etctera) de la ms lenta, que es la fundamental. Las ondas aperidicas resultan de
cientos o miles de ondas simples que no guardan esa relacin y se rigen simplemente por las
leyes del caos.
Volvamos a la figura 4#, las tres ondas simples tienen una relacin armnica porque sus
frecuencias son mltiplos (doble y cudruple) de la primera o ms lenta. El resultado es una
onda compleja con ciclos. A la primera onda simple se le conoce con el nombre de
fundamental porque impone su frecuencia al resultado final, o sea, a la onda compleja:
obsrvese como sta tiene tambin tres ciclos.

onda compleja
Anlisis de Fourier
suma

Figura 4#. Onda compleja (abajo) como resultado de la suma punto a punto de tres ondas simples de
distintas frecuencias y amplitudes. El paso inverso, desde la onda compleja a sus componentes simples,
se consigue mediante el Anlisis de Fourier.

Ondas
Complejas
Aperidicas
Peridicas
Ondas Simples
(peridicas)
msica
silbido
sirena
...
vocales
consonates sonoras
ruidos:
soplo
explosin
friccin
...
consonates sordas

Figura 5#. Tipos de ondas acsticas y ejemplos de sus sonidos (generales y lingsticos).

En el lenguaje estn tambin los dos tipos de ondas: peridicas, que corresponden a los
sonidos sonoros producidos por la vibracin de las cuerdas vocales (vocales, y consonantes
sonoras como /b/, /d/, /g/, /m/, /n/, /r/, /l/, etc.) y aperidicas que corresponden a los ruidos o
sonidos sordos producidos por el paso del aire a travs de un sitio estrecho, o una pequea
explosin causada por su brusca liberacin, permaneciendo, en todo caso, inactivas las
cuerdas vocales (consonantes sordas como /s/, /f/, //, /p/, /t/, /k/, etc.).

En la Figura 6#tenemos en el centro la onda acstica correspondiente a la frase "los
mdicos salen a la calle" dicha por una mujer joven. Como toda onda lingstica, es de
carcter continuo, slo aparentemente interrumpida por las consonantes oclusivas: /k/ de
"mdicos" y "calle". Tambin se aprecia la naturaleza esencialmente rtmica del lenguaje
humano, formado por una sucesin de elementos silbicos que alternan momentos de menor
(consonantes) y mayor energa (ncleos voclicos). A su vez, la onda acstica tiene
segmentos peridicos en los que funcionan las cuerdas vocales y segmentos aperidicos en
los que stas no participan. Se ha seleccionado un ejemplo ampliado de cada clase. Abajo se
observa la onda peridica de la vocal /e/ de "salen", en la que claramente se aprecia una
sucesin de ciclos semejantes; su naturaleza peridica es debida a la vibracin de las
cuerdas vocales, como as sucede en todas las vocales y consonantes sonoras. Arriba puede
verse ampliada la onda correspondiente a la /s/ de "mdicos", inequvocamente aperidica,
sin que puedan identificarse ciclos en ella. Se produce al pasar el aire a presin por un paso
estrecho formado entre la lengua y los alveolos superiores y friccionar con los tejidos de
las paredes. El aire forma infinidad de turbulencias o microrremolinos, cada uno con una
frecuencia propia, sumando un conjunto desordenado de frecuencias que se rigen por las
leyes del caos; el resultado es una onda extremadamente compleja pero aperidica, porque
sus componentes no guardan entre s ninguna relacin armnica. Aunque se trata de un
sonido lingstico, acsticamente se halla ms prximo al ruido de un soplo o del viento.


onda aperidica: /s/
onda peridica: /e/
Figura 6#. Onda acstica (centro) de la frase "los mdicos salen a la calle". Arriba: fragmento ampliado de la
onda aperidica correspondiente a la consonante /s/ de "mdicos"; en ella no se aprecian ciclos peridicos y
se percibe como un ruido. Abajo: fragmento de onda peridica de la vocal /e/ de "salen"; en ella se aprecian
claramente los ciclos peridicos.

Parmetros de la voz a partir de la onda.

El anlisis de las ondas acsticas del lenguaje permite obtener cierta informacin til. En un
principio su representacin visual se consegua a travs de osciloscospios y sus resultantes,
los oscilogramas. Hoy la digitalizacin del sonido en ficheros de audio (WAV, o de otro
tipo), y su manejo mediante programas informticos, hace muy fcil manipular y medir la
onda lingstica.

Como primeras medidas pueden obtenerse duraciones e intensidades de los distintos
segmentos. Adems, en las ondas peridicas, la aplicacin de determinados algoritmos o
frmulas matemticas sobre los ciclos permite extraer de forma semiautomtica un conjunto
de parmetros que han demostrado su utilidad y fiabilidad en el diagnstico de las voces
patolgicas (Gonzalez, 2001; Kent,#). De todos los parmetros vocales destacaremos tres,
que vemos a continuacin.


Frecuencia Fundamental. El parmetro ms elemental y, al mismo tiempo, uno de los ms
importantes es simplemente el nmero de ciclos por segundo, o lo que se conoce como
Frecuencia Fundamental de la voz (Fo). Cada persona tiene un valor promedio
caracterstico. En general, Fo es ms baja en los varones que en las mujeres, ya que las
cuerdas vocales masculinas son ms largas que la femeninas y, por tanto, vibran ms
despacio, generando una voz ms grave (Baken, 2000). Los valores promedio normales en
varones adultos se sitan aproximadamente entre 70 y 170 ciclos por segundo o hertzios
(Hz); y en las mujeres entre 130-270 Hz. Cuando hablamos, la frecuencia fundamental de la
voz sube y baja configurando la entonacin prosdica de la frase. Hay rasgos prosdicos
universales que son comunes a todas las lenguas del mundo, tal como la entonacin
ascendente en las preguntas, o la forma de transmitir ciertas emociones. Hoy sabemos que la
entonacin desempea un papel relevante auxiliando en el anlisis sintctico del lenguaje
por parte del oyente, como paso necesario en los procesos de comprensin (citas#). En
ciertas alteraciones neurolgicas, como en la enfermedad de Parkinson, algunas disartrias, o
en la muy rara del Sndrome del Acento Extrajero, la prosodia se ve afectada y repercute
negativamente en la inteligibilidad o en la naturalidad del lenguaje.

La accin agresiva de ciertas sustancias como el humo del tabaco hace descender Fo (Sorensen y Horii, 1982).
El consumo del tabaco ejerce una accin irritante continuada que, en los casos ms graves, desembocan en el
cuadro conocido como edema de Reinke. El espacio de Reinke es un espacio interno de las cuerdas vocales
que, cuando hay una agresin sostenida por el tabaco o por abuso vocal, se edematiza y se rellena de lquido
fisiolgico, causando que la cuerda vocal aumente su grosor. Las cuerdas vocales afectadas de este modo
tienen ms masa y volumen (estn como hinchadas) y, por pura fsica, vibran con ms lentitud e
irregularidad, generando una voz ms grave y spera. De este modo la Frecuencia Fundamental de la voz de
los fumadores es, en promedio, varios hertzios por debajo ms grave que la de los no fumadores. Este efecto
es especialmente patente en la voz femenina. En un estudio reciente sobre 134 jvenes de ambos sexos de 20-
25 aos de edad, se comprob que ya en una fase incipiente del hbito tabquico aparecen diferencias
significativas en los valores de Fo y otros parmetros vocales, sobre todo en el grupo de las mujeres (Gonzlez
y Carpi, 2004#)

La Frecuencia Fundamental, al ser caracterstica de cada individuo, viene a ser como su
sello o marca de distincin que ayuda en la identificacin del hablante. Probablemente, la
frecuencia fundamental interviene en el "anclaje" del sistema perceptivo del oyente sobre
una voz particular, en situaciones de conversaciones cruzadas y simultneas (el llamado
efecto "coctail-party"). Quiz en la recepcin del lenguaje en condiciones naturales, Fo
desempee un papel importante en la individualizacin de la voz y contribuya a evitar la
"intrusin" de voces competidoras en el proceso perceptivo. Si en una voz manipulamos
artificialmente Fo, aumentando o disminuyendo ligeramente el nmero de hertzios por
medios electrnicos, obtenemos un drstico efecto sobre la percepcin de la identidad del
hablante, causando la impresin de que quien habla es una persona distinta.

Jitter. Otro parmetro de la voz muy utilizado es el Jitter, que mide el grado en que los ci-
clos son distintos entre s en lo que respecta a su duracin, o periodo (Figura 7#). Si los
ciclos fueran idnticos unos a otros, el jitter sera cero. Esto no ocurre nunca en la voz
humana, donde siempre hay pequeas variaciones de un ciclo a otro. Sin embargo, las
variaciones son tan pequeas que el jitter se mide en microsegundos, o millonsimas de
segundo. Cuando los ingenieros sintetizan voz artificial por computador, la voz suena
robtica porque, entre otras razones, los ciclos son idnticos unos a otros. Para evitar esto,
introducen en sus frmulas un factor de error aleatorio que crea pequeas diferencias entre
los ciclos y, de este modo, la voz suena ms natural. En el otro extremo, las voces
patolgicas por diversas etiologas (enfermedades neurolgicas, plipos, ndulos, tumores,
parlisis de una cuerda vocal, etctera.) suelen tener jitters altos porque los ciclos son muy

distintos entre s a consecuencia de las irregularidades de vibracin de las cuerdas vocales.
Las voces con jitters altos suenan speras y desagradables al odo humano. El hbito
tabquico, adems de bajar Fo, tambin ejerce una funcin sobre el jitter, incrementndolo
por encima de sus valores normales.

Parmetro: Shimmer
Parmetro: Jitter
ciclo 3 ciclo 2 ciclo 1

Figura 7#. Parmetros tiles para diagnosticar voces patolgicas: J itter y Shimmer. El J itter da una
medida de cun distintos son los ciclos respecto a su duracin (periodos). El Shimmer mide cun
distintos son los ciclos respecto a su amplitud mxima, pico a pico.

Tcnicamente, el jitter es el promedio de las diferencias entre los periodos medidas ciclo a
ciclo. Se calcula de forma semiautomtica mediante software especfico a partir de una
muestra voz que consiste en la fonacin sostenida de una vocal (usualmente /a/) durante
1.5 - 3 segundos. El algoritmo de clculo debe seguir los siguientes pasos:

1. Identificar los ciclos de la voz (es la parte ms compleja, porque es fcil que el
software cometa errores).
2. Calcular los periodos, o duracin de cada ciclo.
3. Restar cada periodo del anterior y hallar el promedio de las diferencias. El resultado
se da en microsegundos. Un valor en torno a 80 microsegundos se considera un lmite
superior de normalidad (Deliyski, 1993#). Las voces patolgicas tienden a superarlo.
En trminos relativos, supone aproximadamente un 1% del periodo de un ciclo.


Existen varias versiones del J itter que consisten en calcular las diferencias, no ciclo a ciclo,
sino entre grupos de ciclos consecutivos que se promedian previamente. Dependiendo del
nmero de ciclos que se promedian antes de calcular las diferencias, se obtienen distintos
parmetros que miden rasgos especficos de la voz.

Shimmer. El tercer parmetro es el Shimmer, que sera equivalente al jitter, pero esta vez en
relacin a la amplitud del ciclo, en lugar de su duracin. Se calcula a partir de la amplitud
mxima de cada ciclo, medida pico a pico, o distancia entre el pico positivo ms alto y el
negativo ms bajo (Figura 7#). Da una idea del grado de disparidad que existe entre las
amplitudes de los ciclos consecutivos. De nuevo, si todos los ciclos fueran iguales, el
shimmer sera 0 y la voz sonara poco natural. Las voces humanas siempre tienen pequeas
variaciones entre las amplitudes de sus ciclos que dan lugar a shimmers superiores a cero. El
valor que se considera como lmite superior de normalidad se sita sobre 0,35 decibelios, o,
en trminos relativos, en torno al 4 % de la amplitud total de un ciclo (Deliyski, 1993). Las
voces patolgicas tienden a sobrepasar estos umbrales.
Tambin el Shimmer presenta varias versiones si las diferencias se calculan, en vez de
ciclo a ciclo, promediando grupos de ciclos consecutivos.

A modo de resumen hay que destacar que, dada la gran varibilidad que la voz humana
presenta de forma natural, estos parmetros tambin estn sometidos a grandes variaciones
dentro de la normalidad. El diagnstico de una voz patolgica siempre es aproximativo y
gana peso cuando son varios los parmetros que confluyen en valores anormales.

Espectrogramas.

Una onda acstica contiene mucha informacin que no podemos observar directamente
mediante la mera inspeccin de su forma. Sabemos que una onda compleja se compone de
muchas otras simples, cada una con su frecuencia e intensidades particulares, por lo que el
sonido posee distintos grados de energa en unas frecuencias u otras. No hay alguna forma
de visualizar la distribucin de esta energa a travs de las frecuencias? Dicho en otros
trminos, existe un procedimiento que nos permita observar la composicin espectral del
sonido? Esto se consigue gracias a los espectrogramas obtenidos mediante un
espectrgrafo.

En los aos 1940, los estadounidenses Bell Telephone Laboratories construyeron el primer
espectrgrafo de sonido; se trataba de una mquina capaz de analizar los sonidos en sus
diferentes componentes frecuenciales. Sus desarrolladores, Richard Potter y su equipo
(Potter, Kopp y Green, #), deseaban obtener una representacin visual del sonido para poder
estudiarlo en toda su complejidad. La investigacin se aceler durante la Segunda Guerra
Mundial con la idea de que las voces por radio del enemigo pudieran ser analizadas y
descifradas mejor mediante espectrogramas generados por el espectrgrafo; pero la guerra
acab antes de que la tcnica estuviera a punto.
El principio bsico de un espectrgrafo es el mismo que el de un prisma que descompone
la luz en sus distintos colores integrantes (Figura 8#). En esencia consista en una coleccin
de filtros ajustados a diferentes frecuencias especficas que se activaban cuando pasaba a su
travs energa de esa frecuencia, o prxima a ella. El aparato constaba de un tambor
rotatorio sobre el que se colocaba un papel especial encerado que se oscureca por efecto del
calor. Una vez efectuada la grabacin del sonido que se desea analizar, sta se haca pasar a
travs de la coleccin de filtros mientras el tambor giraba una vuelta sobre s mismo. De

esta forma, la energa correspondiente a cada banda de frecuencia pasaba a travs del filtro
respectivo, que terminaba en una aguja apoyada sobre el papel. Cuanto mayor era la energa,
ms cantidad de corriente elctrica circulaba por la aguja calentando el papel encerado y
oscurecindolo en mayor medida. De esta manera se obtuvieron los primeros
espectrogramas, donde quedan representados grficamente los tres parmetros o
dimensiones fundamentales del sonido: el tiempo, en el eje horizontal, las frecuencias en el
eje vertical, y la amplitud en la mayor o menor intensidad del dibujo.

El espectrgrafo de sonido se revel especialmente til para el anlisis del habla humana y
la espectrografa acstica ha sido la tcnica reina en su estudio. En realidad, las primeras
versiones se construyeron con una nica aguja conectada a un filtro que se ajustaba a
diferentes frecuencias en sucesivas pasadas o anlisis parciales de la misma seal; otras
versiones utilizaban un cinturn de fsforo en lugar del papel encerado. El primer es-
pectrgrafo comercial lo construy la casa norteamericana Kay en 1951.

Con la llegada de la electrnica de alta integracin, se disearon aparatos especficos de anlisis de gran precisin basados
en la tecnologa digital; por ejemplo, el analizador FFT 2033 de la casa danesa Brel Kjaer. Despus, este tipo de anlisis
se ha implementado en hardware especfico conectado a plataformas estndar ya existentes: estaciones de trabajo y
ordenadores personales. Un ejemplo es el CSL-Computerized Speech Lab de Kay Elemetrics.
El ltimo paso, ha sido la creacin de software que funciona en cualquier ordenador personal, como es el caso del
sistema Multi-speech, tambin de Kay, o la SpeechStation de Sensimetrics Corp. Estos son programas comerciales, pero en
la actualidad una parte importante de esta clase de software consiste en programas creados desde universidades que los
dejan accesibles en internet de forma libre y gratuita, para fines no lucrativos; por ejemplo, el completsimo PRAAT de la
Universidad de Amsterdam (Boersma & Weenink, 2001), el TF32 de la Universidad de Wisconsin-Madison (Milenkovic,
1989), o el SFS de la Universidad de Londres (Huckvale et al., 1987).

Ejemplo. Para entender mejor los rasgos principales de un espectrograma, vamos a observar
la Figura 9#. En su parte superior tenemos la onda acstica de la frase "Quieres ms caf?"
dicha por una mujer. Debajo est su espectrograma alineado temporalmente con la onda; lo
que quiere decir que podemos observar las correspondencias entre partes de la onda y del
espectrograma. Es prctica comn trabajar simultneamente con ambas representaciones,
sobre todo para delimitar mejor los lmites de cada segmento fontico. Todo el software que
ofrece espectrogramas tambin puede mostrar las ondas de donde se obtienen. La onda es
una variacin de energa que se extiende a lo largo del eje del tiempo, y el espectrograma
presenta sus tres dimesiones bsicas: el eje del tiempo horizontal, el eje de frecuencias
vertical y la intensidad, representada por los distintos grados de grises. Aqu el eje de
frecuencias se extiende desde 0 a 12.000 hertzios. En muchos estudios centrados en los
formantes del habla, se emplean espectrogramas que abarcan un rango ms pequeo,
generalmente entre 0 y 5000/6000 hertzios.
La onda y el espectrograma de la frase son continuos, slo interrumpidos por la mo-
mentnea oclusin de aire durante la pronunciacin de la consonante oclusiva /k/ (c, de
"caf"). Vemos que las partes peridicas de la onda, que son fonemas sonoros vocales y
consonantes sonoras en los que intervienen las cuerdas vocales, corresponden a zonas del
espectrograma donde se pueden apreciar a modo de estras verticales, o lneas muy finas
separadas por espacios en blanco. Las estras son el resultado de la rpida sucesin de
movimientos de apertura y cierre de la cuerdas vocales; cada lnea oscura representa el
instante en que las cuerdas vocales estn abiertas, liberando energa; mientras que el espacio
blanco entre dos estras corresponde al instante en que estn cerradas, sin salida de aire ni
energa. En los fonemas sordos como la /s/ o la /f/, las cuerdas vocales no estn activas y,
por tanto, no se ven estras.
Para percibir el habla son particularmente importantes los formantes; consisten en las
franjas oscuras horizontales de gran concentracin de energa que podemos observar en la
mitad inferior del espectrograma. Estan numerados desde abajo como F1 (primer formante),

F2, F3, F4, y F5. Los formantes corresponden a las resonancias de la garganta, o frecuencias
que resultan potenciadas debido a la forma del conducto o tracto vocal. Esto sucede segn
los principios fsicos de la acstica de tubos. Dependiendo de las formas que el "tubo" vocal
adopta durante la articulacin de las palabras, los formantes aparecen en diferentes
posiciones o frecuencias, y este hecho es clave para identificar los fonemas y entender el
lenguaje.

Para hacernos una idea de la importancia que tienen los formantes en la percepcin del
lenguaje, hay que sealar que podemos entender frases completas basndonos nicamente
en dos o tres ondas puras, si stas siguen la trayectorias de los formantes. Robert Remez y
sus colaboradores demostraron que se poda entender una frase a partir de una rplica
acstica formada por la suma de dos o tres ondas puras, cuyas frecuencias y amplitudes
evolucionan en el tiempo del mismo modo que los formantes (Remez, Rubin, 1981). En la
Figura# presentamos el espectrograma de la frase natural "el avin vuela sobre las nubes
altas" y de un estmulo acstico formado por 2 ondas simples que siguen las trayectorias del
primer y segundo formante (F1 y F2). Con un mnimo entrenamiento, cualquier persona
puede or la frase completa escuchando el estmulo artificial.


Figura 8#. Espectrograma del sonido (habla). El principio bsico es el mismo que el de un prisma que descompone la luz en sus colores integrantes. El sonido pasa a
travs de un banco de filtros, cada uno especializado en un frecuencia determinada. Cuando los filtros se activan, queman el papel encerado y lo tiznan de negro,
mientras va girando sobre un rodillo. Las partes oscuras corresponden a las zonas de mayor energa.
100
400
700
1000
1300
1600
1900
.....
10100
10400
10700
11000
11300
12000

f
s
estras
F4
F5
F1
F2
F3 c
?
s c a f m s
e
r
ie
qu

F
r
e
c
u
e
n
c
i
a
Tiempo
Figura 9#. Onda (arriba) y espectrograma (abajo) de la frase: "Quieres ms caf?" pronunciada por una mujer. Obsrvense los formantes (F1, F2, F3, F4, F5), las estras
correspondientes a los movimientos de apertura y cierre de las cuerdas vocales y la oclusin de la consonante c de caf. En las consonantes sordas (s, f) no se aprecian estras.

F2
F1

Figura 10#. Importancia de los formantes en la percepcin del lenguaje. Espectrograma (arriba) de la frase
"el avin vuela sobre las nubes altas" dicha por un varn. Rplica acstica (abajo) formada nicamente
por dos ondas puras que siguen las trayectorias del primer (F1) y segundo (F2) formante de la frase.
Escuchando este estmulo artificial se puede percibir la frase completa. Ejemplo tomado de Gonzlez y
Cervera (2000). Otros ejemplos en: http://www3.uji.es/~gonzalez/frases/frases.html.

Sntesis del Habla.

Mediante el espectrgrafo pasamos de la onda al espectrograma; analizamos el sonido en
sus partes. No sera posible el camino inverso? Es decir, a partir de un espectrograma
reconstruir artificialmente la onda completa para ser escuchada. En este caso estaramos
hablando de sntesis, o pasar de las partes al todo; justo lo contrario del anlisis, que es
pasar del todo a las partes. Por ese motivo, el proceso de crear una seal de habla artificial
recibe el nombre de sntesis de habla.

Pattern Playback. Una dcada ms tarde de la aparicin del espectrgrafo, esto fue posible
gracias al Pattern Playback o Reproductor de Patrones de los Laboratorios Haskins de
Nueva York (hoy en New Haven). Se trataba de un aparato de exploracin ptica que
transformaba el dibujo de un espectrograma en sonido (ver para ms detalle, en castellano:
Miller, 1984, pg. 95; en ingls, la pgina web de los Laboratorios Haskins:
http://www.haskins.yale.edu/featured/sentences/ppsentences.html).
El inters inicial consista en inventar un aparato capaz de leer textos en voz alta a las
personas ciegas. Antes se haban puesto a prueba varios cdigos o alfabetos sonoros, pero
no se hall ninguno que pudiera ser entendido a una velocidad mayor que el alfabeto Morse,
siendo que ste se comprende, como mucho, a un ritmo diez veces ms lento que el habla
normal. Al final, el equipo de los laboratorios Haskins lleg a la conclusin de que habra de
ser una mquina que generara ella misma sonidos del habla; cualquier otro cdigo acstico
se percibira ms despacio.

Con ese objetivo se construy el primer modelo de Pattern Playback. Su funcionamiento
era, en realidad, semejante al de una pianola. Sobre una hoja transparente de acetato de gran
tamao (Figura 11#) se pintaba a mano un espectrograma de forma estilizada, eludiendo
detalles irrelevantes; luego la hoja se haca pasar por delante de un conjunto de clulas
fotoelctricas conectadas a generadores de sonidos, cada uno afinado a una frecuencia
determinada. Las clulas fotoelctricas son dispositivos sensibles a la luz que se activan ante
la interrupcin de la luz que incide sobre ellas (como en los ascensores). Cuando en una de
ellas se interrumpa el paso de la luz a causa del espectrograma, se activaba su generador de
sonido particular. As, en cada momento sonaban simultneamente las frecuencias acsticas
correspondientes a las zonas oscuras del espectrograma. De esta forma se consegua imitar
el habla humana, produciendo un sonido inteligible aunque con una calidad montona y
poco natural.

Hay que decir que el objetivo inicial de construir una mquina lectora para las personas
ciegas fracas por culpa de la variabilidad natural de los fonemas segn su contexto
fontico. La idea inicial era disponer de una especie de "alfabeto sonoro", un conjunto de
plantillas fijas, una por fonema, que al combinarse dieran lugar a cualquier palabra para ser
escuchada. Al hacer esto, sin embargo, el resultado era una sucesin de sonidos
ininteligibles. A qu se deba esto? En los Laboratorios Haskins pronto comprendieron que
cada fonema presenta espectrogramas distintos dependiendo de los fonemas que van delante
y los que van detrs. Por tanto, no valdra una nica plantilla por fonema. Cuando se juntan
plantillas nicas, que no guardan relacin de proximidad entre s, producen una cadena de
sonidos que no se entiende. Estos hallazgos pusieron de manifiesto la gran complejidad de
los procesos perceptivos del habla y fueron un acicate para emprender su estudio
sistemtico.
Sin embargo, gracias a esta mquina se pudieron estudiar muchos aspectos relacionados
con la percepcin del habla. A lo largo de dcadas, los laboratorios Haskins fueron
pioneros en este campo de investigacin. Mediante mltiples pruebas con los dibujos
estilizados de espectrogramas se fueron identificando de modo sistemtico los rasgos
acsticos que son esenciales para percibir el lenguaje.
La investigacin perceptiva ha continuado despus mediante el uso de estmulos
artificiales logrados por medios electrnicos ms sofisticados.


Figura 11#. Ejemplo de espectrograma esquemtico pintado sobre papel de acetato (la frase en ingls:
"en estos das una pierna de pollo es un plato raro") usado por los Laboratorios Haskins para producir
habla artificial en el Reproductor de Patrones (Pattern Playback). Las franjas oscuras corresponden a
las zonas de energa de los formantes; las nubes de puntos representan la energa en las consonantes
fricativas.

Sintetizador de Klatt. Luego han surgido sistemas de sntesis de voz ms perfectos que el
Pattern Playback. En los aos ochenta hace su aparicin un sintetizador que sera, y an es,
muy utilizado para la creacin de estmulos artificiales en la investigacin perceptiva. Se
trata del Sintetizador de Klatt, presentado en 1980 (Klatt, 1980) y luego ampliado con
nuevos parmetros unos aos ms tarde, el Klsyn88 (Klatt y Klatt, 1990). Fue desarrollado
por Dennis Klatt, del Instituto Tecnolgico de Massachusetts (MIT), y se trata de un
software basado en un modelo matemtico del tracto vocal humano. Incluye un conjunto de
parmetros que simulan matemticamente dos funciones:

1. La fuente sonora: construye el sonido "materia prima" de las cuerdas vocales, en el
caso de fonemas sonoros, o el ruido por fricacin, en los fonemas sordos. Con los
parmetros se controla la intensidad de la voz, la entonacin o frecuencia
fundamental, la intensidad y forma del ruido fricativo, y otras variables.
2. La funcin de filtro que ejerce la garganta o tubo vocal sobre el sonido materia
prima procedente de la fuente. Aqu, el sintetizador simula matemticamente los
formantes o resonancias del tracto vocal. Estos parmetros controlan la frecuencia,
amplitud y ancho de banda de cada formante, y constituyen su caracterstica ms
sobresaliente, por lo que se le clasifica como sintetizador basado en formantes.

El usuario establece a priori los valores del conjunto de parmetros sobre una treintena- a
razn de una vez cada 5 o 10 milisegundos; estos valores alimentan un conjunto encadenado
de algoritmos o frmulas matemticas cuya salida ltima es la representacin numrica de la
onda acstica. Si se le programa con suficiente detalle, el resultado puede sonar tan natural
que llega a ser prcticamente indistinguible de una voz humana. Pero para lograr esto se
requiere una programacin laboriosa, casi artesanal, eligiendo cuidadosamente los valores
ms apropiados en un proceso de ensayo y error. Es como "esculpir" la onda paso paso en
los cursos del MIT, un ejercicio que dura das consiste en sintetizar una frase con acento
bostoniano.


El sintetizador de Klatt forma el ncleo de uno de los conversores texto-voz ms conocidos,
el DECtalk. Se trata de un sistema de habla artificial particularmente til para las personas
imposibilitadas de hablar, como es el caso del fsico y matemtico de Cambridge, Stephen
Hawking, afectado de esclerosis lateral amiotrfica (Figura#). Gracias a este sistema,
Hawking puede pronunciar brillantes conferencias ante un pblico entregado.

Figura#. Stephen Hawking, el genial fsico de la Universidad de Cambridge, pronuncia conferencias gracias al
sintetizador de voz artificial DECTalk.

PERCEPCIN DEL LENGUAJE: INTRODUCCIN
La naturaleza ha conseguido que el habla humana sea un medio de comunicacin excelente:
rpido y muy eficaz. Nuestros procesos perceptivos deben ser rpidos porque el lenguaje
hablado, al contrario que el escrito, es de naturaleza efmera y evanescente.

Rapidez. Comparado con cualquier otro cdigo acstico de comunicacin, el habla es 10
veces ms rpido que el ms veloz de ellos (Liberman, Cooper et al. 1967). Por ejemplo, un
experto en cdigo Morse alcanza velocidades de desciframiento a lo sumo diez veces ms
lentas que cuando escucha una conversacin. Nuestra capacidad de resolucin temporal
acstica es muy limitada. La velocidad ms rpida a la que es posible identificar por
separado unidades discretas de cualquier clase de sonido se sita en torno a las 7 9
unidades por segundo (Miller 1956). Ms all de esa ratio los sonidos se "funden" y se
empieza a or algo as como un "zumbido" indiferenciado que, segn aumenta el ritmo, se
convierte en un tono. Sin embargo, cuando escuchamos habla, la velocidad a la que se


transmiten los sonidos durante la comunicacin cotidiana se encuentra entre 20-30
segmentos por segundo, sin que haya ningn problema en identificarlos (Lieberman y
Blumstein, 1988) (Figura 1#). Pensemos, por ejemplo, en la retransmisin de un partido de
ftbol.

sonidos: 7-9 unidades /seg
"... coge la pelota, burla al defensa y chuta a gol..."
sonidos del habla: 20-30 unidades /seg
Figura 1#. Diferencias en nuestra capacidad de resolucin temporal entre el habla y el resto de los sonidos.
Nuestro lmite para identificar sonidos individualmente est en 7-9 unidades por segundo (Miller, 1956); ms
all de esa velocidad se "funden" y omos un "zumbido" indiferenciado. Sin embargo, podemos identificar sin
problemas los sonidos del habla a razn de 20-30 unidades por segundo, y an ms (Lieberman y Blumstein,
1988)

Robustez. Adems, la percepcin del lenguaje es un proceso muy eficaz. Nuestra capacidad
de identificar los sonidos del habla es asombrosamente robusta. Podemos mantener con-
versaciones en las condiciones de ruido ms adversas; es posible someter la onda a in-
crebles alteraciones y mutilaciones y an as continuar entendiendo el mensaje. Como
declaraba Miller (1984), "el odo humano es el mayor capital no declarado de la industria de
la telecomunicacin; puede extraer un mensaje de cualquier tipo de seal, por degradada que
est" (pg. 89). En sus propias palabras:

Desde los primeros experimentos qued claro que el habla es sumamente resistente a la de-
formacin. Mientras sea audible, los cambios de intensidad no tienen ningn efecto sobre su in-
teligibilidad hasta que se vuelve tan intensa que provoca dolor. La conversacin es posible con tal
de que haya tanta energa en la seal hablada como en el ruido enmascarador. No se encuentran
dificultades serias hasta que la energa del ruido es unas cuatro veces mayor que la del habla [...]
Si cambiamos la configuracin de la onda vocal mediante el acortamiento de los "picos", el habla
es an inteligible [...] Otras alteraciones destruyen cualquier vestigio de naturalidad; pero la
naturalidad no es importante para la inteligibilidad. [...] Si aumentamos al doble o disminuimos a
la mitad la velocidad de emisin, la precisin con que se perciben las palabras tampoco se ve
afectada. La resistencia del habla al ruido y a la distorsin es verdaderamente extraordinaria
(Miller, 1984, pg. 91).

Sirva de ejemplo la resistencia al "recorte" de los picos del habla. Si en la onda acstica del
lenguaje se elimina la energa correspondiente sus picos, la inteligibilidad apenas se resiente
(Licklider#, etc.). En la Figura 2#tenemos dos ejemplos de recorte de picos; incluso en su
forma ms severa (C), el habla es inteligible en ms de un 90 % de las palabras.


Figura 2#. Resistencia del habla a la degradacin de la seal. Dos ejemplos (B y C)
de "recorte" de picos de un fragmento de onda acstica de lenguaje (A). Incluso en
la forma ms severa (C), se conserva la inteligibilidad de ms del 90% de las
palabras.

Percepcin artificial del habla. La percepcin del habla es un proceso complejo y a la vez
automtico. Apenas vislumbramos su extraordinaria complejidad y la cantidad de
neurocomputacin que requiere de nuestro sistema nervioso cuando intentamos que las
mquinas desempeen de forma artificial dicho proceso. En los aos sesenta se pensaba que
hoy, una vez iniciado el siglo XXI, dispondramos de robots y ordenadores que entenderan
nuestro lenguaje y se comunicaran fluidamente con nosotros. Cuando en las dcadas
siguientes ingenieros y programadores se pusieron manos a la obra, pronto comprendieron
la dificultad de simular artificialmente los procesos de percepcin del lenguaje no digamos
ya los de comprensin.
Aunque hemos avanzado mucho en los ltimos aos, todava el computador ms potente
con el software ms sofisticado no es capaz de emular con fiabilidad el reconocimiento del
habla. Gracias a la actual potencia de clculo y la aplicacin de complejos algoritmos
matemticos (principalmente modelos ocultos de Markov combinados con redes neuronales
artificiales), conseguimos que un ordenador, dentro de ciertos lmites, pueda reconocer
lenguaje y pasarlo a un texto. Pero esto ocurre con importantes limitaciones: los sistemas
que funcionan con hablantes mltiples slo pueden manejar un nmero reducido de
palabras; los sistemas que reconocen muchas palabras slo pueden funcionar con un nico
hablante, a cuya voz particular han tenido que ser entrenados previamente. El cambio de un
hablante a otro supone "desaprender" lo aprendido con el primero y re-entrenarse en la voz
del segundo. El reconocimiento dista mucho de ser robusto y fiable al casi 100%, como
ocurre en los humanos. Con frecuencia una palabra es confundida con otra semejante; una
tos, una puerta al cerrarse, un golpe en la mesa, etctera, se identifican errneamente como


una consonante. Y todo esto en condiciones ideales de audicin, sin apenas ruido de fondo u
otros sonidos competidores. Es an casi inimaginable que un ordenador haga lo que
nosotros hacemos todos los das sin dificultad: seguir una conversacin en un contexto de
conversaciones paralelas; es decir, discernir el habla de un hablante particular y evitar la
"invasin" del sonido de otras personas que hablan al mismo tiempo en la proximidad. Se
trata del llamado efecto "coctail-party".
Quiere decir esto que las mquinas nunca podrn iguarlar nuestra capacidad de percibir
el lenguaje? En absoluto; es probable que llegue el da en que esto sea as. Pero no se olvide
de que estamos hablando de percibir lenguaje, no de comprenderlo, lo cual es una cuestin
que se aborda en otra parte. Es seguro que, en los prximos aos, se perfeccionarn los
actuales sistemas de reconocimiento de habla y pronto se inaugurar una nueva era global en
la que nuestra "interface" o forma de comunicacin con las mquinas cambiar
radicalmente, al pasar a un primer plano el uso de rdenes verbales (con ordenadores,
ascensores, electrodomsticos, puertas, telfonos, etc.). Pero alcanzar la robustez y
flexibilidad humana, y el manejo del efecto "coctail-party" tendr que esperar algo ms.

Complejidad. Se ha expuesto la dificultad de lograr la percepcin artificial del habla
mediante mquinas para poner de manifiesto la enorme complejidad del proceso natural. La
investigacin sobre el habla, que empez en los aos 50 en los Laboratorios Haskins y luego
se extendi a otros, est lejos de comprender la verdadera naturaleza de estos procesos,
despus de medio siglo de actividad ininterrumpida. La complejidad del proceso nace de la
necesidad de ser robusto, resistente a muchas formas de degradacin de la seal y, al mismo
tiempo, ser extraordinariamente flexible y adaptativo a la enorme variabilidad de la seal de
entrada.

Automtica. A pesar de su complejidad, la mayor parte de los subprocesos implicados en la
percepcin del habla son de naturaleza automtica, y los llevamos a cabo sin apenas es-
fuerzo y sin conciencia de ellos. En palabras de Ryalls (1996), es como si la madre
naturaleza hubiera ocultado su complejidad para permitir concentrarnos al cien por cien en
la meta principal: la construccin del significado. Si tuviramos que emplear cons-
cientemente nuestra atencin en las operaciones necesarias para percibir los sonidos
lingsticos, no nos quedaran recursos cognitivos disponibles ni tiempo- para procesar los
significados.

Diferente. En algunos aspectos, el habla se percibe de modo distinto al de los sonidos en
general. Hemos visto que una diferencia importante es que los sonidos del habla (fonemas)
pueden identificarse a razn de 20-30 unidades por segundo, frente a las 7-9 unidades de
cualquier otra clase de sonidos. Hay otra diferencia que tenemos que sealar: el
comportamiento anmalo del habla en lo que se refiere a las tareas de discriminacin e
identificacin (Lieberman y Blumstein, 1988). En cualquier mbito de la percepcin, no
slo en la modalidad sensorial auditiva, tambin en la visual, nuestra maquinaria cognitiva
est construida de tal modo que nos resulta mucho ms fcil discriminar entre estmulos que
identificarlos. En el habla sucede al revs. Vamos a explicarlo en detalle.
La discriminacin exige comparar dos estmulos presentes al sistema perceptivo y
determinar sin son iguales o distintos. La identificacin implica la comparacin entre un
nico estmulo y una representacin mental que tenemos almacenada en nuestra mente. Por
ejemplo, somos muy sensibles a pequeas variaciones de color de longitud de onda entre
dos estmulos visuales. Percibimos el ms ligero cambio en el matiz entre dos colores
parecidos. Pero si vamos a la droguera a comprar exactamente el color de pintura que
tenemos en nuestro saln y hemos olvidado llevar una muestra, estamos condenados a

equivocarnos. Ahora no estamos discriminando, sino identificando un color; es decir,
comparando el estmulo que nos ofrece el droguero con una representacin mental del color
de casa. Podemos hacer miles de discriminaciones entre tonos cromticos, pero slo
identificamos con fiabilidad unos pocos colores no nos recuerda esto a un mgico nmero
siete, mas menos dos? (Miller, 1956#).
En el dominio auditivo pasa algo semejante; est demostrado que cualquiera puede
discriminar entre unos 350.000 tonos puros distintos (Stevens y Davis, 1938), pero slo
identifica 4 o 5 de ellos. Imaginemos que alguien de espaldas a nosotros toca una nota en un
piano, y debemos decir algo as como "fa de la tercera octava". Incluso un msico
experimentado y con muchos aos de solfeo no pasa de identificar unas pocas notas
aisladas, si no cuenta con el apoyo de una escala musical de nuevo nos vuelve a rondar el
nmero "mgico". Slo unos pocos individuos estn dotados de lo que se llama "odo
absoluto", al tener la capacidad de efectuar muchas identificaciones tonales diferentes; pero
estos son casos extraordinarios, muy raros, como ocurre con los individuos de memorias
prodigiosas.
Sin embargo, la percepcin del habla sigue una pauta diferente: somos peores en dis-
criminacin que en identificacin (Figura 3#). Hay sonidos fonticos, particularmente las
consonantes oclusivas, difciles de discriminar entre s cuando pertenecen a la misma
categora: por ejemplo, es difcil distinguir entre variaciones distintas de /p/, o entre
variaciones de /b/, o de /k/; nos suenan todas del mismo modo. Los japoneses no diferencian
entre /l/ y /r/ porque en su idioma pertenecen a la misma categora fonolgica (o sea, ambos
sonidos forman una nica consonante en japons y no existen palabras que se diferencien
slo por ese matiz, como "palo" y "paro", en castellano). Todas esas variaciones son
fsicamente distintas, como as lo revelan los espectrogramas; las mismas variaciones entre
tonos puros las percibiramos inmediatamente, pero en un contexto de habla somos "sordos"
a las mismas.
Por el contrario, somos muy eficientes identificando los sonidos del habla; o si no qu
otra cosa hacemos cuando percibimos lenguaje a razn de 20-30 fonemas por segundo? En
ese momento comparamos los estmulos de entrada con representaciones mentales
almacenadas en nuestra memoria. En cierto modo, es como "ir a la droguera" veinte o
treinta veces por segundo.

Discriminacin Identificacin
Discriminacin Identificacin

Percepcin en general
(tonos, colores, etc.)

Percepcin del Habla

Figura 3#. Diferencias entre la percepcin en general y la percepcin del habla respecto a las tareas de
discriminacin e identificacin de estmulos. Se han destacado las tareas ms eficientes en cada caso.


En resumen, la percepcin del habla es:

Rpida: diez veces ms veloz que cualquier otro cdigo acstico (p.e. Morse).
Robusta: resistente al ruido y a la degradacin de la seal.
Compleja: flexible y adaptativa a la extrema variabilidad de la seal acstica.
Automtica: sin apenas esfuerzo ni participacin de la conciencia.
Diferente aparentemente a la de otros sonidos: mayor resolucin temporal, distinta
relacin entre discriminacin e identificacin, y otras propiedades que luego
veremos.

La ausencia de invarianza

Podramos definir la percepcin del lenguaje como un proceso complejo por el cual una
seal acstica continua y altamente variable es emparejada y activa representaciones
mentales discretas y estables de los fonemas de una lengua. (Figura 4#)

Con este proceso hay un problema que an no hemos sabido resolver: la ausencia de
invarianza.

Hemos dicho que es un proceso robusto y al mismo tiempo muy flexible y adaptativo,
porque el estmulo de entrada es extraordinariamente variable. Somos capaces de
identificar, por ejemplo, cientos de /a/ distintas dichas por cientos de personas en diferentes
situaciones en voz alta, susurrando, con la voz disimulada, con ruido de fondo, a
velocidades y tonos distintos, etctera (Figura 5#). Adems la variabilidad intrasujeto del
habla es prcticamente tan amplia como la variabilidad intersujeto (de ah la dificultad de las
pruebas forenses). Nuestra voz y nuestra forma de pronunciar puede cambiar
asombrosamente de unas situaciones a otras, tanto involuntaria como deliberadamente. A
eso se une el hecho de que la seal es muy dependiente del contexto fontico: el mismo
fonema puede tener ondas muy distintas por la influencia de los fonemas precedentes y
posteriores, aunque no seamos perceptivamente conscientes de ello pero los anlisis
acsticos lo atestiguan.
En definitiva, podemos escuchar cientos de /a/ distintas, con voces agudas, graves,
masculinas, femeninas, infantiles, nasales, impostadas, disrtricas, susurradas, etctera, y
somos capaces de, por encima de todas esas variaciones, or algo comn a todas ellas que
hace que nos suene como la vocal /a/, y diferenciarla de otras cientos de ondas que suenan a
/e/, /u/, /p/ /m/. Las ondas que suenan /a/ tienen que tener algo en comn que no tienen las
ondas que suenan /e/. Ese algo comn es lo que sabe "capturar" nuestro sistema perceptivo
sin caer en error por las enormes variaciones de unas ondas a otras; y ese algo comn es lo
que cuesta tanto de hacer entender a los ordenadores en los programas de reconocimiento de
habla. Ese algo comn es lo que se ha bautizado con el nombre de invarianza fontica (o si
se prefiere, invariancia, invariante, o constancia).

/a/

Figura 4#. En la percepcin del habla, una seal acstica continua y altamente variable se empareja y
activa representaciones mentales estables y discretas de los fonemas de una lengua.

Figura 5#. Alta variabilidad de la seal del habla. Todas esas ondas acsticas, y otras cientos ms, se
perciben como /a/. Qu tienen en comn?


Ahora bien, dnde est fsicamente la invarianza en las ondas de la /a/? Tal vez est
"camuflada" dentro de la informacin de la onda y slo podemos acceder a ella a travs de
algn tipo de anlisis ms sofisticado que la mera inspeccin de la onda. En cierto modo
esto es as cuando hablamos de vocales: los anlisis espectrogrficos espectrogramas
revelan que la invarianza acstica podra estar en los formantes, como ms adelante
veremos.
El problema, y a eso aludamos al principio, es que hay sonidos del habla sobre todo las
consonantes oclusivas que por mucho que busquemos y rebusquemos con toda clase de
anlisis, la invarianza no acaba de aparecer en la seal acstica. Es el tantas veces citado
problema de la ausencia de invarianza del estmulo del habla. Y "haberla, hayla"; en
alguna parte tiene que estar porque nuestro sistema perceptivo s la encuentra; de lo
contrario no podramos identificar el mismo fonema. Trataremos esto ms adelante al
abordar la percepcin de las consonantes.

La cuestin central: un mecanismo especial o general?

Hemos visto que la percepcin del habla presenta unas caractersticas llamativas que la se-
paran de la percepcin de otros sonidos. Adems de las mencionadas sobre la rapidez y
eficiencia en la identificacin de los sonidos lingsticos, o la ausencia de invarianza, hay
que aadir otras propiedades como la percepcin categrica y la transmisin paralela de
informacin, que veremos ms adelante.

Desde los comienzos de la investigacin experimental en los aos 50, y an antes, ha habido
una pregunta bsica que ha planeado sobre la comunidad cientfica y que contina sin una
respuesta definitiva:

- Existe en nuestro cerebro un mecanismo perceptivo especializado en
procesar los sonidos del lenguaje, aparte del mecanismo general de la
audicin?

El hecho de que esta pregunta no tenga hoy una respuesta definitiva significa que la
evidencia emprica, obtenida en medio siglo de experimentacin, se ha ido repartiendo a
favor y en contra de dicho mecanismo especial (Bowers y Davis, 2004 Trends cog; Diehl,
Lotto y Holt, 2004). Y los autores y grupos de investigacin se han ido posicionando en
torno a dos polos con algunas variantes intermedias:

Quienes defienden que, probablemente por evolucin, el ser humano ha desarro-
llado en su cerebro un mecanismo especial, distinto de la percepcin general de
los sonidos, que se encarga de procesar una clase muy particular de sonidos: el
habla humana. En su formulacin ms radical, esta hiptesis considera que el
mecanismo actuara como un verdadero mdulo de funcionamiento rpido,
automtico, encapsulado y blindado a la influencia externa de otras partes del
sistema perceptivo. Se activara inevitablemente en cuanto estuviera expuesto a
sonidos del lenguaje y se impondra por encima del mecanismo general de la
percepcin auditiva. Este mdulo formara parte de un mdulo o sistema ms
amplio, correspondiente al lenguaje en su conjunto.

Quienes consideran que lo especial es el estmulo (habla), no el mecanismo per-
ceptivo. El lenguaje se percibe con el mismo mecanismo general con que

percibimos cualquier sonido. Si se observan algunas caractersticas especiales es
porque el habla humana es un tipo de estimulacin sonora sobreaprendida, a la que
estamos expuestos de forma continua y prcticamente ininterrumpida desde que
nacemos hasta la muerte. Nuestro sistema perceptivo general tiene un nivel de
entrenamiento extraordinario en esta clase de sonidos.

PERCEPCIN DE LAS VOCALES

Podramos definir el lenguaje humano como una sucesin de movimientos de apertura y
cierre de la boca. Las aperturas corresponderan a las vocales y los cierres a las consonantes.
En las consonantes se produce un estrechamiento o restriccin en la cavidad bucal muy
importante, a veces completa como en las oclusivas. En las vocales, el sonido se produce sin
dificultad, con una restriccin mucho ms suave. Las vocales forman el ncleo de las
slabas, y son posibles slabas formadas slo por una vocal; lo cual no sucede con las
consonantes.

Todas las lenguas del mundo tienen ambas clases de sonidos; generalmente menos vocales
que consonantes. En la base de 317 lenguas de Maddieson (1984), el nmero de vocales que
contienen va desde 3 (p.e. tagalo) hasta 24 (p.e. lak), siendo 5 el nmero de vocales ms
comn (p.e. en idiomas tan dispares como espaol, japons o suahili). Las vocales ms
extremas, que ocupan los vrtices del tringulo voclico, son las ms comunes: /i/, /a/, /u/.
Probablemente porque son las ms distinguibles entre s desde el punto de vista perceptivo.

En la Figura#observamos el tringulo articulatorio de las vocales castellanas, segn la
posicin que adopta la lengua al pronunciar cada vocal (Quilis, 1993). De acuerdo con el eje
horizontal, las vocales pueden ser anteriores (lengua en posicin delantera), como la /i/, y,
en menor medida la /e/; centrales como la /a/; y posteriores (lengua en posicin trasera)
como la /o/ y sobre todo la /u/. Segn el eje vertical, la lengua puede estar en una posicin
alta, media, o baja. Esta posicin determina tambin el grado de apertura de la boca; siendo
la /a/ la vocal ms abierta, /e/ y /o/ semiabiertas, y las vocales /i/ y /u/, cerradas.

anterior central posterior

u i
e
o
a
a
l
t
a

m
e
d
i
a

b
a
j
a

Figura#. Tringulo articulatorio de la vocales castellanas, segn la posicin de la lengua. Adaptado de Quilis (1993)


Papel de los Formantes.

Las distintas posiciones de la lengua y otros rganos mviles (labios, mandbula, velo del
paladar) hacen que cambie la forma general del conducto vocal, variando sus resonancias
acsticas o formantes. Como hemos dicho en otros apartados, los formantes son las
resonancias naturales del tracto vocal que se rigen por la acstica de tubos. Corresponden a
las frecuencias que son reforzadas a consecuencia de la forma que adopta el tubo vocal en
cada momento. En los espectrogramas aparecen como franjas oscuras horizontales de mayor
energa.
Es precisamente en los formantes donde reside la clave de la percepcin de las vocales.
Las fuentes de evidencia proceden de:

a) La sntesis de vocales artificiales demuestra que cuando se alteran los formantes, el
sonido resultante suena a una vocal distinta.
b) El anlisis de las vocales naturales mediante espectrogramas permite visualizar y
medir los formantes. Los espectrogramas muestran que a vocales distintas les
corresponden formantes distintos; es decir, localizados en distintos niveles de
frecuencia.

En la Figura 6#podemos ver el espectrograma de la palabra /dios/ pronunciada por una
mujer. Obsrvese el "movimiento" de los formantes en el diptongo al pasar de la vocal /i/ a
la vocal /o/.

s
i
d o

Figura 6#. Espectrograma de la palabra /dios/ en un rango frecuencial de 0-6.000 Hz.
Obsrvese cmo cambian las posiciones de los formantes al pasar de la vocal /i/ a la vocal /o/.

De todos los formantes, los dos primeros (contando desde abajo) son los ms importantes.
La investigacin con estmulos artificiales demuestra que la mayor parte de las vocales
pueden ser identificadas slo con los dos primeros formantes, F1 y F2. De manera que F1 y
F2 son esenciales para la inteligibilidad de las vocales. Los siguientes formantes, F3, F4 y
F5, cuando se incorporan al estmulo artificial aaden naturalidad, haciendo que el

resultado final se parezca ms a la voz humana (Figura 7#). La importancia de los dos
primeros formantes result ya evidente en los trabajos pioneros de los Laboratorios Haskins
durante los aos cincuenta (Delattre et al, 1952).

F5
F4
F3
F2
F1
inteligibilidad
naturalidad

Figura 7#. Papel de los formantes en la percepcin de las vocales. Los dos primeros son
esenciales para su inteligibilidad. Los restantes aaden naturalidad al habla; cuando se
incorporan en la sntesis de voz artificial, sta suena ms humana.

De esta forma, cada vocal tiene un patrn caracterstico de F1 y F2. Si examinamos los
espectrogramas de las cinco vocales castellanas, ordenadas desde la ms anterior, /i/, la
estrechez causada por la lengua ocurre en la parte delantera de la boca, a la ms posterior,
/u/ (Figura 8#) podemos observar dos principios:

a) F2 es ms alto cuanto ms anterior es la vocal. Esto es debido a que el espacio que
queda delante del estrechamiento causado por la lengua es ms corto cuanto ms
anterior se sita la lengua. Ese espacio es el principal responsable de la segunda
resonancia, o F2; cuanto ms corto, ms alta ser la resonancia.
b) F1 es ms alto cuanto ms abierta es una vocal. La primera resonancia, o F1, depende
principalmente de la abertura del tubo vocal. La vocal ms abierta, /a/, tiene el F1
ms alto de todos. A medida que las vocales son ms cerradas, F1 ocupa posiciones
ms bajas. As, en las vocales semiabiertas (/e/, /o/), F1 est ms bajo que en /a/; y en
las vocales cerradas (/i/, /u/), F1 baja todava ms.

Por otra parte, el abocinamiento que se produce en la /u/ redondeamiento y prolongacin
de los labios tiene el efecto de alargar todo el tubo vocal y, por tanto, el de bajar ambos
formantes.


F1
F2

e a o u
i
Figura 8#. Espectrogramas de las cinco vocales castellanas ordenadas desde la ms anterior, /i/, a la ms
posterior, /u/. Los dos primeros formantes, F1 y F2, estn marcados con lneas claras. Segn Quilis y Esgueva
(1983), unos valores tpicos para un varn adulto podran ser: /i/ (F1=260 Hz, F2=2300 Hz); /e/ (450, 1900);
/a/ (650, 1200); /o/ (470, 900); /u/ (280, 650). Pruebe el lector a sintetizarlas artificialmente en:
www.asel.udel.edu/speech/tutorials/synthesis/vowels.html

Variabilidad de los Formantes. Segn lo visto, cada vocal queda definida por la frecuencia
de sus formantes; particularmente de F1 y F2.
Ahora bien, como los formantes dependen del tamao y la forma del tracto vocal, existen
importantes diferencias individuales a travs de los hablantes de distintas edades y sexo.
Como toda resonancia de tubos, las frecuencias de los formantes son inversamente
proporcionales a la longitud del tubo, en este caso, del conducto vocal medido desde las
cuerdas vocales a los labios. De manera que una misma vocal difiere considerablemente en
los valores absolutos de sus formantes, dependiendo de si es pronunciada por una mujer, un
varn o un nio; y, dentro de cada grupo, tambin hay diferencias segn los tamaos
individuales. En promedio, las mujeres adultas tienen un tracto vocal ms corto (14.75 cm.)
que los varones (17.5 cm.) y sus formantes son un 20 % ms altos o agudos. Los nios
tienen tractos vocales an ms cortos (8.75 cm.) y sus formantes vienen a tener una
frecuencia doble que en los varones adultos (Pickett, 1999).

Un estudio clsico, y muy citado, sobre las vocales inglesas es el de Peterson y Barney
(1952) llevado a cabo sobre producciones de un total de 66 hablantes: 33 hombres, 28
mujeres y 15 nios. El trabajo ha sido actualizado con valores ms recientes por Hillenbrand
et al. (1995). Cuando los valores formnticos de cada vocal se representan en un diagrama
de dispersin F1 x F2 (F1 en un eje y F2 en otro; ver Figura 9#), aparecen nubes o
conglomerados de puntos ampliamente extendidos a lo largo de grandes zonas sealadas por
valos, uno por cada clase de vocal. Cada punto representa una vocal individual
pronunciada por un hablante concreto. La grfica demuestra dos cosas:

- Alta variabilidad de los formantes: La misma vocal articulada por diferentes
hablantes da lugar a una gran variedad de valores formnticos; es decir, los puntos
que representan a la misma vocal se extienden por una amplia regin del plano F1 x
F2.
- Solapamientos entre las reas voclicas: vocales diferentes, dichas por hablantes
distintos, coinciden a veces en el plano y tienen los mismos, o muy parecidos,
valores para F1 y F2; aunque los oyentes no las confunden entre s. Probablemente

esto no ocurre para el castellano, que cuenta con un sistema voclico menos
abigarrado: 5 vocales frente a las 10-12 del ingls

Sin embargo, a pesar de la amplia variedad de valores formnticos para una misma vocal o
del solapamiento de formantes entre algunas vocales distintas, los oyentes no tienen
dificultad en entender el lenguaje y perciben correctamente cada vocal. Parece que cuentan
con un mecanismo perceptivo que les hace distinguir entre, por ejemplo, una /e/ dicha por
un nio y una /i/ dicha por un adulto, aunque ambas tengan los mismos F1 y F2.
Probablemente se apoyan en otras claves acsticas que difieren entre los hablantes, como la
frecuencia fundamental (Fo) u otras, para establecer alguna diferencia de escala. Esto nos
lleva al concepto de normalizacin.

F
2

(
k
H
z
)

F1 (kHz)

Figura 9#. Peterson y Barney (1952). Distribucin de las 10 vocales inglesas en el plano F1 x
F2 de los dos primeros formantes. Los hablantes fueron varones, mujeres y nios.

Normalizacin de la vocales.

Si todos los hablantes fueran del mismo tamao y tuvieran el mismo tracto vocal, una vez
que el odo ha llevado a cabo el anlisis y la extraccin de los formantes, el cerebro podra
relacionar directamente las frecuencias de stos con una vocal particular. Dicho de otro
modo, el cerebro podra consultar una especie de tabla de valores archivada para encontrar
qu vocal concreta corresponde a unos formantes determinados.


Pero, como hemos visto, los hablantes son muy distintos entre s; no solo por las dife-
rencias de sexo y edad, sino por las fuertes disparidades individuales en tamaos del tracto
vocal, formas, masas, elasticidad de los tejidos, y otras propiedades que tienen
consecuencias acsticas. Estas diferencias fsicas entre hablantes resultan en diferencias
considerables en los formantes para una misma vocal. Como un nio tiene las cavidades de
resonancia mucho ms pequeas, sus formantes para, pongamos por caso, la /a/, sern
mucho ms altos que los formantes de un adulto para la /a/. Qu operaciones perceptivo-
cognitivas debe efectuar un oyente para interpretar ambos sonidos, muy distintos en sus
frecuencias absolutas, como la misma vocal? De alguna manera, debe llevar a trmino algn
proceso de estandarizacin o normalizacin que transforme los valores formnticos a una
escala comn que admita la comparacin entre s.

Una primera explicacin fue la teora de la Razn entre Formantes, segn la cual, la
identificacin de la vocales no depende de los valores absolutos de los formantes, sino de la
razn o proporcin entre ellos. Por ejemplo, las vocales anteriores y cerradas, como la /i/ o
la /e/, tienen F1 muy bajo y F2 muy alto, por lo que la proporcin F2/F1 es grande. En
contraste, las vocales abiertas, como la /a/, tienen F1 alto y F2 bajo, por lo que F2/F1 es
pequea. Segn esto, la razn F2/F1 para la /i/ de un nio sera muy semejante a la razn
F2/F1 de la /i/ de un adulto. Cuando esta teora se aplica sobre los datos reales, parece que
funciona razonablemente bien para muchos casos, pero no los explica todos. Hay algunas
vocales que son distintas y, sin embargo, presentan la misma razn F2/F1; por ejemplo, /ae/,
/U/ y /u/ arrojan la misma proporcin de 2.43 (Pickett, 1999). Por tanto, aunque la
proporcin entre F2 y F1 podra jugar un papel importante en la percepcin de las vocales,
debe haber informacin adicional que los oyentes usan para el proceso de normalizacin.

Si la razn F2/F1 no es suficiente para explicar todos lo casos, se han propuesto otras
hiptesis adicionales sobre la normalizacin voclica. stas se dividen entre:

1. Los llamados modelos de normalizacin intrnseca, que consideran que cada vocal
porta suficiente informacin acstica en s misma para permitir la normalizacin.
2. Los modelos de normalizacin extrnseca, que defienden que los oyentes necesitan
informacin externa a la vocal para establecer "un marco de referencia" sobre las
caractersticas del hablante (su edad, sexo, tamao de su tracto vocal, etc.).

Para los partidarios de la normalizacin intrnseca es importante la proporcin F2/F1, pero,
adems, la vocal contiene informacin adicional que permite resolver la ambigedad cuando
sta se produce; en concreto, formantes superiores particularmente F3 y la frecuencia
fundamental de la voz, o Fo (Miller, 1989; Syrdal y Gopal, 1986). J ohnson (1990) entiende
que la frecuencia fundamental es una pista perceptiva importante para identificar el
hablante, su edad, su sexo, etctera, y as poder hacer inferencias acerca del tamao del
tracto vocal necesarias para una correcta interpretacin de los formantes. La evidencia
experimental con estmulos artificiales ha mostrado que la percepcin de las vocales se ve
influenciada por los valores que adopta Fo, y tambin por los de F3.

Para los defensores de la normalizacin externa, los oyentes interpretan los formantes en
referencia a un contexto ms amplio de habla. Es decir, las vocales individuales se perciben
en relacin al inventario completo de vocales de un hablante determinado (J oos, 1948), y
este inventario se extrae de los fragmentos de habla precedentes. Aqu, el trabajo de
referencia, tambin muy citado, son los experimentos de Ladefoged y Broadbent (1957).
Los autores examinaron la identificacin de un conjunto de vocales inglesas sintetizadas

artificialmente dentro de un contexto silbico /b-vocal-t/. Las vocales se daban a escuchar
dentro de una frase que serva de contexto precursor, cuyos valores promedios de F1 y F2
fueron manipulados experimentalmente. Los resultados ensearon que la identificacin de
las vocales se vea influida por los cambios formnticos de la frase. As, cuando F1 fue
bajado experimentalmente en la frase precursora, la slaba /bit/ fue percibida ms a menudo
como / bEt/; es decir, como si, por contraste, el F1 voclico fuera ms alto. Y al contrario, al
subir el valor de F1 en la frase, la slaba /baet/ fue en realidad percibida ms veces como
/bEt/, que tiene un F1 ms bajo. Estos cambios en la identificacin de la vocal estaban en
lnea con lo predicho por la hiptesis: el oyente evaluaba los formantes de la vocal en rela-
cin con el rango de valores contenidos en la frase precursora. Dependiendo de ello, se
escuchaba una vocal u otra, a pesar de que el estmulo fsico era el mismo. Tambin
Dechovitz (1977) encontr resultados semejantes utilizando frases naturales, en lugar de
artificiales; y Nearey (1989) obtuvo datos en la misma lnea utilizando listas de palabras.

En resumen, la investigacin sobre normalizacin de las vocales pone de manifiesto que,
para identificar las vocales, los oyentes utilizan tanto informacin intrnseca F3 y Fo,
como informacin extrnseca sobre el rango de formantes del contexto en que aparece la
vocal. Ahora bien, como concluye Pickett (1999), el hecho de que las vocales producidas de
forma natural son a menudo altamente identificables, incluso estando aisladas y sin
presencia de informacin extrnseca, sugiere que hay suficiente informacin dentro de ella a
pesar de la ambigedad en los valores de F1 y F2. Probablemente esto se aplica an mejor
para el castellano, donde quiz las confusiones son an ms raras al tratarse de un sistema
voclico de slo cinco elementos.

Percepcin continua de las vocales.

Al contrario que algunas consonantes, como veremos despus, las vocales se perciben de
forma continua. Cualquier variacin en las frecuencias de los formantes es percibida por el
oyente. Y cambios continuos y graduales de los valores formnticos se perciben tambin de
forma continua. Si sintetizamos un conjunto de vocales artificiales cuyos formantes tengan
valores que vayan desde los tpicos de una vocal a los de otra, todos los estmulos
intermedios se perciben como vocales intermedias entre ambas. Por ejemplo si entre una /i/
(F1= 260 Hz, F2=2300 Hz) y una /e/ (F1= 440 Hz, F2=1850 Hz) creamos con un
sintetizador de vocales 8 estmulos intermedios en pasos iguales de F1 y F2 (Figura 10#):

(280, 2250), (300, 2200), (320, 2150), (340, 2100), (360, 2050), (380, 2000), (400, 1950),
(420, 1900)

estos estmulos sonarn como vocales intermedias entre ambas. Si los escuchamos se-
cuencialmente oiremos sonidos de vocal /i/ que son cada vez ms abiertos y se van
transformando en una /e/. Esto, por ejemplo, no pasa con las consonantes oclusivas, que son
percibidas de forma categrica y no continua. El lector puede hacer la prueba con el
sintetizador de voz de tipo Klatt, disponible on-line gracias a la Universidad de Delaware
en: www.asel.udel.edu/speech/tutorials/synthesis/vowels.html


e
i
F2
F1
Figura 10#. Percepcin continua de las vocales. Cambios continuos y graduales de las frecuencias de los
formantes se perciben de forma continua. En el ejemplo se han sintetizado 8 estmulos con valores de F1 y
F2 comprendidos entre los tpicos de una /i/ y los de una /e/. En ese orden se perciben como una /i/ que se
va transformando progresivamente en una /e/.

Percepcin de vocales y cerebro.

Es poco lo que se conoce sobre los mecanismos neurales que subyacen a la identificacin de
las vocales. Sabemos que el odo, ms concretamente, el rgano de Corti, lleva a cabo un
anlisis frecuencial de la onda; es como si realizara un "espectrograma" neural del sonido
(cocleograma), en el que las frecuencias bajas estn ms separadas entre s que las altas. A
partir de aqu, es probable que se active algn mecanismo de extraccin de formantes (F1
y F2) y su posterior representacin en alguna forma de mapa neural bidimensional
(Makla et al, 2003; Obleser et al., 2003; Ohl y Scheich, 1997).
La primera descodificacin de la seal acstica es seguro que tiene lugar en el rgano de
Corti del odo, gracias a su capacidad de filtrar y separar los componentes frecuenciales del
sonido. En esta primera etapa tendra lugar un anlisis auditivo primario perifrico que
permitira identificar los formantes como las zonas del espectro de mayor densidad de
energa. Teniendo en cuenta que la resolucin del rgano de Corti es mejor en las
frecuencias bajas, se explicara la importancia y la posibilidad de separacin de los dos
primeros formantes de la vocal. Estos formantes seran codificados en el nervio auditivo (8
par) a travs de la tasa de descarga de poblaciones de fibras auditivas, como as se ha
demostrado en estudios de modelo animal (May, 2003). La informacin sobre los formantes
es transmitida y probablemente transformada a travs de las sucesivas estaciones de relevo
neural (ncleos) antes de llegar a la corteza auditiva.
Estudios recientes con tcnicas de neuroimagen sugieren que el crtex cerebral
izquierdo en el rea auditiva (lbulo temporal) exhibe patrones de activacin e inhibicin
diferenciados dependiendo de la estructura de formantes de la vocal. Makla et al. (2003)
aplicaron recientemente en la Universidad de Helsinki las tcnicas de magnetoencefalo-
grafa (MEG) en el registro de la actividad de la corteza auditiva del hemisferio izquierdo
mientras se perciban la vocales finesas /a/, /o/ y /u/. Encontraron que la activacin magn-
tica en torno a los 100 milisegundos de presentacin del estmulo, lo que se llama respuesta
N1m, presentaba una distribucin espacial que reflejaba las similitudes formnticas entre
vocales. En la medida en que la distancia acstica entre las vocales en el plano F1 x F2 era
mayor, las activaciones neurales presentaban centros de gravedad ms separados. Aunque
no se trata de una prueba definitiva, estos y otros datos sugieren que quiz la categorizacin
de las vocales podra ser explicada, al menos en parte, por una representacin espacial
(tonotpica) de F1 y F2, o alguna transformacin de los mismos, sobre la corteza cerebral.


PERCEPCIN DE LAS CONSONANTES
Las consonantes son producidas por rpidos movimientos o gestos articulatorios que se
imponen sobre los ms lentos de las vocales. La coordinacin de gestos para las conso-
nantes con los gestos voclicos se organiza en las unidades silbicas, cuyo ncleo es la
vocal. Al contrario que las vocales, las consonantes no pueden formar el ncleo de una
slaba. No existen slabas constituidas slo por una consonante, como s puede ocurrir con
una vocal. De hecho, no es posible pronunciar algunas consonantes de forma aislada, sin la
ayuda de una vocal: /p/, /t/, /k/, /b/, /d/, /g/. Algunos autores consideran que las slabas en
esencia son vocales alteradas por delante o detrs por consonantes; o sea, como si las
consonantes fueran los "mrgenes" de las vocales.

La percepcin de las consonantes es, sin embargo, esencial para entender el lenguaje y
obedece a procesos ms complejos que las vocales. Como veremos, presenta caractersticas
particulares que han sido objeto de estudio durante dcadas; en especial, la percepcin
categrica.

Transiciones formnticas

Existen mltiples pistas perceptivas en la seal del habla para la identificacin de los
sonidos consonnticos: por ejemplo, la composicin del ruido en las fricativas como la /s/ o
la /f/, los formantes propios de algunas consonantes como /m/, /n/, /l/, etctera. Pero, por
encima de todas las pistas, destaca una por ser la ms importante: las transiciones de los
formantes voclicos. Cuando pronunciamos una vocal de modo aislado (p.e. /a/), sus
formantes presentan una apariencia estable, ms o menos plana en direccin horizontal. Si la
pronunciamos precedida o seguida de una consonante (p.e. /pa/), la trayectoria formntica se
ve alterada hacia arriba o hacia abajo, por influencia de esa consonante (Figura 11#). Esto
ocurre en la transicin consonante-vocal, si es una slaba directa, o vocal-consonante, si es
una slaba inversa. Estas rpidas inclinaciones formnticas causadas por la presencia de una
consonante se conocen como transiciones de los formantes y constituyen una pista clave
para su identificacin. Esto es especialmente evidente en las consonantes oclusivas.

En particular, las transiciones de F1 y F2 son cruciales para percibir las consonantes; sobre
todo las de F2 (Figura 11b#). Nuestro sistema perceptivo se vale de ellas para identificar con
gran rapidez los distintos sonidos consonnticos que van apareciendo en el habla fluida. En
unos casos las transiciones son hacia arriba, ms o menos pronunciadas, en otros, son hacia
abajo; depende de cada consonante, y ojo! tambin de la vocal. No hay una relacin simple
del tipo: todas las /d/ darn lugar a una transicin hacia arriba, todas las /k/ causarn
transiciones hacia abajo. La relacin es mucho ms compleja, pero nuestro sistema per-
ceptivo se encuentra cmodo en esa complejidad porque no se equivoca.


a p a

Figura 11#. Espectrograma de /apa/. Transiciones de los formantes voclicos por influencia de
las consonantes. Comprese el espectrograma de /a/ con el de /pa/. En este ltimo, la porcin
inicial de los formantes son "empujados" hacia abajo por influencia de /p/.

ga
da ba

Figura 11b#. Las transiciones formnticas son clave para identificar las consonantes.

Veamos el ejemplo que siempre se cita en todos los manuales sobre percepcin del lenguaje.
En la Figura 12#se presentan arriba dos espectrogramas naturales de las slabas /di/ y /du/, y
abajo dos espectrogramas esquemticos donde slo aparecen F1 y F2. Son representaciones
muy estilizadas obtenidas a partir de los espectrogramas naturales. Cuando se pasan por el
sintetizador de voz Pattern Playback, u otro similar, suenan sin lugar a dudas como /di/ y
/du/, respectivamente; eso s, con una voz "robtica" poco natural. La parte estable de los
formantes da lugar a la percepcin de las vocales: F1 y F2 muy separados para la /i/, y
juntos para la /u/. Son las transiciones las que nos hacen escuchar la consonante /d/ en los
dos casos. Qu tienen en comn las transiciones para que oigamos lo mismo? Aqu hay un
problema, porque la transicin de F2 es hacia abajo en la primera slaba, mientras que en la
segunda es hacia arriba; pero en los dos casos suena igual: /d/ (si se escucha junto con F1).

No encontramos un patrn de energa comn que sea responsable de la percepcin de /d/.
Este ejemplo ilustra el problema terico principal sobre la percepcin del habla, que
mencionbamos al principio: la ausencia de invarianza acstica. Es decir, la falta de algo
constante en la representacin espectrogrfica que corresponda con una consonante. Es un
problema que caus perplejidad en los estudios pioneros y ha trado de cabeza a los
investigadores durante varias dcadas; porque no olvidemos que ese "algo constante"
nuestro sistema perceptivo s lo encuentra (si no, no oiramos la misma consonante). De la
diversidad de explicaciones propuestas se han derivado diferentes teoras sobre la
percepcin del lenguaje, que luego veremos.

di du

di
du

Figura 12#. Ejemplo de ausencia de invarianza acstica. En las dos slabas (/di/, /du), el primer
sonido suena /d/ a pesar de que las transiciones formnticas son distintas. Arriba: espectrogramas
naturales. Abajo: versiones estilizadas de los dos primeros formantes.

La relacin compleja entre la seal acstica y la percepcin puesta de manifiesto por la falta
de invarianza tiene otras consecuencias, como la dificultad de segmentar la seal en
fonemas separados y la transmisin paralela de informacin. Al principio se pens que las


unidades del habla se disponan como eslabones de una cadena, como las perlas de un co-
llar. As es como lo representamos en la escritura mediante letras, unas detrs de otras. Pero
el lenguaje no funciona de este modo debido a un fenmeno que es habitual cuando habla-
mos: la coarticulacin, que luego definimos. Para el lingista Charles Hockett, el habla es
ms parecida a una sucesin de huevos de Pascua de distintos colores y espachurrados por
un rodillo; de manera que stos se mezclan entre s y pierden su carcter discreto e indi-
vidualizado. As, la seal acstica del habla no es una ventana transparente a los fonemas; al
contrario, al oyente le corresponde la ardua y complicada tarea de volver a reconstruir y
separar los huevos a partir del amasijo. Pero esto lo hace con naturalidad y sin esfuerzo.

Coarticulacin. A causa de la coarticulacin los rasgos o caractersticas de los sonidos
vecinos se mezclan y se funden entre s. Cuando articulamos un fonema anticipamos
movimientos o gestos articulatorios de los fonemas futuros y arrastramos movimientos
residuales de los precedentes. Hay un solapamiento de movimientos articulatorios que es
como si articulramos ms de un fonema a la vez; de ah la denominacin. Podramos
definirla como el hecho de que el estado del tracto vocal y por tanto la seal acstica
refleja en cada instante no slo el segmento que se est pronunciando en ese momento, sino
tambin segmentos anteriores y posteriores. A veces la influencia proviene de fonemas
situados hasta 6 unidades ms all. La coarticulacin es ms patente cuando los rganos
articulatorios que intervienen en dos fonemas vecinos son distintos; en esos casos el solapa-
miento es ms fcil. Por ejemplo, cuando pronunciamos la slaba /su/, el abocinamiento de
los labios caracterstico de la /u/ se anticipa y se produce ya mientras articulamos la /s/,
"tiindola" de /u/; escuchando slo la /s/ "adivinamos" prcticamente sin error que la vocal
siguiente es la /u/.
Este hecho, aparentemente anodino, es fundamental para que el habla se descodifique a
una velocidad muy alta. En definitiva la coarticulacin tiene una doble consecuencia: a) por
una parte, complica la seal acstica y hace que la relacin sonido-percepto sea compleja; b)
por otra, y esta es la cara buena de la moneda, permite que el sistema perceptivo descifre los
fonemas a una velocidad impensable para cualquier otra clase de sonido.

Como efecto de la coarticulacin los sonidos se mezclan y hay dificultad en segmentar la
seal en fonemas independientes. As, la figura 12#nos indica que la parte estable de los
formantes corresponde a la vocal (/i/ /u/), mientras que las transiciones corresponden a la
consonante inicial (/d/ en los dos casos); pero es imposible segmentar el estmulo en dos
partes, de manera que en una suene slo la /d/ y en otra slo la vocal. Si el "corte" lo damos
demasiado pronto (a la izquierda), el primer fragmento no suena a habla (ni a /d/ ni a vocal),
sino a una especie de "chirp" que nada tiene que ver con el lenguaje. Si el corte se sita lo
suficientemente a la derecha para poder or la /d/, ser inevitable "adivinar" u or el
comienzo de la vocal siguiente. A este fenmeno se le ha referido tambin como
transmisin de informacin en paralelo. Mientras omos la /d/ tambin omos la vocal que
le sigue; en el ejemplo anterior de la slaba /su/, mientras percibimos la /s/, tambin
percibimos la /u/. Y esto es comn en la seal del habla humana porque ha sido coarticulada
en origen. Este fenmeno no sucede en otros tipos de cdigos acsticos, donde la
transmisin es serial; en Morse una seal, sea larga o corta, no transmite informacin sobre
la seal siguiente o anterior.


PERCEPCIN CATEGRICA
Hemos visto que las vocales se perciben de modo continuo: cambios graduales y continuos
de las frecuencias de los formantes se perciben de forma continua. Por el contrario, las
consonantes, en concreto las oclusivas (/p/, /t/, /k/, /b/, /d/, /g/), se perciben de forma
categrica:

Cambios continuos y graduales a lo largo de una dimensin del estmulo no son percibidos
de modo continuo, sino de forma discreta o por categoras.

El estudio seminal que primero lo puso de manifiesto experimentalmente se debe a
Liberman, Harris, et al. (1957) de los Laboratorios Haskins. Sintetizaron una serie de 14
estmulos formados por representaciones esquemticas de F1 y F2 para ser escuchados por
el Pattern Playback (Figura 13#). Todos los estmulos eran iguales salvo en la transicin de
F2, que variaba de forma gradual desde un inicio bajo hasta un inicio alto (un ejemplo de
estmulo completo es el 14). Al pasarlos por el sintetizador de voz, la mayora de los
participantes escuchaban ejemplos claros de /be/, /de/ y /ge/; pero no lo hacan de modo
continuo, sino categorial. Vamos a explicarlo. La parte estable de los formantes corresponde
a la vocal, /e/, mientras que las transiciones son debidas al efecto de la consonante. Segn la
inclinacin de F2 se oye una consonante u otra; eso ya era algo sabido. Cuando F2 tiene un
inicio bajo, se oye /b/ (estmulo 1); si el inicio es intermedio, en el mismo plano que la
vocal, se oye /d/ (estmulo 8); si el inicio es alto (estmulo 14) se oye /g/. Pero qu ocurre
con los estmulos intermedios? Aqu est el meollo de la cuestin; si la percepcin fuera
continua como en las vocales, se escucharan formas intermedias de las tres consonantes,
pero no sucede as. Los estmulos 1, 2, 3, y 4 se oyen /be/, y siempre con la misma
consonante, sin diferencias entre ellos; los estmulos 5, 6, 7, 8, y 9 se oyen como ejemplos
idnticos de /de/; y los restantes, 10, 11, 12, 13, y 14, como ejemplos idnticos de /ge/. O
sea, es como si existieran valores crticos o fronteras en la dimensin estudiada transicin
de F2- que al cruzar de un lado a otro pasramos de una categora de sonido a otra, y
atencin! sin diferencias internas dentro de cada categora. As al pasar del estmulo 4 al 5,
pasamos de la categora de la B a la D, pero dentro de cada categora todos los estmulos
suenan indistinguibles entre s: no notamos diferencia entre por ejemplo el 2 y el 3. Al pasar
del estmulo 9 al 10, cruzamos desde la categora D a la G, pero en el interior de cada una
todos los estmulos suenan igual. Esto es un ejemplo claro de percepcin categrica o por
categoras.


Figura 13#. Percepcin categrica de las consonantes. Los estmulos 1-4 se oyen como /be/; los 5-9 como /de/
y los 10-14 como /ge/. Dentro de cada grupo no se perciben diferencias. Un ejemplo de estmulo completo es
el 14. (Liberman, Harris et al#(1957)

Los experimentos que estudian la percepcin categrica utilizan dos tipos de pruebas o
tareas, cuyos resultados se comparan entre ellas: tareas de discriminacin y tareas de
identificacin:

1. En las tareas de discriminacin los estmulos se comparan entre s. Hay varios
paradigmas experimentales posibles. As, en el paradigma llamado AX se presenta
un estmulo y a continuacin otro, que puede ser el mismo estmulo repetido, u otro
distinto; la tarea del oyente consiste en responder igual o diferente. En un diseo
ligeramente ms complejo, ABX, se presentan dos estmulos sucesivos que siempre
son distintos (y as se le dice al oyente en las instrucciones); a continuacin se
presenta un tercer estmulo que siempre es uno de los dos anteriores: el oyente debe
decidir cul de los dos es este tercer estmulo. La tarea puede resultar ms fcil o
difcil manipulando ciertas variables, entre ellas el tiempo que media entre los
estmulos.
2. En la tarea de identificacin se presenta un nico estmulo en cada ensayo y el
oyente debe identificarlo indicando la etiqueta o nombre del estmulo; en este caso,
de qu consonante se trata.

Por supuesto, tanto en una prueba como en otra los estmulos se presentan en ensayos
aleatorios, para evitar cualquier efecto de orden. Cuando la percepcin es de tipo categrico,
la identificacin es constante dentro de una categora (casi el 100% de los oyentes
identifican todos los estmulos con la misma etiqueta) y al cambiar de categora, sta cambia
tambin bruscamente.
La discriminacin guarda relacin con la identificacin: dentro de una misma categora los
estmulos son difcilmente discriminables entre s y las repuestas rozan el nivel de azar
(50%); cuando los estmulos que se comparan pertenecen a categoras distintas la
discriminacin es casi perfecta (prxima al 100%). Es decir hay una dicotoma o
discontinuidad en los resultados: error dentro de la misma categora, y desempeo casi
perfecto entre categoras distintas. Este todo-o-nada no aparece en la percepcin continua,
donde los resultados son proporcionales a la distancia entre los estmulos cuanto ms
distintos mejor se discriminan.


Por qu los sonidos del habla, en concreto las consonantes oclusivas, se perciben de forma
discontinua o categrica, al contrario que otros muchos sonidos, que son percibidos de
modo continuo (p.e. tonos)? Mucho se ha discutido sobre la cuestin y los autores
defensores de un mecanismo especial para la percepcin del lenguaje han visto en ello una
manifestacin de su existencia. Retomaremos la cuestin al tratar las distintas teoras sobre
la percepcin del habla.

Lo cierto es que la percepcin categrica se ha hecho evidente no slo respecto a las
transiciones de F2, sino tambin en relacin a otras dimensiones acsticas relevantes para la
distincin entre consonantes. La dimensin ms estudiada y la que, con mucho, ms
volumen de investigacin ha generado es el archimencionado VOT o Voice Onset Time.

Contraste sordo-sonoro (VOT)

El parmetro estrella en la investigacin psicolingstica sobre percepcin del lenguaje es,
sin duda, el conocido como VOT o Voice Onset Time. El tmino se ha traducido al
castellano de mltiples formas: tiempo hasta el inicio de la voz, tiempo de emisin de voz,
TEV, tiempo de emisin voclica, intervalo de inicio de sonoridad, etctera; pero aqu
conservaremos su denominacin original, el acrnimo VOT, por la universalidad de su uso.
De su valor depende que escuchemos una oclusiva sorda o una sonora. Prcticamente todas
las lenguas del mundo tienen consonantes oclusivas, aunque su distribucin vara de unas a
otras. En la Figura #, tenemos las seis oclusivas del castellano, organizadas segn su punto
de articulacin (labial, dental, velar) y sonoridad (sorda, sonora).

labiales dentales velares
sordas: / p / / t / / k /

sonoras: / b / / d / / g /

Figura#. Consonantes oclusivas castellanas agrupadas por parejas de sorda-sonora.

Para entender cmo afecta el VOT a la percepcin, hay que conocer antes la mecnica
articulatoria de las consonantes oclusivas. Cuando pronunciamos una de ellas, por ejemplo
en posicin inicial de slaba, hay una secuencia de los siguientes movimientos articulatorios
(Figura 14#):

Movimiento 1:. Oclusin o interrupcin completa, durante varias decenas de mili-
segundos, de la salida de aire de la boca y, por tanto, de la energa acstica. La
oclusin se realiza con los labios, en las consonantes labiales /b/ y /p/; con la lengua
contra los dientes, en las dentales espaolas /t/ y /d/; o con la parte posterior de la
lengua contra el velo del paladar, en las velares /g/ y /k/.
Movimiento 2: Liberacin del aire. Los rganos obstruyentes se separan bruscamente
liberando el aire a presin y dando lugar a una pequea explosin o burst.


Movimiento 3: Comienzo de vibracin de las cuerdas vocales para el inicio de la vocal
que sigue a la oclusiva.

Los estudios demuestran que existe una sincronizacin temporal muy fina, de milisegundos,
entre estos tres movimientos a pesar de que pertenecen a grupos musculares y nervios
craneales distintos. Esta perfecta coordinacin, cuyo mecanismo responsable probablemente
se ubica en el rea de Broca de la corteza cerebral, puede verse alterada en ciertas patologas
del habla. La diferencia perceptiva entre /b/ y /p/, o entre /d/ y /t/, o /g/ y /k/ viene dada por
la relacin temporal entre los movimientos 2 y 3. Son pares de fonemas que son iguales en
todos sus rasgos, salvo en el de la sonoridad.

El VOT es la distancia temporal entre los movimientos 2 y 3. Es decir, los milisegundos que
trancurren desde el burst, o liberacin bruca del aire, y el inicio de la vibracin de las
cuerdas vocales. Tomando el movimiento 2 como cero, el VOT puede ser positivo o
negativo. Por ejemplo, un VOT de +45 milisegundos significa que primero tiene lugar el
movimiento 2 (liberacin de aire y "burst") y 45 mseg. ms tarde ocurre el movimiento 3.
Un VOT de 0 mseg indica que ambos movimientos coinciden en el tiempo. Cuando el orden
se invierte y el movimiento 3 precede al 2, lo cual es muy frecuente en algunos idiomas
como el espaol o el tai, se habla de un VOT negativo. Un VOT de -25 mseg. indica que
primero ocurre el movimiento 3 y 25 milisegundos ms tarde ocurre 2; en este caso, las
cuerdas vocales comienzan a vibrar antes de la liberacin del aire.

/s/ /a/ /k/ /o/

1
2 3
VOT = 45 mseg

Figura 14#. Espectrograma de la palabra "saco". Obsrvense los tres movimientos articulatorios de
la consonante oclusiva (/k/): 1. Oclusin completa de la salida de aire (y de la energa acstica). 2.
Liberacin brusca del aire que produce una pequea explosin o burst. 3. Inicio del
funcionamiento de las cuerdas vocales en la produccin de la vocal siguiente. El parmetro VOT
viene dado por el tiempo que media entre los movimientos 2 y 3 (45 milisegundos en este caso).

Las oclusivas sordas (/p/, /t/, /k/) se diferencian de las sonoras (/b/, /d/, /g/) en que tienen
un VOT ms largo que stas. En la mayora de las lenguas existe una distincin entre

oclusivas sordas y sonoras en base al valor del VOT. De todos los valores numricos que
podra adoptar el VOT en un continuo temporal, hay lmites crticos que sirven de frontera
entre las categoras (Lisker y Abramson, 1964). En este sentido, el ingls se comporta de
distinta manera que el espaol (Figura 15#). Por ejemplo, en ingls la frontera de las labiales
se sita en torno a 25-30 milisegundos: la consonante sorda (/p/) tiene un VOT superior a
ese lmite, y la sonora (/b/) inferior. En espaol, el lmite se sita en torno a un VOT=0
milisegundos. Algunas lenguas, como el tai, tienen tres categoras distintas: a las categoras
de sorda y sonora se aade una tercera llamada pre-sonora.

INGLS: sonoras

sordas
ESPAOL: sonoras

sordas
TAI: pre-sonoras

sonoras

sordas
-50 -40 -30 -20 -10 0 +10 +20 +30 +40 +50

Figura 15#. Valores lmite del parmetro VOT (Voice Onset Time) que marcan la separacin entre categoras
de oclusivas labiales en tres lenguas distintas. Los nmeros indican milisegundos.

Experimento pionero. Desde el punto de vista de perceptivo, uno de los estudios ms
citados es el trabajo pionero de Abramson y Lisker (1967), tambin de los Laboratorios
Haskins. Los autores crearon una serie de 31 estmulos artificiales para ser escuchados a
travs del Pattern Playback iguales en todo, salvo en el valor del VOT. ste variaba en
pasos de 10 milisegundos desde 150 hasta +150 milisegundos. Los resultados mostraron
que la percepcin era claramente categrica. Las respuestas en la tarea de identificacin se
distribuan de acuerdo con la grfica de la Figura 16#. Cuando el VOT era inferior a 25-30
milisegundos casi el 100 % de las respuestas identificaban los estmulos como la consonante
/b/; cuando el VOT era superior a ese lmite, casi el 100% de las identificaciones eran para
la consonante /p/. Slo en las inmediaciones del lmite apareca una estrecha zona de
incertidumbre, en la que las respuestas se repartan entre ambas categoras. Por otra parte,
los datos de la tarea de discriminacin indicaban que los oyentes tenan dificultades en
distinguir entre pares de estmulos dentro de una categora, mientras que las
discriminaciones correctas suban espectacularmente cuando los estmulos cruzaban la
frontera, es decir, pertenecan a categoras distintas.

Se ha discutido mucho sobre si hay percepcin categrica en otros sonidos que no sean del
habla; y, de hecho, bajo ciertas condiciones, algunos estmulos de no-habla se perciben de
forma discontinua, como veremos luego (Miller et al., 1976; Pisoni, 1977, en Diehl2004).
Por otra parte, trabajos ms recientes indican que los oyentes s pueden percibir diferencias
entre los estmulos de una misma categora fontica y que sta cuenta en su interior con una
rica estructura interna organizada en torno a representaciones prototpicas (Allen y Miller,
2001; Miller, 1994; Miller J L, O'Rourke TB, Volaitis L, 1997).

Parece que la percepcin categrica confiere al oyente la ventaja de centrarse en los as-
pectos de la seal que son importantes para identificar los fonemas e ignorar variaciones no
esenciales dentro de la categora fontica (Werker, 1989, en Ryalls). En palabras de Ryalls
(1996, pg. 54):


La percepcin categrica es caracterstica de ciertas distinciones de sonidos del habla y generalmente
no se la encuentra en la mayora de los sonidos de no-habla. Se piensa que representa uno de los
caminos en los que el sistema perceptivo humano se ha adaptado de modo especial a la percepcin
del habla. Representa una forma de manejar la enorme cantidad de variacin entre las diferentes
producciones del mismo sonido que tpicamente encontramos en el habla humana. Nos da un medio
de manejar esta variacin en tiempo real diferencias irrelevantes entre distintas producciones del
mismo sonido de habla se ignoran con el fin de acelerar el proceso de reconocimiento. De otro modo,
podramos emplear mucho tiempo en decidir qu fonemas asignamos a ciertos sonidos que suenan
ambiguos. La percepcin categrica evita as una gran cantidad de trabajo potencial para hacer
conjeturas, ya que [gracias a ella] normalmente no omos los sonidos como ambiguos.

Esto descargara de trabajo al sistema perceptivo y permitira concentrar casi todos los
recursos cognitivos en lo que verdaderamente importa en el lenguaje: la extraccin del
significado.

Figura 16#. Respuestas en una tarea de identificacin (consonante B versus P) de estmulos artificiales de
habla, cuyo VOT vara desde 150 a +150 mseg., en incrementos de 10. Las respuestas presentan una
distribucin claramente categrica con una estrecha zona de incertidumbre en torno al lmite de VOT=
+25-30 mseg. Datos basados en Abramson y Lisker (1957).

PERCEPCIN DEL HABLA EN LA INFANCIA
Muchos autores, partidarios de la existencia de un mecanismo especializado para percibir
el lenguaje, vieron en la percepcin categrica una prueba a su favor, ya que sta surga
como una propiedad "especial" y tpica de los sonidos del habla. Su argumentacin cobr
fuerza cuando a comienzos de los aos 70 apareci en Science el paradigmtico trabajo de
Peter Eimas y su equipo de la Universidad de Brown, en el que se demostraba que la
percepcin categrica de algunos fonemas era innata en el ser humano y se manifestaba
desde los primeros meses de vida (Eimas et al. 1971).
Hasta ese momento haba una creencia extendida de que los bebs, igual que tienen que
aprender a hablar, vienen al mundo sin la habilidad de percibir los sonidos del habla y tienen
que adquirirla a medida que se ven expuestos al lenguaje. Pero aquel estudio y otros que

vinieron despus demostraron que, en lo que se refiere a la percepcin del habla, los seres
humanos no nacen como una hoja en blanco.

Experimento de Eimas. El experimento de Peter Eimas y sus colaboradores se llev a cabo
con bebs de tan slo 1 a 4 meses de edad (ver una revisin, en castellano, escrita por Eimas
en el nmero 105 de Investigacin y Ciencia, marzo de 1985). Los autores emplearon tres
conjuntos de estmulos de habla con distintos valores de VOT. Segn los trabajos previos
con adultos (Lisker y Abramson, 1957), se saba que un VOT de 25-30 milisegundos marca
una frontera crtica para las consonantes oclusivas del ingls; de manera que por debajo de
ese valor los estmulos se identifican como /b/ (sonora), y por encima, como /p/ (sorda). Dos
estmulos distintos, uno a cada lado de esa frontera, se discriminan fcilmente entre s por
personas adultas. Sin embargo, dos estmulos que estn ambos en el mismo lado de esa
frontera, es decir dentro de la misma categora fontica, son difcilmente discriminables
entre s, "suenan" igual. Sabiendo esto, Eimas puso a prueba la capacidad de los bebs para
discriminar entre pares de estmulos formados por una consonante ms la vocal /a/. Haba
tres tipos de pares:

a) Un par estaba formado por un estmulo con un VOT=20 mseg. (por debajo del
lmite crtico) y otro con VOT=40 mseg. (por encima del lmite crtico).
b) Otro par lo componan dos estmulos cuyos VOT eran 0 y 20 mseg., res-
pectivamente. O sea, ambos dentro de la misma categora (los dos suenan como /ba/
a los oyentes adultos).
c) Y otro par con VOT respectivos de 60 y 80 mseg, tambin pertenecientes a la misma
categora (/pa/ para los adultos).

La idea era administrar primero un estmulo del par y a continuacin el otro, para poder
observar si el beb los percibe como iguales o distintos.

Ahora bien, cmo podra comunicar un beb lo que
oye en un experimento perceptivo? Con los adultos es
sencillo, no tienen ms que decirlo o pulsar un botn,
pero un beb de 1-4 meses no es capaz de ninguna de
esas respuestas (ni de entender las instrucciones).
Eimas y sus colegas emplearon un ingenioso mtodo
que luego se ha utilizado mucho por otros
investigadores. Se basaron en la respuesta natural de los
bebs llamada de succin no nutritiva. Comprobaron
que podran medir el nmero de succiones que un beb
ejerce en un chupete si se le acopla un dispositivo
sensible a la presin, conectado a un instrumento de
registro (Figura 17#). Normalmente los bebs
succionan sobre 20 a 40 veces por minuto. Durante el
experimento, cada vez que se registraba una respuesta
de succin se administraba un estmulo. El beb
descubra la contingencia y succionaba a un ritmo
rpido durante varios minutos hasta que se
acostumbraba al estmulo. Cada vez que el beb percibe
un estmulo nuevo, su ritmo se incrementa otra vez hasta que vuelve a habituarse a ese
estmulo y su tasa de succin recobra la lnea base. En las sesiones experimentales, despus
de escuchar durante varios minutos un estmulo del par, se le sustitua por el otro y se


observaba qu ocurra con la tasa de succin: si sta aumentaba bruscamente era seal de
que el beb perciba este segundo estmulo como nuevo; si la tasa continuaba bajando,
significaba que el beb no perciba la diferencia. De este modo, los investigadores podan
saber si dos estmulos eran discriminados entre s por el beb.

Un resumen de los resultados principales se presenta en las grficas de la Figura 18#. En
cada una, observamos el nmero de respuestas de succin por minuto ante la presentacin
de un par sucesivo de estmulos. Durante los primeros 5 minutos se presenta el primer
estmulo del par, y, a partir del minuto 0, se presenta el segundo estmulo. En la condicin
A, los dos estmulos tienen respectivamente un VOT de 20 y 40 milisegundos,
pertenecientes a categoras fonticas distintas; de las respuestas se desprende que el beb los
percibe como distintos y, por esa razn, la tasa de succin sube bruscamente al cambio
estimular. En la condicin B, los dos estmulos pertenecen a la misma categora; en unas
sesiones se trataba del par de VOT=0 y 20 mseg., en otras, del par de VOT=60 y 80 mseg.
Aparecen juntos los datos de ambas sesiones porque el resultado es semejante: el beb no
percibe la diferencia entre el primer y el segundo estmulo, por lo que su tasa de succin
sigue bajando hasta regresar a la lnea base. En la condicin de Control no hay cambio de
estmulo, y la tasa de succin tambin desciende.
A pesar de que todas las parejas de estmulos tienen la misma distancia de 20 mseg entre
sus VOT, slo la que cruza la frontera crtica de 25-30 mseg es discriminada por el beb
como sonidos distintos; de forma semejante a como sucede en los oyentes adultos. La
percepcin del beb era, pues, tambin de tipo categrico, sin discriminar diferencias dentro
de la misma categora y slo entre sonidos de categoras distintas. Sorprendentemente, un
bebe sin experiencia lingstica se comportaba perceptivamente como un adulto.

Como el lector puede imaginar, el impacto del trabajo de Eimas sobre la comunidad
cientfica fue enorme. Vena a dar una visin opuesta a las suposiciones ms arraigadas: los
bebs no nacen como una hoja en blanco que luego se tiene que rellenar, sino que, desde el
principio, vienen al mundo dotados de los principios bsicos para la percepcin del
lenguaje, antes de haber tenido ninguna experiencia significativa con el mismo. De hecho,
resultados similares se hallaron en bebs incluso menores de 1 mes (Bertoncini et al.#, en
Ryalls). Dada la edad de los sujetos, sera difcil explicar estos datos como producto del
aprendizaje. En palabras de Eimas (1974, pag. 49), "una visin ms simple es que la
categorizacin ocurre porque el nio ha nacido con los mecanismos perceptivos afinados a
las propiedades del habla".


15
30
45
60
75
5 4 3 2 1 0 1 2 3 4
15
30
45
60
75
5 4 3 2 1 0 1 2 3 4
15
30
45
60
75
5 4 3 2 1 0 1 2 3 4

Minutos
A B
Control

Figura 18#. Resultados del experimento de Eimas et al. (1971) con bebs de 1-4 meses de edad. Respuestas de
succin por minuto ante la presentacin de un par de estmulos. Durante los primeros 5 minutos se presenta el
primer estmulo del par; a partir del minuto 0 se presenta el segundo estmulo. En (A) los dos estmulos tienen
VOT de 20 y 40 milisegundos, pertenecientes a categoras fonticas distintas. En (B) los dos estmulos
pertenecen a la misma categora (VOT=0 y 20 mseg.; o bien VOT=60 y 80 mseg.). En la condicin de control
no hay cambio de estmulo.

Pronto nuevos estudios obtuvieron resultados semejantes para otros contrastes fonticos
distintos del VOT. Los datos indicaban una percepcin categrica en los bebs semejante a
la observada en los adultos (Eilers et al., 1980; Kuhl et al, 1979; Lasky et al., 1975; Stretter,
1976; ver J usczyk, 1994, para una revisin).

Mtodos. Al procedimiento de Eimas se le conoce como paradigma basado en la succin
no nutritiva, o tambin HAS-High Amplitude Sucking o de respuesta de succin de
amplitud alta. Otro procedimiento parecido se basa en la tasa cardiaca del beb sta
aumenta ante estmulos nuevos (Lasky, Klein, et al. 1975). Una diferencia importante es que
la tasa cardiaca no es una conducta que el beb realiza voluntariamente para recibir ms
estmulos, sino una respuesta autnoma ante la novedad estimular.

Para bebs algo mayores, entre 6 y 18 meses, que ya pueden mantenerse sentados en el
regazo de un adulto, se emplea preferentemente el paradigma HD-Head Turn o de giro de
cabeza; tambin conocido como VRISD -Visually Reinforced Infant Speech Discrimination
(Figura 19#). Aqu primero se condiciona al nio a girar la cabeza cada vez que detecta un
cambio en un sonido de fondo (p.e. una slaba repetida) para ver cmo se ilumina una caja
con un mueco dentro. Mientras oye el mismo sonido repetido, la caja permanece oscura; en
el momento en que se administra un estmulo nuevo, la caja se ilumina y el mueco se
mueve por activacin elctrica. Esto se repite varias veces durante una fase previa hasta
lograr el condicionamiento. Una vez que el nio se ha condicionado, se puede pasar a la fase


experimental, en la que se emplean los estmulos que se queren estudiar. De este modo se
sabe cundo un estmulo se percibe como igual o distinto a otro, segn la respuesta de giro.
Todos los adultos que intervienen en la sesin, tanto la madre que sostiene al nio, como el
experimentador, escuchan msica a travs de auriculares para no or los estmulos y evitar
cualquier seal involuntaria, por pequea que sea, que pudiera captar el beb.

Figura 19#. Paradigma experimental del giro de cabeza para bebs de 6 o ms meses de edad. En la fase de
entrenamiento, se condiciona al beb a girar la cabeza para ver un mueco que se activa cada vez que hay un
cambio en el estmulo de fondo. De esta manera, en la fase experimental se puede saber si el beb discrimina
entre dos estmulos distintos. Todos los adultos que participan en el experimento escuchan msica por
auriculares, para no or los estmulos.

Capacidades perceptivas de los bebs. Con todos estos metodos descritos se hicieron
importantes observaciones durante los aos setenta y siguientes. Result sorprendente
comprobar que los bebs podan discriminar, incluso, contrastes fonticos que los adultos de
su entorno eran incapaces. As, los hablantes adultos del ingls tienen dificultades para

distinguir las consonantes espaolas /b/ con VOT =20 mseg., de las /p/ con VOT =+20
mseg., porque para ellos todas suenan como /b/ inglesa (ver los lmites para las distintas
lenguas en la Figura 15#). Pero los bebs nacidos en ambiente ingls s son capaces durante
los primeros meses (Aslin, Pisoni, en Ryalls). Los bebs japoneses, como todos los bebs
del mundo, pueden discriminar entre /r/ y /l/, pero sus padres no.

Parece como si los bebs nacieran con la capacidad natural universal de percibir todos o
casi todos los contrastes fonticos existentes en las lenguas del mundo, y luego conservaran
slo los propios de la suya.

Esto quiere decir que en algn momento del paso de beb a adulto, ste pierde su capacidad
para percibir ciertos contrastes fonticos que no existen en su lengua. El trabajo de los
canadienses J anet Werker y Richard Tees (Werker y Tees, 1984, y reeditado en 2002),
demostr que este periodo es asombrosamente corto: durante el primer ao de vida. En un
experimento muy citado, estos investigadores estudiaron un grupo de bebs de 6-8 meses de
edad criados en ambiente ingls, a travs del mtodo del giro de cabeza. Comprobaron que
a esa edad eran capaces de percibir dos contrastes propios de otras lenguas, inexistentes en
el ingls; en concreto, uno era de la lengua amerindia salish y el otro del hindi. Sin embargo,
las pruebas repetidas a los 8-10 meses y a los 10-12 meses de edad, evidenciaron que esta
capacidad iba declinando hasta casi desaparecer al cumplir su primer ao de vida. Por el
contrario, como muestra la Figura 20#, otros nios criados respectivamente en ambientes
salish e hindi, conservaban la capacidad de percibir tales contrastes presentes en sus
lenguas. Parece que el entorno lingstico ejerce un efecto selectivo potenciando la
capacidad de percibir los contrastes existentes en la lengua nativa e inhibiendo los ajenos.
Estudios con bebs japoneses tambin apuntan al mismo periodo corto en la prdida del
contraste /r/-/l/ (Kuhl, Kiritani, 1997)

Se pierde esta capacidad para siempre? Se produce una atrofia definitiva de la misma?
Probablemente no; pero su recuperacin en muchos casos slo es posible tras un arduo y
prolongado entrenamiento; como as ocurre con los adultos japoneses respecto al contrate
/r/-/l/. Tampoco es seguro que todos los individuos lo consigan, ni que se generalice a todas
las condiciones de audicin por ejemplo, en habla conectada y rpida.

Para Werker (2003), no es casual que el periodo durante el cual declinan las habilidades
perceptivas hacia los contrastes no-nativos coincida con el momento en que aparecen las
primeras palabras en la lengua nativa (primer ao). El hecho de que en tan corto periodo
permanezcan prcticamente slo los contrastes nativos, probablemente guarda relacin con
la deteccin y aprendizaje de palabras en el entorno estimular. Tal vez los bebs usan y se
basan slo en las categoras fonticas establecidas durante su primer ao de vida como gua
para identificar y adquirir las primeras unidades lxicas de un lenguaje.


0
20
40
60
80
100
6- 8 meses 8-10 meses 10-12 meses . 11-12 meses
hindi
salish
bi
a
m
b
i
a
m
b
i

Figura 20#. Resultados del estudio de Werker y Tees (1984). Porcentaje de respuestas correctas en
la percepcin de dos contrastes fonticos ajenos al ingls y pertenecientes a la lenguas hindi y
salish, respectivamente. Los bebs criados en ambiente ingls tienen a los 6-8 meses de edad la
capacidad de percibir dichos contrastes, pero la van perdiendo a lo largo de su primer ao de edad.
Por el contrario, los bebs criados en ambientes respectivos hindi y salish la conservan.

Un campo todava poco estudiado son las habilidades perceptivas del beb cuando ste pertenece a un
ambiente bilinge. En un trabajo reciente, llevado a cabo en la Universidad de Barcelona, se analiz el
impacto de la exposicin bilinge sobre la percepcin de contrastes fonticos nativos; en concreto, el contraste
cataln entre la vocal e-abierta y e- cerrada, inexistente en castellano. Se estudi a bebs de 4 y 8 meses de
edad crados en tres tipos de ambientes: castellano-monolinge, cataln-monolinge y castellano/cataln-
bilinge (Bosch y Sebastin-Galls, 2003). Como se esperaba, todos los bebs ms pequeos eran capaces de
establecer este contraste fontico, independientemente de su entorno lingstico. Pero a la edad de 8 meses
slo conservaron esta habilidad los crados en ambiente cataln monolinge, no as los castellano-monolinges
ni, inesperadamente, los bilinges. Un experimento adicional a los 12 meses de edad revel que los bilinges
recuperaban finalmente esta habilidad discriminatoria. Los resultados parecen indicar que existe un patrn
especfico de desarrollo y organizacin de las capacidades perceptivas ante una exposicin bilinge. Se trata
de un dominio que apenas empieza a ser explorado.

Percepcin temprana de la Prosodia.

Todo lo visto hasta ahora se refiere a la capacidad infantil de percibir contrastes entre
segmentos fonticos, tales como los sonidos consonanticos o voclicos. Nada se ha dicho en
relacin a las variables de naturaleza suprasegmental, o prosodia del lenguaje; es decir, su
estructura rtmica y entonacional.

Cuando nace un ser humano, le espera por delante la compleja tarea de desarrollar todo un
sistema lingstico completo. En palabras de Bloomfield (1933), le aguarda la hazaa
intelectual ms grande a la que se enfrenta cualquier ser humano. An no se conocen en
detalle los mecanismos que permiten al beb identificar las palabras a partir de la corriente
del habla, pero est claro que antes de llegar a establecer un repertorio de consonantes y
vocales en su lengua materna, los nios deben ser capaces de descubrir su propia lengua
materna en un mundo de ruidos y sonidos (Carreiras, 1997).

Parece que los bebs estn capacitados desde un principio para percibir la estructura rtmica
y prosdica de una lengua, como as lo demuestran varios trabajos experimentales basados

en el paradigma de la succin no nutritiva. Uno de los ms citados es el dirigido por J acques
Mehler en el CNRS o Centre National de la Recherche Scientifique en Pars. l y su equipo
descubrieron que los bebs de tan slo 4 das eran capaces de discriminar su lengua
materna de otra lengua extranjera. Se trataba de bebs nacidos en Francia que, a travs de
sus respuestas de succin, demostraban su preferencia por escuchar estmulos en francs, en
lugar de estmulos en ruso, ambos pronunciados por una misma persona bilinge franco-
rusa (Mehler, J usczyk, Lambertz et al., 1988). Esta preferencia se mantena incluso despus
de filtrar los estmulos y eliminar todas las frecuencias superiores a 400 Hz o ciclos por
segundo. Con esta operacin el habla ya no es inteligible porque pierde la informacin sobre
los segmentos fonticos individuales, pero conserva prcticamente intacta su estructura
rtmica y entonacional (es como escuchar a una persona hablando con una almohada en la
cara). Sin embargo, si los estmulos completos se administraban en sentido inverso; es decir,
de atrs a adelante, empezando por el final, en cuyo caso la estructura prosdica y
entonacional especfica de una lengua queda alterada, los bebs no discriminaban las
lenguas.
Esta preferencia temprana por la lengua materna es un hallazgo robusto que se ha repetido
en otros estudios (por ejemplo, Moon et al. 1993, con bebs de dos das). Parece, por tanto,
que la habilidad del beb para discriminar su lengua materna descansa fundamentalmente
sobre una representacin de su prosodia. Es muy probable que esta preferencia nazca de su
experiencia previa dentro del tero materno. De hecho, el filtrado que permite pasar slo
las frecuencias graves, inferiores a 400 Hz, deja una seal acstica bastante parecida a la
que llega al feto a travs del lquido amnitico.

Algunos trabajos muestran que la exposicin prenatal a los sonidos del habla tiene una
influencia considerable sobre la percepcin posterior del recin nacido. De Casper y Fifer
(1980) descubrieron que los recin nacidos prefieren escuchar la voz de la madre frente a
otras voces femeninas.
En un conjunto de 10 recin nacidos, los autores grabaron las voces de sus madres inmediatamente despus del
parto para ser usadas en un experimento perceptivo. El primer paso consisti en examinar el ritmo propio de
succin de cada beb, midiendo los tiempos de succin ininterrumpida y los intervalos o pausas entre succio-
nes; se obtuvo, as, la "lnea base" de cada uno. Luego se seleccionaron 5 bebs al azar y se les hizo escuchar
la voz de su madre cuando sus intervalos inter-succin eran superiores al promedio; si los intervalos eran ms
cortos se les haca or la voz de otra madre distinta. Para los otros 5 bebs las condiciones fueron las inversas.
Se consider como indicador de preferencia por la voz materna el que los bebs ajustasen la duracin de sus
intervalos inter-succin ya sea alargndolos o acortndolos, dependiendo de la condicin experimental a la
requerida para orla ms frecuentemente. Los datos indicaron que 8 de los 10 bebs modificaron sus respuestas
para escuchar con ms frecuencia la voz de su madre.
En otro estudio se observ que los bebs prefieren or un pasaje particular que haba sido
repetidamente ledo en voz alta por sus madres durante el tercer trimestre de embarazo (De
Casper y Spence, 1986).

Los bebs tambin pueden discriminar entre dos lenguas extranjeras si sus estructuras
prosdicas son muy distintas. Por ejemplo, Nazzi et al. (1997) informan que recin nacidos
en Francia pueden discriminar entre ingls y japons; aunque no entre ingls y alemn, dos
lenguas ms parecidas desde el punto de vista rtmico. Ramus et al. (2000) observan que
recin nacidos franceses pueden discriminar entre frases sintetizadas en japons y holands.

Por otra parte, si las prosodias son semejantes, la discriminacin entre la lengua materna y
una lengua extranjera slo tiene lugar a partir de varios meses de vida. As, los bebs
ingleses de 2 meses no diferencian entre ingls y holands (Christophe y Morton, 1998);
pero a los 4 meses de edad s pueden hacerlo (Nazzi, 1998). En Espaa, las autoras Laura
Bosch y Nuria Sebatin-Galls, de la Universidad de Barcelona, comprobaron que bebs de


4 meses criados en familias monolinges en espaol o en cataln, pueden discriminar ambos
idiomas a pesar de su proximidad lingstica (Bosch y Sebastin-Galls, 1997). En el mismo
estudio se comprob que bebs de la misma edad criados en ambientes bilinges no
mostraron evidencia de discriminar ambas lenguas.

PERCEPCIN DEL HABLA EN ANIMALES
El descubrimiento de que los recin nacidos perciben los sonidos del habla de forma
categrica, como lo hacen los adultos, supuso un fuerte apoyo a la tesis de los
"especialistas", que abogan por un mecanismo perceptivo especfico para el lenguaje, frente
a los "generalistas", defensores del mecanismo general de la percepcin auditiva. Pero,
como dijimos al principio, la evidencia emprica se ha ido repartiendo a favor de ambas
posiciones tericas y la euforia de los especialistas fue corta.

Cuatro aos ms tarde del trabajo de Eimas con los bebs, Patricia Kuhl y J ames Miller
demostraron que la percepcin categrica tambin se da en sujetos tan poco sospechosos de
tener lenguaje humano como las chinchillas (Kuhl y Miller, 1975). La chinchilla
(Chinchilla laniger) (Figura 21#) es un pequeo mamfero, cuyo odo presenta importantes
similitudes con el humano, y, por este motivo, se utiliza bastante en experimentos sobre
audicin. En su trabajo, publicado en Science, Kuhl y Miller (1975) pusieron a prueba cmo
perciban estos animalitos slabas formadas por una oclusiva dental (/t/ o /d/) y la vocal /a/.
Los estmulos fueron sintetizados artificialmente y formaron una serie que variaba en VOT
desde 0 milisegundos (que se percibe como una /d/ inglesa) hasta 80 milisegundos (que se
percibe como una /t/ inglesa), en pasos sucesivos del mismo tamao. El experimento
consisti en dos fases:

1. En la fase de entrenamiento, las chinchillas fueron divididas en dos grupos y se
utilizaron slo los dos estmulos extremos de la serie. Un grupo aprendi a responder
ante los estmulos de VOT=0 mseg. cruzando una barrera que divida la jaula para
evitar una descarga elctrica suave y un sonido molesto; y a permanecer en el mismo
lado ante los estmulos de VOT=80 mseg., en cuyo caso eran recompensadas con
bebida de agua. El otro grupo recibi el mismo entrenamiento, pero con los
estmulos al revs.
2. Cuando las respuestas de ambos grupos a los dos estmulos extremos fueron
perfectas, se pas a la fase de prueba. Ahora los animales eran enfrentados a toda la
serie completa de estmulos, con todos los grados intermedios de VOT entre 0 y 80
milisegundos. Los dos estmulos extremos fueron castigados o recompensados como
antes, pero los intermedios fueron siempre recompensados.

Este diseo mimetizaba bastante bien los experimentos tpicos de identificacin con
humanos, donde hay dos respuestas posibles y los estmulos presentan toda la gama de
posibilidades intermedias. Tambin la chinchilla tena dos respuestas de donde escoger:
cruzar la barrera o permanecer en el mismo lado.
Lo sorprendente del experimento es que las respuestas de las chinchillas fueron muy
semejantes a las humanas ante los mismos estmulos. La percepcin resultaba tambin
categrica y el lmite o punto intermedio de cruce entre las dos categoras se situ en
VOT=33 mseg., mientras que en humanos (nativos del ingls) era en torno a 35 mseg.
Adems, en un trabajo posterior (Kuhl y Miller, 1978), los mismos autores comprobaron

que las fronteras entre categoras variaban igual que en las personas, dependiendo del punto
de articulacin de las consonantes. En las labiales (/b/ vs /p/) el lmite estaba en torno a un
VOT=25 mseg., tanto en humanos como en las chinchillas; y en las velares (/g/ vs /k/) sobre
un VOT=42 mseg., tambin para ambos.

Con los mismos estmulos, Dooling et al. (1988) encontraban aos ms tarde resultados
parecidos en periquitos (Melopsittacus undulatus). Con otros estmulos lingsticos, se han
hallado as mismo paralelismos entre las respuestas humanas y las de codornices japonesas
(Coturnix coturnix japonica) (Kluender, 1991), y monos macacos (Macaca mulata y M.
Muscata) (Kuhl y Padden, 1983).

Se asestaba as un duro golpe a la percepcin categrica como manifestacin o prueba de
un mecanismo especial humano. Algunos de sus mximos partidarios haban declarado con
anterioridad (Liberman et al, 1972, pg. 324 en Diehl2004): "Presumiblemente, a ellos [los
animales] les falta el procesador necesario para decodificar la seal de habla. Si es as, su
percepcin del habla debe ser muy diferente de la nuestra. Ellos, por ejemplo, no deberan
or categricamente".
Los resultados procedentes de los animales no invalidan per se la posible existencia de un
mecanismo especial en las personas, pero restan peso al argumento que haba sido su buque
insignia: la percepcin categrica. sta podra explicarse como una propiedad general del
sistema deaudicin de mamferos y aves (vertebrados), que presentara discontinuidades o
diferencias de sensibilidad en su capacidad de discriminar eventos temporales, como los que
estn implcitos en el VOT de las oclusivas.

Figura 21#. Chinchilla (Chinchilla laniger). Un individuo poco sospechoso de tener
lenguaje humano, pero cuya percepcin de los sonidos del habla es tambin categrica
y se asemeja a la humana (Kuhl y Miller, 1975, 1978).


Si en su momento caus asombro la capacidad de los bebs recin nacidos para discriminar
su lengua materna de otras lenguas, o para discriminar dos lenguas extranjeras de estructura
rtmica muy distinta, hallazgos recientes con animales no han sido menos sorprendentes. Un
trabajo realizado en la Universidad de Barcelona y publicado en la influyente Journal of
Experimental Psychology: Animal Behavior Processes, ha causado cierto revuelo en los me-
dios internacionales por su impacto terico (Toro, Trobaln y Sebastin-Galls, 2005). Se
trata de una extensin de un estudio anterior (Toro, Trobaln y Sebastin-Galls, 2003). Los
autores comprobaron que mamferos tan alejados evolutivamente de los primates como las
ratas tienen la capacidad de discriminar lenguas por su estructura rtmica y entonacional.
Como estmulos se usaron frases artificiales sintetizadas en japons y holands, dos
lenguas de estructuras prosdicas muy distintas.
Se emplearon un total 64 ratas del tipo Long-Evans. En una primera fase, un grupo fue entrenado para apretar
una palanca cada vez que oa una frase en japons y a no hacerlo cuando era en holands. Otro grupo fue
entrenado a la inversa. En una segunda fase (fase de prueba), la ratas fueron expuestas a un conjunto nuevo de
frases que no haban escuchado previamente. Los datos mostraron que los roedores eran capaces de generalizar
su aprendizaje a travs de frases distintas, reconociendo las peculiaridades rtmico-prosdicas de cada lengua.
En otra condicin se comprob que si las frases se administraban en sentido inverso (habla inversa), de atrs a
adelante, en el que se pierde la estructura prosdica de cada lengua, las ratas no discriminaban correctamente
entre japons y holands. La discriminacin tambin era posible si, en vez de estmulos artificiales, se usaban
frases naturales grabadas a partir de un nico hablante, pero no cuando intervenan hablantes distintos en una
misma lengua.
Estos resultados son semejantes a los obtenidos en experimentos anteriores con monos
tamarinos (Ramus et al. 2000), pero nunca se haba explorado esta cuestin en un mamfero
tan filogenticamente distante. Parece que existen habilidades que los humanos usamos para
percibir el lenguaje que son compartidas por todos los mamferos. Por supuesto, las ratas no
han desarrollado su capacidad de captar seales prosdicas por razones lingsticas, como
los humanos, sino que probablemente es el subproducto de otras capacidades auditivas que
s tienen valor adaptativo en su repertorio comportamental. Algunos autores, desde un enfo-
que generalista, defienden que tal vez el lenguaje surgi y se aprovech de ciertas capa-
cidades perceptivas pre-existentes comunes a todos los mamferos y quiz a otros verte-
brados.
En esta lnea van tambin ciertos resultados experimentales con sonidos no lingsticos,
como vemos a continuacin.

PERCEPCIN DE SONIDOS DE NO-HABLA
Uno de los argumentos a favor de la posicin terica generalista es el hecho de que se ha
observado percepcin categrica en estmulos de no-habla. En general, la percepcin de
sonidos distintos del habla, como los tonos puros, es de tipo continuo, pero, bajo
determinadas condiciones, su percepcin puede ser categrica.

David Pisoni, del Instituto Tecnolgico de Massachusetts, comprob que ciertas tareas
perceptivas con tonos simples presentaban fronteras semejantes a las del VOT de las
oclusivas (Pisoni, 1977). Los estmulos estaban formados por dos tonos simultneos, uno
agudo y otro grave, cuyos respectivos comienzos variaban entre s de unos estmulos a otros.
Pisoni cre una serie de once pares tonales con diferencias entre sus comienzos que iban
desde -50 mseg. (el tono grave comenzaba 50 milisegundos antes que el agudo), hasta +50
mseg. (el tono grave comenzaba 50 milisegundos despus que el agudo), en incrementos de
10 mseg. (Figura 22#). Someti primero a los participantes durante dos das a una fase de
entrenamiento para que aprendieran a categorizar (identificar) los dos estmulos extremos de
la serie (-50 y +50 mseg.). Se trataba de asignarles una etiqueta o nombre distinto a cada

uno de ellos. Una vez conseguido un buen desempeo, los oyentes se enfrentaron a la serie
completa de los once estmulos en una tarea de identificacin y otra de discriminacin. La
discriminacin se bas en el paradigma ABX, que, como ya se ha explicado, consiste en la
presentacin sucesiva de tres estmulos, de los cuales, los dos primeros son distintos, y el
tercero siempre es uno de los dos anteriores; la tarea consiste en determinar cul de ellos.
Los resultados indicaron que la identificacin haba sido ms de tipo categrico que
continua. Por lo que se refiere a la tarea de discriminacin, lgicamente, cuanto ms
separados estn dos estmulos entre s a lo largo de la serie, es esperable que sean mejor
discriminados. Sin embargo, los datos no mostraron una funcin continua, sino que apareca
un brusco incremento en torno a diferencias temporales de 20 mseg. y +20 mseg. Estos
lmites coinciden con las fronteras que el parmetro VOT presenta en muchas lenguas entre
consonantes oclusivas. La interpretacin de Pisoni es que tales resultados son congruentes
con el hecho de que 20 milisegundos es la diferencia mnima necesaria para poder
identificar el orden temporal de dos eventos (Stevens y Klatt, 1974): estmulos con
diferencias entre sus comienzos mayores a 20 mseg. son percibidos como sucesivos,
mientras que los estmulos con asincronas inferiores a ese lmite se perciben como
simultneos.
Para este autor, la percepcin categrica sera un reflejo de una limitacin del sistema
auditivo en discriminar intervalos temporales por debajo de ese umbral psicofsico. Desde
este punto de vista, compartido por algunos autores actualmente (Diehl, Lotto y Holt, 2004),
asincronas de menos de 20-25 mseg. entre rasgos acsticos del habla haran que se juzgaran
como simultneos, mientras que asincronas mayores haran percibir a los rasgos como
ordenados en el tiempo, bien en un sentido (rasgo 1 antes que el rasgo2), u en el otro (rasgo2
antes que el rasgo1). Lo cual concordara bien con las tres categoras fonticas existentes en
las lenguas del mundo respecto al VOT (ver Figura 15#para la lengua tai).

Recientemente, Mirman, Holt, McClelland (2004), en un trabajo sobre sonidos de no-habla ms complejos que
tonos puros, observan que la percepcin de los estmulos depende de su naturaleza acstica. Si los estmulos
tienen una estructura con frecuencias rpidamente cambiantes como sucede en el habla a las consonantes
oclusivas- se perciben de modo ms claramente categrico, que cuando tienen una estructura con frecuencias
ms estables, ms parecida a la de las vocales.

F
r
e
c
u
e
n
c
i
a

-50 mseg. +50 mseg. 0 mseg.

Tiempo (asincronas entre inicios)

Figura 22#. Ejemplos de estmulos del experimento de Pisoni (1977). Consisten en un par
de tonos puros, uno alto y otro bajo, cuyos comienzos varan entre s de unos estmulos a
otros. La serie completa comprenda once estmulos con las siguientes asincronas entre
los tonos: -50, -40, -30, -20, -10, 0, +10, +20, +30, +40, +50 milisegundos. (Adaptado de
Pisoni, 1977)


TEORAS SOBRE LA PERCEPCIN DEL HABLA
La forma en que los oyentes consiguen pasar de una seal acstica continua y extre-
madamente variable a representaciones estables y discretas, es algo que ha recibido ex-
plicaciones distintas desde diversas posiciones tericas. El principal escollo a salvar es la
aparente ausencia de invarianza acstica que, como vimos, presentan muchos sonidos del
habla. Expondremos a continuacin las tres perspectivas tericas ms influyentes, de
acuerdo con la ltima revisin del Annual Review of Psychology sobre percepcin del habla
(Diehl, Lotto, y Holt, 2004).

Teora Motora.

Es la teora ms antigua de todas y, bajo distintas versiones, sigue teniendo vigencia hoy. Se
propuso en los aos 50 por Alvin Liberman, Franklin Cooper, Pierre Delattre y otros
investigadores de los Laboratorios Haskins, en un intento de explicar la ausencia de
invarianza acstica del habla (Liberman, Delattre y Cooper, 1952 en Bascuas).

S retomamos como ejemplo la Figura 12#, es sorprendente que en ambos estmulos el
primer sonido suene /d/, pese a que los espectrogramas no tienen aparentemente nada en
comn. En uno la transicin del segundo formante (F2) es hacia la abajo, y en el otro es
hacia arriba. Sin embargo, "algo" hay en comn que nuestro sistema perceptivo es capaz de
capturar al percibir la misma oclusiva dental en ambos casos. Para esta teora, ese "algo" co-
mn no hay que buscarlo en el plano acstico de las ondas o los espectrogramas, sino en el
plano motor, de los movimientos articuladores que son origen de los sonidos del habla.
Aunque /di/ y /du/ son estmulos sin energa acstica comn, los dos tienen en comn el
hecho de que se han pronunciado del mismo modo; es decir, los movimientos y las rdenes
motoras emanadas del cerebro han sido los mismos bsicamente: por unos breves instantes,
la lengua obstruye firmemente el paso del aire presionando contra los dientes superiores y lo
libera retirndose bruscamente en busca de una nueva posicin para producir la vocal
siguiente (/i/ en un caso, /u/ en el otro).
De este modo, segn la teora motora, el verdadero objeto de la percepcin no es la seal
acstica en s, sino los movimientos articulatorios y los comandos u rdenes motoras que
el cerebro enva a los rganos articuladores para producir el habla (Liberman, versin 1985).
Estas rdenes motoras seran invariantes para cada fonema y tendran la constancia que no
aparece en la seal. Los oyentes dispondran de un mdulo o decodificador especializado en
reconstruir los gestos motores a partir de la seal acstica. No hay que olvidar que los
oyentes son tambin hablantes y, por tanto, disponen en su cerebro de toda la maquinaria
neural necesaria para producir lenguaje. Ellos podran utilizar toda o parte de esta
maquinaria para la reconstruccin de los gestos articulatorios. Esta teora plantea que los
oyentes se sirven de sus mecanismos de produccin para percibir el lenguaje.
Segn sus defensores, la capacidad humana para percibir los sonidos del habla no puede
ser explicada en trminos de un mecanismo general de audicin o de aprendizaje perceptivo,
sino que depende de un decodificador especializado en lenguaje que es nico y propio de los
humanos. En palabras de Liberman & Mattingly, 1985, p. 26; en Diehl 2004), este
decodificador "incorpora informacin completa sobre las caractersticas anatmicas y
fisiolgicas del tracto vocal y tambin sobre las consecuencias acsticas y articulatorias de
los gestos lingsticamente significativos".

Teora motora revisada. Cuando se plante la teora motora, los investigadores dirigieron
sus miradas a los aspectos invariantes de los movimientos articulatorios y las rdenes
motoras que los dirigen. Una forma de hacerlo fue mediante el registro directo de los
impulsos nerviosos enviados a los msculos, a travs de electrodos aplicando las incipientes
tcnicas electromiogrficas. Sin embargo, a pesar de que estas tcnicas eran an
rudimentarias, pronto fue evidente que los registros electromiogrficos eran casi tan
variables como la seal acstica, como consecuencia de la coarticulacin del lenguaje. Este
hecho oblig a reconsiderar el verdadero objeto de la percepcin, trasladndolo a un plano
ms central y abstracto: no se trataba tanto de los movimientos u rdenes motoras
individuales lo que era invariante en el lenguaje, sino la representacin mental de los
gestos articulatorios, o sea, los gestos fonticos ideales o gestos "intentados" (revisin de
la teora motora , Liberman 1985).

Algunas de las evidencias a favor de la teora motora se sitan en la innegable relacin que
existe entre los procesos de produccin y percepcin del lenguaje. Por ejemplo, como
seala Ryalls (1996), no es difcil ver a un extranjero mover sus labios mientras intenta
comprender las palabras de un lenguaje que no le es familiar. O el hecho de que muchas
personas con sordera profunda pueden "leer" el habla a partir de los gestos visibles
articulatorios de los dems. Otra evidencia a favor de la unin entre la produccin y la
percepcin es el conocido efecto McGurk, nombrado as a partir de uno de los autores que
lo observ por primera vez (McGurk y MacDonald, 1977). En virtud de este efecto, los
oyentes combinan informacin visual sobre la produccin del habla con informacin
auditiva. Si se muestra un vdeo con la cara de una persona pronunciando de forma repetida
la slaba velar /ga/ y simultneamente por el altavoz se presenta la slaba labial /ba/, lo que
ocurre es que el oyente no percibe /ba/, sino un fonema con un punto de articulacin
intermedio entre ambos: el dental /da/. Es decir, integra en una representacin comn
informacin procedente de modalidades distintas, visual y auditiva. Para la teora motora
esta representacin comn estara en un plano neuromotor.

Teora Realista-Directa.

En los aos 80 se plante una alternativa a la teora motora, referida como la teora realista-
directa. Esta teora, desarrollada por Carol Fowler (Fowler, 1981, 1986, 1996), tambin
investigadora y directora de los laboratorios Haskins, plantea igualmente que el objeto de
la percepcin es de tipo articulatorio o motor, pero se diferencia de aqulla en que no
supone que el oyente deba tener acceso a su sistema de produccin para reconstruir los
gestos fonticos. As mismo, niega la existencia de un mdulo especializado en
decodificar el lenguaje.

Su base es la perspectiva ecolgica de la teora de la percepcin directa desarrollada por Gibson (1966, 1979).
El enfoque gibsoniano ha tenido una gran influencia en la Psicologa de la Percepcin y se dirige a todas las
modalidades sensoriales. Al contrario que el resto de las teoras de la percepcin, que presuponen una
secuencia de estadios de procesamiento a partir del estmulo de entrada, Gibson considera que la propia
estructura del estmulo ya incorpora toda la informacin necesaria para percibir los objetos y eventos del
entorno. Los animales y las personas perciben de forma directa todos los elementos de su medio ecolgico
que son relevantes para su supervivencia. La percepcin es un proceso directo, sin necesidad de pasos
intermedios, y no fruto de una construccin o elaboracin como propugnan el resto de teoras (Neisser,
1980). Gracias a la evolucin, los sistemas sensoriales ya estn, segn Gibson, perfectamente calibrados para
captar el mundo fsico en que se desenvuelven. La obra de Gibson, especialmente su libro de 1979 The


Ecological Approach to Visual Perception, ha causado un gran impacto en la comunidad cientfica pero
tampoco ha estado exenta de crticas.

Fowler entiende que la percepcin del lenguaje puede caracterizarse en los mismos trminos
que, por ejemplo, la percepcin visual de las superficies de objetos. As, en el caso de la
visin, la luz reflejada por las superficies de los objetos sirve de estmulo cercano o
proximal, cuya propia estructura ya proporciona informacin directa sobre los objetos del
entorno, o estmulos distales. De la misma forma, la seal acstica es un estmulo proximal
que proporciona informacin sobre los estmulos distales, o gestos articuladores que la han
producido. Cuando un oyente escucha el lenguaje capta de forma directa los movimientos
articulatorios que lo han producido; pero no gracias a un mecanismo especial para el
lenguaje, sino del mismo modo en que percibe el origen de otros sonidos de su entorno.

La principal crtica que ha recibido la teora realista-directa se dirige contra la suposicin de
que los objetos propios de la percepcin del lenguaje sean los gestos articulatorios. Este
reparo procede principalmente de quienes defienden la teora auditiva general. Por otra
parte, muchos autores contraponen ejemplos en los que existen percepcin sin conocimiento
directo de las causas distales; as, alguien puede escuchar msica, percibir la meloda de, por
ejemplo, un violn, sin conocer dicho instrumento, su estructura o material del que est
hecho.

Teora Auditiva General

Como hemos visto, varios hallazgos pusieron en cuestin la teora motora de la percepcin
del habla y la existencia de un mecanismo especfico. Los principales se han mencionado
anteriormente; nos referimos a la evidencia de percepcin categrica por parte de animales
no humanos (Kuhl y Miller, 1975, 1978), as como en ciertos estmulos de no-habla (Pisoni,
1977). Estos y otros autores mantienen que los mecanismos perceptivos generales de la
audicin son los responsables de la percepcin del lenguaje. En contraste con la teora
motora, no se presupone la existencia de mecanismos especficos o un mdulo
decodificador especial. Se asume como hiptesis de trabajo que los sonidos del lenguaje se
perciben y dependen del sistema general de audicin y de los principios del aprendizaje
perceptivo; los mismos que han evolucionado en los humanos para manejar otras clases de
sonidos del entorno.
Por otra parte, la percepcin del lenguaje no est mediada ni se basa en la percepcin de
gestos articuladores. La paradoja de las slabas /di/ y /du/ (Figura 12#) se explica por la
capacidad general del oyente de hacer uso de mltiples seales acsticas imperfectas para
categorizar estmulos complejos, como as sucede en la percepcin de muchos patrones
estimulares complejos. Del mismo modo que Brunswik (1956) propone que la constancia de
los objetos en la visin es el resultado de combinar mltiples atributos visuales, el oyente
puede mantener la constancia perceptiva fontica haciendo uso de mltiples pistas acsticas.
Para esta teora, la percepcin de la constancia o invarianza no requiere la recuperacin de
gestos articuladores o el concurso de ningn mdulo especial. En apoyo de esta posicin
terica, Kluender et al (1987) demostr que los pjaros podan ser entrenados a responder a
estmulos naturales que comenzaban por el fonema /d/ seguido de distintas vocales y no
responder a otros que comenzaban por los fonemas /b/ o /g/. O sea, estos sujetos no
lingsticos tambin eran capaces de percibir la invarianza o constancia fontica de, por
ejemplo, /di/ y /du/.


Una derivacin de la teora general es la hiptesis de la potenciacin auditiva, segn la
cual, los sistemas de sonidos de las distintas lenguas se han adaptado para convertirse en
robustas seales que explotan las caractersticas generales del sistema auditivo. De esta
manera, las lenguas desarrollan un inventario de fonemas que optimiza la distintividad
fontica entre ellos, de acuerdo con las capacidades auditivas generales.

No se agotan aqu todas las teoras sobre la percepcin del habla. Dado que no es nuestra intencin detenernos
en detalle en ellas, mencionaremos slo de pasada los enfoques basados en el anlisis por sntesis (Stevens,
1960; Stevens y Halle, 1967), o la naturaleza cuntica del habla humana (Stevens, ), el modelo de lgica
difusa (Massaro, 1987, 1989, 1994), y los enfoques eclcticos (Kuhl, 1991; 1995; J usczyk, 1997).
Aconsejamos la lectura en castellano del artculo de Lpez-Bascuas (1996), el captulo de Yeni-Komshian
(1999), y el captulo de Sebastin-Galls, Bosch, y Costa (1999). Hay que destacar tambin toda una lnea de
investigacin que niega la ausencia de invarianza acstica en el habla y entiende que cada fonema, pese a la
gran variabilidad fsica, presenta unos rasgos fijos y caractersticos (Blumstein y Stevens, 1979; Stevens y
Blumstein, 1978; ). Estos rasgos acsticos no son fcilmente observables a travs de un simple examen visual
del espectrograma, pero se obtendran mediante ciertos anlisis y clculos matemticos (v.g., ecuaciones del
locus).

Hay que sealar que no todos los autores consideran al fonema como unidad perceptiva. As, Klatt (1979)
desarroll su Modelo de Acceso Lxico desde el Espectro, segn el cual, la composicin espectral de la seal
del habla conduce directamente a la activacin de las palabras. Este modelo hace "by-pass" respecto a los
fonemas, rasgos fonticos, o cualquier otro tipo de representacin intermedia. En la mima lnea, cobra fuerza
en los ltimos tiempos el enfoque de la percepcin directa de Pisoni y colaboradores (revisin en Pisoni,
1996) que defienden un acceso directo al lxico mental desde el estmulo, sin la mediacin de unidades
sublxicas.
Adems, el modelo conexionista TRACE de reconocimiento de palabras (McClelland y Elman, 1986) puede
considerarse tambin un modelo de identificacin de fonemas, por lo que remitimos a su lectura, en el tema
dedicado al reconocimiento de palabras.


EFECTO DEL CONTEXTO EN LA PERCEPCIN DEL LENGUAJE
El fin ltimo de la percepcin del lenguaje es extraer significados del sonido (o de patrones
grficos); pero, como vimos al principio, en esta operacin hay en realidad dos fuentes de
informacin que fluyen al mismo tiempo (Figura 23#). Una, la ms evidente, es la informa-
cin acstica (visual) del estmulo que alimenta al sistema perceptivo-cognitivo desde fuera
hacia dentro o, como se representa convencionalmente, desde abajo hacia arriba; son los
procesos referidos como bottom-up. La otra informacin fluye en sentido contrario y
procede de los niveles superiores de procesamiento; es decir, desde las representaciones de
naturaleza sintctica, semntica y pragmtica, que tienen que ver con la construccin sobre
la marcha del significado de lo que escuchamos o leemos. Este es el conocido efecto del
contexto y corresponde a procesos de arriba-abajo o top-down. Los modelos artificiales de
procesamiento computacional pueden simular razonablemente bien los primeros, pero tienen
serias dificultades con los segundos, porque para ello tendran que llevar a cabo verdaderos
procesos de compresin artificial. Aqu reside, precisamente, una de la principales
potencialidades de los sistemas naturales o humanos.

Significado

Procesos de alto nivel
P. arriba-abajo (top-down)
P. abajo-arriba (bottom-up)

Procesos perceptivos

Estmulo

Figura 23#. Procesamiento abajo-arriba (bottom-up) y procesamiento arriba-abajo (top-
down), dentro de la arquitectura general del sistema perceptivo-cognitivo.

El efecto del contexto tiene lugar no slo en el lenguaje oral, sino tambin en el escrito.
As, la palabra "pincel" se identifica ms rpidamente si aparece en un texto sobre pintura,
que si la leemos de forma aislada, o en un texto sobre, pongamos por caso, los juegos
olmpicos. Por el mismo motivo, leemos mejor y ms deprisa un texto con estructura y
significado coherente, que un conjunto desordenado de palabras o slabas. A ttulo
ilustrativo, compare el lector los tiempos de lectura de los dos textos de la Figura 24#,
teniendo en cuenta que ambos tienen exactamente las mismas slabas. En el primer texto, la
representacin del significado que vamos construyendo al leer suministra informacin (de

arriba-abajo) que nos permite anticipar sobre la marcha hiptesis acerca de las palabras que
nos vamos a encontrar. El estmulo escrito nos va corroborando esas hiptesis y, en la
mayor parte de los casos, no necesitamos realizar un anlisis exhaustivo de todo el estmulo
identificar todas y cada una de las letras. En cierto modo, la lectura se convierte en la
confirmacin de hiptesis sucesivas. Dicho de otro modo, la naturaleza del estmulo (un
texto organizado, con significado coherente) permite que aprovechemos informacin de
arriba-abajo y necesitemos, en consecuencia, menos informacin estimular de abajo-arriba.
Esto no ocurre en el "texto" 2, donde todo el procesamiento debe descansar de modo
exclusivo en la informacin del estmulo (abajo-arriba) y ste debe ser analizado
exhaustivamente. Cuando lo leemos, lo hacemos sin construir ningn significado, de modo
semejante a como hacen algunos programas de ordenador especializados en reconocer
lenguaje.

Texto 1: Son perjudiciales para la salud las antenas de telefona mvil? El tema es
preocupante desde el punto de vista de la alarma social; lo cual no significa que exista una
peligrosidad real. Con los conocimientos que se tienen hoy en da, nadie ha podido
demostrar que exista una correlacin entre posibles efectos perjudiciales para la salud y las
antenas de telefona mvil. No obstante, por un principio de precaucin, conviene seguir
investigando, por si se descubrieran nuevos efectos an desconocidos.

"Texto" 2: Fecmo avilalpo aun bleste ca an cauci precicia que nenen? Raco los coque
concu percualdad porte u tocin denatade desu es diju ma diladie; do lasdos era e pael el
enfec enes sonfi se foxis. Gan toslud groguir ha tena injuse dilanodi sitos lani lasdole vieles
les lilocolud, y tadeta na desmien atemos cialcin nina deno la no nuelar obspa e panpe
cuperpio po an preci. Prinpun ciaque, con deno hoy deenas ran rerre sase si sigso tande
nastebrie porte mosi titie tosnitrar sa trema unves levil a vistevos xisfo.

Figura 24#. Efecto del contexto en la percepcin del lenguaje. Compare el lector los tiempos
de lectura de ambos textos, teniendo en cuenta que los dos tienen exactamente las mismas
slabas, aunque en distinto orden.

Podramos plantear el siguiente principio con carcter general:

cuanta ms informacin de contexto (arriba-abajo) dispongamos, menos
informacin entrante necesitaremos del estmulo (abajo-arriba).

Una palabra manuscrita aislada necesita ser ms perfecta desde el punto de vista caligrfico
suministrar ms informacin visual sobre sus letras-, que en el contexto de una frase,
donde muchas veces un simple garabato, con muy poca informacin visual, puede ser
reconocido. (Figura 25#).


Inf. abajo-arriba (estmulo)
Inf. arriba-abajo (contexto)
Sistema
cognitivo
Inf. abajo-arriba (estmulo)
Inf. arriba-abajo (contexto)
Sistema
cognitivo

Figura 25#. Cuanta ms informacin de contexto (arriba-abajo) hay disponible, se necesita menos
informacin fsica del estmulo (abajo-arriba) para su reconocimiento. As, la palabra "tobogn"
presentada en un contexto apropiado requiere menos informacin visual (izquierda) para su
identificacin que si se presenta de forma aislada (derecha).

Esto tambin tiene implicaciones clnicas (Ryalls, 1996). Durante aos no estuvo claro por
qu muchos nios con hipoacusia o sordera tenan problemas no slo para percibir el habla,
sino tambin para leer, siendo con frecuencia lectores muy pobres. Dado que no tenan
problemas visuales, la razn no estaba clara. Recientemente, hemos empezado a comprender
que su dificultad sensorial hace ms difcil aprovechar informacin no slo del estmulo
hablado (abajo-arriba), sino tambin informacin de tipo arriba-abajo, o del contexto. A
causa de su sordera, son nios que desde el nacimiento han estado menos expuestos a las
palabras del idioma y, en consecuencia, tienen vocabularios mucho ms restringidos.
Debido a esta experiencia lingstica ms pobre, les resulta ms difcil construir los
significados durante la lectura y aprovecharse, as, de la informacin de tipo arriba-abajo. Es
importante ser conscientes de la influencia de este tipo de informacin procedente de los
procesos superiores, a la hora de disear los programas de rehabilitacin y tratamiento.
Algo semejante sucede en algunos nios normo-oyentes con dificultades lectoras. Los
nios que arrastran un largo historial dislxico tambin tienen, como consecuencia, una
experiencia lectora muy reducida; adolecen de un vocabulario lector muy pobre y escasa
familiarizacin con las estructuras sintcticas de los textos. De manera que su problema es
doble: a su dificultad perceptiva en el desciframiento de los grafemas (informacin abajo-
arriba) se aade el hecho de que no pueden compensarla aprovechndose de informacin de
arriba-abajo, dada su escasa experiencia lectora.

En el lenguaje oral, la percepcin del habla en situaciones naturales de comunicacin se ve
fuertemente apoyada por los efectos del contexto. Los primeros estudios dejaron claro que
las palabras presentadas en un fondo de ruido se identifican mejor en el contexto de una
frase, que cuando se presentan de forma aislada (Miller, Heise y Lichte, 1951 en Berko). En

otros trabajos (Pollack y Pickett, 1963, 1964) (Figura 26#), los investigadores grabaron
conversaciones y narraciones de las cuales se extrajeron algunas palabras que presentaron
posteriormente de forma aislada y desordenada. Los resultados demostraron que slo la
mitad de las palabras aisladas se reconocan correctamente, mientras que en el contexto de
la frase se identificaban prcticamente en su totalidad.

Figura 26#. Los primeros estudios pusieron de manifiesto la importancia del contexto en la percepcin del
lenguaje. Si de una narracin grabada se cortan y se desordenan las palabras, slo el 50% de stas se perciben
correctamente de forma aislada.

Restauracin fonmica. La demostracin ms contundente del efecto del contexto sobre la
percepcin del lenguaje es el conocido fenmeno de la restauracin fonmica (Warren,
1970).
En un trabajo ya clsico y muy citado, publicado en Science, Richard Warren hizo
escuchar frases completas en las que se haba sustituido un segmento fontico, por ejemplo
el fonema /s/ de la palabra "legislatura", por un sonido no lingstico de intensidad seme-
jante, tal como un golpe de tos o un zumbido. Cuando se les pregunt a los sujetos despus
de escuchar las frases, estos afirmaron que haban percibido todas las palabras intactas y
muchos ni siquiera haban sido conscientes de la presencia del ruido intruso. Este efecto se
mantena incluso al repetir la grabacin y una vez que los oyentes eran informados de las
condiciones experimentales. O sea, la informacin cognitiva procedente de procesos
superiores (informacin top-down o de arriba-abajo) era capaz de suplir la informacin
fsica ausente en la seal de habla y restaurar el fonema que faltaba. Este efecto no ocurra
cuando se trataba de estmulos no-palabras (supongamos, "teliscura"). Adems, cuando
detectaban el ruido intruso, los participantes no podan ubicar correctamente el lugar de la
frase en que haba sido insertado.
Por el contrario, si el fonema era reemplazado por un silencio en lugar del ruido, entonces
no se produca la restauracin fonmica y el silencio era detectado fcilmente. Parece como
si el proceso de restauracin fonmica necesitara algn "material de entrada" (ruido) sobre
el que apoyarse para "reconstruir" perceptivamente el fonema ausente, y no funcionara
desde la nada estimular (silencio).

Otro experimento claramente demostrativo de la restauracin fonmica (Warren y Warren,
1970) consisti en la presentacin de frases como las siguientes:


a) It was found that the *eel was on the orange [Se encontr que la *eel estaba en la
naranja].
b) It was found that the *eel was on the axle [Se encontr que la *eel estaba en el eje].
c) It was found that the *eel was on the shoe [Se encontr que el *eel estaba en el
zapato].
d) It was found that the *eel was on the table [Se encontr que la *eel estaba en la
mesa].

Todas la frases fueron idnticas excepto en la ltima palabra. De hecho, la parte comn fue
exactamente la misma grabacin, a la que se le insert acsticamente la palabra ltima; de
este modo se evitaba que diferencias sutiles en la entonacin o en la pronunciacin pudieran
influir en los resultados. La palabra *eel tena el primer fonema reemplazado por una tos,
que representamos aqu con el asterisco. Cuando los participantes escuchaban las frases,
tena lugar una restauracin fonmica dependiente del contexto y perciban el fonema que
era congruente con cada frase: peel (pela o cscara), wheel (rueda), heel (taln), y meal
(carne), respectivamente. Los sujetos afirmaban que en cada caso haban odo la palabra
completa.

La pregunta es si los oyentes realmente perciben el fonema ausente o simplemente lo
"adivinan" sin orlo. Dicho en otras palabras, se trata de un efecto genuinamente perceptivo
o es postperceptivo? Hay evidencia de que en determinadas condiciones la restauracin
fonmica es un efecto verdaderamente perceptivo (Samuel, 1981, 1987, 1990). Los datos
parecen indicar que la influencia de las palabras en la percepcin de los fonemas es
perceptiva, mientras que la influencia de la frase es principalmente de tipo postperceptivo.
Para estudiar esto, Samuel (1997) combin la tcnica de la restauracin fonmica con la
tcnica de la adaptacin selectiva de Eimas y Corbit (1973). Esta ltima se basa en un efecto
innegablemente perceptivo ya establecido veinte aos atrs. Sus resultados indicaban que el
fonema ausente tena un efecto adaptativo, influyendo en la clasificacin fontica de
estmulos ambiguos; es decir, se trataba de un fenmeno en el plano perceptivo.

Tcnica del sombreado. En otra lnea de investigacin, los trabajos con sombreado
(shadowing) de frases, llevados a trmino por el equipo de Marslen-Wilson, ponen tambin
de manifiesto el efecto del contexto. Sombrear una frase es "seguirla como una sombra", es
decir, repetir sus palabras lo ms rpido posible, segn se van escuchando. Los resultados
muestran que los oyentes pueden repetir las frases de forma ms rpida cuando stas estn
bien formadas desde el punto de vista sintctico y semntico (Marslen-Wilson y Welsh,
1978). La repeticin es mucho ms lenta si hay que seguir secuencias desordenadas de
palabras. Se trata, por tanto, de la influencia ejercida por informacin procedente de los
niveles superiores de procesamiento, o procesos arriba-abajo (top-down).
Los datos indican que los oyentes pueden seguir las frases con latencias muy cortas, del
orden de 250 milisegundos, equivalente a la duracin de una slaba. Esto quiere decir que,
en los vocablos polisilbicos, son capaces de reconocer una palabra incluso antes de que sea
presentada completamente. Segn muchos autores, sta es una de las evidencias ms
convincentes sobre el efecto de la informacin de tipo arriba-abajo en la percepcin del
lenguaje (Ryalls, 1996).

Repaso Logopedia PDF

Enviado por

Dados do documento

Descrição original:

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Repaso Logopedia PDF

Enviado por

Direitos autorais:

Formatos disponíveis

TEMA 3

Percepcin del Lenguaje

Você também pode gostar