Audio Digital PDF

• INTRODUCCIÓN AL AUDIO DIGITAL
• DISEÑO DE SONIDO
• POST PRODUCCION DE SONIDO
• CONVERTIR WAV A MIDI Y VICEVERSA
INTRODUCCIÓN AL AUDIO DIGITAL
¿Qué es el audio digital?
Podríamos definir audio digital como la representación de una señal de audio

mediante números, en general codificados en forma binaria (es decir con ceros
y unos, el lenguaje interno de los ordenadores).
Entendemos como señal de audio cualquier objeto sonoro audible, el viento, el

agua, nuestra voz, nuestra música preferida y evidentemente esos molestos
"ruidos" nocturnos de los vecinos que no nos dejan dormir. Cualquier sonido
puede representarse en números, al igual que cualquier imagen o grafico.
En términos menos genéricos, también podemos llamar audio digital a la

tecnología que permite grabar, editar, mezclar y masterizar una señal de audio
completamente en el dominio digital.
Para ello existe un amplio surtido de aparatos y equipos que procesan la señal
de audio en el dominio digital, dominio que ofrece muchas más ventajas ya que
es totalmente "tratable" por un ordenador, es decir, permite un grado de
manipulación sin precedentes.
1-Introducción
Para la gran industria de la música, el audio digital nació de una necesidad muy
concreta; ahorrar tiempo de producción. Antes del audio digital, el método de
grabación era lo que hoy en día se conoce como grabación analógica, los
impulsos del sonio se registraban en una bobina o cinta. La edición de esa
bobina era un proceso muy largo y tedioso, en el que la precisión y paciencia
eran algo obligado. Por otro lado, obtener un buen equipo analógico era algo
realmente caro. Hablando de creatividad de mezclas y producción de audio, los
procesos que podían aplicarse eran muy limitados comparados con los de hoy
en día. Por poner un ejemplo, si se requería una reverberación concreta el
músico debía registrar su interpretación en la sala que producía esa
reverberación.
Estudio de grabación de audio analógico. La calidad de audio no es

comparable a los modernos sistemas digitales, aunque esta misma calidad nos
ha servido durante muchos años para escuchar nuestros discos favoritos.
Estudio de grabación de audio digital. El ordenador se encarga de registrar

(primer monitor), mezclar y procesar efectos (segundo monitor) así como
generar sintetizadores y samplers virtuales (tercer monitor)
La introducción del audio digital ha revolucionado, sin duda alguna, toda la
industria de la música, las empresas que construyen instrumentos, los
creadores o músicos, los procedimientos de edición y mezcla, y desde luego el
soporte; es decir lo que nosotros oímos en casa: un CD de audio o los tan
famosos MP3. La tecnología del audio digital ha dado lugar a toda una nueva
legión de instrumentos musicales que prometen un grado de libertad de
creación de sonidos sin precedentes (solo superada por al síntesis virtual).
Estos nuevos instrumentos han propiciado la existencia d nuevos estilos
musicales que dependen en gran parte de esa tecnología. Un ejemplo muy
corriente puede ser lo que se conoce popularmente como música "dance" que
no sólo se produce con instrumentos digitales sino que parte de la composición
es un puzzle de otras grabaciones digitales realizadas por terceros y
mezcladas hasta formar una nueva composición.
Ejemplos de los nuevos instrumentos digitales basados en la tecnología de

captura y reproducción de audio digital. En la parte superior, el "sampler" AKAI
S-6000 y en la parte inferior el sintetizador Korg TRITON
El músico tradicional ha tenido que adaptarse a esos cambios. Cuando

nacieron los primeros instrumentos digitales los músicos eran reacios a
utilizarlos (el sintetizador el instrumento musical con más rechazo de toda la
historia). Muchos pensaban que eran máquinas malditas que pretendían
sustituir o imitar instrumentos tradicionales. No les faltaba parte de razón. El
audio digital son fotografías digitales de sonido, por lo que no hacia falta tratar
de imitar un piano, ya que tenemos la foto del sonido de un piano. La primera
consecuencia fue la drástica reducción de costes de grabación. Para grabar un
piano hacen falta micrófonos. Los micrófonos deben situarse correctamente
según el ambiente y color que pretendemos dar a ese piano. Eso representa
horas de pruebas y corrección de pequeñas imperfecciones producidas por el
solapamiento de las señales de los micros. Si utilizamos un instrumento digital
con un buen sonido de piano, sólo requerimos dos cables, izquierdo y derecho
y siempre sonará igual de bien sea cual sea el entorno acústico. Aunque los
primeros instrumentos digitales eran muy caros, hoy en cualquier ordenador
incluye un instrumento digital, la tarjeta de sonido, que es muy limitada en
comparación con los grandes sintetizadores de la industria , pero
extremadamente más avanzada que los primeros instrumentos digitales.
En el entorno del estudio de grabación, el audio digital también ha supuesto un
importante avance. Ya no hace falta guardar celosamente las bobinas master
(para que el paso del tiempo no las merme) el audio digital es indestructible,
sólo puede destruirse deteriorando el medio en el que se almacena; un CD, un
disco duro, etc.... También han desaparecido los tediosos procesos de cortar y
pegar (hechos literalmente con tijeras y cola). Ahora existe la edición no lineal
que como veremos más adelante puede ser destructiva o no. La ambientación
de la mezcla ha pasado a ser una realidad palpable. Donde antes existían
habitaciones enormes con paredes móviles para recrear reverberaciones,
ahora existen pequeños equipos de no más de 5kg que incluyen ambientes de
salas y halls famosos; podríamos cantar con el ambiente de en la opera de
Sydney, aunque eso sólo existirá en nuestro cerebro, ya que en realidad
estaríamos solos delante de un ordenador. Existen otros detalles menores,
como el hecho de que por primera vez el músico puede grabar parte de su
música en casa y luego seguir en un estudio, transfiriendo digitalmente las
pistas. Esto ofrece una libertad de mezclas y producción de audio increíbles: un
usuario sin recursos puede acudir a un estudio y seguir editando sin perder la
calidad original.
Por último, tenemos el soporte digital, es decir el medio en el que recibimos el
producto musical acabado. Donde ante teníamos los discos de vinilo o las
cintas de cassette, ahora tenemos el CD /DVD y el minidisc. Desde el punto de
vista de fiabilidad, estos soportes no fallan (¿cuantas veces se nos ha
enganchado una cinta en el cabezal?) y físicamente son más duros y
compactos, para que dejen de funcionar hay que destruir el medio, no basta
con una rayada.
2-Soporte digital y analógico
Veamos con detenimiento las diferencias más importantes entre el soporte

analógico y el digital:
Soporte Analógico
Degradable: Cuantas más veces se usa, mayor degradación se obtiene. Los
datos se almacenan físicamente sobre un sustrato que es mucho más alterable
con el paso del tiempo.
Lineal: El audio se graba secuencialmente en el tiempo y con el mismo orden
de ejecución, de principio a fin.
Grabador analógico de audio (2 pistas). Resulta evidente comprobar que su
acceso no es aleatorio.
Calidad de audio: La calidad de un sistema de grabación analógico resulta

inferior a la mínima calidad de audio ofrecida por un sistema digital. En la
práctica, un sistema analógico rara vez supera los 70dB de relación señal ruido
(SNR). Un grabador profesional analógico puede alcanzar los 85dB SNR. Una
tarjeta como la nueva SoundBlaster Prodigy posee una relación señal ruido de
100dB. Inicialmente, no es importante saber qué es la relación señal ruido, sino
simplemente tener constancia de las distintas cifras que miden esta importante
característica de las tarjetas: existen tarjetas de audio con más de 115dB SNR.
Por otro lado, deberíamos evitar una sensación de triunfalismo absoluto del
audio digital frente al analógico. En buen técnico de sonido puede lograr que
una canción suene increíblemente bien en sistemas analógicos, de hecho
tenemos toda la industria de la música para demostrarlo. Aunque el medio
analógico sufre muchos problemas de calidad e inestabilidad, los grandes
profesionales de producción saben como solucionar estos problemas. ¿Qué
problemas?
Por ejemplo, la diafonía e imperfecciones de la mecánica. Los distintos canales
de una grabadora analógica suelen mezclarse, es decir, parte de la señal de un
canal también se percibe en otro canal. El propio medio analógico provoca que
parte de la señal de un canal se "cuele" en el otro canal. Un método para evitar
este problema consiste en utilizar cintas más anchas, en las que las pistas
ocupan más espacio físico. Por otro lado, las imperfecciones de la mecánica
empleada para la reproducción sonora dan lugar a problemas de wow, flutter,
tremolo, etc. Otras notables diferencias son la separación entre los canales
izquierdo y derecho, la relación entre la señal y el ruido de fondo, la linealidad
de la respuesta en frecuencias y de fase, la relación entre el nivel más bajo y el
más alto.
Edición destructiva: La edición de las grabaciones de audio en el mundo
analógico es totalmente destructiva, baste un sólo ejemplo para comprobarlo.
Algo tan sencillo como copiar un fragmento del estribillo, significa grabar ese
fragmento en otra cinta, reproducir esta mientras la original inicia la grabación a
partir del punto deseado. La edición en el mundo analógico es siempre
destructiva e incluso a veces se destruye parte del propio medio en el que
reside la grabación, la cinta o bobina (en operaciones de copia en las que se
requiere cortar físicamente la cinta). Por otro lado, el tiempo invertido en la
edición es extremadamente elevado así como los costes en términos el precio
en términos de pruebas fallidas y errores humanos.
Soporte Digital
No degradable: Una grabación de audio digital es una cadena gigante de 0 y 1
perfectamente ordenados. Es imposible que "el paso del tiempo" convierta un 0
a un 1, es decir que pueda alterar esa cadena. Como mucho, es posible que
una mala manipulación del soporte (por ejemplo el CD) provoque que durante
un instante aparezcan artefactos o ruidos que originalmente no estaban. Lo que
nunca ocurrirá es que el audio de ese soporte digital vaya apagándose,
perdiendo brillo con el paso del tiempo. La durabilidad de los datos es eterna,
puesto que pueden ser almacenados en cualquier dispositivo de
almacenamiento, como puede ser un disco duro, una memoria, etc., y
recuperados en cualquier momento
Lineal / No-lineal (acceso aleatorio): Si en el mundo analógico el tiempo es algo
fijo e invariable (una canción se registra de principio a fin) en el mundo digital
no tiene porque ser así. Existe un soporte digital llamado DAT que está basado
en cinta analógica aunque en ella se registran 0 y 1 como un en CD pero con
una calidad superior a éste. En este caso, la grabación y reproducción es lineal.
Si deseo ir al final de la canción, debo pulsar el botón Fast Foward y esperar a
que la cinta llegue a su punto. Considerando el disco duro de nuestro
ordenador como soporte digital (archivos wav, aiff o MP3) llegamos a la
inequívoca conclusión de que es un soporte no lineal. Los 0 y 1 de las
canciones que registramos se almacenan por todo el disco duro sin orden
alguno. El acceso a cualquier parte de esta canción (una vez grabada) es
instantáneo, no hay tiempo de espera, dicho de otra forma, se tarda tanto en
reproducir desde el inicio de la canción como, en mitad de ella: apenas unos
milisegundos.
Grabador de audio digital multipista (8 pistas) basado en cinta de SVHS. Al

basarse en cinta, la edición es lineal
Grabador de audio digital multipista (24 pistas) basado en disco duro. Al
basarse en disco duro, la edición es no lineal
Calidad de audio: La calidad de audio del soporte digital, es mayor que la del
analógico. La respuesta de frecuencias, es decir el espectro de frecuencias que
el grabador digital es capaz de grabar es mucho mayor que el analógico,
aunque en el caso del mundo digital la teoría y la práctica siguen caminos que
pueden ser muy distintos, es decir, la calidad teórica de un sistema de audio a
24 bits es superior a la calidad que ofrece en la realidad, aunque esta realidad
mermada es muy superior a la analógica; sea como sea, el audio digital
siempre puede tener más calidad que el analógico.
Diafonía imperceptible o casi nula: En los grabadores de audio digital, nunca
ocurrirá que monitorizando una pista aislada podamos oír parte de la señal de
sus pistas adyacentes. Cada pista de ese grabador digital registra y reproduce
sus propias cadenas gigantes de 0 y 1. Es imposible que el ordenador se
equivoque y sume 0 y 1 de distintas pistas.
Edición no destructiva: El último aspecto es quizás el mas interesante dentro de
la vertiente creativa del sonido. Por primera vez es posible crear audio. La
música siempre ha tenido efectos como reverberación, retardos, distorsiones y
ecualización, pero por primera vez estamos ante el nacimiento de nuevos
efectos de indescriptibles resultados. En la película MATRIX, cuando Neo es
desconectado del mundo "Real" produce un interesante grito de dolor.
Imaginemos a Andy Wachowski (director de MATRIX) diciéndole al técnico de
audio que desea un grito humano que vaya convirtiéndose progresivamente en
un grito digital, una voz que denote la existencia de un mundo digital, la
sensación que debe percibir el espectador es la de que Neo abandona el
mundo de los vivos para adentrase en el mundo de la máquina MATRIX. Ese
efecto de sonido que apenas dura 3 segundos, es materialmente imposible de
recrear sin la tecnología de procesado de audio digital. Si el grito de Neo
original no hubiera sido grabado digitalmente en forma de 0 y 1, nunca se
habría podido aplicar ese grado de manipulación. El procesado de estos
efectos puede ser destructivo, es decir alterando la grabación original (los 0 y
1) son manipulados y alterados o bien no destructiva en el que los cálculos se
realizan a tiempo real, es decir, "mientras el audio suena". En este caso el
archivo original se mantiene intacto.
1-Frecuencia de muestreo
El proceso de captura de audio a soporte digital ser conoce como "muestreo"
(sampling, en el ámbito de los DJ). Esta operación de codificación del audio
analógico a 0, 1 tiene lugar a tiempo real, es decir mientras la señal de audio
analógico (audio "real") se reproduce. En los grabadores de audio digital, tanto
en sistemas dedicados como en las tarjetas de sonido populares, existe un
componente llamado conversor AD (analógico-digital, es decir el componente
que se encarga de convertir señales eléctricas a cadenas binarias). El proceso
inverso, es decir la reproducción utiliza un conversor DA (digital-analógico). El
conversor aplica una "rejilla" de tiempo al audio y captura el audio comprendido
en las casillas de la rejilla. Podemos utilizar un ejemplo muy sencillo. Si
queremos grabar un atleta que corre durante" x" metros en una pista olímpica,
necesitamos una cámara que corra junto a éste (imagina la clásica cámara
montada en raíles). Esta cámara capturará 25 fotos (frames, en el argot) por
segundo. ¿25 y no 98 o 4.7? 25 fotos por segundo es más que suficiente para
engañar al ojo humano y hacerle creer que esta sucesión de fotos es un
movimiento real de un señor corriendo. Para capturar el audio de ese corredor
necesitamos un micrófono y un grabador de audio que "fotografíe" el sonido.
Para engañar al oído, necesitamos más de 25 fotos por segundo, bastantes
más...44.100 fotos por segundo, para ser exactos.
Cuadro de diálogo de configuración del programa Pro Tools Free. Desde esta
pantalla indicamos la frecuencia de muestreo que se utilizará en la sesión
actual. Pro-Tools sólo permite utilizar archivos con una sola frecuencia de
muestreo. Existen otros programas que permiten utilizar archivos con múltiples
frecuencias de muestreo en una sola sesión. El programa convierte la
frecuencia de muestreo a tiempo real ya que un CD no soporta múltiples
frecuencias de muestreo
En el mundo del audio no se utiliza la expresión fotos por segundo, sino que se
habla de la Frecuencia de Muestreo. Una frecuencia de muestreo de 44.100 se
conoce como 44.1 kHz (Kilo Hercios). Esta frecuen cia de muestreo permitiría
no diferenciar la fuente un sonido que se produce en la habitación de al lado,
oiríamos a un señor hablando y no sabríamos si es real o una grabación que se
está reproduciendo. Si la frecuencia de muestreo fuera menor, por ejemplo
22.050 kHz, ese señor tendría una voz muy opaca, como si hablase con una
mano tapándose la boca. Nos parecería muy raro, no seria una voz natural. ¡No
podrían engañarnos!.
Existe una relación matemática que relaciona la frecuencia máxima registrable

(es decir, hasta qué frecuencia podremos grabar) en función de la frecuencia
de muestreo. Estamos hablando del teorema de Nyquist y básicamente nos
dice que si queremos grabar una señal de audio que llega hasta "x" frecuencia,
debemos utilizar una frecuencia de muestreo mínima de "2x", es decir el doble
de la frecuencia más alta originada en la señal que deseamos grabar. Por
ejemplo, si queremos grabar una señal de audio que llega hasta los 20 KHz,
Nyquist nos dice que necesitamos una frecuencia de muestreo mayor o igual a
40kHz. Todos los CD del mercado reproducen audio con una frecuencia de
muestreo de 44.1kHz, es decir, pueden reproducir perfectamente señales de
audio con frecuencias de hasta 22050Hz (que es justamente el límite de
frecuencias teórico que podemos oír los humanos; los elefantes poseen un
limite inferior por debajo de los 10Hz y las hormigas mayor a 22kHz). La radio
digital emplea una frecuencia de muestreo de 32kHz (hasta los 16000Hz) frente
a los 96kHz del estándar DVD (hasta los 48000Hz). Por lo tanto...
Según Nyquist, es posible repetir con exactitud una señal de audio si la

frecuencia de muestreo es como mínimo el doble de la frecuencia de la
componente de mayor frecuencia.
Observando la parte inferior de esta captura

de pantalla (Sound Forge 5.0) de ese archivo
descubrimos que es un audio mono de 8 bits
Cuadro de diálogo de grabación a 8.192Hz. Se trata de una captura de una
de audio del programa Wavelab emisión desde el espacio registrada por el
3.0 de Steinberg. Nótese que SETI. Esta frecuencia de muestreo es más
permite grabar audio con que suficiente para el material de audio que
resoluciones de hasta 192kHz y tratan en este instituto de búsqueda s e
24 bits. señales de vida extraterrestre.
2- Resolución de bits
Ya sabemos que necesitamos tomar 44100 "fotos" del sonido por segundo,
pero ¿estas fotos cómo se almacenan?. En forma de bits, cadenas de 0 y 1
totalmente manejables por el ordenador. La cantidad de bits que se utilizan
para representar la muestra del audio es la resolución de la muestra. Una
resolución de 8 bits (1 byte) permite manejar valores de entre 0 a 255 (256
valores). Dicho de otra forma, para representar una señal máxima de 255
necesitaré 8 dígitos binarios (0 o 1) y en este ejemplo, 255 es 1111111 en
binario (8 dígitos 1). Una palabra de 16 bits (2 bytes) maneja un valor máximo
de 65535 (65536 si contamos el 0 como valor), 1111111111111111=65535.
Archivo de audio cargado en WaveLab 3.0. Como siempre, en la parte inferior

nos muestran los "atributos" de dicho archivo, en este caso, estéreo a 16 bits y
44.1kHz de frecuencia de muestreo.
De esta forma, cada uno de las 44100 capturas realizadas contienen un valor
codificado en "x" bits. Cuanto mayor sea la resolución, más calidad tendrá la
grabación. Tanto la frecuencia de muestreo como la resolución tienen
incidencia directa en la calidad de la grabación y reproducción de audio digital.
La resolución, por su parte, también tiene incidencia directa en el rango
dinámico o relación señal-ruido de la grabación (abreviada S/R o S/N en inglés
y se mide en dB o decibelios). Existe una relación que indica que esta relación
S/N es igual al resultado de multiplicar la resolución de bits por 6. Una
grabación a 8 bits posee una relación S/N de 54dB, una de 16 bits 96dB y
144dB a 24 bits. Tengamos en cuenta que estos dB son valores teóricos y que
en la práctica bajan sustancialmente debido a los componentes analógicos de
los grabadores tarjetas de sondo, etc... Lo normal es que un grabador a 16 bits
alcance los 90-92dB y lo extraordinario es que efectivamente nos entregue una
S/N de 96dB. Para nosotros, los humanos, un rango dinámico de entre 90 y
100dB es suficiente. Estas cifras salen del propio rango dinámico humano, la
diferencia entre el umbral de dolor y el umbral de audición
Existe una relación matemática entre los bits y la relación señal-

ruido o rango dinámico: S/N = 6x(resolución de bits)
Esta web es la única que permite buscar tarjetas de audio y software por
características. En este ejemplo el usuario está buscando una tarjeta de audio
con una frecuencia máxima de 48kHz, una resolución mayor de 16 bits (es
decir, 16, 24 o 32) y que funcione bajo Windows 95/98
El resultado de la búsqueda nos informa de la existencia de todos estos

modelos...¿sabrías decir cual suena mejor? Te ayudaré un poco, mejor "rango
dinámico".
3-Rango dinámico / Relación señal ruido
La relación señal ruido (S/N) es la diferencia entre el nivel de señal útil (música,
sonido, etc...) y el nivel de ruido (ruido provocado por señales eléctricas en el
interior de un equipo electrónico). El ruido se mide sin ninguna señal a la
entrada del equipo. Para calcular este valor se toman mediciones del nivel de
señal cuando se captura o se reproduce audio y se restan de las mediciones al
mismo nivel sin señal alguna en las que puede apreciarse el ruido inherente del
propio aparato. Dicho de otra forma, es la diferencia entre el nivel de la señal
nominal y el nivel de la señal residual, al mismo nivel de trabajo. Una prueba
muy sencilla, al escuchar música en tu mini-cadena hi-fi, sube el volumen al
máximo (en modo stop) y comprobarás como el ruido residual aumenta ¿te
gusta?. Si con el volumen máximo pulsases el "play", el audio se reproduciría a
su máximo volumen, la diferencia de volumen entre ese audio "a tope" y ese
ruido residual es la S/N. Cuanto mayor sea la diferencia de volumen entre la
señal útil y el ruido, mayor calidad tendrá el mismo. Técnicamente la señal se
mide en voltios y para pasar a dB se calcula el 20·log(S/N) donde S es el valor
de la "Señal" y N el valor del "Ruido" o "Noise", en inglés. Cuanto mayor sea el
valor de S/N mayor calidad tendrá el audio.
Ahora planteémonos un problema muy interesante. El hombre, como especie
animal, tiene una limitación en su oído; no podemos oír toda la gran gama de
frecuencias generadas en la naturaleza (o por medios artificiales, como esos
antiguos mandos a distancia por ultra-sonidos). A partir de las frecuencias
cercanas a los 20.000Hz, el silencio penetra en nuestro oídos. ¿Qué puede
ocurrir si registro una señal de audio con un sonido que va más allá del umbral
humano?
Imaginemos que estamos grabando audio con una frecuencia de muestreo de
44.1kHz y en ese audio se reproducen frecuencias cercanas a los 29.000Hz
(que naturalmente no podemos oír). Nuestra grabación registrará todas las
frecuencias hasta los 22.050Hz pero aparecerá un ruido de 15.1Hz (44.1kHz-
29kHz), algo totalmente audible que en el original no existía. Estas frecuencias
fantasma se llaman "alias", dando nombre a una distorsión conocida como
"aliasing". Para prevenir esto, tanto los sistemas de grabación de audio como
las tarjetas de sido incluyen un filtro "anti-alisasing" que no permite la entrada
de frecuencias superiores a la mitad de la frecuencia de muestro; estamos
hablando otra vez de Nyquist.
Folleto publicitario del sistema MOTU
1224 a 24 bits. Posee un rango
Folleto publicitario del conversor ADDA dinámico increíble, casi 116dB.
de Pro Tools 888-24. Observa sus ¿Significa eso que es el que mejor
características.. suena?.
Tarjeta Pulsar de Creamware junto con su panel de configuración. En esta

ocasión esta trabajando a 44.1kHz .
EL MANUAL DEL AUDIO EN LOS MEDIOS DE COMUNICACION
Capítulo 1: Diseño de Sonido
Con el sentido de la vista la idea transmite la emoción. Mientras que con

el sonido la emoción comunica la idea, lo cual es más directo y por lo tanto más
poderoso”. Así lo dijo el notable filósofo y matemático ALfred North Whitehead.
El renombrado director de cine Akira Kurosawa lo explicó de otra manera: “El
momento más excitante es cuando agrego el sonido... (entonces) me
estremezco”.
El sonido es una fuerza: emocional, perceptual, física. Puede excitar los
sentimientos, expresar intenciones y, si es lo suficientemente alto vibra el
cuerpo. EL sonido es omnidireccional; está en todos los sitios. El ojo humano
solo puede enfocar una visión a la vez. Cuando el ojo se mueve, la visión
original se desplaza. El sonido puede colocarse –un sonido puede añadirse a
otro sin desplazarlo. El sonido exige atención. Cuando las personas se
comunican deben participar activamente para entender la información auditiva.
No sucede lo mismo con la información visual. La escucha es una actividad
dinámica.
Cuando hablamos decimos “ver” la televisión o visionar una película. La
radio i las grabaciones se emplean a menudo como fondo de otros medios. EL
sonido se da por hecho o a menudo se ignora. La historia del sonido en el cine
y en los medios electrónicos está repleta de ejemplos de audio y de las
personas que lo producen pero se considera una función creativa secundaria.
No era hace tantos años, por ejemplo, que en la mayoría de las películas
aparecían en los créditos de pantalla para sonido sólo el jefe del equipo de
sonido del estudio, sin tener en cuenta todo el personal que contribuía al sonido
de la película. De hecho, durante los primeros cuarenta años del cine sonoro, la
Academy of Motion Picture Arts and Sciencies otorgaba los Oscars al mejor
sonido al jefe del equipo de sonido del estudio de producción,
independientemente de su contribución a la banda sonora de la película
premiada. Similarmente, aunque la televisión daba tradicionalmente créditos de
programas individuales para el sonido, las cadenas eran reacias al
reconocimiento extensivo a todo el presonal de sonido que contribuía en una
producción. En un disco, si que aparecía algún crédito de producción, éste era
el del productor. Incluso la radio, que en su tiempo de apogeo fue un medio
completamente dependiente de todos los tipos de sonido, raramente
identificaba a los responsables de la producción de audio.
Afortunadamente, han cambiado los tiempos para beneficio artístico y
financiero de los medios y del personal de audio. Desde 1971, cuando los
Oscars fueron los primeros premios para los mezcladores de sonido en
particular, los créditos de cine para la producción de sonido se ampliaron para
incuir, entre otros, a los operadores de jirafa; técnicos de grabación; efectos de
sonido, música, efectos sala y montadores de diálogos; productores de música
original; y operadores de repicado y mezclas. Y en el año 1979 la Academia
reconoció la gran importancia del sonido premiando con un Oscar a un
diseñador de sonido específico. Desde entonces, el termino de diseñador de
sonido es una denominación del oficio de aquellos que están dedicados a
licencias creativas.
Los créditos de sonido en Televisión también son ahora más generosos.
Además, la mayoría de los discos compactos (CD) ponen el crédito del
productor, mezclador, i del ingeniero de masterización. A veces también se
colocan en la lista a los ayudantes de grabación. Los Micro-CDs ahora
acreditan por lo menos al productor. Frecuentemente también figura el
ingeniero de grabación. En la radio pública muchos programas identufican a los
que han contribuido en la producción de audio.
Todo esto ha afirmado en principio lo que todos los profesionales de los medios
de comunicación y la audiencia en general hace tiempo que conocen: que la
planificación y producción de un diseño de sonido efectivo merece tanto
reconocimiento como los oficios de guionista, montador, jefe de producción,
director de fotografía, escenógrafo y figurinista. De la misma forma que estas
otras funciones, el diseño y la producción de sonido requiere talento, arte,
imaginación, meticulosidad y tiempo. El impacto del sonido en la comunicación
en los medios, igual que en la vida, es vital, potente y fundamental.
El diseñador de sonido
El diseño de sonido representa el estilo artístico global del material

sonoro en una producción de audio. Similar al director de fotografía que es
responsable del aspecto visual global de un video o de una película, el
diseñador de sonido es responsable del sonido en general de un video o
película (después del productor y del director).Esta responsabilidad puede estar
dirigida por un diseñador de sonido el cual coordina las actividades artísticas
del personal de sonido, o puede llevarse a cabo sin un director de sonido
nombrado por los diferentes miembros del personal de sonido. Estas personas
tienen varios titulos y realizan tareas como seleccionar y manejar los
micrófonos, operar la consola de producción, grabar la producción, crear y
registrar los efectos sonoros, producir música, grabar los diálogos, editar y
mezclar.
Normalmente las instalaciones más pequeñas requieren una persona
para realizar más de una función. En las operaciones más grandes cada
individuo realiza una sola función, debido generalmente al contrato firmado con
los sindicatos.
A través de este libro el término diseñador de sonido se usa
inclusivamente. Esto no es para restar importancia a las diversas funciones
previamente mencionadas, especialmente a la luz de los hechos de que el
termino no se aplica rutinariamente todavía, sino para comprender mejor la
noción de que la persona implicada en la producción de sonido,
independientemente de su función, está involucrada en el diseño de sonido.
Por ejemplo, suponga que filmando una escena romántica, el director
quiere que exista una sensación de colapso inevitable de la relación, sin que se
muestre visualmente con crudeza, esto es, sin que se muestre obviamente, la
incompatibilidad de la pareja. El diseñador del sonido puede manejar esto de
muchas formas, según la elección del micrófono, su colocación, o el uso de la
acústica de la sala.
Los micrófonos (“micros” para abreviar) pueden afectar la cualidad tonal
de una fuente sonora. Un micrófono puede resaltar un sonido melodioso, otro
puede recalcar la fragilidad, e incluso otro puede darle al sonido más cuerpo.
En esta escena un micrófono que hiciera que la voz de la pareja sonara más
penetrante o más áspera le transmitiría un punto emocional al diálogo,
independientemente de su contenido.
La situación del micrófono con relación a la fuente de sonido también
afecta a la calidad del sonido. Un micrófono colocado cerca de la pareja
ayudaría a crear un sonido cálido e íntimo; en cambio un micrófono alejado
ayudará a crear una sensación de distancia y quizá de frialdad.
El ajuste de la acústica de la sala es otra forma que puede afectar a la
percepción auditiva. Una habitación llena de muebles tapizados y cortinas con
gruesos pliegues absorverá el sonido, creando por lo tanto una textura íntima y
confortable. Por lo contrario, para ayudar a ensombrecer la rotura de la pareja,
el espacio donde están representando la escena romántica debe tener
superficies duras como madera y vidrio, las cuales reflejan el sonido, y por lo
tanto crean una textura auditiva más dura y menos confortable. Además, el
diseñador del sonido podría usar efectos de sonido, música y procesado de
señal para obtener el efecto deseado en esta escena.
Un prisionero condenado pasa a través de una puerta de acero que
chirría cuando se cierra. En lugar de cualquier chirrido, el sonido podría
mezclarse con un gemido humano agonizante.
En otra escena, un futbolista que ha sido despedido del equipo después
de años de estrellato. Al dejar los vestuarios, pasea por el campo de juego. Se
le añade un sonido de viento señero para realzar el sentido de soledad. Para
intensificar el efecto, el sonido del viento puede mezclarse, sutilmente con el
fragor de la multitud.
Suponga a un director que quiera comunicar, con el sonido, una
sensación de alienación y deshumanización en una oficina de alta tecnología.
Una forma de abordar el tema sería orquestar la escena usando sonidos de los
teléfonos resonantes con tonalidades futuristicas, el chorro susurrante de
impresoras láser, los zumbidos de máquina en tempo monótono, y Muzac
sintetizado en el fondo.
O en una habitación de hotel apropiada para una crisis nerviosa un
mosquito zumba y el papel de la pared se despega con un rasgado. Por encima
viene el sonido de un hacha que golpea algo disgustadamente blando. En el
pasillo de afuera, el viento aúlla como los demonios en una parsecución de alta
velocidad.*
Un diseño de sonido puede desarrolarse a gran velocidadpara toda una
película, programa de TV, anuncio radiofónico, o grabacion musical. Suponga
que la calidad visual general de una película es diáfana y el director quiere que
el diseño de sonido complemente el efecto visual. Esto puede obtenerse con un
banda sonora que tenga, por ejemplo, una calidad etérea e impresionista. En
un drama policial televisivo, la intensidad sonora se transmite a traves del
rechinar y del repiqueteo del fondo, del sonido de teléfonos, sirenas y chirriar
de neumáticos para dar a entender la urgéncia en el mundo policial. El diseño
sonoro en un anúncio radiofónico comparando afeitadoras eléctricas, puede
usar el sonido suave y silencioso de un motor cuando está en marcha la marca
anunciante, y motores que suenan quejumbrosamente cuando funcionan las de
los competidores. Más aún, el guionista podría estar instruido para usar
palabras agradables para la marca del patrocinador y palabras malsonantes
para la marca de los competidores. En una grabación musical, el productor
puede diseñar el sonido general para expresar cualquier sensación: épica,
romántica, simple, densa, rica, saturada, con contraste, abrasiva, triste, heavy,
funky, muro sonoro, melodiosa, etc. Y todo el personal de audio que interviene,
desde las personas que escogen los micrófonos (normalmente la primera etapa
de la producción de audio después del plan de preproducción) hasta la gente
que mezcla el sonido (normalmente la etapa final), afecta al diseño de sonido
de alguna manera.
De todas las capacidades necesarias en la producción de audio, ninguna
es más importante que la agudeza perceptual para comformar el sonido que se
desea escuchar. En sonido nada hay más importante que tener buen “oído”.
Para esto se necesita por lo menos dos instrumentos básicos: la habilidad de
escuchar discriminadamente y una comprensión de los efectos fundamentales
del sonido en la comunicación humana.
Escucha
El estímulo que hace que escuchemos día a día no es un fennómeno

excepcional. Podemos poner especial atención a un sonido particular, a una
sirena o a una explosión, pero en general la función sonora es un poco más
que el fondo en nuestras idas y venidas. Para un diseñador de sonido, sin
embargo, su ignorancia sería profesionalmente ruinosa.
Un diseñador de sonido debe ser sensible a todos los sonidos,
agradables o desagradables, excitantes o no excitantes, significativos o no
significativos, bien ejecutados o mal ejecutados. Cuanta mas atención preste al
sonido, mejor podrá articular los requisitos sonoros literales estéticos de una
producción.
La sensibilidad innata al sonido cambia, y todo el mundo no tiene la
misma agudeza perceptiva. Por lo tanto, se puede adquirir cierta habilidad con
el entrenamiento, y las orintaciones para la escucha pueden ser de mucha
ayuda.
Qué es y qué no es la escucha
La escucha es percibir el sonido con cuidado y con discriminación

sensible. Es el pensar sobre el sonido, analizando su calidad, estilo,
interpretación y matiz. Es tratar de entender qué motiva un sonido. Es participar
de nuevas experiencias sonoras independientemente de su rareza. Es
examinar la reacción al sonido en relación a los sentimientos y emociones.
La escucha es no leer mientras tocan música. No es hablar o gritar
durante un concierto. No es prestar atención solamente a la imagen de la
película o del programa de TV. No es andar en bicicleta mientras se escucha
en un “Walkman”. No es caminar por el campo y obsevar. Si no se escucha, el
sonido permanece como parte del entorno; no llega a ser parte de su
consciencia.
Puede argüirse que la mayoría de los sonidos son parte del entorno y
que ofrecen muchas pequeñas satisfacciones estéticas aunque no se
escuchen. Algunos sonidos son bastante molestos. Escuchar música
desagradable de un apartamento contiguo, en un ascensor, en un
supermercado o en una oficina, o escuchar el sonido de una cháchara,
disparos, tráfico, avión, un tractor, o un martillo neumático, puede desensibilizar
la agudeza auditiva y dificultar el placer de un sonido que merece la pena.
Por lo tanto parece razonable concluir que la escucha debe ser
selectiva. Tal conclusión debería ser apropiada para la mayoría, pero no se
puede aplicar para el diseñador de sonido.
Como y para que se escucha
Decir como y para qué se debe escuchar es una tarea fácil. La parte
dificil -la escucha- es suya; el entrenamiento de los oídos exige esfuerzo y
años de práctica.
Se aprende cómo escuchar prestando atención al sonido donde y
cuando sucede: en diferentes salas, en el tráfico, o en los eventos deportivos;
cuando se ducha, viste, come o pasea; durante una conversación; en un
concierto; descansando en la cama. Se aprende para qué escuchar analizando
los componentes que forman un sonido y la relación de un sonido con su
entorno.
Tome el sonido de un perro ladrando. Un ladrido es generalmente un
sonido áspero y adrupto. Pero los ladridos varían completamente en tono,
sonoridad, ritmo, y contexto. Por ejemplo, los ladridos de tono grave son má
largos que los ladridos de un tono agudo; algunos ladridos comienzan con un
sonido gutural, otros con un ataque pronunciado. Dentro de un ladrido puede
haber un gemido, gañido, gruñido, aullido o un bramido. También algunos
ladridos tienen un ritmo regular mientras cambian el commpás y producen un
ritmo irregular. Cada uno de estos sonidos le dice algo sobre el perro y su
situación.
El sonido que hace un pollito mientras nace puede parecer obvio: la
rotura gradual de la cáscara del huevo y luego el piar. Pero la escucha de una
incubación revela más. El pollito pía dentro del huevo antes de romperlo; el piar
es sordo. La cáscara comienza poco a poco a romperse con cortos sonidos de
tentativa, sonidos intermitentes que aumentan en potencia. Con el aumento de
la fuerza aumenta poco a poco en claridad, potencia y rapidez. La última rotura
de la cáscara suena más como destrozos cuando el pollito sale al mundo. Una
vez fuera de la cáscara, el piar no es sordo, es claro, y fuerte pero no tan
ruidoso como justo antes de nacer.
El sonido tambien cambia con el entorno. El tamaño de la sala, los
muebles, la superficie de la pared y los techos; en campo abierto, en centro de
la ciudad o en la orilla del mar, frío y cálido, todo afecta de alguna forma al
sonido.
El sonido de la televisión varía de un programa a otro. Con los créditos,
se puede identificar determinado diseño de sonido con determinados
diseñadores de sonido. En los deportes, por ejemplo, se pueden distinguir
diferentes estilos de cómo están captadas las fuentes de sonido, de qué
sonidos están bien balanceados, y qué sonidos están enfatizados. A algunos
diseñadores de sonido les gusta mantener los niveles del sonido del gentío y la
voz del anunciante parejos para mantener el interés. Otros prefieren mantener
el nivel de la gente relativamente bajo de forma que cuando la acción lo
justifique pueda ser aumentado para mejorar el interés.
La mayoría de los diseñadores de sonido tienen su estilo propio. Algunos
técnicos de sonido pueden identificar a quien produjo un sonido particular, la
película o el programa en que se usó por primera vez, o la colección de sonidos
pregrabados de la que fue sacado.
La escucha de sonido en un discurso. Las palabras pueden tener un
significado, pero el sonido las define, En el papel el significado de las palabras
“buenos días” es claro. Su significado cambia, por supuesto, cuano la tensión
en ciertas palabras cambia, o cuando se dicen con un tonillo, monótono,
quejoso o balbuceando; o dicho por un anciano, un joven o un niño.
El sonido de los discursos conviene que sea de calidad de confidencia,
miedo, ansiedad, arrogancia, humor, auto-estima, e interés. Una persona
puede aparecer confidente en una entrevista, pero si el tono de las frases
suben al final, o si hace unas pausas extrañas entre las palabras o frases o
tiene una calidad mala como orador, el discurso de la persona se olvida por la
apariencia.
Quizá la música presente el mayor desafío en la escucha. Las
combinaciones sonoras son infinitas, y su valor estético llena las necesidades
humanas. El gusto musical es intensamente personal; dos personas
escuchando la misma música pueden responder de dos formas muy diferentes,
ambas válidas.
Una sola nota en una guitarra acústica puede producir una variedad de
sonidos y respuestas que depende de que la cuerda sea de tripa o de acero,
que sea pulsada por el dedo o con un pico, que el pico sea de plástico o de
metal, la fuerza con que se rasga la cuerda, el tipo de madera y acabado usado
para hacer la guitarra, la acústica de la sala y todo lo demás. Los violines
tocados en un aire cálido tienen un sonido mejor que los viloines tocados en un
ambiente frio; por lo tanto los violines tocados en un ambiente frio tienen un
sonido más duro que los violines tocados en un ambiente templado. Dos pianos
grandes de concierto pueden ser de la mayor calidad, pero uno tiene un sonido
más duro propio para música Barroca o música “Jazz”, mientras que el otro
tiene más tonalidad, más recomendado para música Romántica.
Cuando se escucha la música, note cómo pequeños cambios en los
arranques y sostenidos afectan en los acentos, cómo acelerando o frenando
las notas por una fracción de segundo de más o de menos altera el ritmo, cómo
legeras diferencias de tono cambian el balance de la sonoridad, cómo la línea
de los bajos, el tambor, el relleno, la lírica, el arreglo, la producción y la
musicalización añaden interés y significado.
Escuche varias grabaciones de, digamos, la Quinta Sinfonía de
Beethoven. Trate de conseguir los mejores factores posibles, tales como la
calidad de los discos, el formato de grabación (estéreo, mono, digital,
analógico), el sistema de audio y la sala. Puede quedar sorprendido de todas
las diferencias en el sonido y en la interpretación. Podrá preferir el sonido en
una grabación y la interpretación en otra. Lo que no significa que una sea
necesariamente mejor que la otra; lo que significa es que basándonos en su
percepción, una es preferible a la otra por varias razones. Incluso alguna de
ellas puede ser desagradable.
Porque la respuesta al sonido es personal, es dificil determinar normas
y guías de forma que el escuchar es la clave para captar el discernamiento
auditivo. El oído es capaz de un desarrollo constante en su habilidad de
analizar los sonidos complejos. De la forma que desarrolla su sensibilidad
auditiva así será su nivel de captación de auditorio. Una forma de acelerar la
realización de esta meta es comprendiendo los elementos de la estructura del
sonido y sus efectos en la respuesta.
Estructura del sonido y respuesta humana
Para la mayoría de nosotros, el sonido es elemental en nuestras vidas.

El nos da toda clase de información cognoscitiva, información relacionada al
proceso mental del conocimiento, razonamiento, memoria, juicio, percepción e
información afectiva, información relacionada con la emoción, sentimientos y
modo de ser.
Categorias del sonido
Todo sonido puede agruparse en tres categorías: música, sonido y

habla. Sobre la música la filósofa Susanne Langer ha escrito que es un tono
análogo que forma las relaciones de la respuesta humana, “una similaridad
lógica al conflicto y la resolución, a la velocidad, el arresto, la excitación
terrorífica, la calma, los vacíos del sueño...”*. La música puede sugerir también
una localidad, un pueblo, un período de la historia. Características similares
pueden también hacerse con los sonidos y el habla.
Un coche de bomberos o de policía corriendo por la calle crea una
sensación de emergencia aunque no suene la sirena. La sonoridad y el
repiqueteo de una campana de iglesia da una sensación de celebración,
distinto a un lento y fijo “gong”. Un lanzador calentando en su montículo
recuerda con frecuencia la dureza de su lanzamiento por el sonido de la bola al
quedar atrapada en el guante del receptor. De este modo, los lanzadores no
están acostumbrados a la acústica de un puesto en particular y tienen más
dificultad en interpretar correctamente el impacto de ese sonido. Algunos
hospitales instalan unos tipos especiales de silbido en los tubos de gas de las
salas de operaciones para que los anestesistas puedan asegurarse de que el
flijo del gas o mezcla de gases es la correcta para el paciente. Por ejemplo el
helio es más ligero que el oxígeno y por lo tanto su velocidad es mayor, de
forma que el pitido emitido por la válvula será mayor para el helio que para el
oxígeno. Una mezcla de los dos gases resultará un pitido entre el alto del helio
y el más bajo del oxígeno. Una finalidad de la llamada caja negra de los
aviones es la de registrar los sonidos de los motores de forma que una
grabación del sonido y su ejecución será interesante en caso de accidente. Los
vigilantes de pájaros están a la escucha de un trino especial o gorjeo que indica
la presencia de un pájaro determinado. La mayoría de los sonidos nos dicen
algo.
La categoría sonora que tiene mayor aprecio de las que nos dan
información es la palabra hablada. Pero el aprecio del significado del sonido no
hablado en el habla, o sea, la inflexión, también juega una parte importante en
la interpretación de las palabras habladas. Cuando alguno dice, “¿Sabe de que
le estoy hablando? entendemos lo que la frase quiere decir. Pero poniendo la
inflexión en unas palabras concretas el significado de la sentencia puede
cambiar desde una pregunta, para preocupar, para condescender, para
defensa, para petición, para enojar. Anteriormente, leimos la frase, “Buenos
dias” que en el papel significa cordialidad. Pero según como las palabras
suenen sabremos si tiene un sentido sindero o de compromiso.
Aunque existan diferencias claras en cómo la música, el sonido y el
discurso se conjugan, ellos constituyen los elementos básicos fundamentales
para la estructura del sonido y para la derivación del significado.
Componentes de la estructura del sonido
Entre los elementos comunes más significantes para los distintos tipos
de sonido son el tono, el volumen, el timbre (o calida tonal), el tiempo, el ritmo,
la duración, el ataque, y el declive. Cada elemento contiene ciertas
características que afectan nuestra respuesta para un sonido dado, ya que
estas características son parte de la música, del sonido, o del discurso.
El Tono se refire a lo agudo o grave de un sonido. El sonido de tono
agudo sugiere con frecuencia algo delicado, brillante, o elevado; el sonido de
tono grave puede indicar algo siniestro, duro o lleno de paz.
El Volumen describe el sonido en los términos de sonoridad o debilidad.
El sonido fuerte puede sugerir cercanía, fuerza o importancia; el sonido suave
puede describir distancia, debilidad o tranquilidad.
El Timbre (o color del tono) es la característica de la calidad tonal de un
sonido. No solamente identifica una fuente de sonido, aflautada, metálica,
timbálica, pero también tiene cualidades sonoras tales como riqueza, agudeza,
perfilado, y metálica. Las cualidades tonales aflautadas producidas por un
clarinete u oboe, por ejemplo, pueden sugerir algo deseoso, solitario, o dulce.
Un sonido de metal puede implicar algo frío, duro, feroz, amargo, fuerte,
marcial, o grandioso. Un sonido de un timbal o percusión puede indicar drama,
importancia o poder.
El Tempo se refiere simplemente a la velocidad de un sonido. Los
tempos rápidos pueden agitar, excitar, o acelerar; los tempos lentos pueden
sugerir monotonía, dignidad o control.
El Ritmo, que se refiere a un patrón de tiempo sonoro, puede ser simple,
constante, complejo, o cambiante. Un ritmo simple puede indicar deliberación,
regularidad o un montón de complicaciones. Un ritmo constante puede implicar
estupidez, depresión o uniformidad. El ritmo complejo puede sugerir
complicación o elaboración. Ritmo cambiante puede crear sensación de
incertidumbre, vigor o confusión.
Ataque –la manera en que un sonido comienza- puede ser duro, suave,
brusco, o gradual. Los ataques duros o bruscos pueden sugerir violencia,
excitación o peligro. Los ataques suaves o graduales implican algo gentil, sordo
o aburrido.
La Duración se refiere a lo que dura un sonido. Un sonido corto en
duración puede indicar inquietud, nerviosismo o excitación; los sonidos más
sostenidos pueden crear el sentido de paz, persistencia o cansancio.
El Decaimiento (la rapidez con la que un sonido baja desde un cierto
volumen) puede ser rápido, gradual o lento. Un decaimiento rápido puede crear
un sentido de confinamiento, encierro o definición; declive lento puede indicar
distancia, suavidad o incertidumbre.
Otros aspectos del sonido como cambio de tono y volumen e
interferencias acústicas también afectan a la respuesta. Por supuesto, todos
estos elementos no se escuchan individualmente sino en combinación.
Alguien hablando en tono alto, voz potente y a un ritmo rápido indica
excitación, independientemente del sentido que puedan tener las palabras. El
tono bajo, reduciendo volumen y el tiempo lento también pueden indicar
excitación, pero esta combinación de sonidos sugiere algo más profundo. Las
palabras dichas en un tiempo deliberado y en una habitación con
reverberación, es decir, acústicamente vivas, pueden indicar un contenido más
pesado que las mismas palabras en un ambiente acústicamente muerto.
Estos mismos factores pueden ser aplicados a la música y a los sonidos.
Una trompeta o un violín tocados en un tono alto, con volumen y con rapidez
puede sugerir excitación, agitación o alegría, quizá agitación en acústicas
apagadas y alegría en acústicas vivas.
El golpear en una puerta de madera o metálica puede sugerir agitación o
alegría. Y de nuevo, bajando el tono, reduciendo el volumen y reduciendo los
cambios del tempo cambia la respuesta a algo más serio, ya sea la fuente de
sonido una trompeta, un violín, una puerta de madera o un montón de latas de
metal.
Que estas características sean elementales en la estructura del sonido
no sugiere que el diseño de sonido sea prescriptivo o que se desarrolle
aplicando fórmulas. De hecho, todos estos consejos pueden tener muchas
excepciones. Sirven para introducir y definir los bloques constructivos del
sonido a partir de los cuales el diseñador de sonido modela la estructura y
significado auditivo. Algunas de estas descripciones no son usadas en los
campos asociados a la ciencia y la ingeniería, cuya correlación veremos en
capítulos 2 y 3.
Puntos principales
El diseño de sonido representa el estilo artístico global de la obra sonora en

una producción de audio.
Un diseño de sonido puede ser desarrollado y producido por un diseñador de
sonido nominado o por varias personas del equipo de sonido, o por ambos.
El personal de sonido tiene varios títulos y ejecutan sus funciones tales como
operadores de consola de producción, selección y operación de la jirafa de
micrófono, grabación de la producción, producción y grabación de efectos de
sonido, producción de música, grabación y regrabación de diálogos, edición y
mezcla, también aportan el soporte técnico necesario para poder ejecutar estas
operaciones.
Es esencial que el diseñador de sonido esté en conocimiento del entorno del
sonido y conozca la escucha, cómo percibir el sonido con atención cuidadosa y
sensible.
El sonido da información cognoscitiva (información relacionada con el proceso
mental del conocimiento, razonamiento, memoria, juicio u opinión y percepción)
e información afectiva (información relacionada con la emoción, el sentimiento
y el modo de ser).
El sonido se puede agrupar dentro de tres categorías: música, sonidos, y
palabra.
Los componentes básicos de la estructura sonora incluyen el tono, el volumen,
el timbre, el tempo, el ritmo, el ataque, la duración y el decaimiento.
La postproducción de sonido
Funciones
Procesos: Grabación, Edición, Procesado, Mezclas y Masterización
Personal técnico y de producción
El estudio de postproducción: digital vs. analógico, video vs. multimedia
Funciones
La función de la postproducción (o "sweetening") es organizar espacio-
temporalmente y dar forma definitiva a los diversos materiales sonoros que se
utilizan en una producción audiovisual. En la postproducción se combinan
elementos musicales extraídos de colecciones especializadas, efectos de
sonido grabados en sala, generados electrónicamente o extraídos de
colecciones, locuciones y músicas grabadas expresamente -en estudio o "on
location"-, etc. El objetivo de esa combinación depende del tipo de producción
audiovisual, de su soporte, de su género, del criterio estético del realizador, etc.
En algunos casos la banda sonora será un complemento a la banda visual, en
otros será la guía de los elementos visuales, en otros servirá de refuerzo de la
banda visual, en otros duplicará la información que llega a través de la vista,
etc.
La postproducción es el último proceso en la creación de una banda sonora
pero no por ello hay que dejar todas las decisiones para ese momento. La frase
"...eso lo arreglarán en la postproducción" es tópica, típica, y desgraciadamente
más habitual de lo que nos gustaría. Con una mejor pre-producción o con
sesiones de grabación bien planificadas podrían evitarse muchos de los
defectos que hay que subsanar en post-producción.
Procesos: Grabación, Edición, Procesado, Mezclas y Masterización

En la postproducción puede ser necesario registrar en soporte magnético
voces, efectos y músicas. Una vez grabados, puede ser necesario adecuarlos y
ajustarlos (espacial, temporal, y tímbricamente) a las imágenes. También será
necesario conseguir un determinado equilibrio entre todos los elementos
sonoros empleados en cada momento. Finalmente la mezcla definitiva deberá
adecuarse al medio de difusión de la producción así como a las características
del soporte en el que se distribuya.
Personal técnico y de producción

Realizador: es la persona con la que suele trabajar constantemente el equipo
técnico de sonido. Conoce la producción como la palma de su mano, sabe lo
que quiere respecto al sonido, confía en el equipo técnico de sonido y escucha
y acepta sus sugerencias... Si todo eso se cumple, y el equipo de sonido esta a
su misma altura (humana y profesional) la producción se sonoriza con éxito.
Productor: suele encargarse de los aspectos organizativos y financieros de la
producción, así que sólo lo veremos en contadas ocasiones (cuando los gastos
de sonorización rompan el presupuesto, o la postproducción de sonido dure
más tiempo del previsto...).
"Creativo": personaje del mundo de la publicidad encargado de suministrar las
ideas subyacentes a la producción. En algunas ocasiones puede llegar a tomar
decisiones que incumban al equipo técnico... ya se sabe, los creativos son
unos seres taaan especiales...
Asistente de grabación: el "chico de los cafés" suele ocuparse de preparar los
micrófonos, de tener el equipo a punto, de seleccionar efectos de sonido de
colecciones, y en algunos casos, de realizar las grabaciones menos
comprometidas.
Músico o Montador musical: se encarga de seleccionar las músicas de
colecciones especializadas y adaptarlas a la producción, o bien de
componerlas según las necesidades de cada producción.
El estudio de postproducción: digital vs. analógico, video vs. multimedia

En un estudio de postproducción sonora para video es imprescindible algún
tipo de magnetoscopio (al menos un VHS Hi-Fi, o un U-mátic en el que tener
una copia de trabajo con código de tiempo SMPTE, para "arrastrar" el audio).
La presencia de ordenadores, aunque cada vez más habitual, no es todavía
absolutamente imprescindible (todo el proceso se realiza con magnetofones de
bobina abierta).
En un estudio de postproducción orientado a producciones multimedia puede
haberse prescindido de los magnetoscopios ya que es posible sonorizar video
a partir de copias digitalizadas de la imagen en formato AVI o Quicktime.
Tampoco es imprescindible una cabina de grabación (puede alquilarse un
estudio durante unas horas para ello), ni tan siquiera una mesa de mezclas.
Desgraciadamente las condiciones acústicas se suelen cuidar muy poco (la
sala de sonorización no está acondicionada ni insonorizada, la escucha se
basa en altavoces y auriculares de baja calidad, etc.)
Soportes y formatos del material sonoro.

Audio de CDs
Audio de DATs. Otros soportes de audio en cinta
Archivos de sonido. Formatos. Cambios de formato, downsampling, i reducción
de bits
EJERCICIOS
Cuando el audio que ha de integrar una producción no lo grabemos
directamente en sincronía con las imágenes podemos hallarnos en situación de
tener que transferirlo desde diferentes soportes:
Audio de CDs
Existe una gran variedad de formatos de CD, no todos ellos necesariamente
ligados al sonido. No es éste el lugar apropiado para detallar todas las
variantes, pues seguramente otras asignaturas han entrado en detalle al
respecto.
El CD-Audio almacena pistas de audio muestreado a 44.1 KHz y codificado en
formato PCM a 16 bits, permitiendo más de 70 minutos estéreo por disco. El
CD-ROM permite almacenar unos 650 Mb de datos informáticos de toda índole
y por tanto es posible utilizarlo como soporte de almacenamiento de archivos
de audio digital. Un CD-ROM no puede ser interpretado correctamente por un
reproductor de CDs musicales (como mucho nos escupirá ráfagas de clicks o
de ruidos tremebundos); en cambio, un CD-Audio sí que puede ser leído
correctamente por un lector de CD-ROMs.
Para extraer audio de CDs musicales e incorporarlos en un proyecto de
postproducción digital de sonido se pueden seguir 4 procedimientos,
asumiendo que el resultado lo pretendemos almacenar en el disco duro del
ordenador:
a) Tomar la salida analogica del reproductor (line out) y conectarla a la entrada

analógica de la tarjeta de sonido que utilicemos. Activar la función de grabación
de nuestro programa de grabación/edición de sonido
b) Utilizar el lector de CD-ROMs incorporado en el ordenador. La conexión
entre su salida y la entrada de la tarjeta de sonido se realiza a través de
software.
c) Transferir directamente los datos del CD a archivo de sonido, con ayuda de
programas específicos (CD-grabbers).
d) Transferir digitalmente los datos del CD desde un reproductor con salida
digital hacia una tarjeta con entrada digital.
La opción c) será siempre la preferida ya que ahorra la redigitalización que

tiene que llevar a cabo la tarjeta en los dos primeros casos, y permite mantener
intacta la calidad original de la grabación en CD, y además nos ahorra tener
que editar la grabación puesto que de hecho no hacemos una grabación sino
una mera "transferencia". El problema es que los lectores de CD-ROMs no
están suficientemente estandarizados y un programa de captura que funcione
con un modelo o una marca puede no hacerlo con otro diferente. La opción d)
también sería buena, pero nos obligaría a editar el fragmento grabado (para
eliminar silencios antes y después del fragmento que nos interesaba).
Audio de DATs. Otros soportes de audio en cinta
La extracción correcta de audio de DATs requiere que la tarjeta de sonido
disponga de entrada digital, ya sea SPDIF (conector RCA) o AES-EBU
(conector XLR o cannon). Si no disponemos de ella siempre queda el recurso
de redigitalizar la señal conectando la salida de línea del DAT con la entrada de
línea de la tarjeta, pero no es la opción más recomendable ya que perderemos
calidad. La transferencia digital en este caso no nos permite conservar las
marcas de posición (índices) que puedan existir en la cinta.
La extracción de audio en otros soportes de cinta siempre la tendremos que
realizar a través de los conectores de línea, de manera que la tarjeta de sonido
será la que digitalice la señal. Cuando el audio proviene de cintas de cassette
no tiene mucho sentido preocuparse por la calidad de la tarjeta, pues la señal
que entraremos tiene suficientes defectos. Digitalizar audio de una cinta nos
permitirá, para empezar, tratar de mejorar la calidad del sonido, eliminando el
típico "hiss" o ruido de soplido.
Archivos de sonido. Formatos. Cambios de formato, downsampling, i reducción
de bits
Una vez digitalizado un sonido (recordemos muy de pasada que el proceso
requiere un filtrado pasa-bajos, un muestreo temporal, una cuantización de la
amplitud de la onda y una codificación según un procedimiento preestablecido
denominado "Modulación en código de pulsos" o PCM) dispondremos de un
archivo que podremos reproducir en aquellas plataformas capaces de
reconvertir su información en impulsos eléctricos susceptibles de mover el cono
de un altavoz. El archivo también podremos manipularlo de la misma manera
que hacemos con otros tipos de archivos, y con la ayuda de programas
especializados, podremos transformar su contenido sin que la calidad se
degrade lo más mínimo (nótese que dije podremos: algunos programas de
transformación pueden llegar a degradar notablemente la calidad sonora de los
archivos).
En un archivo de sonido distinguimos entre la cabecera (o header) y los datos.
La cabecera es la sección inicial del archivo y en ella suele indicarse si se trata
de un sonido mono o estéreo, si contiene puntos de buclaje (o loops), la tasa
de muestreo, la duración, y otras informaciones respecto a los datos que van a
continuación. Tales datos representan, muestra a muestra, el valor de la
amplitud de la onda sonora. Cuando utilizamos 16 bits para codificar esa
amplitud necesitamos dos octetos (o bytes) por muestra; el orden de ambos
octetos es diferente para un archivo de un ordenador con procesador Intel (big-
endian) que para uno con procesador Motorola (little-endian). Esta es una
cuestión muy importante cuando movamos archivos entre plataformas.
Los formatos más comunes son:
AIFF y SoundDesigner II, habituales de Macintosh. Las principales diferencias
entre uno y otro son que en el AIFF los datos de cada canal están separados,
mientras que en el SD-II están intercalados (interleaved) -o sea, una muestra
de un canal seguida de una muestra del otro...- y que el formato SD-II utiliza
unas estructuras de datos propias de Macintosh denominadas resource forks
que suelen complicar las transferencias a PC.
WAV, propio de PCs.
SND, habitual en plataformas NeXT.
AU, habitual en plataformas Sun.
Un cambio de formato por lo general no debe afectar a la calidad del sonido

(siempre que se mantenga la resolución y la tasa de muestreo), sólo afectará a
la cantidad y tipo de información que se almacene en la cabecera. De ahí que
con un cambio de formato el tamaño del archivo no se altere en exceso.
La reducción de la tasa de muestreo y/o de la resolución se plantea como algo
inevitable en muchas producciones multimedia ya que permiten comprimir el
tamaño de los archivos de sonido hasta hacerlos 4 veces más pequeños,
aunque el precio a pagar es siempre la degradación de la calidad.
Cuando reducimos la tasa de muestreo es importante aplicar un filtro anti-
imagen o (anti-aliasing) para que no aparezcan -a modo de fantasmas-
componentes espectrales de baja frecuencia que no tenía el sonido original. El
filtrado anti-imagen elimina todos los componentes situados más allà de la
denominada frecuencia de Nyquist (la mitad de la tasa de muestreo). Así pues,
una reducción de tasa de muestreo tendrá impacto principalmente en el timbre
del sonido pues eliminará armónicos y componentes espectrales de alta
frecuencia..
Cuando reducimos la resolución (de 16 a 8 bits, por ejemplo) el impacto se
produce principalmente sobre el rango dinámico de la señal (cada bit que
perdemos lo reduce unos 6 dB). Por tanto, los cambios de nivel entre una
muestra y otra son más abruptos, produciendose una rugosidad sonora muy
característica. Para tratar de paliarla podemos intentar reducir la dinámica del
archivo original con ayuda de un compresor.
Recientemente han empezado a implantarse con éxito diversos esquemas de
compresión de datos que utilizan sofisticadísimos algoritmos "adaptativos"
(analizan espectralmente la señal, elaboran predicciones de lo que puede venir
a continuación, utilizan conocimientos de psicoacústica para eliminar
información redundante o enmascarada...). Tales algoritmos permiten
reducciones de datos considerables (hasta en proporción 12:1), y sin degradar
en exceso la calidad. El precio a pagar es que es necesario un proceso de
descodificación que puede originar un cierto retardo en el inicio de la
reproducción, o un gasto excesivo de los recursos de cálculo del ordenador.
Entre estos algoritmos vale la pena conocer el denominado IMA ADPPCM, que
reduce el audio en una proporción de 4 a 1 sin que suene tan mal como cuando
reducimos a 22 KHz y 8 bits, y el MPEG-3, que puede comprimir en proporción
12 a 1 con una calidad notable (casi de CD escuchado a través de un equipo
multimedia).
EJERCICIOS
Siempre que tratemos de comparar dos archivos supuestamente idénticos
puede ser muy útil aprovechar la opción de cambio de fase (invert) de los
editores de sonido. Supongamos que A y B son archivos supuestamente
iguales. Si fuera así, al invertir de fase B, crearíamos una "imagen refleja" de A
respecto al eje de amplitud. Así, al mezclar a igual nivel [A]+[B invertido]
obtendríamos... silencio total. Pero si B no es totalmente igual que A, al mezclar
[A] + [B invertido] apreciaremos todo aquello que tienen de diferente. Utilizad
esta técnica en los ejercicios que siguen, siempre que tenga sentido hacerlo.
0. Copiar a vuestra zona o al disco local los archivos tema2*.* que halléis en la
carpeta R:\Recursos\PostAudio.
1. Abrir el archivo tema2-m.wav. Convertir a AIFF, a SND. Comprobar si existe
perdida de calidad. Comprobar si existe variación de tamaño del archivo.
Reconvertir uno de los dos a WAV, volver a comprobar la variación de calidad y
de tamaño. Transferir el AIFF y el WAV a un Macintosh y hacerlos sonar. ¿Qué
problemas surgen? ¿Cómo se pueden solucionar? Transferirlos desde el
Macintosh nuevamente al PC. ¿Qué problemas surgen? ¿Cómo se pueden
solucionar?
2.Convertir a IMA ADPCM (con ayuda de SoundForge) y a MPEG3(con ayuda
de alguna aplicación específica que tengáis en C:\Winaudio\). Comprobar si
existe perdida de calidad. Comprobar si existe variación de tamaño del archivo.
Reconvertir uno de los dos a WAV, volver a comprobar la variación de calidad y
de tamaño.
3. Convertir el archivo tema2-m.wav a 22 KHz. Generar 2 versiones, una con
filtro anti-aliasing de máxima calidad y otro sin filtro. Compararlos entre sí y con
el original. ¿Qué diferencias se notan? Re-muestrearlos de nuevo a 44.1 KHz y
comparar con el archivo original. ¿Hay diferencias? Re-muestrear otra vez
hacia 22 KHz el archivo previamente re-muestreado. Volver a escuchar
notando las diferencias. Volverlo a muestrear otra vez hacia 44.1 KHz y volver
a comparar.
4. Capturar un fragmento de audio desde un CD directamente, y desde la
entrada de línea de la tarjeta de sonido. Analizar las diferencias. Si es posible,
haced dos copias sobre DAT del fragmento del CD, una por vía digital y otra
por vía analógica. Transferir cada fragmento desde el DAT al ordenador por las
2 vías posibles. Comparar los resultados entre sí, y con los fragmentos
transferidos directamente desde el CD. ¿Existe alguna situación en la que no
se haya producido ninguna degradación del sonido?
Edición de sonido
Visualización del sonido. El dominio temporal i el dominio espectral.
Claves visuales que nos ayudan a interpretar el sonido.
Edición destructiva y edición no destructiva.
Cortes y encadenamientos. Fundidos de entrada y de salida. Fundidos
cruzados.
Eliminación de ruidos indeseables.
Ejercicios
La edición de sonido es el proceso a través del que convertimos en definitivos
los elementos sonoros "en bruto" que se combinan en una producción
audiovisual. En este proceso es necesario eliminar silencios, toses, ruidos
molestos, re-ajustar niveles, combinar archivos, equilibrar tonalmente
materiales heterogéneos, etc.
Visualización del sonido. El dominio temporal i el dominio espectral

Durante más de 40 años la edición de sonido se ha llevado a cabo únicamente
"de oído", manipulando cintas magnéticas con ayuda de cuchillas y cinta
adhesiva. No obstante en la actualidad contamos con la ayuda de
representaciones visuales tales como los gráficos de formas de onda y los
espectrogramas, y la edición no se realiza físicamente sobre el soporte del
audio, sino de manera "virtual" sobre representaciones del sonido..
Los gráficos de forma de onda nos presentan las variaciones de amplitud de la
onda sonora a lo largo del tiempo. En el eje horizontal se representa el tiempo,
y en el vertical la amplitud, intensidad o incluso la presión sonora. A menudo en
el eje horizontal tenemos una escala en horas, minutos, segundos y "frames", o
bien en compases y tiempos de compás, mientras que en el eje vertical
tenemos decibelios, valores de amplitud de muestra o porcentaje de amplitud.
Los espectrogramas nos representan la estructura intrínseca del sonido. En el
eje horizontal se ubica la frecuencia, y en el vertical la amplitud. Si repetimos
esas representaciones a lo largo de un periodo de tiempo obtenemos un
espectrograma en cascada, en el que podemos observar las variaciones
temporales de la estructura del sonido. Para analizar el espectro nos valemos
del análisis de Fourier a corto plazo. Esta técnica puede requerir que ajustemos
algunos parámetros para obtener unas representaciones fiables y de alta
precisión. Por ejemplo, un tamaño grande para la ventana de análisis nos
permite detectar correctamente bajas frecuencias, pero nos reduce la
resolución temporal.
Claves visuales que nos ayudan a interpretar el sonido

Algunas claves visuales que nos ayudan a comprender el sonido:
En el dominio temporal:
* Relación amplitud-intensidad
* Relación forma de onda con timbre... presencia de más o menos armónicos.
* Discontinuidades y regularidades excesivas como elementos de ruido y
distorsión
* Ruido versus partes estables, vocales versus consonantes.
En el dominio espectral:
* Armonicidad.
* Regiones de relevancia espectral, formantes.
* Presencia de ruidos como picos espectrales fuera de lugar.
Edición destructiva y edición no destructiva

La mayoría de programas actuales de edición permiten trabajar de manera no-
destructiva. Ello significa que las transformaciones que realizamos con un
determinado archivo no operan directamente sobre él sino sobre una copia real
(un archivo temporal) o virtual (una serie de punteros y variables que
especifican cómo se transforma el archivo original en el momento de
reproducirlo transformado). La edición no-destructiva permite siempre "volver
atrás" si tomamos una decisión equivocada.
Una opción muy interesante en los sistemas de edición no destructiva es la del
uso de regiones. Una región es una representación "virtual" -software- de un
fragmento del archivo. Descomponiendo un archivo en regiones es posible
construir un orden nuevo de sus contenidos sin necesidad de alterarlo
físicamente, ni de copiar y pegar los fragmentos para construir nuevas
ordenaciones. Para ello elaboramos una lista de reproducción (o playlist) que
especifica qué regiones hacer sonar en cada momento.
En algunas aplicaciones de edición de sonido podemos hallar diferentes modos
de edición. La elección de uno o de otro depende de los objetivos de la sesión
o del proceso que tratemos de llevar a cabo. Cuando utilizamos las funciones
de cortar y pegar es posible realizar un "pegado-mezcla" (pegando sobre un
fragmento del archivo que previamente contenía sonido), una inserción (el
audio que pegamos hace desplazar hacia atrás el que existía en el punto de
inserción), o una substitución total (cuando en lugar de un punto de inserción
especificamos una región). También es posible el pegado a una dirección
específica de código de tiempo. Otra opción muy interesante es el recorte (o
crop), mediante el que podemos eliminar todo aquello que rodea al fragmento
que verdaderamente nos interesa. Finalmente, la opción de simulación de
bobina permite ajustar un punto de edición escuchando a velocidad lenta el
sonido existente alrededor de dicho punto. Cada opción depende, en última
instancia, del modo de edición en el que estemos trabajando.
Cortes y encadenados. Fundidos de entrada y de salida. Fundidos cruzados

Denominamos corte a una edición de material sonoro en la que el audio
aparece o desaparece bruscamente. Denominamos encadenado a una edición
de material sonoro en la que se yuxtaponen sin solución de continuidad y sin
solapamiento dos elementos más o menos dispares. Cuando hacemos un
encadenado la mayoría de aplicaciones profesionales pueden ajustar hasta
cierto punto el enlace para que no se produzca un "click" audible debido a
diferencias de fase y amplitud entre los dos fragmentos.
Un fundido es una transición gradual desde o hacia el silencio absoluto. En el
primer caso se denomina fundido de entrada" (o "fade in"), mientras que en el
segundo caso hablamos de fundido de salida (o "fade out"). Cuando
yuxtaponemos 2 materiales sonoros diferentes utilizando una combinación de
fundido de entrada y de salida, es decir, cuando los yuxtaponemos sin "corte"
sino con una transición paulatina, denominamos al proceso crossfade (o
"fundido cruzado").
En un fundido cruzado coinciden en el mismo momento de tiempo dos
fragmentos sonoros diferentes, probablemente procedentes de archivos
diferentes, que se combinan entre sí en una proporción que varía a lo largo del
tiempo. Así hablamos de fundidos cruzados lineales, exponenciales, abruptos.
Siempre que realizamos un fundido cruzado hay que vigilar las alteraciones de
nivel que pueden producirse durante él (un fundido cruzado lineal origina una
pérdida de entre 3dB y 6 dB).
Eliminación de ruidos indeseables

Los ruidos continuos y estables (por ejemplo un zumbido de baja frecuencia, o
el "hiss" o soplido de cinta) pueden reducirse notablemente con ayuda de
sofisticados procesos de filtraje disponibles en algunos editores profesionales.
La estrategia suele implicar la selección de un breve fragmento -200 milésimas
suele ser suficiente- de ruido solo, a partir del que el programa obtiene el perfil
espectral de dicho ruido y propone un filtro reductor. A continuación, operando
por ensayo y error unos cuantos parámetros es posible conseguir una mejora
en la calidad sonora del archivo.
Los ruidos transitorios, abruptos, y poco predecibles (toses, respiraciones,
rozamientos de ropa, "clicks", "pops", etc.), es posible eliminarlos siempre que
no coincidan con material "interesante". Estos ruidos que aparecen en
momentos de silencio pueden eliminarse de manera semi-automática, con
funciones tipo puerta de ruido, en las que establecemos un umbral de
intensidad por debajo del cual lo que suena se atenúa o elimina. Además, es
posible establecer umbrales temporales de manera que la puerta de ruido sólo
actúe si el ruido no es mayor o menor que un determinado valor. En el caso de
crujidos y "pops" de disco de vinilo existen aplicaciones con funciones
especialmente diseñadas para resolver aceptablemente el problema. En el
caso de "glitches" o "clicks", también podemos utilizar funciones de "de-
clicking" que permiten substituir la muestras defectuosas por, por ejemplo, un
valor aceptable calculado a partir de las muestras adyacentes.
La eliminación de ruidos indeseables no siempre debe realizarse "por sistema".
En ocasiones el proceso de eliminación puede llegar a desvirtuar
características sonoras importantes, en otras ocasiones determinadas
eliminaciones restarán naturalidad a la banda sonora, o provocarán una cierta
sensación de extrañeza. Es necesario valorar en cada caso la necesidad y el
alcance y límites de dicho proceso.
EJERCICIOS
0. Copiar a vuestra zona o al disco local los archivos tema3*.* que halléis en la
carpeta R:\Recursos\PostAudio.
1. A partir de los archivos tema3-musica.wav, tema3-voz.wav, tema3-
ruidos.wav tratar de relacionar y descubrir claves visuales que nos ayuden a
interpretar el contenido sonoro de los archivos. Utilizar las opciones de análisis
espectral para observar la estructura tímbrica de los sonidos.
2. Con los archivos tema3-a.wav y tema3-b.wav experimentar diferentes tipos

de fundido de salida y de entrada. ¿En qué situaciones puede funcionar mejor
cada tipo de fundido?
3. Enlazar los archivos tema3-a.wav y tema3-b.wav por encadenado, y por
diferentes fundidos cruzados. ¿En qué situaciones puede funcionar mejor cada
tipo de enlace?
4. Experimentar diferentes posibilidades de corte y pegado de fragmentos a
partir de los archivos tema3-a.wav y tema3-b.wav. Elaborar un breve fragmento
musical que los combine de diferentes maneras.
5.Tratar de restaurar el archivo tema3-noise.wav con los diversos recursos que
nos ofrece Sound Forge. Dado que consta de varios fragmentos cuyo ruido
procede de fuentes diferentes, separar el archivo original en regiones, generar
un archivo a partir de cada una de ellas y operar sobre cada uno de ellos con la
estrategia más apropiada. Finalmente recomponer un archivo "limpio" a partir
de unir los diferentes fragmentos.
Transformación y procesamiento del sonido
Reverberación y procesado espacial.
Procesado de dinámica: normalización, modificación de la amplitud,
compresión, limitación, expansión...
Transformaciones tímbricas basadas en retardos: delay, flanger, chorus...
Transformaciones tímbricas basadas en la estructura de los sonidos. Filtrado.
Reverberación y procesado espacial

La reverberación es la suma total de las reflexiones del sonido que llegan al
lugar del oyente en diferentes momentos del tiempo. Auditivamente se
caracteritza por una prolongación, a modo de "cola sonora", que se añade al
sonido original. La duración y la coloración tímbrica de esta cola dependen de:
la distancia entre el oyente y la fuente sonora;
la naturaleza de las superficies que reflejan el sonido.
En situaciones naturales hablamos de sonido directo para referirnos al sonido
que se transmite directamente desde la fuente sonora hasta nosotros (o hasta
el mecanismo de captación que tengamos). Por otra parte, el sonido reflejado
es el que percibimos después de que haya rebotado en las superficies que
delimitan el recinto acústico, o en los objetos que se encuentren en su
trayectoria. Evidentemente, la trayectoria del sonido reflejado siempre será más
larga que la del sonido directo, de manera que -temporalmente- escuchamos
primero el sonido seco, y unos instantes más tarde escucharemos las primeras
reflexiones (early reflections); a medida que transcurre el tiempo las reflexiones
que nos llegan son cada vez de menor intensidad, hasta que desparecen.
Nuestra sensación, no obstante, no es la de escuchar sonidos separados, ya
que el cerebro los integra en un único percepto, siempre que las reflexiones
lleguen con una separación menor de unos 50 milisegundos. Esto es lo que se
denomina efecto Haas o efecto de precedencia
Cuando manipulamos un reverberador artificial, los principales parámetros son:

Tiempo de decaimiento: se define como el tiempo que tarda el sonido
reverberado en disminuir 60 dB (a menudo se denomina TR60). Las salas
grandes tienen tiempos largos (un segundo o más), mientras que las
habitaciones de una casa tienen tiempos muy cortos (menos de medio
segundo).
Retardo de las primeras reflexiones: en salas grandes las primeras reflexiones
tardan en llegar más tiempo que en salas pequeñas, pudiendo sonar incluso
como una especie de eco.
Intensidad de las primeras reflexiones: está determinada por la distancia del
oyente y de la fuente sonora respecto a las superficies reflectantes. Si el oyente
o la fuente sonora están junto a ellas las primeras reflexiones sonarán con
mucha intensidad.
Manipulando los 3 parámetros anteriores podemos crear la sensación de
tamaño del recinto, y de posicionamiento de fuente y oyente dentro de él. Pero
además, podemos crear diferentes sensaciones relacionadas con los
materiales de las paredes, suelo y techo con parámetros tales como:
Tipo de reverberación: una reverberación tipo hall nos proporciona una
coloración diferente que una de tipo plate, o de tipo room. Otros tipos de
reverberación como las gete-reverbs o las reverbs no lineales (en las que la
intensidad de las reflexiones no se va atenuando a medida que pasa el tiempo)
pueden alterar poco la coloración, pero en cambio provocar sensaciones
extrañas (ya que son "anti-naturales").
Densidad de las reflexiones: aumenta en función de la cantidad de trayectorias
reflejadas que lleguen al oyente (debido a que hay muchas superficies
reflectantes (paredes con angulaciones cambiantes, objetos interpuestos en la
trayectoria del sonido, paredes de materiales poco absorbentes...).
Absorción selectiva de determinadas frecuencias: puede simularse aplicando
una determinada ecualización; la absorción está directamente relacionada con
los materiales de las superficies reflectantes (una pared de hormigón reflejará
muchas más altas frecuencias que una cortina gruesa, por ejemplo).
Es importante remarcar que cuando uno empieza a utilizar reverberaciones
suele hacer un abuso de ellas. La mejor manera de evaluar su efectividad
consiste en ajustar el equilibrio entre sonido seco y sonido reverberado
(dry/wet) según cremoas apropiado, y a continuación eliminar la reverberación;
si "aparecen" detalles o instrumentos que en la mezcla no se oían quiere decir
que seguramente estábamos a punto de sobre-reverberar. Para hacer este tipo
de escucha es importante configurar el mezclador de manera que en dos
canales tengamos la señal seca, en los dos contiguos la señal reverberada, y
que el procesador nos entregue 0% de señal original y 100% de procesada.
En los últimos años han aparecido equipos e incluso programas que permiten
simular el posicionamiento de una fuente sonora no sólo en un espacio
acústico y en un eje horizontal, sino también en el eje vertical, así como simular
con credibilidad trayectorias de la fuente dentro de ese espacio. Asímismo, es
posible codificar fácilmente una mezcla en formatos envolventes multicanal
(Surround).
Procesado de dinámica
El margen dinámico de nuestro oído y el que se puede generar a partir de
instrumentos acústicos puede alcanzar los 130 dB SPL. En cambio, los
dispositivos de grabación no tienen tanto margen: los magnetofones de cinta
apenas superan los 60 dB, las tarjetas de sonido domésticas apenas superan
los 80 dB, tan sólo algunos de los equipos digitales profesionales permiten una
dinámica de 120 dB... Por tanto, en algunas situaciones en la que necesitemos
grabar instrumentos acústicos (especialmente una orquesta) necesitaremos
comprimir su dinámica (o aprendernos la partitura para subir o bajar faders
según haya momentos ppp o fff). Básicamente un compresor atenuará en una
determinada proporción (ratio) la intensidad de la señal cuando ésta supere
determinado umbral (threshold). Si a partir de determinado nivel no se permite
que aumente la intensidad en absoluto, estaremos utilizando un limitador en
lugar de un compresor. El limitador es de utilidad cuando resulta imprescindible
que una señal de audio no supere un determinado umbral (por ejemplo, en
transmisión de televisión, o en grabación digital -aunque en este caso el propio
dispositivo de grabación ya realiza la limitación, con los desagradables
resultados que todos conocemos-).
Las utilidades más habituales y obvias de los compresores se centran en
situaciones en las que es necesario minimizar los cambios de nivel debidos a
variaciones de la distancia entre el micro y la fuente sonora, o cuando es
necesario grabar sobre un soporte que no permite tanta dinámica como la
fuente original -y protegernos contra las saturaciones-, o cuando es necesario
suavizar los ataques de fuentes sonoras intensas, o cuando es necesario
conseguir una sensación de alta intensidad sonora sin llegar a saturar y
distorsionar la grabación (por ejemplo en emisoras comerciales de FM, o en
spots publicitarios). Cuando utilizamos la compresión hay que pensar que el
nivel de salida del compresor puede ser menor que el de entrada, por tanto
tendremos que compensar la salida añadiendo una ligera amplificación. Para
eso utilizaremos el parámetro output gain. Por último, hay que ajustar los
parámetros de ataque y liberación del compresor: el primero determina el
tiempo que el compresor tardará en entrar en acción cuando se haya superado
el umbral; el segundo determina el tiempo que el compresor tardará en dejar de
actuar cuando la señal haya bajado por debajo del umbral. Hay que vigilar el
ajuste de ambos ya que un ataque demasiado corto provocará una pérdida de
transitorios en los ataques -y por tanto apagará el sonido, perderá "pegada"- o
puede generar "clicks", pero si es demasiado largo es probable que la energía
de los transitorios origine una alteración grande de nivel. Si el tiempo de
liberación es demasiado corto y la razón de compresión es grande puede
aparecer el efecto de "bombeo": la subida abrúpta de graves justo cuando deja
de comprimir -porque aún queda un cierto nivel de señal en la cola del sonido,
y ésta ya no está siendo comprimida-; si es demasiado largo, puede estar
comprimiéndose un ataque que no lo necesita, con la consiguiente pérdida de
definición. El oído es quien nos tiene que guiar en última instancia a la hora de
ajustar esos parámetros.
Un tipo de compresión que cada vez se utiliza más es la compresión por
bandas, de manera que sólo se aplica a determinadas frecuencias (por ejemplo
a los graves, o a los 7KHz para reducir la sibilancia o siseo de una voz).
Aunque no nos extenderemos en ellos, los reductores de ruido de cinta (Dolby
B y C, Dolby SR y DBX) son sistemas de compresión/expansión selectiva por
bandas de frecuencia.
Las puertas de ruido "cierran" el paso de toda señal que no supere un
determinado umbral fijado por el usuario. Son muy útiles en situaciones de
"directo" en las que hay multitud de micrófonos que pueden captar lo mismo
que el principal, y tratamos de que la señal sólo entre por el principal (por
ejemplo, en un coloquio en el que casi seguro que sólo habla una persona al
mismo tiempo). También nos ayudan a "recortar" todos aquellos ruiditos no
deseados que se han colado en una grabación (toses, respiraciones,
rozamientos de ropas, ruidos de ambiente), siempre que no se mezclen con la
señal principal.
Los expansores de dinámica actúan de manera inversa a los compresores. A

partir de un determinado umbral expanden el margen dinámico en una
proporción fijada por el usuario. Su utilidad puede revelarse especialmente en
situaciones en las que la señal original tiene una dinámica demasiado reducida
(por ejemplo, en la escucha de un disco de vinilo) y nos interesa tratar de
ampliarla un poco, o también puede ayudarnos a restaurar señales grabadas
con bajo nivel (aunque necesitaremos aplicar otros procesos adicionales, ya
que el expansor por sí solo no bastará).
Cuando necesitemos utilizar varios tipos de procesadores de dinámica hemos
de actuar en primer lugar contra los ruidos indeseables (con una puerta de
ruido, por ejemplo). Después podemos poner el compresor. Finalmente, a
diferencia del uso de otros procesos (reverberación, retardos), no suele tener
mucho sentido combinar señal procesada en dinámica con señal seca.
La normalización consiste en transformar la amplitud de la señal tomando un
determinado valor como máximo y reajustando en la correspondiente
proporción toda la señal. Así, cuando normalizamos a 0, si el valor máximo que
tenemos en nuestro archivo es de -10 dB estaremos amplificando toda la señal
esa magnitud. El problema más habitual con la normalización es la existencia
de ruido de fondo, el cual, mientras está a una amplitud baja no se percibe tan
molesto como cuando es amplificado en exceso (la explicación es
psicoacústica). A veces será preferible normalizar a menos de 0 dB, o
comprimir un poco y aprovechar la ganancia de salida del compresor para
aumentar el nivel definitivo. Aumentar la ganancia y normalizar son dos
maneras de referirse a una misma operación, aunque en muchas ocasiones
empleamos la expresión "normalizar" sólo cuando normalizamos a 0 dB de la
escala digital.
Transformaciones tímbricas basadas en retardos: delay, flanger, chorus...

Eco/Retardo
Cuando las reflexiones de un sonido llegan con retardos superiores a 50
milisegundos respecto de la fuente original aparece lo que denominamos eco.
En otros tiempos el efecto de eco se conseguía gracias a los 2 cabezales
(grabación y reproducción) de un magnetofón. Inyectando un sonido,
grabandolo y reproduciéndolo inmediatamente obtendremos un retardo cuyo
tiempo estará determinado por la distancia entre los cabezales y por la
velocidad de la cinta (puede oscilar entre 66 i 266 milisegundos). Actualmente
los ecos se consiguen mediante retardos digitales (delays) que nos permiten
tiempos desde una milésima de segundo hasta 3 ó 4 segundos.
Además del tiempo de retardo, es posible manipular parámetros como:
Regeneración: la señal retardada vuelve a retardarse, con una regeneración al
100% la señal no deja nunca de sonar.
Múltiples líneas de retardo (multi-tap delay): es posible retardar de maneras
diferentes pero simultáneas una misma señal (por ejemplo, una línea atenúa
progresivamente la señal retardada, otra hace un número fijo de retardos, con
una dinámica creciente, y otra hace lo mismo pero con una dinámica y una
distribución de tiempos de retardo aleatorias.
Panoramización: permite hacer sonar las repeticiones alternativamente en uno
u otro lado del espacio acústico, o ir desplazándolas progresimente en una
determinada dirección.
Los retardos no sólo se utilizan para simular eco:
Con un retardo muy corto (< 30 milisegundos) y una cierta realimentación
alteraremos claramente la tímbrica. El sonido se hará metálico y adquirirá
resonancias muy definidas en determinadas frecuencias. Incluso podemos
simular acordes a partir de esta opción.
Con un retardo entre 20 y 80 milésimas afectamos principalmente a la
presencia del instrumento, ya que nos aprovechamos del efecto Haas para
"sumar" perceptualmente dos sonidos iguales (y físicamente separados en el
tiempo), de manera que podemos generar la sensación de sonido más
"grueso", o de multiplicación de instrumentistas.
Con retardos mayores de 80 o 100 milisegundos el efecto principal que
obtenemos es de tipo rítmico, por tanto -al menos en el caso de músicas con
ritmos marcados- hay que ajustar el tiempo de retardo al tempo de la música,
para lo cual existen tablas muy útiles o puede valernos la fórmula:
Tiempo de Retardo = 60000 / (BPM x R),
donde R es 1 si el retardo va a negras, 2 si es a corcheas, 4 si es a
semicorcheas, etc. Por ejemplo, a 100 BPM y 4/4, si queremos un retardo a
semicorcheas (R=4) necesitamos un tiempo de 150 milisegundos.
Flanger
Se trata de un filtrado periódico (en forma de peine) de una serie de

frecuencias determinada por el tiempo de retardo (por ejemplo, con uno de 0.5
milisegundos realzaremos 2KHz y sus armónicos), aunque explicarlo con
palabras es poco efectivo. El origen del flanger es mecánico (hay quien se lo
atribuye a George Martin y a John Lennon): si al grabar una cinta en un
magnetofón presionamos con el dedo de vez en cuando y con fuerza variable
la bobina que entrega cinta originamos micro-frenazos que alteran la señal
original. Si grabamos simultáneamente en 2 magnetofones, y en uno aplicamos
el "flanging" manual mientras que en el otro no, generaremos el barrido
característico del efecto de flanger.
El flanger proporciona efectos más llamativos cuanto más rico (armónicamente
hablando) sea el sonido. Cuando le añadimos feedback lo equiparamos a un
chorus.
Chorus
Se utiliza para "engrosar" la señal, o para simular la existencia de varios
instrumentos sonando al unísono. En esta situación, un intérprete puede atacar
con cierto retraso y con cierta desafinación respecto a otro intérprete; eso es lo
que trata de simular, de manera compacta, este efecto. Dado que su
funcionamiento es similar al del flanger (sólo que la señal que sale se filtra y se
realimenta) los parámetros de control también son similares.
Distorsión
Transforma en cuadradas las ondas de la señal de entrada. Eso origina que el
resultado tienda a ser desagradable y rasposo (ya que la cuadratura de la onda
implica que aparezcan armónicos impares).
Excitador
También denominado enhancer. Genera armónicos pares -a menudo
medios/agudos- de la señal de entrada, de manera que contribuye a hacer más
presente esa señal en una mezcla sin necesidad de subir su nivel. También
puede utilizarse para generar subarmónicos con el fin de realzar instrumentos
de tesitura grave, o de proporcionarles más cuerpo. Finalmente puede utilizarse
satisfactoriamente en restauración sonora de vinilos o de grabaciones
defectuosas.
Transpositor
Inicialmente las transposiciones mecánicas se basaban en alterar la velocidad
de reproducción de una cinta respecto de su velocidad en el momento de la
grabación (reproduciendo al doble obtenemos una transposición de octava
hacia arriba), pero también se alteraba la tímbrica ya que esta transformación
no preserva las estructuras de formantes propias de muchos instrumentos (por
ejemplo la voz) y de ahí los conocidos efectos de "pitufo" o de "ogro", en los
que la voz así procesada poco tiene que ver con la original. Muchos
transpositores digitales aún operan en base a esa idea de alterar la velocidad
de reproducción, aunque en los últimos años van apareciendo más equipos y
programas capaces de transponer, incluso en tiempo real, sin alterar en exceso
las características del instrumento. Las utilidades de un "pitch-shifter"
comprendend: desafinar ligeramente un instrumento (por ejemplo, convertir un
piano "soso" en un "honky-tonk"), engrosar su sonido -con la ayuda adicional
de un pequeño retardo-), crear imágenes estéreo a partir de una fuente mono,
corregir algunas alturas equivocadas en una interpretación por otra parte
valiosa, crear armonías paralelas, o deformar sonidos "naturales" u "originales"
para crear nuevos timbres (películas como La caza del Octubre Rojo, Full Metal
Jacket, o Terminator 2 contienen interesantes ejemplos de uso del
transpositor).
La manipulación de un transpositor implica básicamente escoger un intérvalo
de transposición (o varios, en el caso de necesitar crear acordes). Manipulando
otros parámetros como el tiempo de retardo y el grado de realimentación
podemos llegar a generar arpegios y otros efectos musicales.
Transformaciones tímbricas basadas en la estructura de los sonidos. Filtrado.

El dispositivo más utilizado para transformar el timbre de un sonido es el
ecualizador. Un ecualizador permite modificar la señal de entrada de manera
tal que determinados componentes de su estructura o espectro salen de él
atenuados o amplificados. Un ecualizador permite, como máximo, manipular 3
parámetros:
Frecuencia de actuación o central: para determinar sobre qué zona del
espectro queremos actuar;
Anchura de banda o factor Q: para determinar la región en torno a la frecuencia
central (cuanto más estrecha más precisa será la modificación -pero
seguramente será menos evidente-);
Nivel de atenuación/amplificación: para determinar la magnitud en dB que
necesitamos realzar o atenuar la banda sobre la que actuamos.
Un ecualizador puede ser:
Paramétrico: si permite manipular los tres parámetros anteriores;
Semiparamétrico: si la Q está prefijada y sólo podemos alterar los otros dos
parámetros (habitual en muchas mesas de mezclas);
Gráfico: si consta de un número fijo de frecuencias (8, 15, 31) de actuación,
con una Q fija, de manera que tan sólo permite modificar el nivel de
atenuación/amplificación (con 31 bandas y una Q de tercio de octava puede ser
el típico ecualizador utilizado para ajustar tonalmente una sala).
Las transformaciones que podemos conseguir con un ecualizador no son
excesivamente drásticas, aunque nos pueden ayudar a atenuar determinadas
frecuencias molestas o exageradamente presentes, a realzar determinadas
características tímbricas de una fuente sonora, o, en última instancia, a
compensar determinadas deficiencias microfónicas o perceptuales (aunque no
debemos poner muchas esperanzas en que nos arregle una deficiente toma
microfónica). La EQ no se debe utilizar por rutina o sistema sino en función de
los objetivos sonoros o musicales (claridad, equilibrio tonal, énfasis en
determinados componentes, etc.).
En una mezcla es importante tratar de plantear siempre en primer lugar una
ecualización destructiva (en la que se atenúan determinadas zonas para
conseguir el deseado equilibrio tonal) antes que una constructiva (en la que
una amplificación excesiva puede originar un aumento del ruido); en lugar de
amplificar lo que queremos resaltar podemos obtener el mismo efecto
atenuando todo aquello que no nos interesa resaltar. En cambio, en grabación,
si es necesario ecualizar deberemos preferir antes una EQ constructiva (que
siempre permita volver a atenuar en mezcla) antes que una destructiva (si
hemos atenuado algo, difícilmente vamos a conseguir que "reaparezca"); ahora
bien, hay que conocer en qué zonas se mueve la energía de los instrumentos
para no cometer el error de enfatizar zonas vacías que lo único que hará será
aumentarnos el ruido de la grabación. También es importante ecualizar
"contextualizadamente", es decir, teniendo presente el resto de fuentes sonoras
que van a sonar al tiempo que aquella que tratamos de ecualizar: un
instrumento ecualizado puede sonar fantástico cuando lo escuchamos "solo", y
en cambio, en la mezcla en la que está incorporado, ser un factor de
ensuciamiento o de desequilibrio. La ecualización debe permitirnos también
asentar los instrumentos en un espacio espectral "vertical", de forma que cada
uno de ellos ocupe un "nicho ecológico" propio y no exista una feroz
competencia entre varios.
Junto a los ecualizadores los filtros son otra herramienta importante para alterar
la estructura tímbrica de un sonido (de hecho los ecualizadores no son más
que filtros especiales). Un filtro nos permite eliminar una determinada banda o
margen de frecuencias en torno, por encima, o por debajo, de una cierta
frecuencia de trabajo o frecuencia de corte.
Los filtros más habituales son:
Pasa-banda: dejan intacta la señal que se halle en torno a una determinada
frecuencia central;
Pasa-bajos: dejan intacta la señal que exista por debajo de una determinada
frecuencia de corte;
Pasa-altos: dejan intacta la señal que exista por encima de una determinada
frecuencia de corte (por ejemplo, el filtro de 80/100 Hz que habitualmente
llevan las mesas de mezcla);
Filtros de rechazo de banda o notch: eliminan la señal que se halle en torno a
una determinada frecuencia central;
Filtros en escalón o shelving: atenúan o amplifican la señal a partir de una
determinada frecuencia de corte, pero sin ser tan abruptos como los pasa-altos
y pasa-bajos (los controles de graves y agudos de los amplificadores
domésticos y algunas secciones de los ecualizadores de una mesa de mezclas
suelen ser de tipo escalón);
Además de estas herramientas básicas es necesario tener presente las
herramientas de transformación de la estructura tímbrica a partir de procesos
de análisis y síntesis, como por ejemplo los porgramas Soundhack, SMSTools,
Lemur, etc. Con esta clase de herramientas podemos operar drásticas
transformaciones impensables sólo con ayuda de filtros tradicionales. Es
posible obtener más información sobre esta clase de aplicaciones a partir de
estas páginas:
CTI Music at Lancaster University
Mac programs for computer music
Digital Sound Page
HitSquad
Montaje y mezcla
El entorno acústico que requiere una mezcla.
Mezcladores virtuales.
Procesado habitual en una mezcla.
Automatización
El entorno acústico que requiere una mezcla

* Acústica de la sala: se requiere una sala con respuesta plana (sin tendencia a
realzar o atenuar determinadas bandas de frecuencia) y apenas reverberada;
en caso de que no cumpla estas condiciones es necesario acondicionarla
acústicamente, y en última instancia, procesar la escucha a través de un
ecualizador gráfico de tercio de octava para equilibrarla tonalmente. Además, la
sala debe estar convenientemente aislada, de manera que no interfieran en la
escucha sonidos ajenos a la mezcla. Es importante, en este sentido, conseguir
aislar o atenuar ruidos propios de los dispositivos de audio (motores,
ventiladores de ordenadores, etc.), para lo cual suele ser útil disponer de una
"sala de máquinas" adyacente al control de escucha.
* Monitores de campo próximo y monitores de estudio: escuchar una mezcla
puede requerir dos tipos de escucha: por un lado la escucha "fina", de
precisión, para captar los matices de un instrumento determinado y los cambios
que sobre su sonido puedan realizarse, y por otro lado la escucha "integrada",
en la que nos queremos hacer la idea de cómo sonará esa mezcla en un
equipo medio similar al de la mayoría de consumidores. También es muy
recomendable haber realizado al menos una escucha en mono, para verificar
que no se produzcan cancelaciones de fase.
* Niveles de escucha: la respuesta en frecuencias del oído humano sano no es
lineal, ni mucho menos. Cuando el nivel o sonoridad es bajo tendemos a
"perder" bajas y altas frecuencias, tal y como puede observarse en las típicas
curvas isofónicas de Fletcher y Munson. La respuesta más lineal de nuestro
oído se da cuando el nivel de escucha es bastante alto (unos 80 o 90 dB SPL),
de ahí que para mezclar una producción audiovisual se tienda a trabajar con
esos niveles. Debe inisitirse en que un exceso de horas de trabajo en esas
condiciones degradan temporal (e incluso a veces permanentemente la salud
del aparato auditivo). La recomendación a seguir (según los organismos de
salud pertinentes) es realizar un descanso de 10 minutos cada hora que se
trabaje a 90 dB SPL; no sólo lo agradecen nuestros oídos, sino que el resultado
del trabajo acostumbra a ser más satisfactorio.
Mezcladores virtuales
Un mezclador es un dispositivo que permite combinar simultáneamente dos o
más señales diferentes. Para realizar esas combinaciones las señales
discurren por buses, o líneas de transmisión de audio, de manera que cuantos
más buses independientes tengamos más mezclas alternativas simultáneas
podremos realizar (pensemos por ejemplo que, en una grabación de un par de
instrumentistas que tocan sobre una base ya grabada cada uno de ellos
requerirá una mezcla diferente en sus auriculares, y nosotros en el control
necesitaremos otra mezcla diferente, y si además hemos de grabar una mezcla
previa sobre la marcha, necesitaremos elaborarla independientemente de la
que escuchamos, e independientemente también de la que enviamos a
grabación...). Por ello, a la hora de evaluar la utilidad de un mezclador, no sólo
cabe tener en cuenta el número de canales, sino también el número y tipo de
buses disponibles.
Los mezcladores virtuales suelen ser programas de gestión de pistas de sonido
con interfases gráficos que emulan las superficies de trabajo de una mesa de
mezclas de estado sólido. Entendiendo la estructura y funciones de una mesa
de mezclas es fácil utilizar el símil para comprender y operar un mezclador
virtual ya que hasta el momento no parecen existir metáforas mejores para
diseñar sus nterfases de usuario.
En un mezclador cabe distinguir:
Entradas y Salidas principales: a grabación, a altavoces, a auriculares, a
menudo duplicadas.
Entradas y Salidas auxiliares: generalmente asociadas a buses auxiliares, de
subgrupos, de escucha, de inserción, o de retorno (para ingresar señal
procedente de procesadores).
Canales: dentro del canal cabe distinguir el pre-amplificador (para ajustar la
ganancia de entrada), los filtros y ecualizadores, los potenciómetros de envío a
auxiliares, los selectores de envío a otros buses, etc.
Buses auxiliares: generalmente utilizados como envíos hacia procesadores de
efectos, o hacia auriculares de la cabina de grabación).
Buses de subgrupos: generalmente nos permiten agrupar un cierto número de
canales en un único par de salida (por ejemplo para regular el nivel de una
batería sin necesidad de operar sobre los 7 u 8 canales que habitualmente se
utilizan).
Buses de retorno: llevan hacia otros buses señales que ingresaron en la mesa
por entradas diferentes a las de canal.
Buses de monitoraje: utilizados para ajustar el nivel de entrada de señal (en
combinación con la función de escucha antes del fader o PFL.
La ventaja de los sistemas virtuales es que los buses pueden reconvertirse, y
reconfigurarse según las necesidades de cada proyecto, cosa que con los
mezcladores de estado sólido convencionales no es posible (el número de
buses está prefijado y no se puede alterar). En los sistemas digitales más
simples sólo existen un par de buses estéreo (escucha por cascos y salida de
línea), aunque gracias a la tecnología Direct-X algunos programas de audio
incorporan ya otras alternativas (véanse por ejemplo los envíos a efectos de
Cakewalk).
Procesado habitual en una mezcla

Como siempre, no hemos de esperar a arreglar defectos de grabación en una
mezcla. El procesado a utilizar, por tanto, debería ser el justo y necesario para
enfatizar determinados aspectos cruciales que dependen del tipo de producción
audiovisual que estemos creando, o bien para tratar de conjurar problemas que
se pueden presentar en el momento de la difusión de dicha producción. La
mezcla que vamos a realizar no será la misma si el destino final es un video, un
CD, un CD-ROM, o un cassette.
Cuando la respuesta en frecuencias del soporte final esté restringida (caso del
video analógico tradicional, que no va más allá de 15 KHz, o de los cassettes,
que también se quedan en esa región), o la dinámica esté reducida (en un
vinilo no hay más de 40 dB, por ejemplo), hay que procesar convenientemente
la mezcla (recortando frecuencias, comprimiendo, etc.).
Los procesos más habituales en la mezcla son:
Ecualización: un mismo instrumento en mezclas diferentes puede requerir
ecualizaciones diferentes. La primera regla de la ecualización dice que no hay
reglas para ecualizar. Lo que es importante es conocer en qué regiones del
espectro se halla la energía de cada instrumento para poder decidir a qué
"nicho espectral" asignamos cada uno de ellos.
Panoramización: sirve para ayudar a distribuir y localizar en el espacio las
diferentes fuentes sonoras. No hay que olvidar que, en combinación con
niveles diferenciados y con un buen ajuste de la reverberación, podemos
conseguir crear planos sonoros diferentes. En el caso de sonorizar imágenes
suele estar en concordancia con la posición de la fuente sonora en el encuadre
escogido en cada secuencia (salvo que haya muchos saltos, en cuyo caso
puede ser preferible no moverlo continuamente). En el caso de grupos
instrumentales suele escogerse una panoramización que refleje las posiciones
espaciales habituales de cada instrumento dentro del conjunto. La posición
central siempre se reserva para los instrumentos que ejerzan un papel más
importante. Hay que vigilar bien los casos en los que se panoramiza a los
extremos, ya que podemos estar creando "agujeros en el centro". En cualquier
caso, se aplica la misma regla que en la ecualización.
Reverberación: generalmente es necesario crear la sensación de que diversos
instrumentos, grabados en condiciones acústicas diferentes, comparten el
mismo o parecido espacio físico; para ello nos valdremos de la reverb y del
panorama. Hay que vigilar la coloración que nos añadirá la reverb (en algunos
casos puede amplificar graves y emborronar la mezcla, por lo tanto, el retorno
de la reverb podríamos recortarlo por debajo de 100 Hz). La combinación de
delay corto + reverb puede resolver mejor que la reverb sola algunas
situaciones.
Compresión: especialmente necesaria en video o en grabaciones sobre cinta
magnética doméstica. En mezcla suele comprimirse toda la mezcla de manera
global (previamente podemos haber grabado algunos instrumentos ya con una
suave compresión, o haberlos regrabado aplicándola entonces). Si tenemos
acceso a una compresión por bandas de frecuencia, con un poco de
experimentación podremos conseguir resultados más interesantes que
aplicando la misma compresión a todas las bandas. A veces, tras la etapa de
compresión, y ya justo antes del DAT máster podemos insertar un excitador
psicoacústico que devuelva parte del brilllo que el compresor puede habernos
hecho perder, y también para conseguir una mezcla más "presente".
Automatización
Para ahorrarnos la tarea de tener que usar las manos y los pies para conseguir
fundidos simultáneos de varios canales a diferentes velocidades (y teniendo en
cuenta que no podemos amaestrar a un pulpo para que nos ayude) debemos
recurrir a la automatización de los movimientos de faders y potenciómetros de
una mesa, ya sea real o virtual. La automatización se conseguía antaño
mediante la conversión de los datos de posición de los controles de la mesa a
un determinado formato digital especial, y la grabación de dichos datos en una
pista del magnetofón "master", pero hoy en día cada vez es más utilizada la
automatización MIDI. Mediante los controladores 7 y 10 (volumen y panorama
respectivamente), o mediante otros controladores no asignados que nos
permitan mayor resolución y que hayamos asociado (vía software) a los
controles de nivel y panorama de cada pista es posible grabar (en varias
pasadas incrementales) una secuencia MIDI con la información necesaria para
conseguir la mezcla que haga falta, por compleja que sea. Si además
disponemos de una superfície física de control como una caja de faders MIDI,
podremos realizar movimientos en varios canales simultáneamente. Hay que
advertir que no todos los programas de mezcla multipista permiten dicha
automatización (Cakewalk, por ejemplo, sí; en cambio CoolPro no).
Generalmente durante una sesión de automatización se graba una secuencia
inicial aproximada a la mezcla que se pretende, y luego se insertan
correcciones en determinados puntos críticos, o se sobre-escriben movimientos
que no hayan resultado apropiados. También se suele utilizar una función de
"configuración instantánea" por la que podemos grabar la situación del
mezclador en un momento dado, y luego, en otro momento, recuperarla
exactamente.
Sincronización audio-video. Formatos definitivos.

SMPTE.
Postproducción informatizada.
El sonido y los formatos audiovisuales más habituales: AVI, Quicktime,
Betacam...
SMPTE
Las siglas significan Society of Motion Pictures and Television Engineering
(sociedad de ingenieros de cine y televisión) y a menudo se asocian al código
más utilizado para sincronizar audio y video. Para conseguir esa sincronía es
necesario disponer de un aparato -generalmente un magnetoscopio- que
denominamos master, y de uno o más aparatos -generalmente multipistas de
audio- que denominamos esclavos (slaves). El master es el que tiene el código
de tiempo que gobierna los esclavos; la función de éstos es siempre la de
seguir el código que en cada momento esté reproduciendo el master -o sea,
posicionar sus sistemas de transporte, reales o virtuales, en el punto que indica
el master.
El código SMPTE es una señal digital -impulsos o ausencia de ellos- (grabada
analógicamente), que contiene una referencia temporal absoluta y que suena a
modo de tono electrónico modulado. La referencia temporal absoluta consiste
en una "dirección" indicada como horas, minutos, segundos y fotogramas,
cuadros, o frames (hh:mm:ss:ff), que se graba de manera reiterada (varias
veces por segundo) en las cintas que necesitan sincronizarse. Puesto que la
cinta contiene una marca temporal diferente por cada frame de imagen (sólo
existirá un frame cuya dirección sea 1h:05m:22s:04f, por ejemplo), resulta fácil
posicionar la cinta en el punto que interese. A partir de esta señal, y con la
ayuda de un sincronizador que la recibe, la descodifica y controla el mecanismo
de transporte de los dispositivos esclavizados podremos conseguir que un
multipistas de audio desplace su mecanismo de transporte (real o virtual)
siguiendo el código del video. El proceso por el cual los esclavos se dirigen al
punto marcado por el master y se posicionan en él se denomina resolución
(resolving).
Existen diferentes variaciones del código SMPTE, según el número de frames
con el que trabajan:
El SMPTE puro és el sistema americano en blanco i negro. Trabaja con 30
cuadros por segundo.
El SMPTE "drop frame" o "con eliminación de cuadro" es el propio del sistema
de video NTSC de los EEUU. Trabaja a 29.97 cuadros por segundo. Para
conseguirlo el código trabaja realmente a 30 cuadros por segundo, pero los dos
primeros cuadros de cada minuto que no sea el 00, 10, 20, 30, 40, y el 50 no se
cuentan -se eliminan- (es decir, que por ejemplo después de 00:53:59:29
pasamos a 00:54:00:02).
El EBU (European Broadcast Union) es el propio de los sistemas de video PAL
y SECAM. Trabaja a 25 cuadros por segundo. Es el habitual en Europa y a
veces se lo denomina SMPTE/EBU.
Finalmente, en cine se utiliza código de 24 cuadros por segundo.
La elección de un sistema u otro se hace en función del tipo de producto y de
sus lugares de difusión aunque lo más habitual es trabajar 25 fps. En cualquier
caso hay que procurar no mezclar formatos diferentes en una misma
producción, dado que las conversiones entre unos y otros no siempre resultan
triviales.
En algunas ocasiones, al trabajar con código SMPTE puede ser necesario

ajustar el denominado offset o diferencia entre el código del master y el del
esclavo. Supongamos que hemos empezado a sonorizar un video antes de que
nos hayan pasado las imágenes. Nuestro audio empieza en 00:01:00:00, pero
cuando recibimos las imágenes nos damos cuenta de que el audio debería
empezar en 00:02:30:00. Si no es fácil mover en bloque toda la banda sonora
(cuando se trabajaba con multipistas analógicos que tenían SMPTE en la
última pista era imposible plantear tal movimiento) podemos recurrir a ajustar el
offset (todos los programas serios tienen una opción para ello), de manera que
el sistema esclavo, cuando reciba el código 00:02:30:00, empiece la
reproducción correspondiente a su código 00:01:00:00. Estableciendo un offset
de -00:01:30:00 (nótese que el offset sería negativo en este caso, y algunos
sistemas no pueden trabajar con offsets negativos sino que requieren
establecer el 0 absoluto en 24:00:00:00 de manera que nuestro offset también
podría ser 23:58:30:00) habremos resuelto el problema. La fórmula
Offset = Tc Esclavo - Tc Master
nos permite calcular el valor de offset. Una recomendación respecto a los
valores de código SMPTE es la de procurar empezar a trabajar con valores
más allá del cero absoluto (por ejemplo 00:02:00:00) para evitar problemas en
el caso de que haya que añadir elementos (sean de imagen o sean de sonido)
al principio de la cinta. Finalmente, cuando necesitemos sonorizar un video no
debemos olvidar que, además de necesitar disponer de una copia con el código
SMPTE que gobernará los dispositivos esclavos, necesitamos ver
sobreimpresionado en pantalla ese mismo código. Así pues cuando solicitemos
una copia de trabajo para sonorizar hay que acordarse de pedir que nos
sobreimpresionen el código, y antes de empezar a sonorizarla es necesario
verificar que el código sobreimpresionado coincide con el que hay grabado en
la pista de código que usamos para controlar los dispositivos esclavos.
Actualmente en configuraciones de estudio en las que se utilizan dispositivos

MIDI se emplea cada vez más el Midi Time Code (o MTC), que es la versión
del código SMPTE en formato de datos MIDI (en jerga MIDI se trata de
mensajes comunes de sistema o System Common). Así, a través de un cable
midi real o virtual también es posible transmitir una señal de direccionamiento
absoluto de tiempo a diferentes aparatos tales como secuenciadores,
workstations de síntesis, editores de sonido, multipistas digitales, etc. En estos
casos suele existir un dispositivo (como el SMPTE Slave Driver de Digidesign,
o la interfase MIDI 2Port S/E de Opcode) que pueden recibir y generar SMPTE
en formato tradicional y convertirlo a MTC, y viceversa. Cuando se utiliza MTC
en una configuración MIDI típica es recomendable disponer de un puerto MIDI
exclusivamente para la transmisión de MTC (al utilizar un mismo puerto para
MTC y para mensajes de canal típicos podemos colapsar el sistema con cierta
facilidad).
Postproducción informatizada
La postproducción informatizada requiere no sólo de que dispongamos en
formato digital de todos los elementos de la banda sonora, y de una serie de
programas de edición, procesado y mezcla, sino también de que dispongamos
en formato digital de las imágenes que tenemos que sonorizar.
Uno de los entornos integrados más conocidos es Premiere, pero está
orientado principalmente a la postproducción de imágenes (si bien con él
podemos resolver satisfactoriamente también sencillas postproducciones de
sonido). Postview, pariente de Protools permite la postproducción de sonido en
un entorno en el que se integra también el video digital. En el ámbito de los
PCs, cabe destacar Soundscape y SADIE. En cualesquiera de esos casos es
necesario disponer de un hardware específico que posibilita una conversión
A/D y D/A de muy alta calidad, y la gestión, edición y procesado del sonido con
gran eficacia.
Otra opción interesante en estudios domésticos es la de utilizar un programa
reproductor de video digitalizado que pueda al mismo tiempo generar MTC
(Sound Forge, por ejemplo). Este MTC es llevado vía software hacia el
programa de edición o de mezcla multipista (CoolPro, por ejemplo), el cual
habremos configurado como esclavo de MTC. Así, cuando hagamos play en el
reproductor de video digital el programa de audio se pondrá en reproducción
sincronizada. Para hacer uso de esta opción es imprescindible disponer de una
matriz virtual MIDI o programa de rutaje MIDI que facilite el uso flexible de
puertos MIDI virtuales (además de los reales que nos proporciona nuestra
tarjeta). Hubi Loopback Device es un shareware imprescindible para crear a
través de software un MIDI patchbay de 4 entradas x 4 salidas.
El sonido y los formatos audiovisuales más habituales: AVI, Quicktime,

Betacam...
Betacam
Es un formato de 1/2 pulgada, el más utilizado actualmente para hacer masters
de video. La señal de video se registra "por componentes", es decir, con pistas
separadas para la crominancia (información de color) y la luminancia (cantidad
de luz). En un Betacam normal hay tres pistas longitudinales para grabar audio
analógico: Audio-2 (la més exterior, en la parte de arriba), Audio-1 (más hacia
el centro, pero adyacente a la anterior), y Audio-3 (exterior, abajo). Esta última
suele ser la utilizada para grabar código de tiempo. La calidad sonora del
Betacam es un poco mejor que la del Umátic, ya que presenta 50 dB de
relación señal/ruido, y un rango de frecuencias entre 15 y 15000 Hz. La
varietdad conocida como Betacam-SP mejora las prestaciones de audio ya que
incorpora el reductor de ruido Dolby-C, cosa que hace aumentar la relación
señal/ruido hasta 53 dB. Además, es posible grabar sonido en 2 pistas
adicionales que se codifican y graban conjuntamente con la crominancia. Estas
pistas ofrecen 68 dB de relación señal/ruido, y un rango de 20 a 20000 Hz,
pero resultan problemáticas cuando se necesita editar la imagen "a posteriori"
así que sólo pueden utilizarse si la mezcla definitiva de audio se realiza al
mismo tiempo que el volcado (o "repicado") de la imagen.
VHS
No se trata de un formato habitual para masters, pero sí para copias de trabajo
que nos permitan ir sonorizando en casa o en un pequeño estudio, y luego
trasladar nuestro trabajo a otro formato profesional con la seguridad de que las
cosas cuadrarán sin problemas. El VHS es un formato de 1/2 pulgada con 1 ó 2
pistas lineales de audio, i en algunos modelos (HI-FI) dos pistas adicionales de
sonido modulado en frecuencia (AFM) igual que el Betacam SP. No lleva pista
dedicada a código de tiempo así que deberemos sacrificar una pista de audio
para insertar el código de tiempo.
Hi-8
Es un formato en cinta de 8mm que permite disponer de dos pistas digitales de
audio PCM (de calidad inferior a la de un CD ya que se cuantiza a menos de 16
bits). Además de ellas, dispone de otras 2 pistas de audio modulado en
frecuencia. Las pistas PCM son independientes de la imagen.
AVI
Es un formato de digitalización de video desarrollado por Microsoft. En un AVI
el audio y el video se almacenan entrelazados, y el software de presentación se
encarga de separar los dos componentes a la hora de "proyectar" la película
.(generalmente en formato de 320 x 240 pixels, y a una velocidad de 15 frames
por segundo).
Quicktime
Formato de digitalización de video desarrollado por Apple. Permite integrar
imagen móvil y fija, texto, animaciones, audio y midi en un objeto único y
compacto. No es específico de plataformas Mac aunque para examinar y editar
el contenido de un Quicktime existen más herramientas (por ejemplo
MoviePlayer) para Mac que para PC.
DAT con código de tiempo

El formato original de la cinta DAT no permite almacenar información de tiempo
con precisión de frames. No obstante algunos fabricantes han llegado a
soluciones satisfactorias a base de utilizar el espacio destinado a subcódigos
(donde se graban las marcas de inicio de programa, de salto, de fin de cinta,
etc.) pero para ello son necesarios grabadores/reproductores de DAT
especialmente adaptados (cosa que triplica su precio de coste). Un aparato de
estas características es capaz de generar SMPTE, de leerlo en cualquier
formato, y de actuar de esclavo o de master según convenga.
También a finales de los 80 se desarrollaron formatos multipista de audio digital
con soporte en cintas de video S-VHS (por ejemplo, ADAT de Alesis) o 8 mm
(DA-88 de Tascam, por ejemplo) en los que es posible disponer de código
SMPTE alojado en una de las pistas normales (caso del ADAT) o en una pista
especial (caso del DA-88).
Fuentes sonoras a incorporar en una producción audio-visual (I): voces.
Características sonoras de las voces.
Rudimentos de microfonía para voces.
Características sonoras de las voces

La voz humana cantada tiene una tesitura que oscila entre los 80 y los 1000
Hercios, aunque la mayor parte de la energía se sitúa entre los 200 y los 700
Hz.. Según la ubicación y rango de la tesitura de una voz cantada distinguimos
como mínimo entre voces de bajo (82/293 Hz), tenor(146/523 Hz), contralto
(174/659 Hz) y soprano (261/1046 Hz). Los armónicos de un cantante pueden
llegar a los 12 o 14 KHz en el caso más agudo. En cambio, la tesitura de la voz
de un locutor o de un actor no cubre tan amplio espectro, y debemos esperar
que se sitúe entre los 100 y los 500 Hz, mientras que sus armónicos
probablemente no superen los 10 KHz.
Otra característica importante de la voz es que las vocales presentan zonas en
las que se concentra la energía: son lo que denominamos los formantes de la
voz. El número de formantes y su ubicación son diferentes para cada vocal y
para cada registro de voz, aunque no varían en exceso entre cantantes
diferentes de un mismo registro (varía la fundamental, pero no la ubicación de
los formantes). El primer formante lo hallamos entre 250 y 700 Hz, mientras
que el segundo se sitúa entre 700 y 2500 Hz. Los buenos cantantes de tesitura
grave y media presentan el denominado "formante del cantante", una zona de
energía especialmente realzada entre 2.5 y 3 KHz que les sirve para poder
sobresalir en medio de una orquesta.
En cuanto a los sonidos que una voz puede generar, en el caso del canto
predominan las vocales, que son sonidos estables, armónicos, de altura
definida... En cambio en el habla existe una mezcla de sonidos vocálicos con
consonantes, que son sonidos inarmónicos, transitorios, sin altura definida la
mayoría de las veces. Los sonidos de consonantes tienen un espectro de
energía mucho más ancho (puesto que son ruidos) aunque algunas de ellas
presentan zonas especialmente intensas: la "s" tiene mucha energía entre los 7
y los 8 KHz; la "j" presenta alta energía por encima de los 4.6 KHz; la "r", en
cambio tiene una distribución mucho más uniforme.
El momento del día que elijamos para grabar una voz puede determinar en
gran medida su calidad: siempre hay que preferir la tarde o la noche (si por la
mañana no se ha sometido la voz a esfuerzos), aunque eso a menudo no lo
podemos controlar nosotros.
En el caso de voces de locutores (y en general, de cualquier voz que no cante -
actores, por ejemplo-) hay que valorar en primer lugar la inteligibilidad, ya que
un locutor suele decir algo para que sea entendido por los espectadores. La
inteligibilidad depende de diversos factores: prominencia de las consonantes,
características espectrales de la voz, ritmo, articulación, vocalización... Puesto
que las consonantes son básicamente ruidos y de ellas depende en primer
lugar la inteligibilidad, cualquier interferencia o ruido que aparezca en una
grabación puede afectar gravemente su inteligibilidad debido a un efecto de
enmascaramiento.
Las cualidades tonales de una voz suelen determinar su elección o no para
determinados roles. Por ejemplo, dado que una voz grave tiende a ser tomada
como más creible (existe evidencia empírica al respecto, no se trata de
suposiciones), esas voces serán las preferidas en spots comerciales que
pretendan ofrecer datos que orienten las decisiones de los consumidores. En
este mismo sentido, debemos considerar desacertadas determinadas voces
aparentemente infantiles que se utilizan en otros tipos de spots, pues al no ser
identificadas como tales producen efectos contrarios a los deseados.
Finalmente, otras características a valorar pueden ser que no tenga un exceso
de sibilancia (o sea, que los sonidos de "eses" no sean excesivamente
prominentes) y que no tenga unas plosivas explosivas (o sea, que los sonidos
de "bes" y "pes" no hagan que saltemos de la silla), aunque estos dos defectos
pueden paliarse con ayuda de la tecnología.
Rudimentos de microfonía para voces
El primer factor a controlar en una grabación de voces es la comodidad del
cantante o del locutor. Si no se siente bien, confortable, en un ambiente
positivo destinado a extraer lo mejor que pueda dar de sí, por muy bueno que
sea él o ella, y por muy extraordinario que sea nuestro equipamiento, no
conseguiremos un resultado decente. En la comodidad juega un papel
importante la comunicación, no sólo la verbal (ayuda mucho que el productor
sepa lo que la voz debe hacer y cómo, y que se lo sepa transmitir), sino
también la no verbal (él o ella verán a través de una ventana las caras que
ponemos en el control); también es importante que reciba una buena mezcla de
referencia, con el equilibrio y el nivel que desee, y en unos auriculares
cómodos; y que pueda pedirnos en cada momento lo que necesite, tanto en
cuestiones sonoras como a otros niveles (descanso, atenuar la refrigeración,
beber...). Si todo esto lo hemos cuidado al máximo, tendremos un 30% del
éxito garantizado.
Cuando la grabación se realice en un lugar cuyas características acústicas
sean beneficiosas para la voz, y nos interese aprovecharlo, será preferible un
diagrama polar omnidireccional pues captaremos en mayor medida que con
micrófonos direccionales la reverberación y la coloración del recinto. En estos
casos, además, puede ser recomendable el realizar una toma estereofónica,
que aún preservará más tales características. Si no nos interesa la acústica del
recinto, además de utilizar un micro direccional podemos ayudarnos de
pantallas aislantes y/o atenuadoras de reflexiones para garantizar una toma
con el mínimo de coloración debida al recinto (aunque su uso contribuye a
disminuir la comodidad del cantante o locutor).
En el caso de grabar voces en exteriores hay que prestar especial atención a
los ruidos de ambiente: podemos reducirlo considerablemente con micrófonos
direccionales (especialmente de diagrama polar hipercardiode o
supercardioide) y ubicando -siempre que sea posible- la fuente sonora de
frente a las fuentes de ruido (para captarla de espaldas a él). También el uso
de un filtro de graves (pasa altos ajustado entre 80 y 100 Hz) es una opción útil
a considerar para reducir el ruido de tráfico, manipulación del micro, roces de
ropa, etc.
La elección de un micrófono u otro es materia bastante personal, e implica un
conocimiento profundo del comportamiento de los micros que haya a nuestra
disposición. En estudios, especialmente para postproducción de video, se suele
trabajar con un micro de condensador de diafragma grande (tipo Neumann U87
o U47) colocado a un palmo de la boca, para cantantes pop y actuaciones en
directo se prefieren micros dinámicos como el clásico Shure SM58, y en
determinado tipo de rodajes o de programa de TV alguno de tipo lavalier (micro
de solapa). Además del micro elegido, y de su ubicación (podemos alejarlo si
se trata de grabar locuciones que luego irán en segundo plano), juega un gran
papel en el sonido final el pre-amplificador (o previo) utilizado. Siempre que
dispongamos de un previo decente externo a la mesa de mezclas es
aconsejable utilizarlo. El principal objetivo del previo es amplificar la señal del
micro lo necesario para que sea grabada con el nivel óptimo, pero además, el
previo introduce coloraciones que en muchos casos son intencionadamente
buscadas. Los previos a válvulas "añejos" parecen dar mayor calidez a la voz
que los previos digitales más modernos (pero también pueden introducirnos
más ruido e interferencias). En el caso de utilizar micros direccionales debe
prestarse especial atención al efecto de proximidad: a medida que la fuente
sonora se aproxima al micro se realzan más las frecuencias graves.
Los objetivos de la grabación que más debemos cuidar son:
Obtener una calidad tonal lo más parecida al original, al tiempo que resaltamos
aquello que la voz pueda tener de peculiar e interesante (para hacer la
comparación es conveniente el ejercicio de escuchar la voz "al natural", en la
propia cabina de control o en la sala de grabación si es tonalmente neutra y
"guardarnosla en la memoria" para hacer comparaciones cuando ajustemos el
micro, o cuando la ecualicemos).
Obtener una serie de ellas con suficiente coherencia tonal, estabilidad de
niveles, calidad y claridad sonora entre ellas, de manera que aunque la banda
sonora contenga fragmentos grabados en momentos diferentes ello no sea
aparente.
Especialmente en el caso de diálogos y locuciones, obtener tomas con el
máximo grado de inteligibilidad posible. Podemos mejorar la inteligibilidad
amplificando un poco la banda en torno a los 2 KHz (o en general amplificando
3 o 4 dB por encima de esa frecuencia), pero también nos puede ayudar el
enlentecimiento artificial del ritmo de pronunciación (cuando ello sea posible).
También la elección de una reverb bastante corta, poco prominente, e incluso
con un predelay de unos 35 ms (para engrosar el sonido gracias al efecto
Haas) puede jugar en favor de una mejor inteligibilidad.
Para paliar la sibilancia pueden utilizarse de-essers, una especie de
compresores especializados que se encargan de recortar la banda en torno a 7
u 8 KHz. cuando existe un exceso de energía en ella (de hecho con muchos
compresores normales es posible conseguir dicha función aún cuando no se
especifique en su panel de control). El problema de las plosivas puede paliarse
con ayuda de un filtro anti-pop (no quiere decir que elimine a los cantantes pop)
o en su defecto con una pantalla elaborada con ayuda de alambre y una media
o panty, que se colocan justo ante el micro, entre él y el/la vocalista. También
puede ser útil en este caso descentrar ligeramente el micro, de forma que en
lugar de apuntar al centro de la boca apunte a la mejilla o a la barbilla. Las
respiraciones exageradas habrá que eliminarlas "a mano" o con ayuda de una
puerta de ruido a posteriori (si hemos hecho la grabación sin utilizarla).
Respecto al procesado, casi siempre es preferible aplicarlo "a posteriori" pues
al aplicarlo en grabación resultará imposible o muy difícil restaurar el original no
procesado si ello es necesario. En todo caso, una puerta de ruido y una ligera
compresión (dado el gran margen dinámico de la voz) son los tipos de
procesado que sí pueden recomendarse en muchas ocasiones en las que hay
que grabar una voz. En caso de usar compresión en la grabación suele
preferirse un buen compresor analógico "añejo" o "con solera" (vintage) que
añada calidez a la grabación digital, en lugar de uno de calidad media o
incorporado en la mesa o en el sistema de grabación. También puede ser util
en contadas ocasiones, siempre que no se abuse, el ayudarse de un
transpositor para corregir desafinaciones.
Finalmente, si somos los responsables últimos del sonido debemos asumir
dicha responsabilidad exigiendo repetir las tomas tantas veces como sea
necesario para disponer de al menos una que sea satisfactoria (¿verdad que se
hace lo mismo con la imágen y nadie pierde la calma?) siempre que la
deficiencia en las tomas no se nos puedan achacar a nosotros mismos y a
nuestros aparatos.
Fuentes sonoras a incorporar en una producción audio-visual (II): efectos
Tipologias de efectos.
Estrategias de creación de efectos.
Colecciones de efectos. Recursos disponibles en Internet.
Una primera definición, algo reduccionista, de efecto de sonido sería la de
considerar como tal cualquier reproducción de sonido que trate de acompañar
a la acción y proporcionar realismo a una producción audiovisual. Los efectos
pueden representar objetos, movimientos en el espacio o en el tiempo, estados
emocionales, procesos de pensamiento, contacto físico entre objetos,
escenarios, entidades irreales... En algunos casos los efectos pueden servir
para ahorrar escenas peligrosas, económicamente costosas o muy difíciles de
filmar; es lo que se denomina función elíptica del efecto de sonido.
En general los efectos más utilizados a lo largo de la historia del teatro eran
principalmente aquellos encargados de simular sonidos de la naturaleza (ya los
griegos utilizaban efectos de sonido en sus obras de teatro, por ejemplo hacían
sonar "truenos" cuando aparecía el dios Júpiter airado), y más adelante
aquellos destinados a reforzar situaciones cómicas. A partir de la expansión de
la radio en los años 30 los efectos de sonido recibieron un nuevo impulso: era
necesario conseguir el máximo realismo en un medio dramático que no
contaba con la imagen como factor principal para ello, y también era necesario
eliminar los fatídicos silencios muertos que daban la sensación de que la
emisora no funcionaba bien. Los "efectistas" de la época, además de los
mecanismos tradicionales de generación de efectos (planchas metálicas,
muelles, instrumentos de percusión, bocinas, silbatos, etc.) podían disponer de
efectos previamente grabados en discos de piedra o bakelita (incluso había
tocadiscos especiales de 2 brazos para reproducciones simultáneas de 2
efectos!). Finalmente, los efectos de sonido llegaron al cine y a partir de la
película Aleluya de King Vidor (1929) fueron utilizados de manera dramática y
no como simple contrapartida aural de la imagen.
Tipologias de efectos
Considerados según su origen pueden ser:
Efectos originales, procedentes de las tomas de sonido directo o sonido de
producción. Estos efectos pueden ir en sincronía con determinadas imágenes o
ser independientes de ellas, si bien su origen sigue siendo los lugares del
rodaje. Cuando la planificación de la producción establece la grabación de
sonidos originales hay que conseguirlos con la máxima nitidez sonora posible
(si es necesario hay que aprovechar los ratos de descanso o cuando aún no ha
empezado la sesión de filmación). En situaciones de rodaje también hay que
prever la grabación correcta de aquellos sonidos cuya generación no puede
repetirse (destrucciones de elementos, multitudes, etc.), así como de aquellos
sonidos de ambiente que pueden ayudarnos a establecer un determinado
entorno acústico durante la postproducción (esta grabación de sonidos
probablemente útiles, pero no indicados en el guión, se denomina wildtracking).
Los efectos originales tienen los inconvenientes de que es difícil hallar lugares
lo suficientemente tranquilos y silenciosos que garanticen una buena
grabación, y que muchos eventos naturales son poco controlables y
difícilmente repetibles. Por todo ello los efectos originales a menudo requieren
de algún tipo de post-procesado antes de incluirlos en la banda sonora.
Efectos de sala (en inglés se denominan foley en honor de uno de los pioneros
en su creación: George Foley). Son sonidos que reemplazan los sonidos de
ambiente y los efectos que se pierden cuando se doblan diálogos o se graban
en directo. En general los efectos de sala acostumbran a ser pasos, roces de
ropa, ruidos domésticos, puertas que se abren y se cierran, etc, y para su
grabación los estudios disponen de suelos de superficie variable (un metro
cuadrado de grava, otro de arena, otro de cemento, otro de hojas secas...) así
como de salas de almacenaje de elementos útiles (fragmentos de metal, latas,
zapatos, vidrios, etc.). Efectos típicos de sala son los pasos de un caballo
creados a partir de golpear cocos contra un suelo de tierra o de grava, la lluvia
creada a partir de volcar tierra sobre un papel situado encima del micrófono, los
sonidos de comida friéndose creados a partir de poner trapos mojados sobre
una superficie ardiente, los truenos creados a base de sacudir un globo lleno
de perdigones o bolitas de plomo, o el fuego creado arrugando papel celofan.
Los efectos de sala no siempre tienen que ser lo que definitivamente vaya a
sonar: posteriormente pueden procesarse o acumularse unos sobre otros hasta
conseguir el tipo de sonido que mejor se adecúe.
Efectos de colecciones o de bibliotecas. Las colecciones en CD y CD-Rom son
el recurso más utilizado a la hora de construir la banda sonora de una
producción audiovisual. Suelen estar organizadas temáticamente (con
categorías tales como: militares, transporte, naturaleza, domésticos,
electrónicos, exteriores, humanos, etc.) y cuentan con diversas opciones de
indexación para facilitar su búsqueda (por nombres, categorías, elementos
relacionados, sinónimos, etc.) que cada vez más se valen de la ayuda de un
soporte informático (algunas colecciones incluyen un programa de gestión de
bases de datos y una base de datos relativa a los sonidos que componen la
colección). Además de poderlos utilizar "tal cual", podemos tomarlos como
punto de partida y refinarlos, a base de edición y procesado, hasta que se
ajusten a lo que necesitamos exactamente. Los inconvenientes de muchas de
estas colecciones son: su precio, ya que para poder ofrecer unos sonidos
completamente libres de derechos de autor es necesario pagar hasta 8000
pesetas por CD, y su variedad, que exige invertir muchas horas en escucharse
y conocerse lo que contienen (cosa que en muchos estudios es trabajo propio
de los asistentes de grabación) ya que guiarse sólo por los títulos de las pistas
no garantiza la explotación de la colección al 100%. Colecciones interesantes
son las de CBS, Hanna-Barbera, Lucasfilms, BBC, Valentino, Prosonus,
Hollywood Sound Ideas (una parte de la cual está disponible previa solicitud en
el IUA), Audivis (tal vez la más asequible en España, pues hasta en los
grandes almacenes podemos hallar sus discos), o Network Production Music
(tal vez la más extensa: 12000 efectos que ocupan 64 discos). Algunas de
dichas colecciones ofrecen un servicio "a la carta", de manera que sólo
adquirimos exactamente aquellos sonidos que necesitamos.
Efectos electrónicos o sintéticos. Podemos considerar que la película Dr Jeckyll
& Mr. Hyde de Reuben Mamoulian (1937) fue la pionera en el uso de dichos
efectos (se utilizaron técnicas desarrolladas por Fischinger que consistían en la
manipulación de la pista óptica de la película -pintándola a mano, por ejemplo-).
Ya en los años 50 algunos creadores de efectos de sonido se construían
máquinas especiales para generar determinados tipos de efectos (como la
Foster Gun, que generaba sonidos de pistolas, cañonazos, explosiones...), y
también son de aquella época los primeros sonidos verdaderamente sintéticos:
la banda sonora de Forbidden Planet es un ejercicio pionero pues consta
íntegramente de sonidos electrónicos generados por los compositores Lois y
Bebe Barron. No obstante, habrá que esperar hasta los años 70 para que los
sintetitzadores y otros dispositivos electrónicos se conviertan en una
herramienta importante en la creación de efectos de sonido. Aparte del uso del
sintetizador como generador de tonos y texturas electrónicas o
pseudoacústicas, es muy importante la adopción del sampler como herramienta
universal de edición, combinación, procesado y colocación "en vivo" de efectos.
Considerados según su relación con la imagen a la que acompañan
distinguimos entre:
Sonidos Naturales: cuando el efecto es el sonido del objeto que está sonando.
El sonido natural es un sonido real, sin ornamentos. Son más propios de
documentales y de reportajes. En cambio en producciones de ficción las
expectativas del público hacen que se tienda a substituir los sonidos naturales
por otros que no lo son (ya que el sonido original -de una pistola del 38, por
ejemplo- nunca es suficientemente potente, agresivo o contundente, y debido
también a que en experiencias previas el público ya se ha acostumbrado a
aceptar esa falsificación de la realidad como algo normal y necesario para
incrementar el disfrute de la producción audiovisual). ¿Cuándo llegaremos al
punto en el que el sonido no tendrá nada que ver con la fuente que lo genera
en la pantalla?
Sonidos Característicos: cuando el efecto es una imitación de lo que sería el
sonido natural del objeto que está sonando. Un sonido característico puede
reconocerse, pero no es el original de la fuente sonora sino aquél que se
supone, o que se supone que el oyente puede suponer, que ha de tener la
fuente sonora. La deformación o imitación de un sonido característico se hace
con el fin de intensificar el impacto sobre el espectador. Un ejemplo: durante
muchos años los anuncios de automóviles en USA utilizaban todos el mismo
sonido, el de un Deusenberg del 35, debido a que su timbre no enmascaraba
las voces de los locutores; para el oyente -especialmente si no era demasiado
entendido en sonidos de coches- el efecto utilizado era apropiado, aunque no
fuera el que correspondía en realidad al auto que se publicitaba.
Los sonidos característicos podemos subdividirlos en:

Sonidos imitativos: aquellos que tienen propiedades físicas similares a las del
sonido al que tratan de imitar, y se generan de manera parecida a ellos. Por
ejemplo: los pasos de caballo obtenidos a base de golpear cocos, o los pasos
sobre la nieve obtenidos a base de pisar un suelo especial cubierto de harina
de trigo.
Sonidos interpretativos: aquellos que no guardan ninguna semejanza con el
sonido que tratan de substituir. Por ejemplo, un trozo de corcho empapado en
keroseno puede servir para caracterizar un grito de una rata. Es en la habilidad
para la creación de esta categoría de sonidos donde podemos distinguir a los
auténticos especialistas: ellos son los que viendo un determinado objeto o
material pueden imaginar que tipos de sonidos pueden llegar a crear.
Según su función en una producción audiovisual, distinguimos entre:
Sonidos objetivos: aquellos que suenan a consecuencia de la aparición de la
imagen de un objeto que emite el sonido. Un sonido objetivo suena como se
supone que sonará el objeto que aparece en la imagen (no necesariamente
suena exactamente como lo hace en la realidad).
Sonidos subjetivos: aquellos que apoyan una situación anímica o emocional de
la trama o de los personajes, sin que necesariamente el objeto productor del
sonido aparezca en la imagen.
Sonidos descriptivos: aquellos que no representan a ningún objeto de los que
aparecen en la imagen, sino que son abstracciones o idealizaciones de los
sonidos supuestamente originales (aquellos que podríamos escuchar).
Podemos considerarlos como sonidos metafóricos.
El silencio podemos entenderlo como un tipo de sonido especial. Su uso
dosificado puede generar expectación, o un impacto emotivo fuerte cuando el
desarrollo lógico de la escena hace esperar un sonido fuerte. Al igual que
sucede con el resto de efectos sonoros podemos considerar dos funciones del
silencio:
Objetiva: corresponde a la ausencia real de sonido en la narración (situación
que estrictamente considerada resulta muy poco habitual... salvo que la acción
transcurra en el espacio -pensemos en 2001 una odisea del espacio- o en una
cámara anecoica, o que el protagonista esté sorodo, siempre existirá un ruido
de fondo, un ambiente...).
Subjetiva: cuando el silencio se utiliza para crear un ambiente emocional
concreto. Hay que vigilar y no abusar de esta función porque el espectador
puede llegar a pensar que existe alguna deficiencia en la banda sonora, o en
los dispositivos de amplificación del sonido del lugar en el que se exhibe la
producción. Además de generar expectación o de contrastar escenas o
mensajes visuales puede llegar a comunicar situaciones de desolación, muerte,
emociones desagradables... pero también tranquilidad.
Estrategias de creación de efectos

En los escenarios de la acción es recomendable grabar todos los sonidos que
puedan parecer interesantes. En caso de hacer wildtracking es preferible
utilizar pistas diferentes de las que utilicemos para grabar los diálogos o los
efectos sincrónicos, o incluso cintas diferentes. También es util captar en los
escenarios de la acción los denominados room tones o sonido de ambiente.
Hay que pensar que incluso una habitación aparentemente tranquila y
silenciosa tiene un room tone. Disponer de esos sonidos puede ayudar a
homogeneizar la sonoridad de la banda sonora, a minimizar diferencias tonales
cuando los diálogos procedan de tomas diferentes, y en generar,
proporcionarán un mayor realismo. Cuando no dispongamos de esos sonidos
es recomendable crear un sutil colchón sonoro a base de tráfico distante (si la
acción es urbana), o zumbidos y rumores domésticos (si la acción es en
interiores), aderezado con ruidos esporádicos "ad hoc". Finalmente, aún
cuando los grabemos juntamente con diálogos, es interesante que tratemos de
conseguir los efectos sincrónicos aislados. De esa manera podremos
mezclarlos con los diálogos al nivel necesario y no al nivel determinado por la
posición y ubicación de los micrófonos en el momento de captar el diálogo. En
todos estos casos debemos ir documentando y marcando debidamente las
pistas que grabamos para facilitar la posterior búsqueda y gestión de todo ese
material.
Cuando necesitamos crear efectos "de la nada", es recomendable tratar de
partir de algún sonido vagamente parecido o relacionado con el que
necesitamos. A partir de él siempre es posible experimentar con algunas
estrategias para convertirlo en un auténtico efecto:
Variar la velocidad de reproducción o la altura.
Comprimirlo y expandirlo en el tiempo.
Filtrarlo o ecualizarlo selectiva y drásticamente.
Transformarlo con procesos basados en retardos (flanger, chorus, phaser...).
Editarlo en fragmentos pequeños y re-ensamblarlo a modo de mosaico.
Acumular varias capas de sonidos similares o no, para generar uno de nuevo y
diferente.
A la hora de generar efectos debemos pensar en el género al que pertenece la
producción que sonorizamos pues no es lo mismo crear un disparo casual para
una comedia que crear uno para una película policiaca. En general será util
tratar de comprender las convenciones propias del género (por ejemplo:
exageraciones y sonidos pasados de vuelta para dibujos animados, sonidos
etéreos, electrónicos para fantasía, efectos vulgares y manidos para comedias
de situación de infinitos capítulos...). También puede ser de gran ayuda el
pensar en términos de sensaciones, en lugar de tratar de preservar a toda
costa el realismo (en otras palabras: disociar el nombre del efecto de su
contenido sonoro): si la sensación conseguida por el efecto es acorde con el
tono de la acción y con el objetivo del director el efecto puede ser aceptable
(por ejemplo, para sonorizar una explosión atómica puede llegar a servir el
ruido de unas grandes cataratas), y el espectador no se apercibirá de que el
origen del sonido no se corresponde con lo que ve. Siguiendo con esta misma
línea de recomendaciones, es útil plantearse si el efecto que necesitamos
posee alguna característica sonora distintiva, primordial (un tipo de ataque, un
ritmo determinado...); si es así podemos tratar de centrarnos en esa
característica (y buscar en una colección otros sonidos que la compartan) pues
una vez hallada será más sencillo acabar de redondear el efecto con otros
sonidos que a priori no parecerían encajar. En el caso de necesitar re-crear
sonidos naturales es útil descomponer la situación en la que se generan ya que
suele poderse distinguir diversas fases o sonidos "base" que se van integrando
o desintegrando a lo largo de esa evolución temporal: es la estrategia de divide
y vencerás. Finalmente, antes de descartar un sonido, hay que escucharlo con
la perspectiva propia que debiera tener en la banda sonora (tal vez a volumen
máximo no nos convenza, pero integrado en el ambiente de fondo, tal y como
se podría deducir de las imágenes, sí que resulte apropiado).
Por lo que respecta a la organización del material es conveniente tener a mano
los ambientes y room tones que se prevean más necesarios habilitando para
ellos un par de pistas (seguramente habrá puntos en los que se solapen) o
bien, si trabajamos con sampler, fragmentos con loop de diversas duraciones.
También hay que habilitar suficientes pistas (o configurar el sampler) para
generar rápidamente stacks o efectos multicapa. La ventaja de disparar los
efectos con ayuda de un sampler y un teclado MIDI es que variando la
velocidad de pulsación podemos verificar rápidamente la adecuación de cada
capa. Finalmente, para ubicar sonidos cuya sincronía es crucial puede ser más
acertado adelantarlos entre 1/4 y 1/2 frame, en lugar de clavarlos a la imagen
(especialmente si la producción se va a exhibir en salas grandes: a 7 metros de
distancia de la pantalla el sonido ya se ha retrasado 20 milisegundos respecto
de la imagen).
Fuentes sonoras a incorporar en una producción audio-visual (III): músicas.

Funciones de la música en una producción audiovisual.
Criterios básicos de montaje musical.
Colecciones de músicas versus músicas "a medida".
Funciones de la música en una producción audiovisual
Las funciones de la música varían según sea su origen. En este sentido
diferenciamos entre:
Música diegética: aquella que pertenece al mundo de los personajes (por
ejemplo, en una escena de baile en una película de los años 50, la música de
la orquesta que toca en la sala).
Música no-diegética: la que existe fuera del mundo de los personajes, y por
tanto ellos no la pueden oír.
Aunque la función principal de la música diegética es la de suministrar apoyo y
coherencia a aquello que se nos muestra en la imagen (si se ve una orquesta
tocando, hay que oirla tocar algo de la época en la que se desarrolla la
película) el hecho de hacerla necesaria puede ir ligado a unas intenciones más
complejas del realizador (y no olvidemos que los grandes realizadores
consiguen subvertir esta dicotomía -una música diegética se funde en una no-
diegética; un personaje comenta la no-diegética...-). Sea o no necesaria, la
música de una producción audiovisual puede cumplir alguna de las siguientes
funciones:
Suministrar información: la letra de una canción puede explicarnos cosas que
pasan, sentimientos de los personajes, etc.; también el estilo musical nos
puede informar de la época y el lugar en el que se desarrolla la acción.
Captar la atención del espectador: a base de golpes orquestales, fanfarrias,
sintonías de programas
Establecer o potenciar un estado de ánimo: existen libros que llegan a detallar
una serie de emociones básicas y las características musicales que las
potencian (por ejemplo: MALDAD - Timbre áspero u opaco, tesitura media o
grave, armonía en modo menor o atonal, fraseo con repeticiones irregulares,
movimiento lento, orquestación simple, ritmo irregular). Estas clasificaciones no
hacen más que potenciar tópicos.
Establecer el ritmo: de la edición de la imagen (por ejemplo, Koyaanisqatsi), y/o
del diálogo.
Mantener el flujo y la continuidad de la acción: la persistencia de una música
suavizará cortes abruptos, rupturas de raccord visual.
Existen determinados formatos musicales destinados a cumplir funciones
específicas:
Sintonía: caracteriza inequívocamente un programa o producción audiovisual;
avisa de su inicio o final.
Ráfaga: fragmento de música sin otra finalidad que la de introducir variación o
distracción sonora.
Cortinilla: fragmento breve utilizado para delimitar y separar secciones de una
misma producción.
Fondo o ambiente: música incidental, que suele ir mezclada con diálogos o
efectos importantes, y que contribuye a mantener una continuidad anímica o
estructural.
Banda Sonora: suele identificarse como tal la banda musical pero incluye
también la banda de efectos y la de diálogos.
Criterios básicos de montaje musical

Se recomienda utilizar una escaleta u hoja de registro en la que, por ejemplo,
en una columna indicamos tiempos SMPTE de puntos clave, en otra una
palabra resúmen de la imágen, en otra la música que debe sonar, y en otra el
tipo de entrada o salida de la música, o si hay que hacer alguna manipulación
en tiempo real de niveles o de otro tipo.
Los encadenados deben ser suaves o enérgicos, pero deben realizarse en el
momento oportuno, sin vacilaciones de nivel. Las transiciones abruptas es
mejor realizarlas justo antes de los acentos... Especialmente importante es que
las ediciones no alteren el ritmo de una forma antinatural (salvo que esa
antinaturalidad vaya en paralelo con la imagen), y dado que el oído del
espectador medio está más acostumbrado a los acordes y armonías
"consonantes", las ediciones deben hacer lo posible para mantener esa
sensación de consonancia (incluso si conviene, es preferible transponer un
pasaje o una nota si con ello nos aseguramos que el espectador no notará la
edición). El último elemento a igualar es la textura.
El volumen máximo de la música no debe superar el 80% del margen dinámico
cuando suena sola, de esta manera cuando haya efectos o diálogos éstos
podrán estar por encima de ella sin necesidad de que bajemos su nivel.
Pensar en el soporte final del producto: es muy probable que pierda altas
frecuencias, por tanto, no obcecarse en ellas y en todo caso tratar de enfatizar
la zona próxima a la frecuencia de corte del soporte final.
Cuando mezclamos música y voz, cuidar de que la voz se entienda y su timbre
no quede completamente enmascarado por la música.
Cuando mezclemos música y efectos, cuidar de que prevalezca el que por
intención expresiva sea más conveniente; si mezclamos al 50% generalmente
obtendremos un batiburrillo incomprensible. Cuando un efecto va después de
una música (o al revés), es preferible un pequeño solapamiento entre ambos
elementos (siempre que sonora y visualmente no haya otros motivos que lo
desaconsejen).
Utilizar el silencio como un elemento más de la banda sonora. A menudo puede
ser el más importante.
Colecciones de musicas versus musicas "a medida"

Las músicas de colección suelen organizarse temáticamente, según estilos
(clásica, country, jazz, rock, vocal...) o contextos para las que parecen
apropiadas (electrónico, patriótico, terror, histórico...). A diferencia de los
efectos de sonido, que una vez adquiridos están libres de derechos y los
podemos utilizar tantas veces y en tantas producciones como queramos, las
piezas musicales de colecciones suelen requerir la firma de determinados tipos
de licencia:
Contrato de compra (buyout): permite el uso ilimitado de las músicas una vez
se ha pagado por la colección (igual que sucede con los efectos).
Contrato de alquiler anual (annual blanket): permite el uso ilimitado de la
colección durante un año, pagando sólo una cuota al iniciarse el período de
disfrute.
Contrato por producción: permite el uso de una colección, o de una selección
de piezas, en una sola producción, pagando una determinada cuota que
depende del tamaño y tipo de audiencia a la que se dirige la producción, el
medio de distribución (video, cine, TV, CD-ROM...) y la duración de la
producción (serie diaria, telefilm, programa único...).
Contrato de cuota por tema: se utiliza cuando una determinada pieza se
necesita en diversos proyectos relacionados (por ejemplo, al hacer jingles de
radio y spots de TV del producto X).
Contrato por veces de utilización (needle drop): permite utilizar una misma
pieza varias veces en momentos diferentes de la producción; cada vez que se
usa se aplica una determinada cuota.
Respecto a los derechos, cabe distinguir entre
Derechos de reproducción: autorizan a reproducir la obra en determinados
medios, y bajo determinadas circunstancias. Lo percibe la editora de la obra.
En el precio de compra de un CD hay una parte destinada a pagar esos
derechos.
Derechos de pública comunicación o difusión: se percibe en función de las
veces que se haya difundido la obra en un medio público. En el precio de una
entrada a un concierto hay una parte destinada a pagar esos derechos.
Derechos de comercialización: es aplicable cuando un determinado producto
incluye obras sujetas a derechos (por ejemplo una banda sonora de película).
En ese caso, el autor debe conceder al propietario del producto el permiso para
que utilice su obra dentro del producto comercial elaborado.
Con tantas opciones de compra y de pago de derechos, el uso de músicas de
libreria debe dirigirse a optimizar el coste de su acceso. Hay que vigilar la letra
pequeña de los CDs de colecciones ya que su posesión (a través de una
compra) no siempre garantiza su uso indiscriminado. Una opción interesante en
producciones pequeñas es la subcontratación del uso de librerías a estudios
potentes que disponen de ese servicio. Recientemente algunas revistas
musicales (como Future Music) "regalan" CDs con fragmentos musicales y
loops libres de derechos que, en determinados contextos, pueden ayudarnos a
resolver ágilmente alguna banda sonora. Otra opción interesante es la de
desarrollar nuestra propia colección a base de fragmentos sueltos, retales que
no casan en otros proyectos, impromptus grabados sobre la marcha, etc. En
este sentido, los estudios de sonido suelen contar con la figura del músico de
estudio, una de cuyas funciones principales puede llegar a ser la de elaborar
músicas funcionales ajustadas a una producción audiovisual concreta.
Desde la página de links (aún no publicada) puedes acceder a información
sobre colecciones de músicas.
Convertir WAV (o MP3) a MIDI y viceversa
Los archivos WAV y MIDI no son formatos convertibles; tienen tanto que
ver entre sí como el sol y la luna. Que nadie se asuste, porque luego daremos
solución a esto; pero es vital marcar diferencias y conceptos antes de empezar.
Cuando hablamos de convertir formatos en informática nos referimos a

adaptar un archivo diseñado para una aplicación, de manera que pueda leerse
en otra correctamente. Para que esto pueda hacerse, deben darse unas
similitudes fundamentales entre los formatos que usan esas dos aplicaciones;
por ejemplo, podemos convertir un archivo de WordPerfect en uno de Word.
Esto es así porque ambos son formatos de texto, y las únicas diferencias reales
entre los dos se deben a la manera que tiene cada programa de leerlos y
tratarlos. Lo mismo sucede con formatos de imágenes digitales, como BPM,
JPG o GIF. Todos comparten algo: son imágenes digitales. Unos formatos son
comprimidos, otros usan más o menos colores, pero en realidad todos están
leyendo información digital de un gráfico.
Dando un ejemplo aún mas palpable, convertir un documento de WordPerfect a

Word sería como coger una camisa verde y teñirla de rojo. Pero "convertir"
MIDI a WAV, o al revés, sería pura alquimia, como transformar la camisa en
unos pantalones. Alguien dirá "pero ¿en qué se diferencian tanto el WAV y el
MIDI? ¡Si reproduzco un MIDI escucho sonidos, y si pincho un WAV también!".
Pues no es del todo cierto...
· El MIDI es un protocolo de comunicación

entre aparatos musicales. El MIDI en sí
mismo no produce sonido alguno; consiste en
mensajes que se dirigen unos dispositivos
MIDI a otros, indicando qué nota debe sonar, a
qué volumen, etc. Por ejemplo, un secuenciador manda mensajes de notas a
un sintetizador y este obedece y suena. Aquí entra otro elemento de confusión.
Mucha gente cree que un midifile suena porque sí, que lleva los sonidos
"dentro", dado que ellos "no tienen un sintetizador en casa, sólo el ordenador".
Pues tampoco es verdad. Todos los ordenadores actuales llevan
sintetizadores-samplers incorporados, ya sea en su tarjeta de sonido o virtuales
(como el que implanta Microsoft en sus últimos sistemas operativos). Cuando
reproduces un midifile, éste le indica al sintetizador de tu ordenador cómo debe
sonar, al igual que en el ejemplo anterior con los sintes hardware. Por eso, si
cambias de tarjeta de sonido, o usas otro sintetizador virtual diferente, los
midifiles sonarán diferentes. [Arriba a la derecha, datos MIDI de notas
presentados por el secuenciador Logic Audio)
· El WAV es un formato de audio digital. Si colocaras un

microscopio sobre un WAV (figuradamente, claro), sólo verías
cadenas de ceros y unos; el WAV es una fotografía digital del
sonido real. El ordenador convierte los impulsos eléctricos de una
señal sonora en datos que él pueda leer. Así pues, cualquier
reproductor de WAVs hará sonar la misma imagen del sonido
original. Aquí no hay ningún protocolo o lenguaje que le diga a
ningún dispositivo cómo debe sonar; el WAV en sí mismo es el
propio sonido capturado, no una cadena de mensajes que se
envían a un sintetizador o sampler, como el MIDI. Avisamos ya
aquí que todo lo que diremos sobre el WAV se aplica al MP3 (que es un
simplemente un WAV comprimido) [A la izquierda, representación gráfica de un
WAV en el editor de audio Wavelab]
Hemos sido tajantes: no se pueden convertir WAVs y midifiles entre ellos. Pero
sí hay maneras de hacer algo muy parecido. Sigue leyendo...
Lo fácil: grabando un midifile en formato audio

Hemos dicho que un WAV es una captura digital del sonido real, y que el MIDI
hace sonar un sintetizador o sampler mediante un protocolo de mensajes. Pues
bien, para tener los sonidos que produce un midifile en formato WAV, la cosa
es sencilla... sólo tenemos que grabar digitalmente esos sonidos.
Si tenemos un sintetizador o sampler externo que reproduce los midifiles, la

cosa está bien clara: sólo hay que encaminar las salidas de audio del aparato a
la entrada de línea de nuestro ordenador, y utilizar un grabador para registrar
esa señal. Muchos programas pueden grabar audio; cualquier secuenciador
MIDI-Audio lo hace, y editores como Wavelab o Sound Forge, Cool Edit o
Goldwave también cumplirán la tarea. Solo hay que seleccionar en el programa
la entrada de línea de la tarjeta de sonido, y grabarla.
Si sólo dispones del sintetizador-sampler de tu ordenador (ya sea virtual, por

software, o incorporado a la tarjeta de sonido), sigue siendo fácil la solución.
· En el caso de la tarjeta de sonido, el sistema
que utilizaremos dependerá de si ésta puede
"autograbarse", es decir, si dispone de un circuito
especial que reenvíe toda la señal que genera de
nuevo hacia el ordenador. Muchas tarjetas hacen
esto; por ejemplo, la famosa Sound Blaster Live!
(en la foto) o la Audigy. Diremos como se hace con
la Live!, y si tienes otra tarjeta, seguro que no te
será difícil trasladar la técnica. Lo que debes hacer es abrir el mixer de
Windows (el control de volúmenes), ir a las opciones y ponerlo en modo
"grabación". Eso hará que veas los niveles de grabación de las distintas
fuentes posibles, y cuál está seleccionada para ser grabada en ese momento.
Pues bien; sólo debes escoger como fuente el sintetizador de la Live!, y usar
(como en el caso anterior) un grabador para recoger la señal.
Si tu tarjeta no puede "autograbarse", tendrás que hacer una pequeña

chapucilla: une la salida de audio de la tarjeta con su entrada de línea usando
un cable de audio apropiado, y elige como fuente de grabación esa misma
entrada de línea. Ten cuidado aquí con los volúmenes de salida y entrada; ya
no estás en el dominio digital y puedes distorsionar la señal si te pasas.
· Para grabar la señal de un sintetizador o sampler virtual, el procedimiento

es análogo: si la tarjeta dispone de un circuito que permita grabar internamente
la señal de audio que ella misma produce, solo has de elegir la fuente
adecuada para la grabación (suele ser la fuente "WAV" o "Directsound" en
muchos casos). Si careces de esta posibilidad, tendrás que hacerte con el
cable ya citado y realimentar a la tarjeta con su propio sonido.
Lo difícil: descomponiendo un WAV en mensajes MIDI

Esto es otro cantar. Grabar la salida de un sinte o sampler (hardware, software
o de tu tarjeta de sonido) es un procedimiento obvio y sencillo. Pero si
queremos obtener un midifile a partir de un WAV, las cosas se complican hasta
el extremo...
La razón para esto es que un WAV reúne información muy compleja sobre
frecuencias, volúmenes, resolución, etc, y toda ella aparece mezclada,
especialmente si el WAV es de una canción normal, en la que puede haber
percusión, bajo, voces, acompañamientos... El WAV no entiende de notas ni de
escalas, sólo de frecuencias y de sonido puro. Ya sabemos que el MIDI
consiste precisamente en mensajes que indican a un dispositivo cómo
interpretar música, así que convertir un WAV en un midifile sería algo así como
cocinar una tarta y luego pretender separar los huevos, la leche y la harina.
Así pues, estamos en un atolladero. Pero hay alguna esperanza. Al igual que
existen programas de reconocimiento de caracteres (OCR) que intentan "leer"
un gráfico de un texto y convertirlo en datos reconocibles para un procesador
de textos, existen programas que identifican los tonos de un WAV y, a
partir de ellos, generan un archivo MIDI. Por desgracia, esta técnica tiene
mucho más éxito con las letras que con el sonido ya que, como habrás
imaginado, un WAV es algo mucho más complejo que una foto de la página de
un libro, donde sólo hay caracteres de color negro sobre un fondo blanco,
nítidos y fáciles de identificar para un programa de reconocimiento
mínimamente inteligente. Identificar todos los tonos de un WAV, sus
volúmenes, y aún más allá, los tonos y volúmenes de todos los instrumentos
por separado, es una tarea imposible. Además, ¿cómo un programa de
ordenador podría diferenciar entre el timbre de un violín y el de una guitarra?
Sin embargo, algo se ha avanzado en los últimos años. Actualmente uno puede
conseguir un MIDI más o menos aceptable a partir de un WAV monofónico no
muy complicado. Por monófonico entendemos aquel sonido que sólo contiene
un tono a la vez, por ejemplo la voz humana o una flauta (ninguna de las dos
puede hacer sonar dos notas al mismo tiempo). Al haber sólo una línea
melódica sin acordes ni notas superpuestas se hace más fácil identificar los
tonos y crear mensajes MIDI a partir de ellos. Algunos programas presumen de
identificar incluso acordes y líneas más complejas, pero su eficacia es bastante
dudosa. Por ello te recomendamos que en vez de complicarte la vida con
conversiones imposibles, busques directamente el midifile de la canción que
desees; seguro que alguien en alguna parte ha secuenciado ese MIDI para que
lo puedas bajar.
Hay una variedad de programas especializados en "convertir" WAV a MIDI

(pulsa sobre ellos para visitar sus webs):
· Digital Ear (en la foto de arriba)
· Sound2MIDI y Wav2MIDI de Audioworks
· TS-AudioToMIDI (freeware).

Audio Digital PDF

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Audio Digital PDF

Enviado por

Direitos autorais:

Formatos disponíveis

• INTRODUCCIÓN AL AUDIO DIGITAL

INTRODUCCIÓN AL AUDIO DIGITAL

¿Qué es el audio digital?

Podríamos definir audio digital como la representación de una señal de audio

Entendemos como señal de audio cualquier objeto sonoro audible, el viento, el

En términos menos genéricos, también podemos llamar audio digital a la

Estudio de grabación de audio analógico. La calidad de audio no es

Estudio de grabación de audio digital. El ordenador se encarga de registrar

Ejemplos de los nuevos instrumentos digitales basados en la tecnología de

El músico tradicional ha tenido que adaptarse a esos cambios. Cuando

2-Soporte digital y analógico

Veamos con detenimiento las diferencias más importantes entre el soporte

Calidad de audio: La calidad de un sistema de grabación analógico resulta

Grabador de audio digital multipista (8 pistas) basado en cinta de SVHS. Al

Existe una relación matemática que relaciona la frecuencia máxima registrable

Según Nyquist, es posible repetir con exactitud una señal de audio si la

Observando la parte inferior de esta captura

Archivo de audio cargado en WaveLab 3.0. Como siempre, en la parte inferior

Existe una relación matemática entre los bits y la relación señal-

El resultado de la búsqueda nos informa de la existencia de todos estos

Tarjeta Pulsar de Creamware junto con su panel de configuración. En esta

Capítulo 1: Diseño de Sonido

Con el sentido de la vista la idea transmite la emoción. Mientras que con

El diseño de sonido representa el estilo artístico global del material

El estímulo que hace que escuchemos día a día no es un fennómeno

Qué es y qué no es la escucha

La escucha es percibir el sonido con cuidado y con discriminación

Como y para que se escucha

Para la mayoría de nosotros, el sonido es elemental en nuestras vidas.

Categorias del sonido

Todo sonido puede agruparse en tres categorías: música, sonido y

El diseño de sonido representa el estilo artístico global de la obra sonora en

Procesos: Grabación, Edición, Procesado, Mezclas y Masterización

Personal técnico y de producción

El estudio de postproducción: digital vs. analógico, video vs. multimedia

Soportes y formatos del material sonoro.

a) Tomar la salida analogica del reproductor (line out) y conectarla a la entrada

La opción c) será siempre la preferida ya que ahorra la redigitalización que

Un cambio de formato por lo general no debe afectar a la calidad del sonido

Visualización del sonido. El dominio temporal i el dominio espectral

Claves visuales que nos ayudan a interpretar el sonido

Edición destructiva y edición no destructiva

Cortes y encadenados. Fundidos de entrada y de salida. Fundidos cruzados

Eliminación de ruidos indeseables

2. Con los archivos tema3-a.wav y tema3-b.wav experimentar diferentes tipos

Reverberación y procesado espacial

Cuando manipulamos un reverberador artificial, los principales parámetros son:

Los expansores de dinámica actúan de manera inversa a los compresores. A

Transformaciones tímbricas basadas en retardos: delay, flanger, chorus...

Se trata de un filtrado periódico (en forma de peine) de una serie de

Transformaciones tímbricas basadas en la estructura de los sonidos. Filtrado.

El entorno acústico que requiere una mezcla

Procesado habitual en una mezcla

Sincronización audio-video. Formatos definitivos.

En algunas ocasiones, al trabajar con código SMPTE puede ser necesario

Actualmente en configuraciones de estudio en las que se utilizan dispositivos

El sonido y los formatos audiovisuales más habituales: AVI, Quicktime,

DAT con código de tiempo

Características sonoras de las voces

Los sonidos característicos podemos subdividirlos en:

Estrategias de creación de efectos

Fuentes sonoras a incorporar en una producción audio-visual (III): músicas.

Criterios básicos de montaje musical