Escolar Documentos
Profissional Documentos
Cultura Documentos
• DISEÑO DE SONIDO
• POST PRODUCCION DE SONIDO
• CONVERTIR WAV A MIDI Y VICEVERSA
Para ello existe un amplio surtido de aparatos y equipos que procesan la señal
de audio en el dominio digital, dominio que ofrece muchas más ventajas ya que
es totalmente "tratable" por un ordenador, es decir, permite un grado de
manipulación sin precedentes.
1-Introducción
Para la gran industria de la música, el audio digital nació de una necesidad muy
concreta; ahorrar tiempo de producción. Antes del audio digital, el método de
grabación era lo que hoy en día se conoce como grabación analógica, los
impulsos del sonio se registraban en una bobina o cinta. La edición de esa
bobina era un proceso muy largo y tedioso, en el que la precisión y paciencia
eran algo obligado. Por otro lado, obtener un buen equipo analógico era algo
realmente caro. Hablando de creatividad de mezclas y producción de audio, los
procesos que podían aplicarse eran muy limitados comparados con los de hoy
en día. Por poner un ejemplo, si se requería una reverberación concreta el
músico debía registrar su interpretación en la sala que producía esa
reverberación.
Soporte Analógico
Degradable: Cuantas más veces se usa, mayor degradación se obtiene. Los
datos se almacenan físicamente sobre un sustrato que es mucho más alterable
con el paso del tiempo.
Lineal: El audio se graba secuencialmente en el tiempo y con el mismo orden
de ejecución, de principio a fin.
Grabador analógico de audio (2 pistas). Resulta evidente comprobar que su
acceso no es aleatorio.
Soporte Digital
No degradable: Una grabación de audio digital es una cadena gigante de 0 y 1
perfectamente ordenados. Es imposible que "el paso del tiempo" convierta un 0
a un 1, es decir que pueda alterar esa cadena. Como mucho, es posible que
una mala manipulación del soporte (por ejemplo el CD) provoque que durante
un instante aparezcan artefactos o ruidos que originalmente no estaban. Lo que
nunca ocurrirá es que el audio de ese soporte digital vaya apagándose,
perdiendo brillo con el paso del tiempo. La durabilidad de los datos es eterna,
puesto que pueden ser almacenados en cualquier dispositivo de
almacenamiento, como puede ser un disco duro, una memoria, etc., y
recuperados en cualquier momento
Lineal / No-lineal (acceso aleatorio): Si en el mundo analógico el tiempo es algo
fijo e invariable (una canción se registra de principio a fin) en el mundo digital
no tiene porque ser así. Existe un soporte digital llamado DAT que está basado
en cinta analógica aunque en ella se registran 0 y 1 como un en CD pero con
una calidad superior a éste. En este caso, la grabación y reproducción es lineal.
Si deseo ir al final de la canción, debo pulsar el botón Fast Foward y esperar a
que la cinta llegue a su punto. Considerando el disco duro de nuestro
ordenador como soporte digital (archivos wav, aiff o MP3) llegamos a la
inequívoca conclusión de que es un soporte no lineal. Los 0 y 1 de las
canciones que registramos se almacenan por todo el disco duro sin orden
alguno. El acceso a cualquier parte de esta canción (una vez grabada) es
instantáneo, no hay tiempo de espera, dicho de otra forma, se tarda tanto en
reproducir desde el inicio de la canción como, en mitad de ella: apenas unos
milisegundos.
Cuadro de diálogo de configuración del programa Pro Tools Free. Desde esta
pantalla indicamos la frecuencia de muestreo que se utilizará en la sesión
actual. Pro-Tools sólo permite utilizar archivos con una sola frecuencia de
muestreo. Existen otros programas que permiten utilizar archivos con múltiples
frecuencias de muestreo en una sola sesión. El programa convierte la
frecuencia de muestreo a tiempo real ya que un CD no soporta múltiples
frecuencias de muestreo
En el mundo del audio no se utiliza la expresión fotos por segundo, sino que se
habla de la Frecuencia de Muestreo. Una frecuencia de muestreo de 44.100 se
conoce como 44.1 kHz (Kilo Hercios). Esta frecuen cia de muestreo permitiría
no diferenciar la fuente un sonido que se produce en la habitación de al lado,
oiríamos a un señor hablando y no sabríamos si es real o una grabación que se
está reproduciendo. Si la frecuencia de muestreo fuera menor, por ejemplo
22.050 kHz, ese señor tendría una voz muy opaca, como si hablase con una
mano tapándose la boca. Nos parecería muy raro, no seria una voz natural. ¡No
podrían engañarnos!.
Ya sabemos que necesitamos tomar 44100 "fotos" del sonido por segundo,
pero ¿estas fotos cómo se almacenan?. En forma de bits, cadenas de 0 y 1
totalmente manejables por el ordenador. La cantidad de bits que se utilizan
para representar la muestra del audio es la resolución de la muestra. Una
resolución de 8 bits (1 byte) permite manejar valores de entre 0 a 255 (256
valores). Dicho de otra forma, para representar una señal máxima de 255
necesitaré 8 dígitos binarios (0 o 1) y en este ejemplo, 255 es 1111111 en
binario (8 dígitos 1). Una palabra de 16 bits (2 bytes) maneja un valor máximo
de 65535 (65536 si contamos el 0 como valor), 1111111111111111=65535.
De esta forma, cada uno de las 44100 capturas realizadas contienen un valor
codificado en "x" bits. Cuanto mayor sea la resolución, más calidad tendrá la
grabación. Tanto la frecuencia de muestreo como la resolución tienen
incidencia directa en la calidad de la grabación y reproducción de audio digital.
La resolución, por su parte, también tiene incidencia directa en el rango
dinámico o relación señal-ruido de la grabación (abreviada S/R o S/N en inglés
y se mide en dB o decibelios). Existe una relación que indica que esta relación
S/N es igual al resultado de multiplicar la resolución de bits por 6. Una
grabación a 8 bits posee una relación S/N de 54dB, una de 16 bits 96dB y
144dB a 24 bits. Tengamos en cuenta que estos dB son valores teóricos y que
en la práctica bajan sustancialmente debido a los componentes analógicos de
los grabadores tarjetas de sondo, etc... Lo normal es que un grabador a 16 bits
alcance los 90-92dB y lo extraordinario es que efectivamente nos entregue una
S/N de 96dB. Para nosotros, los humanos, un rango dinámico de entre 90 y
100dB es suficiente. Estas cifras salen del propio rango dinámico humano, la
diferencia entre el umbral de dolor y el umbral de audición
La relación señal ruido (S/N) es la diferencia entre el nivel de señal útil (música,
sonido, etc...) y el nivel de ruido (ruido provocado por señales eléctricas en el
interior de un equipo electrónico). El ruido se mide sin ninguna señal a la
entrada del equipo. Para calcular este valor se toman mediciones del nivel de
señal cuando se captura o se reproduce audio y se restan de las mediciones al
mismo nivel sin señal alguna en las que puede apreciarse el ruido inherente del
propio aparato. Dicho de otra forma, es la diferencia entre el nivel de la señal
nominal y el nivel de la señal residual, al mismo nivel de trabajo. Una prueba
muy sencilla, al escuchar música en tu mini-cadena hi-fi, sube el volumen al
máximo (en modo stop) y comprobarás como el ruido residual aumenta ¿te
gusta?. Si con el volumen máximo pulsases el "play", el audio se reproduciría a
su máximo volumen, la diferencia de volumen entre ese audio "a tope" y ese
ruido residual es la S/N. Cuanto mayor sea la diferencia de volumen entre la
señal útil y el ruido, mayor calidad tendrá el mismo. Técnicamente la señal se
mide en voltios y para pasar a dB se calcula el 20·log(S/N) donde S es el valor
de la "Señal" y N el valor del "Ruido" o "Noise", en inglés. Cuanto mayor sea el
valor de S/N mayor calidad tendrá el audio.
Ahora planteémonos un problema muy interesante. El hombre, como especie
animal, tiene una limitación en su oído; no podemos oír toda la gran gama de
frecuencias generadas en la naturaleza (o por medios artificiales, como esos
antiguos mandos a distancia por ultra-sonidos). A partir de las frecuencias
cercanas a los 20.000Hz, el silencio penetra en nuestro oídos. ¿Qué puede
ocurrir si registro una señal de audio con un sonido que va más allá del umbral
humano?
Imaginemos que estamos grabando audio con una frecuencia de muestreo de
44.1kHz y en ese audio se reproducen frecuencias cercanas a los 29.000Hz
(que naturalmente no podemos oír). Nuestra grabación registrará todas las
frecuencias hasta los 22.050Hz pero aparecerá un ruido de 15.1Hz (44.1kHz-
29kHz), algo totalmente audible que en el original no existía. Estas frecuencias
fantasma se llaman "alias", dando nombre a una distorsión conocida como
"aliasing". Para prevenir esto, tanto los sistemas de grabación de audio como
las tarjetas de sido incluyen un filtro "anti-alisasing" que no permite la entrada
de frecuencias superiores a la mitad de la frecuencia de muestro; estamos
hablando otra vez de Nyquist.
Folleto publicitario del sistema MOTU
1224 a 24 bits. Posee un rango
Folleto publicitario del conversor ADDA dinámico increíble, casi 116dB.
de Pro Tools 888-24. Observa sus ¿Significa eso que es el que mejor
características.. suena?.
El diseñador de sonido
Escucha
Decir como y para qué se debe escuchar es una tarea fácil. La parte
dificil -la escucha- es suya; el entrenamiento de los oídos exige esfuerzo y
años de práctica.
Se aprende cómo escuchar prestando atención al sonido donde y
cuando sucede: en diferentes salas, en el tráfico, o en los eventos deportivos;
cuando se ducha, viste, come o pasea; durante una conversación; en un
concierto; descansando en la cama. Se aprende para qué escuchar analizando
los componentes que forman un sonido y la relación de un sonido con su
entorno.
Tome el sonido de un perro ladrando. Un ladrido es generalmente un
sonido áspero y adrupto. Pero los ladridos varían completamente en tono,
sonoridad, ritmo, y contexto. Por ejemplo, los ladridos de tono grave son má
largos que los ladridos de un tono agudo; algunos ladridos comienzan con un
sonido gutural, otros con un ataque pronunciado. Dentro de un ladrido puede
haber un gemido, gañido, gruñido, aullido o un bramido. También algunos
ladridos tienen un ritmo regular mientras cambian el commpás y producen un
ritmo irregular. Cada uno de estos sonidos le dice algo sobre el perro y su
situación.
El sonido que hace un pollito mientras nace puede parecer obvio: la
rotura gradual de la cáscara del huevo y luego el piar. Pero la escucha de una
incubación revela más. El pollito pía dentro del huevo antes de romperlo; el piar
es sordo. La cáscara comienza poco a poco a romperse con cortos sonidos de
tentativa, sonidos intermitentes que aumentan en potencia. Con el aumento de
la fuerza aumenta poco a poco en claridad, potencia y rapidez. La última rotura
de la cáscara suena más como destrozos cuando el pollito sale al mundo. Una
vez fuera de la cáscara, el piar no es sordo, es claro, y fuerte pero no tan
ruidoso como justo antes de nacer.
El sonido tambien cambia con el entorno. El tamaño de la sala, los
muebles, la superficie de la pared y los techos; en campo abierto, en centro de
la ciudad o en la orilla del mar, frío y cálido, todo afecta de alguna forma al
sonido.
El sonido de la televisión varía de un programa a otro. Con los créditos,
se puede identificar determinado diseño de sonido con determinados
diseñadores de sonido. En los deportes, por ejemplo, se pueden distinguir
diferentes estilos de cómo están captadas las fuentes de sonido, de qué
sonidos están bien balanceados, y qué sonidos están enfatizados. A algunos
diseñadores de sonido les gusta mantener los niveles del sonido del gentío y la
voz del anunciante parejos para mantener el interés. Otros prefieren mantener
el nivel de la gente relativamente bajo de forma que cuando la acción lo
justifique pueda ser aumentado para mejorar el interés.
La mayoría de los diseñadores de sonido tienen su estilo propio. Algunos
técnicos de sonido pueden identificar a quien produjo un sonido particular, la
película o el programa en que se usó por primera vez, o la colección de sonidos
pregrabados de la que fue sacado.
La escucha de sonido en un discurso. Las palabras pueden tener un
significado, pero el sonido las define, En el papel el significado de las palabras
“buenos días” es claro. Su significado cambia, por supuesto, cuano la tensión
en ciertas palabras cambia, o cuando se dicen con un tonillo, monótono,
quejoso o balbuceando; o dicho por un anciano, un joven o un niño.
El sonido de los discursos conviene que sea de calidad de confidencia,
miedo, ansiedad, arrogancia, humor, auto-estima, e interés. Una persona
puede aparecer confidente en una entrevista, pero si el tono de las frases
suben al final, o si hace unas pausas extrañas entre las palabras o frases o
tiene una calidad mala como orador, el discurso de la persona se olvida por la
apariencia.
Quizá la música presente el mayor desafío en la escucha. Las
combinaciones sonoras son infinitas, y su valor estético llena las necesidades
humanas. El gusto musical es intensamente personal; dos personas
escuchando la misma música pueden responder de dos formas muy diferentes,
ambas válidas.
Una sola nota en una guitarra acústica puede producir una variedad de
sonidos y respuestas que depende de que la cuerda sea de tripa o de acero,
que sea pulsada por el dedo o con un pico, que el pico sea de plástico o de
metal, la fuerza con que se rasga la cuerda, el tipo de madera y acabado usado
para hacer la guitarra, la acústica de la sala y todo lo demás. Los violines
tocados en un aire cálido tienen un sonido mejor que los viloines tocados en un
ambiente frio; por lo tanto los violines tocados en un ambiente frio tienen un
sonido más duro que los violines tocados en un ambiente templado. Dos pianos
grandes de concierto pueden ser de la mayor calidad, pero uno tiene un sonido
más duro propio para música Barroca o música “Jazz”, mientras que el otro
tiene más tonalidad, más recomendado para música Romántica.
Cuando se escucha la música, note cómo pequeños cambios en los
arranques y sostenidos afectan en los acentos, cómo acelerando o frenando
las notas por una fracción de segundo de más o de menos altera el ritmo, cómo
legeras diferencias de tono cambian el balance de la sonoridad, cómo la línea
de los bajos, el tambor, el relleno, la lírica, el arreglo, la producción y la
musicalización añaden interés y significado.
Escuche varias grabaciones de, digamos, la Quinta Sinfonía de
Beethoven. Trate de conseguir los mejores factores posibles, tales como la
calidad de los discos, el formato de grabación (estéreo, mono, digital,
analógico), el sistema de audio y la sala. Puede quedar sorprendido de todas
las diferencias en el sonido y en la interpretación. Podrá preferir el sonido en
una grabación y la interpretación en otra. Lo que no significa que una sea
necesariamente mejor que la otra; lo que significa es que basándonos en su
percepción, una es preferible a la otra por varias razones. Incluso alguna de
ellas puede ser desagradable.
Porque la respuesta al sonido es personal, es dificil determinar normas
y guías de forma que el escuchar es la clave para captar el discernamiento
auditivo. El oído es capaz de un desarrollo constante en su habilidad de
analizar los sonidos complejos. De la forma que desarrolla su sensibilidad
auditiva así será su nivel de captación de auditorio. Una forma de acelerar la
realización de esta meta es comprendiendo los elementos de la estructura del
sonido y sus efectos en la respuesta.
Estructura del sonido y respuesta humana
Entre los elementos comunes más significantes para los distintos tipos
de sonido son el tono, el volumen, el timbre (o calida tonal), el tiempo, el ritmo,
la duración, el ataque, y el declive. Cada elemento contiene ciertas
características que afectan nuestra respuesta para un sonido dado, ya que
estas características son parte de la música, del sonido, o del discurso.
El Tono se refire a lo agudo o grave de un sonido. El sonido de tono
agudo sugiere con frecuencia algo delicado, brillante, o elevado; el sonido de
tono grave puede indicar algo siniestro, duro o lleno de paz.
El Volumen describe el sonido en los términos de sonoridad o debilidad.
El sonido fuerte puede sugerir cercanía, fuerza o importancia; el sonido suave
puede describir distancia, debilidad o tranquilidad.
El Timbre (o color del tono) es la característica de la calidad tonal de un
sonido. No solamente identifica una fuente de sonido, aflautada, metálica,
timbálica, pero también tiene cualidades sonoras tales como riqueza, agudeza,
perfilado, y metálica. Las cualidades tonales aflautadas producidas por un
clarinete u oboe, por ejemplo, pueden sugerir algo deseoso, solitario, o dulce.
Un sonido de metal puede implicar algo frío, duro, feroz, amargo, fuerte,
marcial, o grandioso. Un sonido de un timbal o percusión puede indicar drama,
importancia o poder.
El Tempo se refiere simplemente a la velocidad de un sonido. Los
tempos rápidos pueden agitar, excitar, o acelerar; los tempos lentos pueden
sugerir monotonía, dignidad o control.
El Ritmo, que se refiere a un patrón de tiempo sonoro, puede ser simple,
constante, complejo, o cambiante. Un ritmo simple puede indicar deliberación,
regularidad o un montón de complicaciones. Un ritmo constante puede implicar
estupidez, depresión o uniformidad. El ritmo complejo puede sugerir
complicación o elaboración. Ritmo cambiante puede crear sensación de
incertidumbre, vigor o confusión.
Ataque –la manera en que un sonido comienza- puede ser duro, suave,
brusco, o gradual. Los ataques duros o bruscos pueden sugerir violencia,
excitación o peligro. Los ataques suaves o graduales implican algo gentil, sordo
o aburrido.
La Duración se refiere a lo que dura un sonido. Un sonido corto en
duración puede indicar inquietud, nerviosismo o excitación; los sonidos más
sostenidos pueden crear el sentido de paz, persistencia o cansancio.
El Decaimiento (la rapidez con la que un sonido baja desde un cierto
volumen) puede ser rápido, gradual o lento. Un decaimiento rápido puede crear
un sentido de confinamiento, encierro o definición; declive lento puede indicar
distancia, suavidad o incertidumbre.
Otros aspectos del sonido como cambio de tono y volumen e
interferencias acústicas también afectan a la respuesta. Por supuesto, todos
estos elementos no se escuchan individualmente sino en combinación.
Alguien hablando en tono alto, voz potente y a un ritmo rápido indica
excitación, independientemente del sentido que puedan tener las palabras. El
tono bajo, reduciendo volumen y el tiempo lento también pueden indicar
excitación, pero esta combinación de sonidos sugiere algo más profundo. Las
palabras dichas en un tiempo deliberado y en una habitación con
reverberación, es decir, acústicamente vivas, pueden indicar un contenido más
pesado que las mismas palabras en un ambiente acústicamente muerto.
Estos mismos factores pueden ser aplicados a la música y a los sonidos.
Una trompeta o un violín tocados en un tono alto, con volumen y con rapidez
puede sugerir excitación, agitación o alegría, quizá agitación en acústicas
apagadas y alegría en acústicas vivas.
El golpear en una puerta de madera o metálica puede sugerir agitación o
alegría. Y de nuevo, bajando el tono, reduciendo el volumen y reduciendo los
cambios del tempo cambia la respuesta a algo más serio, ya sea la fuente de
sonido una trompeta, un violín, una puerta de madera o un montón de latas de
metal.
Que estas características sean elementales en la estructura del sonido
no sugiere que el diseño de sonido sea prescriptivo o que se desarrolle
aplicando fórmulas. De hecho, todos estos consejos pueden tener muchas
excepciones. Sirven para introducir y definir los bloques constructivos del
sonido a partir de los cuales el diseñador de sonido modela la estructura y
significado auditivo. Algunas de estas descripciones no son usadas en los
campos asociados a la ciencia y la ingeniería, cuya correlación veremos en
capítulos 2 y 3.
Puntos principales
La postproducción de sonido
Funciones
Procesos: Grabación, Edición, Procesado, Mezclas y Masterización
Personal técnico y de producción
El estudio de postproducción: digital vs. analógico, video vs. multimedia
Funciones
La función de la postproducción (o "sweetening") es organizar espacio-
temporalmente y dar forma definitiva a los diversos materiales sonoros que se
utilizan en una producción audiovisual. En la postproducción se combinan
elementos musicales extraídos de colecciones especializadas, efectos de
sonido grabados en sala, generados electrónicamente o extraídos de
colecciones, locuciones y músicas grabadas expresamente -en estudio o "on
location"-, etc. El objetivo de esa combinación depende del tipo de producción
audiovisual, de su soporte, de su género, del criterio estético del realizador, etc.
En algunos casos la banda sonora será un complemento a la banda visual, en
otros será la guía de los elementos visuales, en otros servirá de refuerzo de la
banda visual, en otros duplicará la información que llega a través de la vista,
etc.
La postproducción es el último proceso en la creación de una banda sonora
pero no por ello hay que dejar todas las decisiones para ese momento. La frase
"...eso lo arreglarán en la postproducción" es tópica, típica, y desgraciadamente
más habitual de lo que nos gustaría. Con una mejor pre-producción o con
sesiones de grabación bien planificadas podrían evitarse muchos de los
defectos que hay que subsanar en post-producción.
Audio de CDs
Existe una gran variedad de formatos de CD, no todos ellos necesariamente
ligados al sonido. No es éste el lugar apropiado para detallar todas las
variantes, pues seguramente otras asignaturas han entrado en detalle al
respecto.
El CD-Audio almacena pistas de audio muestreado a 44.1 KHz y codificado en
formato PCM a 16 bits, permitiendo más de 70 minutos estéreo por disco. El
CD-ROM permite almacenar unos 650 Mb de datos informáticos de toda índole
y por tanto es posible utilizarlo como soporte de almacenamiento de archivos
de audio digital. Un CD-ROM no puede ser interpretado correctamente por un
reproductor de CDs musicales (como mucho nos escupirá ráfagas de clicks o
de ruidos tremebundos); en cambio, un CD-Audio sí que puede ser leído
correctamente por un lector de CD-ROMs.
Para extraer audio de CDs musicales e incorporarlos en un proyecto de
postproducción digital de sonido se pueden seguir 4 procedimientos,
asumiendo que el resultado lo pretendemos almacenar en el disco duro del
ordenador:
EJERCICIOS
Siempre que tratemos de comparar dos archivos supuestamente idénticos
puede ser muy útil aprovechar la opción de cambio de fase (invert) de los
editores de sonido. Supongamos que A y B son archivos supuestamente
iguales. Si fuera así, al invertir de fase B, crearíamos una "imagen refleja" de A
respecto al eje de amplitud. Así, al mezclar a igual nivel [A]+[B invertido]
obtendríamos... silencio total. Pero si B no es totalmente igual que A, al mezclar
[A] + [B invertido] apreciaremos todo aquello que tienen de diferente. Utilizad
esta técnica en los ejercicios que siguen, siempre que tenga sentido hacerlo.
0. Copiar a vuestra zona o al disco local los archivos tema2*.* que halléis en la
carpeta R:\Recursos\PostAudio.
1. Abrir el archivo tema2-m.wav. Convertir a AIFF, a SND. Comprobar si existe
perdida de calidad. Comprobar si existe variación de tamaño del archivo.
Reconvertir uno de los dos a WAV, volver a comprobar la variación de calidad y
de tamaño. Transferir el AIFF y el WAV a un Macintosh y hacerlos sonar. ¿Qué
problemas surgen? ¿Cómo se pueden solucionar? Transferirlos desde el
Macintosh nuevamente al PC. ¿Qué problemas surgen? ¿Cómo se pueden
solucionar?
2.Convertir a IMA ADPCM (con ayuda de SoundForge) y a MPEG3(con ayuda
de alguna aplicación específica que tengáis en C:\Winaudio\). Comprobar si
existe perdida de calidad. Comprobar si existe variación de tamaño del archivo.
Reconvertir uno de los dos a WAV, volver a comprobar la variación de calidad y
de tamaño.
3. Convertir el archivo tema2-m.wav a 22 KHz. Generar 2 versiones, una con
filtro anti-aliasing de máxima calidad y otro sin filtro. Compararlos entre sí y con
el original. ¿Qué diferencias se notan? Re-muestrearlos de nuevo a 44.1 KHz y
comparar con el archivo original. ¿Hay diferencias? Re-muestrear otra vez
hacia 22 KHz el archivo previamente re-muestreado. Volver a escuchar
notando las diferencias. Volverlo a muestrear otra vez hacia 44.1 KHz y volver
a comparar.
4. Capturar un fragmento de audio desde un CD directamente, y desde la
entrada de línea de la tarjeta de sonido. Analizar las diferencias. Si es posible,
haced dos copias sobre DAT del fragmento del CD, una por vía digital y otra
por vía analógica. Transferir cada fragmento desde el DAT al ordenador por las
2 vías posibles. Comparar los resultados entre sí, y con los fragmentos
transferidos directamente desde el CD. ¿Existe alguna situación en la que no
se haya producido ninguna degradación del sonido?
Edición de sonido
Visualización del sonido. El dominio temporal i el dominio espectral.
Claves visuales que nos ayudan a interpretar el sonido.
Edición destructiva y edición no destructiva.
Cortes y encadenamientos. Fundidos de entrada y de salida. Fundidos
cruzados.
Eliminación de ruidos indeseables.
Ejercicios
La edición de sonido es el proceso a través del que convertimos en definitivos
los elementos sonoros "en bruto" que se combinan en una producción
audiovisual. En este proceso es necesario eliminar silencios, toses, ruidos
molestos, re-ajustar niveles, combinar archivos, equilibrar tonalmente
materiales heterogéneos, etc.
EJERCICIOS
0. Copiar a vuestra zona o al disco local los archivos tema3*.* que halléis en la
carpeta R:\Recursos\PostAudio.
1. A partir de los archivos tema3-musica.wav, tema3-voz.wav, tema3-
ruidos.wav tratar de relacionar y descubrir claves visuales que nos ayuden a
interpretar el contenido sonoro de los archivos. Utilizar las opciones de análisis
espectral para observar la estructura tímbrica de los sonidos.
Procesado de dinámica
El margen dinámico de nuestro oído y el que se puede generar a partir de
instrumentos acústicos puede alcanzar los 130 dB SPL. En cambio, los
dispositivos de grabación no tienen tanto margen: los magnetofones de cinta
apenas superan los 60 dB, las tarjetas de sonido domésticas apenas superan
los 80 dB, tan sólo algunos de los equipos digitales profesionales permiten una
dinámica de 120 dB... Por tanto, en algunas situaciones en la que necesitemos
grabar instrumentos acústicos (especialmente una orquesta) necesitaremos
comprimir su dinámica (o aprendernos la partitura para subir o bajar faders
según haya momentos ppp o fff). Básicamente un compresor atenuará en una
determinada proporción (ratio) la intensidad de la señal cuando ésta supere
determinado umbral (threshold). Si a partir de determinado nivel no se permite
que aumente la intensidad en absoluto, estaremos utilizando un limitador en
lugar de un compresor. El limitador es de utilidad cuando resulta imprescindible
que una señal de audio no supere un determinado umbral (por ejemplo, en
transmisión de televisión, o en grabación digital -aunque en este caso el propio
dispositivo de grabación ya realiza la limitación, con los desagradables
resultados que todos conocemos-).
Las utilidades más habituales y obvias de los compresores se centran en
situaciones en las que es necesario minimizar los cambios de nivel debidos a
variaciones de la distancia entre el micro y la fuente sonora, o cuando es
necesario grabar sobre un soporte que no permite tanta dinámica como la
fuente original -y protegernos contra las saturaciones-, o cuando es necesario
suavizar los ataques de fuentes sonoras intensas, o cuando es necesario
conseguir una sensación de alta intensidad sonora sin llegar a saturar y
distorsionar la grabación (por ejemplo en emisoras comerciales de FM, o en
spots publicitarios). Cuando utilizamos la compresión hay que pensar que el
nivel de salida del compresor puede ser menor que el de entrada, por tanto
tendremos que compensar la salida añadiendo una ligera amplificación. Para
eso utilizaremos el parámetro output gain. Por último, hay que ajustar los
parámetros de ataque y liberación del compresor: el primero determina el
tiempo que el compresor tardará en entrar en acción cuando se haya superado
el umbral; el segundo determina el tiempo que el compresor tardará en dejar de
actuar cuando la señal haya bajado por debajo del umbral. Hay que vigilar el
ajuste de ambos ya que un ataque demasiado corto provocará una pérdida de
transitorios en los ataques -y por tanto apagará el sonido, perderá "pegada"- o
puede generar "clicks", pero si es demasiado largo es probable que la energía
de los transitorios origine una alteración grande de nivel. Si el tiempo de
liberación es demasiado corto y la razón de compresión es grande puede
aparecer el efecto de "bombeo": la subida abrúpta de graves justo cuando deja
de comprimir -porque aún queda un cierto nivel de señal en la cola del sonido,
y ésta ya no está siendo comprimida-; si es demasiado largo, puede estar
comprimiéndose un ataque que no lo necesita, con la consiguiente pérdida de
definición. El oído es quien nos tiene que guiar en última instancia a la hora de
ajustar esos parámetros.
Un tipo de compresión que cada vez se utiliza más es la compresión por
bandas, de manera que sólo se aplica a determinadas frecuencias (por ejemplo
a los graves, o a los 7KHz para reducir la sibilancia o siseo de una voz).
Aunque no nos extenderemos en ellos, los reductores de ruido de cinta (Dolby
B y C, Dolby SR y DBX) son sistemas de compresión/expansión selectiva por
bandas de frecuencia.
Las puertas de ruido "cierran" el paso de toda señal que no supere un
determinado umbral fijado por el usuario. Son muy útiles en situaciones de
"directo" en las que hay multitud de micrófonos que pueden captar lo mismo
que el principal, y tratamos de que la señal sólo entre por el principal (por
ejemplo, en un coloquio en el que casi seguro que sólo habla una persona al
mismo tiempo). También nos ayudan a "recortar" todos aquellos ruiditos no
deseados que se han colado en una grabación (toses, respiraciones,
rozamientos de ropas, ruidos de ambiente), siempre que no se mezclen con la
señal principal.
Flanger
Chorus
Se utiliza para "engrosar" la señal, o para simular la existencia de varios
instrumentos sonando al unísono. En esta situación, un intérprete puede atacar
con cierto retraso y con cierta desafinación respecto a otro intérprete; eso es lo
que trata de simular, de manera compacta, este efecto. Dado que su
funcionamiento es similar al del flanger (sólo que la señal que sale se filtra y se
realimenta) los parámetros de control también son similares.
Distorsión
Transforma en cuadradas las ondas de la señal de entrada. Eso origina que el
resultado tienda a ser desagradable y rasposo (ya que la cuadratura de la onda
implica que aparezcan armónicos impares).
Excitador
También denominado enhancer. Genera armónicos pares -a menudo
medios/agudos- de la señal de entrada, de manera que contribuye a hacer más
presente esa señal en una mezcla sin necesidad de subir su nivel. También
puede utilizarse para generar subarmónicos con el fin de realzar instrumentos
de tesitura grave, o de proporcionarles más cuerpo. Finalmente puede utilizarse
satisfactoriamente en restauración sonora de vinilos o de grabaciones
defectuosas.
Transpositor
Inicialmente las transposiciones mecánicas se basaban en alterar la velocidad
de reproducción de una cinta respecto de su velocidad en el momento de la
grabación (reproduciendo al doble obtenemos una transposición de octava
hacia arriba), pero también se alteraba la tímbrica ya que esta transformación
no preserva las estructuras de formantes propias de muchos instrumentos (por
ejemplo la voz) y de ahí los conocidos efectos de "pitufo" o de "ogro", en los
que la voz así procesada poco tiene que ver con la original. Muchos
transpositores digitales aún operan en base a esa idea de alterar la velocidad
de reproducción, aunque en los últimos años van apareciendo más equipos y
programas capaces de transponer, incluso en tiempo real, sin alterar en exceso
las características del instrumento. Las utilidades de un "pitch-shifter"
comprendend: desafinar ligeramente un instrumento (por ejemplo, convertir un
piano "soso" en un "honky-tonk"), engrosar su sonido -con la ayuda adicional
de un pequeño retardo-), crear imágenes estéreo a partir de una fuente mono,
corregir algunas alturas equivocadas en una interpretación por otra parte
valiosa, crear armonías paralelas, o deformar sonidos "naturales" u "originales"
para crear nuevos timbres (películas como La caza del Octubre Rojo, Full Metal
Jacket, o Terminator 2 contienen interesantes ejemplos de uso del
transpositor).
La manipulación de un transpositor implica básicamente escoger un intérvalo
de transposición (o varios, en el caso de necesitar crear acordes). Manipulando
otros parámetros como el tiempo de retardo y el grado de realimentación
podemos llegar a generar arpegios y otros efectos musicales.
SMPTE
Las siglas significan Society of Motion Pictures and Television Engineering
(sociedad de ingenieros de cine y televisión) y a menudo se asocian al código
más utilizado para sincronizar audio y video. Para conseguir esa sincronía es
necesario disponer de un aparato -generalmente un magnetoscopio- que
denominamos master, y de uno o más aparatos -generalmente multipistas de
audio- que denominamos esclavos (slaves). El master es el que tiene el código
de tiempo que gobierna los esclavos; la función de éstos es siempre la de
seguir el código que en cada momento esté reproduciendo el master -o sea,
posicionar sus sistemas de transporte, reales o virtuales, en el punto que indica
el master.
El código SMPTE es una señal digital -impulsos o ausencia de ellos- (grabada
analógicamente), que contiene una referencia temporal absoluta y que suena a
modo de tono electrónico modulado. La referencia temporal absoluta consiste
en una "dirección" indicada como horas, minutos, segundos y fotogramas,
cuadros, o frames (hh:mm:ss:ff), que se graba de manera reiterada (varias
veces por segundo) en las cintas que necesitan sincronizarse. Puesto que la
cinta contiene una marca temporal diferente por cada frame de imagen (sólo
existirá un frame cuya dirección sea 1h:05m:22s:04f, por ejemplo), resulta fácil
posicionar la cinta en el punto que interese. A partir de esta señal, y con la
ayuda de un sincronizador que la recibe, la descodifica y controla el mecanismo
de transporte de los dispositivos esclavizados podremos conseguir que un
multipistas de audio desplace su mecanismo de transporte (real o virtual)
siguiendo el código del video. El proceso por el cual los esclavos se dirigen al
punto marcado por el master y se posicionan en él se denomina resolución
(resolving).
Existen diferentes variaciones del código SMPTE, según el número de frames
con el que trabajan:
El SMPTE puro és el sistema americano en blanco i negro. Trabaja con 30
cuadros por segundo.
El SMPTE "drop frame" o "con eliminación de cuadro" es el propio del sistema
de video NTSC de los EEUU. Trabaja a 29.97 cuadros por segundo. Para
conseguirlo el código trabaja realmente a 30 cuadros por segundo, pero los dos
primeros cuadros de cada minuto que no sea el 00, 10, 20, 30, 40, y el 50 no se
cuentan -se eliminan- (es decir, que por ejemplo después de 00:53:59:29
pasamos a 00:54:00:02).
El EBU (European Broadcast Union) es el propio de los sistemas de video PAL
y SECAM. Trabaja a 25 cuadros por segundo. Es el habitual en Europa y a
veces se lo denomina SMPTE/EBU.
Finalmente, en cine se utiliza código de 24 cuadros por segundo.
La elección de un sistema u otro se hace en función del tipo de producto y de
sus lugares de difusión aunque lo más habitual es trabajar 25 fps. En cualquier
caso hay que procurar no mezclar formatos diferentes en una misma
producción, dado que las conversiones entre unos y otros no siempre resultan
triviales.
Postproducción informatizada
La postproducción informatizada requiere no sólo de que dispongamos en
formato digital de todos los elementos de la banda sonora, y de una serie de
programas de edición, procesado y mezcla, sino también de que dispongamos
en formato digital de las imágenes que tenemos que sonorizar.
Uno de los entornos integrados más conocidos es Premiere, pero está
orientado principalmente a la postproducción de imágenes (si bien con él
podemos resolver satisfactoriamente también sencillas postproducciones de
sonido). Postview, pariente de Protools permite la postproducción de sonido en
un entorno en el que se integra también el video digital. En el ámbito de los
PCs, cabe destacar Soundscape y SADIE. En cualesquiera de esos casos es
necesario disponer de un hardware específico que posibilita una conversión
A/D y D/A de muy alta calidad, y la gestión, edición y procesado del sonido con
gran eficacia.
Otra opción interesante en estudios domésticos es la de utilizar un programa
reproductor de video digitalizado que pueda al mismo tiempo generar MTC
(Sound Forge, por ejemplo). Este MTC es llevado vía software hacia el
programa de edición o de mezcla multipista (CoolPro, por ejemplo), el cual
habremos configurado como esclavo de MTC. Así, cuando hagamos play en el
reproductor de video digital el programa de audio se pondrá en reproducción
sincronizada. Para hacer uso de esta opción es imprescindible disponer de una
matriz virtual MIDI o programa de rutaje MIDI que facilite el uso flexible de
puertos MIDI virtuales (además de los reales que nos proporciona nuestra
tarjeta). Hubi Loopback Device es un shareware imprescindible para crear a
través de software un MIDI patchbay de 4 entradas x 4 salidas.
VHS
No se trata de un formato habitual para masters, pero sí para copias de trabajo
que nos permitan ir sonorizando en casa o en un pequeño estudio, y luego
trasladar nuestro trabajo a otro formato profesional con la seguridad de que las
cosas cuadrarán sin problemas. El VHS es un formato de 1/2 pulgada con 1 ó 2
pistas lineales de audio, i en algunos modelos (HI-FI) dos pistas adicionales de
sonido modulado en frecuencia (AFM) igual que el Betacam SP. No lleva pista
dedicada a código de tiempo así que deberemos sacrificar una pista de audio
para insertar el código de tiempo.
Hi-8
Es un formato en cinta de 8mm que permite disponer de dos pistas digitales de
audio PCM (de calidad inferior a la de un CD ya que se cuantiza a menos de 16
bits). Además de ellas, dispone de otras 2 pistas de audio modulado en
frecuencia. Las pistas PCM son independientes de la imagen.
AVI
Es un formato de digitalización de video desarrollado por Microsoft. En un AVI
el audio y el video se almacenan entrelazados, y el software de presentación se
encarga de separar los dos componentes a la hora de "proyectar" la película
.(generalmente en formato de 320 x 240 pixels, y a una velocidad de 15 frames
por segundo).
Quicktime
Formato de digitalización de video desarrollado por Apple. Permite integrar
imagen móvil y fija, texto, animaciones, audio y midi en un objeto único y
compacto. No es específico de plataformas Mac aunque para examinar y editar
el contenido de un Quicktime existen más herramientas (por ejemplo
MoviePlayer) para Mac que para PC.
Los archivos WAV y MIDI no son formatos convertibles; tienen tanto que
ver entre sí como el sol y la luna. Que nadie se asuste, porque luego daremos
solución a esto; pero es vital marcar diferencias y conceptos antes de empezar.
Hemos sido tajantes: no se pueden convertir WAVs y midifiles entre ellos. Pero
sí hay maneras de hacer algo muy parecido. Sigue leyendo...
La razón para esto es que un WAV reúne información muy compleja sobre
frecuencias, volúmenes, resolución, etc, y toda ella aparece mezclada,
especialmente si el WAV es de una canción normal, en la que puede haber
percusión, bajo, voces, acompañamientos... El WAV no entiende de notas ni de
escalas, sólo de frecuencias y de sonido puro. Ya sabemos que el MIDI
consiste precisamente en mensajes que indican a un dispositivo cómo
interpretar música, así que convertir un WAV en un midifile sería algo así como
cocinar una tarta y luego pretender separar los huevos, la leche y la harina.
Así pues, estamos en un atolladero. Pero hay alguna esperanza. Al igual que
existen programas de reconocimiento de caracteres (OCR) que intentan "leer"
un gráfico de un texto y convertirlo en datos reconocibles para un procesador
de textos, existen programas que identifican los tonos de un WAV y, a
partir de ellos, generan un archivo MIDI. Por desgracia, esta técnica tiene
mucho más éxito con las letras que con el sonido ya que, como habrás
imaginado, un WAV es algo mucho más complejo que una foto de la página de
un libro, donde sólo hay caracteres de color negro sobre un fondo blanco,
nítidos y fáciles de identificar para un programa de reconocimiento
mínimamente inteligente. Identificar todos los tonos de un WAV, sus
volúmenes, y aún más allá, los tonos y volúmenes de todos los instrumentos
por separado, es una tarea imposible. Además, ¿cómo un programa de
ordenador podría diferenciar entre el timbre de un violín y el de una guitarra?
Sin embargo, algo se ha avanzado en los últimos años. Actualmente uno puede
conseguir un MIDI más o menos aceptable a partir de un WAV monofónico no
muy complicado. Por monófonico entendemos aquel sonido que sólo contiene
un tono a la vez, por ejemplo la voz humana o una flauta (ninguna de las dos
puede hacer sonar dos notas al mismo tiempo). Al haber sólo una línea
melódica sin acordes ni notas superpuestas se hace más fácil identificar los
tonos y crear mensajes MIDI a partir de ellos. Algunos programas presumen de
identificar incluso acordes y líneas más complejas, pero su eficacia es bastante
dudosa. Por ello te recomendamos que en vez de complicarte la vida con
conversiones imposibles, busques directamente el midifile de la canción que
desees; seguro que alguien en alguna parte ha secuenciado ese MIDI para que
lo puedas bajar.
· TS-AudioToMIDI (freeware).