Você está na página 1de 5

Tratamiento digital del sonido

1. Introduccin 2. Muestreo 3. Digitalizacin PCM 4. Compresin

1 Introduccin
El almacenamiento y reproduccin del sonido puede hacerse siguiendo dos criterios que denominaremos del magnetfono y de la partitura. El primero pretende almacenar la forma de onda de la forma ms fiel posible para reproducirla despus. Es el mtodo utilizado en los antiguos dispositivos analgicos como el gramfono o el magnetfono (el propio telfono). Por contra, el sistema de partitura establece las reglas por las que se formar el sonido; es la informacin contenida en la partitura la que informa al msico sobre los resultados que debe conseguir. La informtica ha reproducido los criterios anteriores adaptndolos a los dispositivos digitales. De forma resumida podemos adelantar aqu que el sistema del magnetfono digitaliza la onda por el procedimiento de anotar repetidamente su amplitud en intervalos de tiempo muy pequeos; es el denominado sistema de muestreo, del que existen muchas variedades. En todos los casos la onda es transformada en una serie de valores numricos que se almacenan en un archivos. Posteriormente el archivos puede ser ledo por un programa especial, y sus datos enviados secuencialmente a un dispositivo que es capaz de regenerar una tensin elctrica proporcional a los valores (numricos) recibidos, de forma que semeja la forma de onda original (es la tarjeta de sonido). La tensin producida es entregada a su vez a un altavoz, que la transforma finalmente en "Sonido". El sistema de la partitura utiliza un lenguaje especial, parecido al de los msicos, para almacenar informacin sobre cada nota. Es desde luego un lenguaje informtico como cualquier otro (Algol, C, Fortran, Basic, Etc.), aunque adaptado a las necesidades de la representacin del sonido. Existe una amplia variedad de estos lenguajes musicales para ordenador cuyo funcionamiento es parecido. El "Fuente" es aqu una "partitura electrnica" que indica cuando debe sonar una nota, por cuanto tiempo, con que volumen y como debe terminar. Despus de un cierto proceso "compilacin", en vez de producir un ejecutable normal, producen un "binario de sonido". Es decir, un archivos .wab, .au, .snd, .mid, .mp3, .aiff, Etc. Nota: A partir de aqu, se est en la misma posicin que en el sistema anterior (de muestreo). Los archivoss de sonido pueden ser ledos por programas adecuados que los transforman en una serie de valores numricos, que son enviados secuencialmente a la tarjeta de sonido del ordenador. Esta los transforma en valores analgicos (tensiones), que finalmente se transforman en sonido en los altavoces. Una forma especial del sistema de la partitura es el denominado sistema MIDI, que se cre para intercambiar informacin musical entre dispositivos electrnicos digitales. Aadir que recientemente han aparecido sistemas hbridos, que estn a medio camino entre el sistema de muestreo y el modelo MIDI. Los archivoss resultantes (.mod, .xm, .mtm y .s3m) son menores que los de muestreo puro, pero mayores que los MIDI.

2 Muestreo
Una forma de tratar una vibracin sonora (msica o voz) para su manejo por medios informticos (para meterlo en un CD de msica por ejemplo), es digitalizarla (transformarla en nmeros) mediante muestreo. Consiste en medir la amplitud de la vibracin en intervalos de tiempo muy cortos, lo que se realiza mediante un dispositivo ADC ("Analog-to-Digital Converter"). Cada muestra ("Sample") se almacena como un nmero y la frecuencia a que se realiza la medicin es la velocidad de muestreo ("Sampling rate"). Los valores numricos obtenidos son anotados, y esta sucesin de resultados constituye una representacin numrica de la vibracin. Si los nmeros son representados en binario dentro del ordenador, tendremos una representacin digital binaria de la msica, muy apropiada para su tratamiento por medios informticos. Para reconstruir el sonido a partir de su representacin digital, basta construir un dispositivo conversor DAC ("Digital-to-Analog Converter") que mande a un altavoz impulsos elctricos proporcionales a los valores de la serie de nmeros previamente almacenada (cosa relativamente fcil de hacer desde el punto de vista de la ingeniera electrnica). Conviene no perder de vista que, en estos procesos, la calidad de la cadena es la del eslabn ms dbil, y que la calidad del sonido almacenado y reproducido, comienza en el proceso de toma de datos (muestreo), y termina en el dispositivo de reproduccin utilizado (altavoces) [Ver nota 1]. Es evidente que en ningn caso se puede reproducir un sonido con mejor calidad que la que se emple en la grabacin, y en este orden de ideas, no es lo mismo grabar en monoaural (un solo canal) que en estreo (dos canales) o en sonido cuadrafnico (cuatro canales), y por tanto doble o cudruple cantidad de informacin (una serie por canal). Observe que tal como lo hemos descrito, en el proceso de toma de datos solo intervienen dos factores: La frecuencia de muestreo y la precisin de la medida almacenada. Analizaremos separadamente ambo factores que son indicativos de la calidad de la digitalizacin.

Frecuencia: Cuanto ms numerosa es la serie de valores anotados, con mas fidelidad se puede reconstruir despus la forma de la onda original. Por lo general se estima que la frecuencia debe ser por lo menos el doble de la mayor frecuencia que se desea reproducir [Ver nota 5]. Para reproducir con una mnima calidad las frecuencias ms altas del espectro audible (20 KHz) se requieren 40 KHz (el estndar CD-audio estableci una frecuencia de muestreo de 44.1 KHz). Precisin: La calidad y riqueza de matices de la reproduccin est directamente relacionada con la precisin utilizada para la medida de la amplitud y el almacenamiento de los resultados. Si utilizamos un almacenamiento de 8 bits para cada medida, solo podemos tener 256 magnitudes distintas para describir la amplitud de la seal. En cambio, si utilizamos 2 bytes (16 bits), disponemos de 65.536 posibilidades, con lo que la informacin puede ser mas rica en detalles. En este sentido es evidente que un almacenamiento de 8 bits por muestra ser ms pequeo pero de peor calidad que otro de 16 bits (que ocupar el doble). Al referirse al almacenamiento de audio es frecuente utilizar expresiones como 8, 16, 24, 32 bits de profundidad de sonido, en referencia al nmero de bits utilizados para almacenar cada muestra.

Resulta claro que la economa de almacenamiento y la calidad apuntan en direcciones distintas, por lo que debe llegarse a una solucin de compromiso en funcin del uso que se pretenda. No es lo mismo almacenar el contenido de una conversacin telefnica que un concierto para reproduccin en estreo.

Para dar una idea de magnitudes, podemos sealar que una grabacin tpica de calidad telefnica bsica, puede conseguirse con un muestreo de unos 8 KHz [Ver nota 2] codificado en 8 bits (monoaural), lo que conduce a un flujo de 8 KB/s [Ver nota 3]. Una calidad telefnica mejorada podra suponer un muestreo de 22.05 KHz; codificado en 8 bits por muestra proporciona una secuencia de 22 KB/s, es decir, algo mas de 1.32 MB. de datos por minuto de grabacin. Una grabacin de calidad CD, con un muestreo de 44.1 KHz en estreo a 16 bits (2 x 16), proporcionara un flujo de 176.4 KB/s, equivalente a 10.584 MB por minuto de grabacin [Ver nota 4]. Este flujo de datos es el que se considera velocidad normal (1x) en un reproductor de CDs. Desde el punto de vista del hardware, los codificadores alcanzan fcilmente velocidades de muestreo de 192 KHz con 24 bits de profundidad, aunque las tarjetas montadas en los PCs generalmente utilizan muestreos de 16 bits a velocidades mucho menores. Nota: El origen del CD es la reproduccin musical, y para este uso no tienen sentido velocidades mayores de reproduccin. Sin embargo, las unidades modernas, cuya misin principal no es ya la reproduccin de sonido, sino la de archivoss multimedia (video-audio), o como almacenamiento externo del ordenador, proporcionan flujos de datos superiores. Por ejemplo, un reproductor (40x) es capaz de proporcionar un flujo de 6,000 KB/s.

Calidad de sonido Frecuencia de muestreo Telefnica 8,000 Hz Calidad Radio AM 11,025 Hz Calidad Radio FM 22,050 Hz CD estreo 44,100 Hz Calidad DAT 48,000 Hz

Profundidad de sonido 1 x 8 bits (mono) 1 x 8 bits (mono) 1 x 16 bits (mono) 2 x 16 bits (estreo) 2 x 16 bits (estreo)

Resulta evidente que tanto las capacidades de almacenamiento, como los flujos de datos involucrados en este tipo de proceso son muy elevados o sea, que requieren un gran ancho de banda. Una grabacin normal de 4 minutos de duracin en calidad CD requiere del orden de 42.3 MB de almacenamiento.

3 Digitalizacin PCM
Uno de los sistemas ms empleados para muestrear seales analgicas (generalmente audio y video) es la modulacin por codificacin de impulsos PCM ("Pulse Code Modulation"). Es un mtodo de almacenamiento digital de alta calidad, no comprimido, para seales analgicas que produce archivoss de gran tamao. Utiliza varias formas de grabacin; entre otras: Frecuencia 8,000 Hz 8,000 Hz 8,000 Hz 8,000 Hz 22,050 Hz 22,050 Hz 44,100 Hz Muestra 8 bit 8 bit 16 bit 16 bit 8 bit 8 bit 16 bit Canales Mono Estereo Mono Estereo Mono Estereo Mono Tasadebits 8 KB/seg 16 KB/seg. 16 KB/seg. 32 KB/seg. 22 KB/seg. 43 KB/seg. 86 KB/seg.

44,100 Hz

16 bit

Estereo

172 KB/seg.

Nota: Existe una variacin de este codec bsico, denominado PCM adaptativo diferencial, ADPCM que proporciona archivoss comprimidos. La tcnica, consistente en codificar las diferencias en los valores de muestras consecutivas, es conocida genricamente como codificacin delta.

4 Compresin
Nota: Las observaciones que siguen a cerca de la compresin de audio tiene una contrapartida prcticamente simtrica en el video, donde la problemtica es muy similar. En el caso de imgenes de cine o TV (video y audio) los sistemas de compresin incluyen ambos canales. Para mitigar en parte las necesidades de transmisin y almacenamiento de sonido, se recurre a comprimir la informacin resultante de su digitalizacin. Este recurso, que se emplea de forma recurrente en informtica, se basa en que, como estamos viendo, cualquier informacin acaba siendo una sucesin de ceros y unos, del tipo: 01101011100010111010111000110... que conforma un archivos en algn lugar de la computadora. Basndose en el estudio de determinadas secuencias de repeticiones, se han diseado algoritmos matemticos que permiten, mediante un proceso de clculo (codificacin), que realiza el propio ordenador, reducir el tamao del archivos resultante. Un proceso inverso (decodificacin ), restituye el contenido original. Hay que resear que, dependiendo de la naturaleza del archivos almacenado, algunos de estos algoritmos consiguen compresiones realmente notables. Por ejemplo, el denominado MP3 consigue tasas del orden de 1/20 en la compresin de sonido de calidad CD estreo. En algunos casos, estas tcnicas de compresin se ven reforzadas por el hecho de que no se pretende una reconstruccin exacta del archivos original, sino que se permite una cierta diferencia, o prdida de calidad, que en nuestro caso se traducira en una distorsin del sonido resultante respecto del original. Esta distorsin puede estar dentro de lo admisible o ser sencillamente inapreciable (el odo humano aunque muy sensible, tampoco es perfecto). Son los algoritmos no conservativos ("Lossy"), en contraposicin a los algoritmos conservativos, con los que se exige una restitucin perfecta del original. Se han derrochado tiempo y talento para conseguir los algoritmos de compresin y descompresin ms rpidos y perfectos; los resultados son diferentes mdulos software "codecs" (acrnimo de compresin des-compresin), casi todos patentados (TM), que resuelven el problema de comprimir imgenes y sonido. Un ejemplo de algoritmo conservativo es el conocidsimo WinZip; por su parte, el MP3 sera un ejemplo de algoritmo que permite una cierta distorsin (no conservativo). Algunos de estos algoritmos se apoyan en dispositivos hardware especficos (codecs hardware) para conseguir mayor rapidez de ejecucin. Nota: No perder de vista que los programas que "Leen" archivos comprimidos tienen el trabajo adicional de "descomprimirlos" antes de enviarlos al dispositivo de sonido (tarjeta). Es decir, deben reconstruir la secuencia original a partir de la secuencia codificada. En el caso del video (que puede incluir uno o varios canales de audio), los mejores codecs pretenden conseguir lo que se denomina movimiento completo ("Full motion"); que exige digitalizar las escenas con una frecuencia igual o mayor de 10 cuadros por segundo, a fin de conseguir una sensacin de movimiento real, como en el cine. Naturalmente, an con imgenes pequeas, el "Full

motion video" requiere velocidades de proceso muy altas, por lo que al principio haba que recurrir a descompresores hardware externos. Por ejemplo descompresores MPEG-4 para los reproductores DVD. Sin embargo, el aumento de potencia de los procesadores y la inclusin de codecs hardware en los mismos (aumento de sus capacidades multimedia), hacen ya posible el video de movimiento total con codecs software. En ocasiones las limitaciones no son impuestas por la velocidad de proceso sino por la transmisin. Por ejemplo en la transmisin de video en tiempo real por Internet (video conferencia). En casos de no contar con suficiente ancho de banda el movimiento completo es imposible incluso con videos de cuadro pequeo, por lo que debe recurrirse a una serie de cuadros ("frames") de refresco ms lento en los que la sensacin de movimiento a pasos es ostensible. Notas: 1. Habra que aadir aqu que las condiciones acsticas del local en que se reproduce el sonido son tambin determinantes en la "percepcin" del resultado. 2. KHz = Kilo Hertz. Ciclos por segundo; en este caso, muestras por segundo. 3. KB/s. = Kilo Bytes (octetos) cada segundo. 4. Como puede verse, la calidad CD estndar, 44.1 KHz en 2 canales de 16 bits, supone un flujo de datos de 1411.2 K bits/s. En contraste, los decodificadores MP3 proporcionan un flujo de salida de 192 K bits/s en la denominada "Calidad CD". Evidentemente, aprovechan que la capacidad de discriminacin del odo humano es (por lo general) bastante deficiente, para utilizar una abismal diferencia entre lo que es la calidad CD "real" y su imitacin. 5. Es fcil demostrar que la frecuencia ms elevada que tericamente se puede reproducir con un sistema de muestreo, es igual a la mitad de la frecuencia de muestreo (en el mejor de los casos se necesitan como mnimo dos muestras por onda completa). Esta frecuencia se denomina frecuencia de Nyquist. En cualquier sistema de reproduccin por muestreo, las frecuencias por encima de este lmite tienden a ser "comprimidas" en dicha frecuencia, producindose una distorsin ("foldover") respecto del original.

Você também pode gostar