Compresion 2

Pag.
2-1
2. CODIFICACIN Y COMPRESIN DEL AUDIO

2.1. La Naturaleza del Sonido
El sonido es una vibracin que se propaga a travs del aire, gracias a que las molculas del aire transmiten la vibracin hasta que llega a nuestros odos. Los mismos principios de cuando se lanza una piedra a un estanque se aplican al sonido: la perturbacin de la piedra provoca que el agua se agite en todas las direcciones hasta que la amplitud (o altura) de las ondas es tan pequea, que deja de percibirse. El diapasn es un buen ejemplo de fuente de sonido por dos razones: la primera es que puede observarse el movimiento de vaivn de sus brazos mientras se escuchan los resultados de esta vibracin; la segunda es que el diapasn vibra a una frecuencia (vibraciones por segundo) constante hasta que toda su energa se ha disipado en forma de sonido. Caracteristicas de una onda sencilla Una perturbacin que viaja a travs del aire se denomina onda y el aspecto de la onda se denomina forma de onda. La forma de onda del diapasn es la ms sencilla de las formas de onda, denominada onda sinusoidal. Pueden verse formas de onda como sta en la pantalla de un osciloscopio. Estas ondas sencillas se caracterizan por una frecuencia y una amplitud, o cantidad mxima de perturbacin producida, representada en los picos de la onda. El odo y un micrfono son muy similares. Ambos transforman pequeas variaciones en la presin del aire en seal elctrica que puede ser comprendida y almacenada por sus respectivos "cerebros" (ya sea el humano o la CPU de la computadora). Una seal es el trmino utilizado para describir la informacin que, como el sonido, sufre una transformacin de su forma original -- molculas que chocan en el aire con una forma elctrica que puede guardarse, manipularse y reproducirse. Diferencias entre tono y frecuencia Existe una sutil, pero importante, distincin entre frecuencia y tono. La frecuencia se refiere a la medida objetiva del nmero de vibraciones por segundo. El tono se refiere a nuestra percepcin de esas vibraciones. Hablamos normalmente del tono caracterizndolo como "bajo" o "alto". Por ejemplo, un tringulo o timbal tiene un tono alto, mientras que un violn o un bombo tienen un tono bajo. En la terminologa del audio, tal como la grabacin y la reproduccin, las gamas de frecuencias comprendidas entre 300 Hz y 5.000 Hz se denominan frecuencias medias. Las comprendidas entre 20 Hz y 300 Hz se denominan bajas, mientras que las superiores a 5.000 Hz se denominan altas. Amplitud La medida de la amplitud de una onda es importante porque informa de la fuerza, o cantidad de energa, de una onda, que se traduce en la intensidad de lo que omos. El decibel, abreviado como dB, es una unidad de medida de la fuerza de la seal y es til en la comparacin de la intensidad de dos sonidos. La sensibilidad del odo humano es extraordinaria, con una gama dinmica o variacin en intensidad muy amplia. La mayora de los odos humanos pueden capturar el sonido del murmullo de una hoja y, despus de haberse sometido a ruidos explosivos como los de un avin, siguen funcionando y lo que es sorprendente es que la fuerza de la explosin en un avin es al menos 10 millones de veces mayor que el murmullo que una hoja produce con el viento. El odo necesita un porcentaje elevado de variaciones en la fuerza de un sonido para detectar un cambio en la intensidad percibida, lo que significa que la sensibilidad del odo a la fuerza del sonido es logaritmica. El odo trabaja como un dispositivo logartmico, de manera que el decibel, unidad de medida logartmica, es la eleccin ms adecuada para medir la fuerza del sonido. E1 aspecto prctico de la amplitud es que un incremento de slo 3 dB duplica la intensidad de un sonido. Por ejemplo, un sonido con 86 dB tiene el doble de fuerza que un sonido con 83 dB y cuatro veces ms que un sonido con 80 dB. Desde la perspectiva de nuestra percepcin de la intensidad, un incremento de 3 dB, que da lugar a que se duplique la fuerza, provoca que el sonido se perciba slo ligeramente ms alto. Es necesario un aumento en 10 dB para que nuestros odos perciban un sonido con el doble de intensidad. La Tabla 1 muestra una gama de sonidos y su comparacin en fuerza, medida en el sistema logartmico de decibel. Sonido Intensidad (dB) Frente a un can de 12" 220 Cohete 190 Avin 150 Umbral de dolor 140 Pista de aeropuerto 130 Umbral de percepcin 120 Clmax de una orquesta 110 Banda de rock 100 Trfico pesado 90 Gritos 80 Ruido de oficina/calle concurrida 70 Conversacin normal 60 Oficina en silencio 50 Hogar silencioso 40 Estudio de grabacin 20 Susurro 10 Umbral de escucha 0 Tabla 1. Comparacin de niveles de sonido Gama dinmica La calidad de los sonidos musicales grabados no es demasiado importante, ya que nunca son comparables a los reales. La razn principal es que el equipo estreo no puede duplicar la gama dinmica completo de una orquesta o de un concierto de
rock. Una orquesta puede alcanzar los 110 dB en su clmax y en el punto ms suave bajar hasta los 30 dB, dando lugar a una gama dinmica de 80 dB. Esta gama es superior a la gama dinmica de un sistema estreo tpico y, de hecho, superior a la capacidad de grabacin de medios tales como un disco de vinilo y una cinta de audio. Ancho de banda Profundizamos ahora en aspectos prcticos, como la gama de frecuencia de un reproductor CD y el de nuestra voz. La Tabla 2 muestra el ancho de banda, la gama de frecuencias en el que sistemas electrnicos como tarjetas de sonido para PC y los instrumentos musicales -- as como nuestro odo y nuestra voz - son capaces de captar y de producir sonido. El ancho de banda es muy importante para disfrutar de la msica (como manifiestan las quejas de sonido "de lata" de una radio de bolsillo) y es un criterio bsico a la hora de seleccionar un equipo de audio. Lo que realmente es decisivo no son los nmeros, que variarn dependiendo de quin tome la medida y de otros factores externos, sino de la magnitud de su diferencia. Por ejemplo, el ancho de banda terico de la radio FM es aproximadamente tres veces el ancho de banda de la radio AM. Fuente de sonido o detector Radio AM (mximo terico) Radio FM (mximo terico) Reproductor CD Tarjeta de sonido para PC Micrfono barato Trompeta Telfono Odos infantiles Jvenes asiduos de conciertos de rock Odos adultos Voz masculina Voz femenina Ancho de banda 80 Hz a 5 kHz 50 Hz a 15 kHz 20 Hz a 20 kHz 30 Hz a 20 kHz 80 Hz a 12 kHz 180 Hz a 8 kHz 300 Hz a 3 kHz 20 Hz a 20 kHz 50 Hz a 10 kHz 50 Hz a 10 kHz 120 Hz a 7 kHz 200 Hz a 9 kHz
Pag. 2-2 o los micrfonos, hay que asegurarse de que se comparan manzanas con manzanas tras observar la definicin del ancho de banda. Estas medidas pueden tomarse utilizando diferentes mtodos ofrecidos por los fabricantes, de modo que la comparacin es harto complicada. Afortunadamente existe una medida estndar para definir el ancho de banda: el gama de frecuencias sobre el que la amplitud de la seal no difere del promedio en ms de 3 dB. La frecuencia en la que se produce una cada de 3 dB es conocida como la frecuencia de corte o envolvente. Se utiliza como punto envolvente un valor de 3 dB, ya que ste es el mnimo cambio en la fuerza de la seal que puede ser percibido como un cambio real en la intensidad por la mayora de los odos. Ruido y distorsin Del mismo modo que perturban los ruidos y ecos en una habitacin, tambin puede generarse ruido y distorsin en la tarjeta de sonido, en los altavoces y en el micrfono. El ruido -sonidos aleatorios que subrepticiamente transforman y enmascaran el sonido deseado -- se mide en decibel. Dado que es tan poco probable disponer de un entorno de audio digital en perfecto silencio, como lo es encontrar una biblioteca silenciosa, lo que interesa realmente es saber la cantidad de ruido en relacin con la seal que se introduce en el equipo de sonido, especialmente en la tarjeta de sonido de un PC. La fuerza de la msica, del habla o de cualquier otro sonido, comparada con la fuerza promedio del ruido, se conoce como relacin seal-a-ruido (S/N). A medida que aumenta la relacin S/N, es mejor el trabajo realizado en grabacin. Por ejemplo, una buena tarjeta de sonido para PC (que graba y reproduce audio digital) posee una relacin S/N de ms de 85 dB. Esto significa que la fuerza de la seal es 85 dB mayor que la fuerza del ruido. Una relacin de 70 dB se considera vlida para propsitos musicales y una relacin de 65 dB est en el lmite de aceptacin. Adems del ruido, hay otro elemento contaminante del sonido de alta fidelidad y que es la distorsin, un cambio tenue en la frecuencia de las componentes de una seal a medida que sta pasa a travs de los diferentes componentes de audio. La distorsin se mide en forma de porcentaje y una medida popular de la misma se denomina distorsin armnica total (THD). Al contrario que en la relacin S/N, un menor valor de THD produce un sonido mejor. Hablando en trminos generales, se considera adecuado un THD de un 0.5% o menor y un valor de un 0.1% satisfara a los entusiastas ms exigentes del sonido. Los circuitos de reproduccin de audio digital tpicamente poseen un valor THD mejor al 0.07%. Caractersticas de la voz La voz humana es un clase de sonido cuyas frecuencias estn comprendidas en una gama de aproximadamente 4 kHz. A continuacin se incluye un extracto del libro de Henry Beker y Fred Piper, Cipher Systems, Northwood Books (London), 1982, donde se describen algunas propiedades de la voz. In a typical speech spectrum, frequency components higher than 3 to 4 kHz, fall rapidly. Consequently very high frequency components make a much smaller contribution to the signal than, for example, frequencies in the range 500-3000 Hz. Also
Tabla 2. Gama de frecuencias audibles (ancho de banda)
Nota: A menudo el ancho de banda se simboliza mediante un nico nmero cuando la frecuencia baja est bastante prxima a cero. Por ejemplo, el ancho de banda de una voz femenina se sita en torno a los 9 kHz, aunque realmente puede estar en el gama que va desde los 200 Hz hasta los 9 kHz. Un hecho a considerar es que el ancho de banda de nuestro odo es superior al de la mayora de los sistemas electrnicos. De la Tabla 2.2 puede extraerse una de las razones por la que las estaciones de radio FM son ms agradables de escuchar que los canales de amplia difusin de AM: las estaciones de FM transmiten ms componentes musicales de alta frecuencia que las estaciones de AM. Tambin puede explicarse, comparando los anchos de banda del telfono y de la voz humana, por qu a veces confundimos la voz de una persona al telfono: es que sencillamente no tenemos toda la informacin necesaria para reconocer la voz. Cuando se compara el ancho de banda de dos equipamientos similares, como pueden ser las tarjetas de sonido
Pag. 2-3 frequencies of less than about 300 Hz contribute very little to the overall signal. By typical we mean that the power density at each part of the spectrum is that obtained by averaging a relatively large number of conversations over a relatively long time. (One obvious example of a speech signal is that obtained from a microphone when someone speaks into it.) If we restrict ourselves to frequencies of up to 3 kHz and use a very sensitive analyzer we should obtain a jagged curve like the one shown in Figure 1. This shows the spectrum obtained when a particular sound is made.
Fig. 2. How frequency components change with time
Fig. 1. Speech frequency spectrum The diagram shows clearly that there are a number of peaks, called formants. These formants are produced as a result of the way in which speech is formed and Figure 2 illustrates how these frequency components change with time. It should be noted that the change is fairly slow. (In Figure 1 the three formants are marked F1, F2, F3, to enable comparison with figure 2) . Phonemes and pitch frequency In order to analyze speech we break it down into its individual component sounds, called phonemes. (We will now give a very brief discussion of different phonemes for the English language and how they arise. However an understanding of the details is not necessary. The important fact to realize is that various different letters or sounds give rise to completely different waveforms.) Phonemes vary considerably from language to language and we will restrict our attention to English. In the English language there are about forty phonemes which fall into three classes; the vowels forming one complete family while the consonants and some other single syllable phonetic sounds, e.g. st, ch, form two classes called plosives and fricatives.
Vowels are produced by movements of the vocal chords which convert the stream of air passing through the larynx into a series of pulses. The airstream then passes into a number of cavities of which the most dominant are the nose, mouth and throat. This results in modifying the frequency spectrum in a way which is rather similar to the effect that a series of bandpass filters has on a rectangular pulse train. Clearly the sound which emerges depends on the shape and size of these cavities, but it is usually characterized by a large low-frequency content. A vowel sound builds up gradually and, typically, takes about 100 milliseconds to reach its peak amplitude. Figure 3 shows typical cavity shapes and amplitude spectra for two vowel sounds.
Fig. 3. The amplitude spectra for two vowel sounds
Plosives are produced by shutting off the airstream and then releasing it with an explosive effect. There are various points at which the airstream may be blocked, e.g. the palate, tongue or lips. One obvious example of a plosive produced by blocking
the airstream with the lips is a p. We will not give a list of plosives but merely note that they tend to be characterized by their high frequency components and typically reach 90% of their peak amplitude in less than 5 ms. Fricatives are produced by partially shutting off the airstream to produce a sound like white noise. This sound is then filtered by the vocal tract cavities. A fricative sound typically reaches its peak amplitude in 20-50 ms and most of its power density is concentrated between 1 and 3 kHz. One example of a fricative is sss.... We realize that the above discussion is extremely brief and is probably insufficient tn enable the reader to distinguish between some of the plosives and fricatives. However, hopefully it will make the reader realize that his vocal system performs different operations to produce various ditferent sounds, and that the difference in these operations is reflected in various distinguishing properties of the resulting signal. A further characteristic of human speech which needs mentioning is the pitch frequency. This is the frequency of the vibration of the vocal chords. The middle value of this frequency varies from individual to individual, and each particular speaker then has a range of about an octave above and below this central frequency (i.e. if the pitch frequency is f, the range will be about f/2 to 2f). For a typical male the pitch frequency is about 130 Hz while the average female is about twice as high. Another significant point should be emerging from this discussion. As well as conveying the spoken message, a speech signal also contains considerable information abnut the vocal characteristics of the speaker. As far as the message itself is concerned, this information is largely redundant but does of course contain information relating to the personality of the speaker. (By the personality of the speaker we merely mean those slight variations of frequency, pitch etc. which enable us to identify him). For any given speech signal, we could use the pitch, formants, timing and so on, to form another signal to convey the same spoken message. This reproduction might sound rather unnatural and some of the personality of the speaker would almost certainly be lost. How much of this information is lost would depend on the precise parameters employed in the formation of our new signal. This principle of reproduction is the basic idea behind vocoders and we shall discuss them a little later. For the moment we merely emphasize that a voice message contains two types of information, i.e. the content of the message and the personality of the speaker. We stress that, ideally, a ciphered message should conceal both types of information from an interceptor. Before we discuss the various ways of achieving this objective, it is worth discussing briefly the various ways in which speech signals are transmitted. Voice Message Transmission As we saw earlier, most of the information in a speech signal has a frequency between roughly 300 Hz and 4 kHz. For most practical purposes, the range may be taken to be even smaller and, for instance, telephone speech signals are normally bandlimited to the range 300-3400 Hz, i.e. to a bandwidth of 3100 Hz. However a transmission link can carry signals with a much wider bandwidth than 3100 Hz. Thus, by taking the signals for
Pag. 2-4 individual telephone calls and frequency shifting them, the bandwidth limitations imposed on the speech signals enable a channel to carry several thousand telephone calls simultaneously. (This process is called frequency division multiplexing.) This produces a considerable reduction in the transmission costs. (It is interesting to note that, although a bandwidth of 3.1 kHz is sufficient for speech recognition, the human ear can recognize sound at much higher frequencies. It is often possible to hear sounds at up to 20 kHz and, indeed, for high quality transmissions a bandwidth of at least 15 kHz is considered necessary.) There are similar restrictions on the bandwidth when speech signals are transmitted by radio waves. For instance the high frequency (HF band of 3 MHz - 30 MHz is extremely overcrowded and liable to a great deal of interference. In this situation the speech signal may be restricted to about a 2.4 kHz bandwidth. In the very high frequency (VHF) wave-band of 30 - 300 MHz and the ultra high frequency (UHF) wave-band of 300 MHz - 3 GHz wider bandwidths are permissible, possibly even greater than 10 kHz. It is absolutely crucial that the cryptographer is aware that there are limitations such as these permissible bandwidths for the various forms of transmission. The reason should be clear after the following discussion. There are essentially two different ways to encipher a speech signal. The first is to scramble the signal in some way. This is done by changing the relationships between time, amplitude and frequency. This method, if carefully engineered, should not have any significant effect on the bandwidth of the signal. For the second method the analogue signal is converted into a digital one, i.e. the speech signal is represented as a series of digits. Once this has been achieved the signal may be enciphered easily. The recipient deciphers the cryptogram in its digital form and then the analogue signal is recovered from these digits. The problem with this method is that most digitization techniques increase the bandwidth of the signal. From the last paragraph it should now be clear that this might mean we can no longer use the same transmission channel. It is, in fact, possible to digitize speech signals without increasing the bandwidth. This is achieved by using vocoder techniques but, at present, the devices needed are expensive and destroy many important properties of the signal. They may also be very susceptible to errors incurred during transmission. __________________________________________
Traduccin:
En un espectro vocal "tpico", las componentes de frecuencia mayores a 3-4 kHz disminuyen rpidamente. Por consiguiente las componentes de muy alta frecuencia contribuyen a la seal en una proporcin mucho menor que, por ejemplo, las frecuencias en el rango de 500-3000 Hz. Asimismo las frecuencias menores a 300 Hz contribuyen muy poco a la seal total. Con "tpico" queremos decir que la densidad de potencia en cada porcin del espectro se obtiene mediante un promedio de un nmero relativamente grande de conversaciones a lo largo de un tiempo relativamente largo. (Un ejemplo obvio de una seal vocal es aquella que se obtiene a partir de un micrfono cuando alguien habla en l). Si nos restringimos a frecuencias encima de 3 kHz y
usamos un analizador muy sensible podramos obtener una curva aserrada como la mostrada en la figura 1 Esta curva muestra el espectro que se obtiene cuando se hace un sonido en particular.
Pag. 2-5 diferentes letras o sonidos ocasionan formas de onda completamente diferentes). Los fonemas varan considerablemente de lenguaje en lenguaje pero restringiremos nuestra atencin al Ingls. En el lenguaje ingls hay cerca de cuarenta (40) fonemas los cuales se dividen en tres clases; vocales, que forman una familia completa mientras que las consonantes y otros sonidos fonticos de slabas simple, por ejemplo, st, ch, forman las otras dos clases llamados explosivos y fricativos. Los fonemas vocales se producen por movimientos de las cuerdas vocales las cuales convierten la corriente de aire que pasa a travs de la laringe en una serie de vibraciones. La corriente de aire pasa a un nmero de cavidades de las que las ms importantes son la nariz, la boca y la garganta. Esto modifica el espectro en frecuencia de una manera similar al que una serie de filtros pasabanda afectan a un tren de pulsos rectangulares. Claramente el sonido que emerge depende de la forma y tamao de estas cavidades, pero est usualmente caracterizado por un contenido alto de bajas frecuencias. Un sonido vocal se forma gradualmente y, tpicamente, toma cerca de 100 ms para alcanzar su amplitud pico. La figura 3.3 muestra las formas tpicas de las cavidades y el espectro de amplitud para dos sonidos vocales.
Fig. 1. Espectro de frecuencia vocal
El diagrama muestra claramente que hay un nmero de picos, llamados formantes. Estos formantes se producen como el resultado de la manera en la cual se forma la voz. La figura 2 ilustra como estas componentes de frecuencia cambian con el tiempo. Ntese que el cambio es suavemente lento (En la figura.1 los tres formantes estn marcados con F1, F2, F3 para compararlos con la figura.2).
Fig..3. El espectro de amplitud para dos sonidos vocales
Fig. 2. Cmo las componentes de frecuencia cambian con el tiempo
Fonemas y frecuencia de tono A fin de analizar la voz la dividiremos en sonidos componentes individuales, llamados fonemas (Ahora daremos una muy breve discusin de diferentes fonemas del lenguaje Ingls y de donde surgen. Sin embargo un entendimiento de los detalles no es necesario. El hecho importante de comprender es que
Los fonemas explosivos se producen al aislar la corriente de aire y luego soltarla con un efecto explosivo, valga la redundancia. Hay varios puntos en los cuales la corriente de aire puede ser bloqueado, por ejemplo, el paladar, lengua y labios. Un ejemplo obvio de un fonema explosivo producido por el bloqueo de la corriente de aire con los labios es una "p". No daremos una lista de fonemas explosivos pero simplemente note que ellos tienden a estar caracterizados por sus componentes de frecuencias altas y tpicamente alcanzan el 90% de su amplitud pico en menos de 5 ms. Los fonemas fricativos se producen por una aislamiento parcial de la corriente de aire para producir un sonido como
"ruido" blanco. Este sonido es luego filtrado por las cavidades del sistema vocal. Un sonido fricativo tpicamente alcanza su amplitud pico en 20-50 ms y la mayo parte de su densidad de potencia est concentrado entre 1 y 3 kHz Un ejemplo de un fonema fricativo es "sss...". Comprendemos que la discusin anterior es extremadamente breve y es probablemente insuficiente para que el lector sea capaz de distinguir entre los fonemas explosivos y los fonemas fricativos. Sin embargo, con optimismo esto har que el lector comprenda que su sistema vocal efecta operaciones diferentes para producir sonidos diferentes, y que la diferencia en estas operaciones se refleja en varias propiedades caractersticas de la seal resultante. Una caracterstica adicional de la voz humana que es necesario mencionar es la frecuencia de tono. Esta es la frecuencia de vibracin de las cuerdas vocales. El valor medio de esta frecuencia vara de individuo a individuo, y cada persona que habla tiene entonces un rango de cerca de una octava por encima y por debajo de esta frecuencia central (es decir, si la frecuencia de tono es f, el rango ser entre f/2 y 2f). Para un hombre comn la frecuencia de tono es cerca de 130 Hz mientras que el promedio femenino es casi dos veces ms alto. Otro punto importante debera surgir de esta discusin. As como tambin se est transmitiendo el mensaje hablado, una seal vocal tambin contiene informacin considerable sobre las caractersticas vocales del que habla. En lo que respecta al mensaje en si mismo, esta informacin es altamente redundante pero por supuesto contiene informacin rela-cionada con la "personalidad" del que habla. (Por personalidad del que habla simplemente nos referimos a aquellas ligeras variaciones de frecuencia, tono, etc que nos permiten identificarlo). Para cualquier seal vocal dada, podramos usar el tono, los formantes, el ritmo y as sucesivamente, para formar otra seal para transmitir el mismo mensaje hablado. Esta reproduccin puede sonar algo artificial y un poco de la "personalidad" del que habla podra ciertamente perderse. Cuanta de esta informacin que est perdida dependera de los parmetros precisos empleados en la formacin de nuestra nueva seal. Este principio de reproduccin es la idea bsica detrs de los vocoders que los discutiremos un ms adelante. Por el momento simplemente enfatizamos que el mensaje vocal contiene dos tipos de informacin, i.e. el contenido del mensaje y la personalidad del que habla. Acentuamos que, idealmente, un mensaje cifrado esconde ambos tipos de informacin de un intruso. Antes discutimos las diferentes maneras de lograr este objetivo por lo que vale la pena discutir brevemente las diferentes formas en las que las seales vocales se transmiten. Transmisin del mensaje vocal Como vimos anteriormente, la mayor parte de la informacin en una seal vocal tiene una frecuencia aproximadamente entre
Pag. 2-6 300 Hz y 4 kHz. Para propsitos prcticos el rango se puede tomar ms pequeo y, por ejemplo, las seales vocales telefnicas estn normalmente limitadas en la banda de 300 3400 Hz, i.e, a un ancho de banda de 3100 Hz. Sin embargo un enlace de transmisin puede transportar seales con un ancho de banda mucho mayor que 3100 Hz. De esta manera, tomando las seales de llamadas telefnicas individuales y 'desplazndolas en frecuencia', las limitaciones de ancho de banda impuestas a las seales vocales permiten a un canal transportar miles de llamadas telefnicas simultneamente (Este proceso se conoce como multiplexin por divisin en frecuencia). Esto produce una reduccin considerable en los costos de transmisin. (Es interesante notar que, aunque un ancho de banda de 3.1 kHz es suficiente para reconocer la voz, el oido humano capta sonidos con frecuencias mucho ms altas. A menudo es posible oir sonidos por encima de 20 kHz y, efectivamente, para transmisiones de alta calidad se considera necesario un ancho de banda de al menos 15 kHz). Hay restricciones similares sobre el ancho de banda cuando se transmiten seales de voz mediante ondas de radio Por ejemplo la banda de frecuencias altas (HF) de 3 MHz-30 MHz est extremadamente repleta y expuesta a una gran cantidad de interferencia. En esta situacin la seal vocal se debe restringir a cerca de 2.4 kHz de ancho de banda. En la banda de ondas de muy altas frecuencias (VHF) de 30 - 300 MHz y las banda de ondas de ultra alta frecuencia (UHF) de 300 MHz - 3 GHz se permiten anchos de banda mayores, posiblemente mayores que 10 kHz. Es absolutamente crucial que el criptgrafo est informado que hay limitaciones tales como estos anchos permisibles para varias maneras de transmisin. La razn quedar clara despus de la siguiente discusin. Hay esencialmente dos maneras diferentes de encriptar una seal vocal. La primera es mezclar desordenadamente la seal de alguna forma. Esto se hace cambiando las relaciones entre tiempo, amplitud y frecuencia. Este mtodo, si es realizado cuidadosamente, podra no tener un efecto significativo sobre el ancho de banda de la seal. Con el segundo mtodo la seal analgica se convierte a una digital, i.e. la seal vocal se representa como una serie de dgitos. Una vez que esto se ha alcanzado la seal puede ser encriptada fcilmente. El receptor decifra la clave a su forma digital y entonces la seal analgica es recuperada a partir de estos dgitos. El problema con este mtodo es que la mayora de las tcnicas de digitalizacin incrementan el ancho de banda de la seal. Del ltimo prrafo debera estar claro ahora que esto quiere decir que no podemos dar un uso ms largo al mismo canal de transmisin. Realmente, es posible digitalizar seales de voz sin incrementar el ancho de banda. Esto se logra mediante el uso de tcnicas vocoder pero, hasta el momento, los dispositivos son muy caros y destruyen muchas propiedades importantes de la seal. Tambin son muy susceptibles a los errores que ocurren durante la transmisin.
2.2. Tecnologas de Audio para PC

En los ltimos aos han emergido novedosos sistemas de procesamiento digital de seales que han mejorado significativamente no slo la reproduccin de la msica y el almacenamiento de mensajes hablados, sino tambin la comunicacin en vivo. Estos sistemas permiten que el sonido digitalizado pueda ser representado por medio de muy pocos
dgitos binarios. Al usarlos para la voz, se pueden usar velocidades de transmisin digital de apenas 16 kb/s, 8 kb/s y hasta 4 kb/s, muy por debajo de los 64 kb/s del PCM normalmente utilizado (segn la Recomedacin G.711 del UITT). Los progresos relacionados con codificacin del sonido se discuten en conferencias tales como la ICASS (IEEE International Conference on Acoustic, Speech and Signal Processing). All se pueden ver las nuevas realizaciones de los fabricantes, tales como Siemens, AMD, Philips, NTT, Fijitsu, Hitachi, Texas Intruments, NEC, AT&T, Northern Telecom, Signetics, etc. De particular importancia para aplicaciones multimedios son las tcnologas de procesamiento del sonido utilizadas en estaciones de trabajo y computadores personales. A continuacin se incluye informacin relativa al popular sistema Sound Blaster, el cual consiste de una familia de tarjetas de sonido para PC. Tambin se incluye un artculo sobre las formas de almacenamiento del sonido bajo Windows.
Pag. 2-7 audfonos o de los altavoces. El ancho de banda efectivo del sistema de sonido est limitado por el dispositivo con el ancho de banda ms estrecho de todos los dispositivos que procesan el sonido. El enlace ms dbil en grabacin suele ser el micrfono, que tiene probablemente una envolvente en respuesta de 3 dB a aproximadamente 12 kHz. Cuando se trata de reproduccin, el enlace ms dbil se encuentra en los altavoces del PC, a menos que los altavoces adquiridos sean muy buenos. A continuacin se introducen las tecnologas de audio para crear sonidos musicales instrumentales: sntesis FM y sntesis de onda muestreada. Existe una diferencia notable entre tocar una nota instrumental y tocar una composicin musical. Este abismo se cubre con el lenguaje musical MIDI, que se trata posteriormente. Sntesis FM La conocida tcnica de modulacin en frecuencia simple (FM) para sntesis musical fue inventada por John Chowning, de la Universidad de Stanford, en 1971. La modulacin en frecuencia indica la leve variacin de frecuencia que produce una onda en otra. Chowning descubri que el uso de una onda sinusoidal para modular otra poda crear una tercera onda, rica en timbre musical (complejidad musical o riqueza). La tercera onda contena las dos ondas originales, su suma y diferencia y sus armnicos. Estos armnicos, ondas cuya frecuencia es mltiplo de las dos ondas originales, dan a todos los tipos de sonido (incluyendo los instrumentos sintetizados FM) un timbre nico. El sintetizador FM es la tecnologa electrnica ms popular para crear sonidos musicales. Todas las tarjetas de sonido de Creative Labs tienen un sintetizador FM que trabaja del mismo modo que lo hace un sintetizador de teclado de Yamaha. E1 sintetizador FM (que los msicos abrevian como "sint") produce una amplia gama de sonidos que incluye msica y efectos especiales. En los ltimos aos, Yamaha ha reducido la tecnologa de sntesis FM a un solo chip ms pequeo que la ua de un dedo. Lo ms probable es que la msica electrnica que se escuch proveniente del PC se genere en el sintetizador de FM. Sintetizador FM de la tarjeta de sonido: La Sound Blaster Pro Deluxe, la Sound Blaster Pro 2 (modelo CT1600) y la Sound Blaster 16 se han construido con el chip ms reciente de sntesis FM de Yamaha YMF262 (OPL3), que produce sonido sintetizado FM en estreo utilizando sntesis de dos o de cuatro operadores. En el modo de dos operadores, el sintetizador FM puede generar hasta 16 sonidos meldicos y seis sonidos de percusin, incluyendo un tam-tam o tamborcito. Los sonidos meldicos son sonidos instrumentales generados por software, probablemente por un controlador software; estos sonidos pueden cambiarse mediante programas musicales de software que envan nuevas instrucciones al chip sintetizador FM. Los sonidos de percusin se programan en el interior del chip cuand se confecciona en la fbrica, de manera que el software musical tiene un control limitado sobre ellos. En el modo de cuatro operadores, el sintetizador FM puede soportar hasta seis sonidos meldicos y cinco sonidos de percusin. E1 primer modelo de la Sound Blaster Pro (modelo CT1330) se dise
Peter Ridge y otros, "Gua oficial de Sound Blaster" (extracto), Osborne McGraw-Hill, 1994.
Las tarjetas de sonido Sound Blaster de Creative Labs poseen una gran cantidad de caractersticas y tecnologas, algunas de las cuales solapan sus capacidades. Las tecnologas clave son la sntesis FM, la tecnologa ms comn para crear sonido musical en tarjetas de sonido para PC, y la sntesis de onda muestreada, una tecnologa que produce mejores sonidos pero que es ms compleja. El sintetizador FM crea msica sintetizada y, en el caso de la Sound Blaster 16 con Wave Blaster opcional, tambin puede crearla un sintetizador de onda muestreada. El audio digital puede utilizarse para grabar y reproducir msica, voz y otros sonidos. Si se dispone de un reproductor CD-ROM, tambin podr aadirse al conjunto de fuentes de audio disponibles sonido CD, proporcionado por un disco de audio CD o por un disco CD-ROM. La tarjeta de sonido tiene un ancho de banda sorprendentemente amplio, que cubre efectivamente el gama completo de escucha humana. el ancho de banda de la tarjeta de sonido Sound Blaster 16 se extiende desde los 20 Hz hasta los 20 kHz. Hablando estrictamente, ste es el ancho de banda necesario para reproducir audio digital. Es importante tener en cuenta que el ancho de banda de un equipo de sonido depende del enlace ms dbil del canal, que normalmente no es la tarjeta de sonido Sound Blaster. La calidad del sonido producido por la computadora refleja el esfuerzo de muchas componentes, y la salida no ser mejor que la interpretacin del miembro menos capacitado de un grupo. En el caso del sistema de sonido de la computadora, una seal debe pasar por muchas fases de transformacin de audio y por diferentes dispositivos. Por ejemplo, consideremos el sonido grabado mediante un micrfono y que luego es reproducido. La tarjeta de sonido transforma el sonido recogido del micrfono en una seal elctrica que, posteriormente, se transforma en audio digital y se almacena en disco. El audio digital del disco es transformado de nuevo en una seal elctrica y reproducido a travs de los
antes de que el YMF262 estuviera disponible y, por tanto, hace uso de dos modelos anteriores a ste, los chips de sntesis en FM monoaurales Yamaha 3812 (OPL2) capaces de crear 22 sonidos estreo. La Sound Blaster Deluxe y las anteriores tarjetas Sound Blaster, que son monaurales, contienen un solo chip Yamaha 3812 (OPL2). La figura siguiente (no mostrada) ilustra la sntesis en FM para dos operadores y el modo en el que la clula moduladora de Yamaha modula la segunda clula, llamada clula transportadora. La clula transportadora determina la frecuencia base del tono, mientras que la clula moduladora determina los armnicos que dan al tono su singular timbre. En el modo de cuatro operadores se conectan en serie dos pares de clulas, dando lugar a un timbre ms rico que el generado con el modo de dos operadores. La programacin cuidadosa de los parmetros del sintetizador de FM permite crear una amplia variedad de sonidos instrumentales musicales y sonidos de efectos especiales. Una caracterstica particularmente valiosa del chip de sntesis FM Yamaha (su capacidad para gestionar el trabajo involucrado en la creacin de sonido musical, liberando as a la CPU de tal carga) ha conducido a su implantacin en la mayora de las tarjetas de sonido. Vase el Apndice A para una explicacin ms detallada de la forma en la que la sntesis en modo de dos y de cuatro operadores produce una amplia gama de sonidos instrumentales y de efectos especiales. Inconvenientes de la Sntesis FM: La sntesis FM presenta dos inconvenientes. El ms serio es que la msica suena, en el mejor de los casos, slo bien. Es posible reconocer el sonido de una flauta como el sonido producido por un instrumento de viento, de modo que incluso un nio de cinco aos podra pensar "Se trata de una flauta mgica?" El segundo inconveniente es que es difcil recrear fielmente el sonido de instrumentos familiares. Esto se debe a que la fsica del sintetizador FM guarda poca relacin con la fsica de produccin de sonido de la mayora de los instrumentos musicales, de modo que crear sonidos que se parezcan a instrumentos familiares es un proceso de prueba y error. En otras palabras, la sntesis FM es ms un arte misterioso que una ciencia. Sntesis de onda muestreada La sntesis FM ha sido la tcnica utilizada usualmente para sintetizar el sonido de instrumentos musicales. Sin embargo, otra tecnologa, que se denomina sntesis de onda muestreada, est preparada para ponerse por delante siempre y cuando se abaraten sus costos. La sntesis de onda muestreada, conocida tambin como sntesis de tablas de onda, manipula digitalmente una muestra representativa de sonido para crear la gama completa de notas. Estas notas se procesan digitalmente para ajustar su tono, as como para incrementar la velocidad del teclado o rebajar la intensidad y otros efectos de la interpretacin como el trmolo (una lenta y sutil variacin en la fuerza con la que se toca una nota). Si ha tocado algn piano electrnico de los que suenan de modo similar a los reales, ya conoce la tecnologa de sntesis de
Pag. 2-8 onda muestreada. La mayora de estos prodigios electrnicos dispone de interruptores, de modo que fijando un interruptor y cerrando los ojos, se puede estar tocando un clavicordio o un piano. La Sound Blaster 16 con la Wave Blaster es la primera tarjeta de sonido de Creative Labs en la que se aplica esta nueva tecnologa. Una Sound Blaster 16 con la placa auxiliar Wave Blaster (una pequea tarjeta que se introduce en la tarjeta de sonido) convierte al PC en un estudio musical de categora profesional. E1 teclado derivado de tablas de onda contiene 4MB de memoria de slo lectura (ROM) que incluye muestras digitales de instrumentos originales. Estas muestras proporcionan un sonido instrumental mucho ms real que el obtenido a partir de la sntesis FM con cuatro operadores (o incluso ocho operadores). Las muestras instrumentales de la tabla de ondas son de 16 bits, que son muestras audio de calidad CD. Reproduccin de composiciones musicales con MIDI La Interfaz Digital para Instrumentos Musicales (MIDI) ha reformado completamente el mundo musical proporcionando la posibilidad de que msicos aficionados graben e interpreten msica sofisticada. Desde que MIDI surgi hace 10 aos, hoy se ha convertido en un estndar para la msica electrnica extendido por todo el mundo. Es el estndar mediante el que se comunican los sintetizadores, teclados, mdulos de sonido (sintetizadores sin teclado), computadoras y otros dispositivos MIDI. Mientras que la sntesis FM y la sntesis de tablas de onda son tecnologas para tocar sonidos instrumentales, MIDI es la tecnologa que toca una composicin musical que abarca cientos de notas adems de otros detalles de la interpretacin musical. Cualquier composicin que se toque con un teclado u otro instrumento MIDI puede grabarse y almacenarse en la computadora como un archivo MIDI. Del mismo modo, un archivo MIDI almacenado en la computadora puede reproducirse en el sintetizador propio de la tarjeta de sonido, en un sintetizador de teclado MIDI externo o en un instrumento con entrada MIDI. Datos musicales MIDI Un paquete de software secuenciador dirige a los instrumentos MIDI para reproducir msica tocando una secuencia de notas y otras instrucciones musicales que estn almacenadas como un archivo MIDI. Un archivo MIDI (que normalmente tiene la extensin .MID o.MFF) contiene la misma informacin que puede verse en una partitura: una lista de notas de duracin y tono variables, con tiempo, frases musicales y otros elementos. Esta secuencia de instrucciones MIDI especifica el instrumento a tocar, la tecla a pulsar y, cuando se pulsa, la fuerza con la que hay que hacerlo. La belleza del software de un secuenciador est no slo en reproducir una grabacin de una interpretacin pasada, sino en que puede recrear una interpretacin musical. A diferencia de una grabacin, es posible cambiar los instrumentos y la propia meloda. Por esta razn, la msica MIDI ha Ilegado a ser una parte esencial de un estudio de grabacin, sirviendo como una banda de copias inagotable. Los archivos MIDI son significativamente diferentes de los archivos de audio digital como los archivos VOC y WAV. Los
archivos de audio digital contienen sonido real, grabado de forma digital a partir de la captura de miles de muestras por segundo. La msica MIDI, por otro lado, contiene slo instrucciones sobre la manera de tocar un instrumento. Los archivos de audio digital pueden necesitar millones de bytes de datos para tocar tan slo unos minutos de msica, mientras que con unos pocos miles de bytes de datos MIDI es posible tocar msica durante horas. Un archivo MIDI no slo es ms compacto que un archivo de audio digitalizado, sino que tambin es completamente editable. Una analoga apropiada para estos dos tipos de archivo podra ser la de un documento fax y un archivo de procesamiento de texto. El fax puede leerse y el archivo de audio digitalizado se puede reproducir, pero no puede hacerse ms modificacin que la de cortar y pegar para cambiar zonas del mismo. Un archivo MIDI, por el contrario, es como un archivo de procesamiento de texto: puede modificarse sin limitacin alguna. Interfaz MIDI Muchos teclados y pianos electrnicos tienen incorporada en la actualidad una interfaz MIDI. Cuando se instala una tarjeta de sonido de Creative Labs, se incorpora automticamente a la computadora una interfaz MIDI. El cable de la interfaz MIDI que viene con el equipo opcional de ampliacin MIDI de Creative Labs tiene un conector en un extremo que se conecta al puerto de juegos MIDI de la tarjeta de sonido. El otro extremo se conecta a un dispositivo MIDI, que suele ser un sintetizador de teclado. Con el software adecuado -probablemente un programa secuenciador MIDI -- puede utilizarse la computadora para controlar completamente una red de dispositivos MIDI, incluyendo el siempre presente sintetizador de teclado. Esta interfaz es bidireccional, ya que acepta datos MIDI provenientes de un teclado MIDI u otros controladores (dispositivos que controlan sintetizadores y mdulos de sonido) y transmite datos MIDI a instrumentos MIDI exteriores. Paquetes de ampliacin MIDI Creative Labs ofrece varios paquetes de ampliacin MIDI. El paquete MIDI ms frecuentemente adquirido incluye software de secuenciador MIDI y un cable para la interfaz. Estos paquetes incluyen en la actualidad un programa secuenciador para Windows de Microsoft denominado Cakewalk Apprentice para Windows, de Twelve Tone Systems. Anteriormente, el paquete MIDI inclua un programa secuenciador para DOS denominado Sequencer Plus Pro (SP Pro), de Voyetra Technologies. MIDI y controladores software Los controladores software son el puente entre el hardware que crea el sonido de las notas y los programas que tocan msica MIDI, como el programa secuenciador Cakewalk Apprentice y los reproductores MIDI, como Creative JukeBox y Media Player de Microsoft. E1 hardware es un sintetizador en la tarjeta de sonido, el sintetizador de FM que se encuentra en todas las tarjetas de sonido de Creative Labs o el sintetizador de onda muestreada Wave Blaster que est disponible para la Sound Blaster 16. Los datos MIDI pueden pasar,
Pag. 2-9 alternativamente, entre la computadora y el equipo MIDI a travs de la interfaz MIDI de las tarjetas de sonido. Grabacin y reproduccin de audio: Bases del audio digital Antes de que la computadora pueda grabar, manipular y reproducir sonido, debe transformarse el sonido de una forma analgica audible a una forma digital aceptable por la computadora, mediante un proceso denominado conversin analgica-digital (ADC). Una vez que los datos de sonido se han almacenado como bytes en la computadora, puede hacerse uso de la potencia de la CPU de la computadora para transformar este sonido de miles de modos. Con el software adecuado es posible, por ejemplo, aadir reverberacin o eco a la msica o a la voz. Pueden eliminarse trozos de voz, como un "no" en una frase grabada. Pueden mezclarse archivos de sonido, ajustarse el tono de la voz de manera que no pueda reconocerse y muchas cosas ms. Finalmente, cuando se est dispuesto a escuchar la obra maestra, el proceso de conversin digital-analgica (DAC) transforma de nuevo los bytes de sonido a una seal elctrica analgica que emiten los altavoces. Los circuitos de modulacin de cdigo pulso (PCM) de la tarjeta de sonido que gestionan la ADC y la DAC son excelentes, casi comparables a los de los reproductores CD, de modo que el nico lmite est en la imaginacin del usuario y no en la capacidad de interpretacin de la tarjeta de sonido. Muestreo: Conversin analgica-digital y viceversa Comenzaremos con la captura del sonido haciendo uso del micrfono. Cuando las ondas de sonido llegan al micrfono, el movimiento mecnico se traduce en una seal elctrica. Esta seal se denomina seal analgica porque es una seal continua, anloga al sonido original. Conversin analgica-digital (ADC): El proceso ADC convierte la seal analgica continua en series de valores digitales discretos muestreando, es decir, tomando medidas instantneas de la amplitud de la seal a una velocidad constante. Si las medidas se toman a una frecuencia de muestreo alta, de modo que la forma de onda de la seal no vare demasiado entre las muestras, el proceso ADC puede realizar un buen trabajo de aproximacin a la onda de sonido analgica. La figura siguiente (no mostrada) ilustra cmo funciona la conversin analgica-digital. Obsrvese que la onda continua se aproxima mediante series de valores de 8 bits, variando estos valores desde +128 hasta -127, que se almacenarn como bytes en un archivo del disco. Utilizando un tamao mayor de muestra, de 16 bits, es posible crear una rplica superior del sonido. Conversin digital-analgica (DAC): El proceso DAC convierte los valores digitales discretos que representan al sonido en una seal analgica continua utilizando un filtro que suaviza los picos ms bruscos. Velocidad y tamao de muestra La fidelidad -- terminologa empleada por los entusiastas del audio para expresar la exactitud en la rplica de la msica original -- del sonido audio digital depende de la seleccin de la correcta frecuencia de muestreo y del correcto tamao de
muestra, siendo este ltimo el nmero de bytes utilizados para almacenar cada muestra. Frecuencia de muestra: La frecuencia de muestra (tambin denominada frecuencia de muestreo) debe ser lo suficientemente alta para que los sonidos de alta frecuencia, como el sonido del cristal de una copa de vino o el del arqueo de un violn, puedan recogerse con precisin. Segn el teorema de Nyquist, es posible repetir con exactitud una forma de onda si la frecuencia de muestreo es como mnimo el doble de la frecuencia de la componente de mayor frecuencia. La frecuencia ms alta que puede percibir el odo humano est cercana a los 20 kHz, de modo que la frecuencia de muestreo de 44.1 kHz de la Sound Blaster de la Sound Blaster Pro es ms que suficiente. Este valor es el utilizado hoy en los reproductores de audio CD. Los archivos de audio digital pueden grabarse seleccionando la frecuencia de muestreo. A medida que aumenta la frecuencia de muestreo, aumenta la calidad. Por ejemplo, una velocidad de 6.000 Hz (6.000 muestras por segundo) una voz masculina tpica, pero no lo es para una voz femenina tpica, que posee componentes con una frecuencia ms alta. Una frecuencia de muestreo de 8.000 Hz proporciona una grabacin de la voz femenina de mayor calidad. La Sound Blaster 16 puede grabar en estreo, grabando hasta 44.100 muestras por segundo, con un canal izquierdo y otro derecho que producen una frecuencia de muestreo combinada de 88.200 muestras por segundo. Las tarjetas Sound Blaster Pro y la Sound Blaster 16 son capaces tambin de trabajar en estreo con una velocidad mxima de reproduccin de 22.050. Ambas tarjetas, la Sound Blaster y la Sound Blaster Pro, toman muestras de sonido de 8 bits (1 byte); cada medida consume 1 byte de almacenamiento de la memoria de la computadora o del disco. La Sound Blaster 16 maneja muestras de 16 bits (2 bytes), emitiendo voz y msica con una fidelidad equivalente a los reproductores CD actuales. Existen varias razones para no utilizar las frecuencias de muestreo ms altas. En primer lugar, las frecuencias de muestreo altas necesitan gran capacidad de almacenamiento. Cada muestra de 8 bits (Sound Blaster y Sound Blaster Pro) consume 1 byte de memoria o de espacio en el disco. A una frecuencia de muestreo de 6.000 Hz, un minuto de grabacin rellenar un disco de 360K. La Sound Blaster 16 constituye el sueo hecho realidad de un distribuidor de unidades de disco. La Sound Blaster 16, en el mximo de frecuencia de muestreo, a 44.100 Hz (en realidad en estreo es de 88.200 muestras por segundo), consumir cerca de 10MB de memoria en slo un minuto! La limitacin ser an mayor si se graba en memoria y no en disco. Por ejemplo, cuando se utiliza VEDIT2 (el grabador y editor de sonido para DOS de la Sound Blaster Pro) en un PC con 640K, slo pueden grabarse 6 segundos de estreo a 22.050 Hz antes de ocupar completamente la memoria. El hardware de las tarjetas Sound Blaster 1.x y 2.0 impone restricciones adicionales en la frecuencia de muestreo. Estas restricciones se discuten en detalle para cada programa de utilidad. La restriccin principal es que no puede utilizarse una frecuencia de muestreo demasiado elevada si se piensa empaquetar (comprimir) los archivos.
Pag. 2-10 Para la mayora de los amantes del sonido, el audio CD carece de cierta riqueza en el sonido. Esto hasta cierto punto es debido a que la frecuencia de muestreo es demasiado baja para reconstruir con precisin las componentes de mayor frecuencia de onda. El problema se encuentra en que el filtro de entrada, conjunto de circuitos utilizados para bloquear el ruido de alta frecuencia que se infiltra en la grabacin, no es un dispositivo perfecto; no puede bloquear todas la frecuencias que estn por encima de una determinada y, sin embargo, pueden pasar todas las frecuencias que estn por debajo de ella. Debido a que el filtro de entrada tiene su propia envolvente, que se suma a la envolvente de los circuitos digitales, el ancho de banda efectivo de las tarjetas de sonido queda ligeramente por debajo del mximo terico. Mientras que un muestreo a una frecuencia de 44,1 kHz puede grabar, en teora, frecuencias de onda del orden de 22,05 kHz, en una realizacin prctica el ancho de banda est cerca de los 20 kHz, que escasamente coincide con el ancho de banda del odo humano. De hecho, los equipos de grabacin de los que disponen los estudios comerciales utilizan por esta razn una frecuencia de muestreo de alrededor de 48 kHz. Tamao de muestra: El tamao de muestra es la otra componente de mayor influencia en la fidelidad del audio digital. Las tarjetas de sonido de 16 bits de Sound Blaster ofrecen la posibilidad de elegir entre un tamao de muestra de audio digital de 8 bits (1 byte) o de 16 bits (2 bytes). La Sound Blaster y la Sound Blaster Pro manejan muestras de 8 bits. Mientras que la especificacin MPC (Multimedia PC) de Nivel 1 requiere muestras de 8 bits, la especificacin MPC de Nivel 2 obliga a que las muestras sean de 16 bits. El tamao de muestra controla el gama dinmica que puede grabarse. Por ejemplo, las muestras de 8 bits limitan el gama dinmica a 256 pasos (gama de 50 dB). Por el contrario, una muestra de 16 bits tiene un gama dinmica de 65.536 pasos (gama de 90 dB) -- una mejora sustancial. El odo humano percibe todo un mundo de diferencias entre estos dos tamaos de muestra. Los odos son ms sensibles a la deteccin de diferencias en el tono que en la intensidad, pero son an ms sensibles a la fuerza del sonido. Los odos humanos, que estn acostumbrados a detectar sonidos con variaciones de varios rdenes de magnitud en la fuerza, perciben el sonido de 8 bits en un tono apagado o desafinado si se compara con el sonido de audio digital de 16 bits. Compromisos en el muestreo: Basndonos en la literatura existente, se podra asumir que todo lo que hay que hacer para obtener buen sonido es grabar a la velocidad lmite de 44,1 kHz con muestras de 16 bits (2 bytes). EI nico problema que aparece -- asumiendo que se dispone de una Sound Blaster 16 capaz de afrontar esto -- es el costo en espacio en el disco. Si se graba en estreo, tomando muestras simultneamente en los canales izquierdo y derecho a 44,1 kHz, una muestra de sonido de un minuto necesita un espacio para almacenarse de 10,58 MB. Si se dispone de un sistema con 16 MB de memoria RAM es posible almacenar cerca de dos minutos de audio digital en la memoria RAM del sistema antes de que la computadora lance al usuario un mensaje de salida para comer. El resto no tiene otra eleccin ms que la de enviar los datos directamente
Pag. 2-11 al disco, pero teniendo en cuenta la relacin de 10 MB por minuto es posible que el disco se ocupe antes de que se haya preparado un sandwich. La corriente ms actual en audio digital aconseja seguir las directrices dadas a continuacin con el fin de conservar el espacio de almacenamiento: Grabar en mono en vez de en estreo. Utilizar la menor frecuencia de muestreo. Siempre que sea posible, utilizar muestras de 8 bits para obtener efectos de sonido y de voz. Un mtodo seguro para ahorrar espacio en el disco es el de grabar sonido en mono en lugar de en estreo. En mono se toma una muestra en cada instante de tiempo, mientras que en estreo se toman dos muestras, una por el canal derecho y otra por el canal izquierdo. Si se graba del micrfono, no hay posibilidad de elegir, ya que la entrada a ste es mono, incluso en la Sound Blaster 16. Lo aconsejable es usar la frecuencia de muestreo ms baja posible. Por ejemplo, supongamos que planeamos grabar una conversacin telefnica. El ancho de banda de un telfono es de slo 3 kHz. De acuerdo con el teorema de Nyquist, la grabacin ser acertada si la frecuencia de muestreo es de 6 kHz o mayor. Cuando se elige la frecuencia de muestreo, tambin hay que considerar el ancho de banda de todo el sistema. Por ejemplo, no existe ningn problema en la grabacin de audio digital a 44,1 kHz si el micrfono utilizado funciona a 12 kHz y la fuente de sonido es una voz masculina grave que no supera los 7 kHz. Aunque lo deseado para una buena reproduccin musical es disponer de muestras de 16 bits, es posible lograrla, sin embargo, a partir de muestras de 8 bits para efectos especiales y para la voz. Los efectos especiales son, en la mayora de los casos, ruidosos, de manera que son buenos candidatos para utilizar muestras de 8 bits y una frecuencia de muestreo baja. En el caso de la voz, se debe intentar grabar el sonido con muestras de 8 bits; si suena bien, se habr conseguido ahorrar un 50 por 100 del espacio de almacenamiento. Compresin de audio digital Los archivos de sonido tienen ciertas particularidades por lo que respecta a la compresin de los mismos, de modo que es posible que no se ahorre demasiado si se utilizan programas de utilidad de compresin como PKZIP o una utilidad de duplicacin de disco. Los archivos de audio necesitan utilidades de compresin que contengan algoritmos en software, o tcnicas matemticas, que entiendan el "aspecto" del sonido. Slo si el software entiende el formato del sonido es posible realizar un trabajo aceptable de compresin sin prdida de excesiva fidelidad. La compresin se lleva a cabo para ahorrar espacio de disco, despus de haber realizado la grabacin con el programa Voice Edit del DOS de la Sound Blaster (VEDIT2) que viene con la Sound Blaster Pro. Creative Soundo'LE, que se ejecuta bajo Windows de Microsoft y que ahora se incluye en todas las tarjetas de sonido de Creative Labs, puede comprimir opcionalmente mientras graba si la tarjeta sobre la que se est ejecutando es una Sound Blaster 16. Las tcnicas de compresin utilizadas por Soundo'LE y VEDIT2 se describen en el Apndice A. Formatos de archivos de sonido El sonido de la computadora compatible IBM PC ha surgido desde muchos frentes, dando lugar a diferentes formatos de archivos de sonido, a diferentes formas de almacenar el sonido en disco y a diferentes extensiones de archivos para distinguir entre los formatos. Cada programa software slo puede leer un nmero pequeo de formatos de archivos, de modo que es necesario tener un mnimo conocimiento sobre el formato que utiliza cada uno antes de pagar una factura telefnica enorme a CompuServe o comprar una pila de discos que contengan programas intiles. Las plataformas caracterizadas por una marca de sonido y archivos de sonido exclusivos incluyen el Commodore Amiga, Apple Macintosh y el IBM PC original. Con la llegada de Windows de Microsoft el sonido de computadora en el PC se ha ampliado con formatos de archivo adicionales. El trmino bloque se utiliza a veces para describir la arquitectura interna de un formato de archivo. Un bloque es una subdivisin de un archivo anlogo a un bloque en una ciudad. Cada bloque de informacin contiene datos del msmo tipo, como puede ser audio digital de 16 bits o audio digital de 8 bits o msica MIDI. Los formatos de archivo de mayor uso en computadoras personales se describen en la siguiente lista. La lista se ha ordenado por el nombre del formato de archivo (la extensin usada aparece entre parntesis) e incluye una breve descripcin sobre la utilizacin de cada formato de archivo. FORMATO DE ARCHIVO DE INTERCAMBIO DE AUDIO (IFF): Apple Macintosh utiliza el Formato de Archivo de Intercambio de Audio (IFF) para almacenar muestras de sonido audio digitalizado. Admite varias frecuencias de muestreo y tamaos de muestra de hasta 32 bits por muestra. Una caracterstica interesante de este formato de archivo es que admite lazos, es decir, la reproduccin iterativa de un bloque o de un grupo de bloques. Este formato de archivo procede de Electronic Arts, que hace aos intent desarrollar formatos de archivo industriales estndar para grficos, texto y muestras de sonido. Commodore Amiga tambin utiliza este tipo de formato. Las aplicaciones de sonido en los IBM PC normalmente no hacen uso de este formato de archivo. FORMATO MUSICAL CREATIVE (CMF): El Formato Musical Creative (CMF) es uno de los dos formatos de archivo promovidos por Creative Labs para almacenar msica. El archivo CMF se ha diseado para trabajar con el chip estndar industrial Yamaha, utilizado para sintetizar msica en FM. Un archivo CMF incluye un bloque instrumental, que contiene los parmetros para programar con los sonidos instrumentales deseados el sintetizador FM de la tarjeta de sonido. Las notas musicales se almacenan en un bloque musical, que se aade al Formato de Archivo MIDI Estndar. Un formato de archivo relacionado es el Formato Instrumental de la Sound Blaster de Creative Labs, que, al igual que el bloque instrumental del archivo CMF, almacena los parmetros para crear sonidos instrumentales. Pueden almacenarse juntos hasta 128 parmetros de voces ins trumentales en el archivo de banco
Pag. 2-12 instrumental de una Sound Blaster (IBK). MIDI (MID O MFF): Si necesita compartir un archivo MIDI con un amigo, almacnelo en MIDI Estndar, el lenguaje universal del mundo musical MIDI, tanto para un aficionado como para un profesional. Existen dos variaciones del MIDI "estndar" en el software MIDI. El estndar MIDI Tipo 1 es la variante ms moderna de MIDI, que protege fielmente una composicin como una partitura multitraza. La versin anterior, el formato Tipo 0, est preparada para ser compatible con secuenciadores previos. El Tipo 0 no est recomendado porque admite solamente una traza. MOD (MOD): El formato de archivo MOD proviene del Commodore Amiga, para el que es el formato de archivo musical probablemente ms popular. La caracterstica ms significativa de los archivos MOD es la de contener muestras de audio digitalizadas de instrumentos musicales actuales. Cuando se reproducen los archivos MOD, cada nota se toca tomando la muestra de sonido instrumental para esa nota y tocndola rpida o lentamente para darla el tono musical adecuado. Los archivos MOD contienen generalmente cuatro canales de msica y cada canal se dedica a un solo sonido instrumental. Los archivos MOD presentan varias caractersticas excelentes. Pueden contener hasta 31 voces instrumentales (slo 4 u 8 se tocan a la vez), cada una de las cuales puede tener fijado su propio volumen. Tambin se puede repetir un sonido instrumental indefinidamente con el fin de obtener un efecto de eco o reverberacin. Se pueden asignar a cada nota efectos especiales como el vibrato, una lenta vibracin en amplitud, y una curva de tono, un deslizamiento ascendente o descendente del tono. Todas estas caractersticas se combinan para producir msica que suena muy bien. Los archivos MOD tienen varias ventajas e inconvenientes. Son ms grandes que los archivos MIDI, CMF y ROL. Aunque esto pueda parecer una desventaja, proporcionan la calidad y la flexibilidad del audio digital sin el consumo asociado a una grabacin digital completa. Un inconveniente mayor -- con el que hay que ser cauteloso -- es que los archivos MOD pueden presentarse de muchas maneras, de forma que no todos los archivos MOD sonarn igual en los reproductores MOD. La mayora de los archivos tienen la extensin .MOD y contienen cuatro canales de msica, pero hay una tendencia hacia reproductores MOD y msica de ocho canales. Otros formatos disponibles son NoiseTracker (cuatro canales), ScreamTracker (cuatro canales), ScreamTracker NST (cuatro canales), ScreamTracker S3M (hasta 10 canales) y 669 (ocho canales). RIFF (RMI): El Formato de Archivo de Intercambio de Recursos de Microsoft (RIFF) se ha diseado como el ltimo formato de archivo para multimedia Windows, capaz de incluir "chunks" (trmino de Microsoft para designar bloques) con formatos de los datos muy diferentes. Estos formatos incluyen audio digital Wave (WAV) y bloques MIDI. Lo original de RIFF es que puede albergar bloques que an no se han inventado. Por ello RIFF ha Ilegado a ser muy popular. Vase la descripcin de los archivos Wave (WAV) (un tipo de archivo que tambin puede ser un bloque RIFF). ROLL (ROL): Los archivos Roll nacen con Visual Composer, un programa de software proporcionado por AdLib, Inc., para usar con la tarjeta de sonido de AdLib. El formato de archivo ROL se dise para poder generar msica en el chip sintetizador de FM Yamaha de las tarjetas AdLib. Puesto que todas las tarjetas de sonido Sound Blaster contienen el mismo chip Yamaha, los archivos ROL pueden tocarse, si se dispone un programa de utilidad musical, en la tarjeta de sonido Sound Blaster. Al igual que el archivo CMF, el archivo ROL contiene una lista de notas, tiempos y cambios intrumentales, aunque la eficiencia en la organizacin es menor que la de los archivos CMF. SOUND (SND): El Formato de Archivo de Recursos de Sonido (SND) de archivo de audio digital compacto -- slo 8 bits por muestra -- admitido por Apple. Se utiliza para expresar sonidos cortos, como el sonido de alarma del altavoz incorporado en el Macintosh, y para emplear en aplicaciones Macintosh, como HyperCard, cuando los requisitos de sonido son sencillos. AUDIO (AU): Las estaciones de trabajo de Sun Microsystems utilizan archivos de audio comprimido de 16 bits A-law y law. Este tipo de archivos de sonido es comn en Internet. Los archivos .AU de Sun pueden leerse y transformarse en cualquier otro tipo de archivo gracias a un grupo de editores de audio digital, como Goldware (un editor de libre circulacin) y Sound Forge de Sonic Foundry, y puede transformarse mediante programas de utilidad como SOX, disponible en Internet. VOICE (VOC): Creative Labs populariz el formato de archivo Voice (VOC) para audio digital. Hasta hace poco los archivos VOC tenan slo 8 bits (versin 1.10 del formato de archivo). Con la introduccin de la Sound Blaster 16, el formato de archivo Voice se ampli para permitir muestras de 16 bits (versin 1.20 del formato de archivo). Estos archivos VOC de 16 bits pueden crearse y reproducirse con programas de utilidad de voz incluidos en la Sound Blaster 16. Las muestras de audio digital del archivo Voice pueden grabarse con una amplia gama de frecuencias de muestreo. Los datos pueden almacenarse como muestras sin comprimir o en una forma comprimida. Las muestras de 8 bits pueden comprimirse en uno de estos tres formatos: 2-, 2,6- o 4 bits por muestras de 8 bits, proporcionando una compresin de 4:1, 3:1 y 2:1, respectivamente. Las muestras de 16 bits pueden comprimirse slo en dos formatos: 4 bits, que producen una compresin 4:1 y 8 bits, que da lugar, a una compresin 2:1. El formato de archivo Voice incluye caractersticas especiales, como unos marcadores especiales que repiten un bloque, unos marcadores de sincronizacin que los programas de presentacin multimedios pueden utilizar para sincronizar la reproduccin de archivos VOC con sonido, grficos y vdeo, y marcadores de silencio que reemplazan zonas de silencio con un pequeo marcador. L,os archivos Voice son nuevos para el entorno Windows, pero comenzando a ser considerados, como se pone de manifiesto en la aparicin de editores de sonido y servicios que permiten este formato. En este momento el formato de archivo Wave de Miccosoft es el formato
dominante en entornos Windows para audio digital. Es difcil encontrar archivos VOC comprimidos a menos que los cree uno mismo. Son pocos los productos comerciales que incorporan archivos de sonido VOC comprimidos porque el esquema de compresin no es compatible con tarjetas de sonido que no sean Sound Blaster. WAVE (WAV): Microsoft adopt el Formato de Archivo Wave (WAV) para emplearlo con las extensiones multimedios de Windows. Almacena muestras de audio digital de 8 o de 16 bits, gestiona datos en mono o en estreo y admite tres frecuencias de muestreo: 11,025 kHz, 22,05 kHz y 44,1 kHz. Este formato de archivo es admitido por casi todas las aplicaciones multimedios basadas en Windows y por todas las tarjetas de sonido. Las ristras de datos de sonido eliminadas de las cabeceras y otra informacin descriptiva, son idnticas al audio digital encontrado en los discos CD-ROM. Un inconveniente de Wave es que no permite los lazos de bloques de sonido. APENDICE A: CUESTIONES AVANZADAS SOBRE EL SONIDO El propsito de este apndice es reforzar y ampliar las nociones que se presentaron anteriormente. Este apndice le conducir a travs de algunos de los aspectos ms esotricos y tcnicos del sonido; as que, probablemente, le fascinar una vez que haya aprendido los principios bsicos. Describe las forma de onda complejas, los mecanismos de la sntesis FM, los fenmenos de muestreo y aliasing del sonido digital y la tcnica de compresin de sonido que emplea la modulacin adaptativa diferencial cdigo-pulso. La ulterior discusin sobre el procesamiento de seales digitales le introducir en el conocimiento de las ltimas tecnologas sobre el sonido que Creative Labs est planeando al mercado. Entre ellas se cuenta el chip DSP EMU8000, que est llamado a ser se de la prxima generacin de tarjetas de sonido de gama alta de Creative Labs. El apndice concluye con un estudio en profundidad del sistema de voz DECtaIk, que ituye el alma de la familia de los productos de sntesis (sntesis de voz a partir de texto) TextAssist. Formas de onda complejas Esta seccin tiene la misin de describir las formas de onda complejas que son el fundamento de la msica y la voz. Aprender lo que es una forma de onda compleja y ver cmo reducir sonidos maravillosos a los componentes simples que la computadora puede manejar fcilmente. Instrumentos musicales Tanto la repeticin como la complejidad son elementos esenciales de la msica. En el canturreo de una partitura musical, la repeticin se produce en el ritmo, la meloda, las frases y la reinterpretacin de fragmentos previos. Para un fsico o ingeniero que observa las ondas de sonido cruzando la pantalla del osciloscopio, la repeticin se traduce en que la misma forma de onda aparece cientos o miles de veces, con lo que se prolonga lo bastante como para dar a nuestros odos la sensacin de un tono. La otra caracterstica esencial del sonido es su complejidad.
Pag. 2-13 La msica que se describe como rica en textura o timbre tiene una onda compleja asociada. Voz Se ha dicho que de todos los instrumentos musicales la voz humana es la ms verstil y expresiva y la que tiene el timbre ms rico. Usted atestigua esto cada vez que reconoce la risa de un amigo en el telfono o la voz de su cantante favorito en la radio. La cualidad de la repeticin de la voz se hace presente en los bloques fonticos con los que se construye el discurso. Estos bloques de construccin son relativamente un pequeo conjunto de los muchos posibles sonidos que Ios humanos somos capaces de pronunciar. Se pueden ver ms detalles acerca de estos bloques fundamentales de construccin y de las caractersticas de la voz en el Apartado "Tecnologa de voz de DECtalk" que se encuentra ms adelante. Cmo se reducen las formas de onda complejas a sus componentes simples: El anlisis de Fourier Un factor intrigante de las formas de onda complejas, ya sea su fuente un instrumento musical, una voz humana o la vibracin de una mquina, es el hecho de que se componen de ondas simples. De acuerdo con el teorema de Fourier, cada onda compleja peridica es una serie (familia) de ondas sinusoidales simples e incluye muchos armnicos. El trmino armnico describe las relaciones entre las ondas, donde la onda tiene frecuencias que son mltiplos de las llamadas frecuencias fundamentales, es decir, son mltiplos de la onda dominante (la amplitud ms fuerte). E1 segundo armnico tiene dos veces la frecuencia de la onda fundamental y el tercer armnico tiene tres veces la frecuencia de la fundamental. El teorema de Fourier predice que una onda compleja puede reducirse a una serie de ondas simples. Lo contrario tambin es cierto: una serie de ondas simples puede combinarse para dar una onda compleja. Esta es la utilidad prctica del teorema de Fourier. Hay efectos especiales que slo se consiguen manipulando el sonido que cae dentro de una estrecha gama de frecuencias. Por ejemplo, un micrfono barato puede distorsionar excesivamente la seal a 10 kHz, pero en cambio funcionar razonablemente bien con un ancho de banda ms bajo. Mediante la tcnica denominada ecualizacin, que manipula la forma de la respuesta en frecuencia de una seal, es posible reducir la intensidad de las frecuencias en torno a 10 kHz para crear una seal que suena como si se hubiera grabado con un micrfono mucho mejor y con un ancho de banda ms bajo. Esta manipulacin se puede llevar a cabo en una computadora digital, del tipo de un PC, mediante un algoritmo (un conjunto sencillo de instrucciones) conocido como la transformada rpida de Fourier (FFT, Fast Fourier Transform). Este ejemplo especfico de ecualizacin tambin se puede realizar mediante un sistema analgico de circuitera de audio con un costo de tan slo unos pocos dlares. Sin embargo, ecualizaciones ms cnplejas, as como efectos especiales tales como cambiar la velocidad de reproduccin una voz sin cambiar el tono de la persona, no son fciles de Ilevar a cabo con circuitos analgicos. La tcnica FFT tambin es la base de la mayora de los programas de reconocimiento de la voz y un lugar comn en las aplicaciones tanto comerciales como militares.
Si se siente aturdido al leer trminos como "teora de as ondas", "teorema de Fourier" y "algoritmo", olvdese por un momento de lo que ha ledo, reljese y trate de imaginar un arco iris. Aqu tenemos un ejemplo de onda compleja que nos proporciona la naturaleza. Y con la ayuda de las minsculas gotas de lluvia se ha producido la descomposicin de la luz blanca en sus componentes simples: los colores puros que a simple vista todos abarcamos a observar en el arco iris. Tcnicas de sntesis FM Todas las tarjetas de sonido de Creative Labs producen msica gracias al sintetizador FM que est integrado en ellas. En las secciones anteriores se di una breve introduccin a los sintetidores FM y a los chips que se emplean para implementarlos en las tarjetas de sonido. Esta seccin proporciona ms detalles sobre los orgenes y las tcnicas que emplean los sintetizadores FM de las tarjetas de sonido. El sintetizador FM puede producir una amplia gama de sonidos, tanto msica como efectos especiales, utilizando un mecanismo inventado por John Chowning, de la Universidad de Stanford, en 1971. Antes del descubrimiento de la sntesis de sonido FM, la msica electrnica slo se poda crear mediante la utilizacin de equipos muy complejos y caros. Chowning descubri que poda crearse una gran variedad de sonidos usicales mediante la modulacin de la frecuencia de una onda sinusoidal con una segunda onda sinusoidal (simple) con el fin de crear una tercera onda de frecuencia odulada (FM) (compleja). Este proceso puede Ilevarse a cabo con un equipo muy barato, que en los ltimos aos se ha reducido a un circuito integrado ms pequeo que ua de un dedo. Esta seccin es una introduccin a la teora de la sntesis FM, con una explicacin especfica de la sntesis de sonido con dos operadores, frente a la de cuatro operadores, e informacin sobre el sintetizador FM de la tarjeta de sonido. Teora de la sntesis FM Los trminos FM y AM son familiares a cualquiera que escuche la radio. La tcnica que subyace bajo la sntesis FM de msica es exactamente la misma que se emplea para producir seales de radio FM: se usan voces y msica de bajas frecuencias (audibles por el odo humano) para variar la frecuencia de una onda electromagntica, de muy alta frecuencia, con el fin de crear una seal ms compleja, una onda electromagntica FM modulada. Esta seal se llama seal de radio, ya que es de muy alta frecuencia. El papel de su radio FM es capturar esta seal y extraer las componentes de baja frecuencia -- audibles a los humanos. Despus de que su radio FM selecciona y amplifica esta seal, la seal de radio recibida se combina con otra que se produce directamente en su aparato y que tiene la misma alta frecuencia que la usada por la estacin de radio -- por ejemplo, 99,7 MHz. Cuando se han combinado la seal difundida y la seal local, uno de los resultados es una onda que es exactamente la diferencia entre ambas seales, es decir, la componente audible de la seal de radio. Si la radio est bien sintonizada, usted oir la voz y la msica que se enviaron mezcladas con la onda de radio de muy alta frecuencia, que es la que se propaga a travs del aire. La sntesis FM de sonido se consigue mediante la
Pag. 2-14 modulacin de dos ondas simples de baja frecuencia, con lo que se consigue crear otras ondas. El sonido resultante es muy complejo y contiene componentes con las dos frecuencias originales y muchos de sus armnicos. Dado que la sntesis FM de sonido proporciona una tcnica para la modulacin de sonido de forma controlada, y que tambin produce numerosos armnicos, es capaz de crear una amplia gama de sonidos. Sintesis FM de dos operadores Las tarjetas Sound Blaster l.x/2.0 y Sound Blaster Pro, anteriores a la Pro 2, utilizan el circuito integrado (chip) Yamaha 3812 OPL2, que produce sonido sintetizado FM mediante la sntesis de dos operadores. E1 chip 3812 tiene 12 celdillas operadoras que se pueden combinar para dar lugar a seis pares que crean seis sonidos distintos FM sintetizados. Adems, el chip ha sido programado para la simulacin de 5 instrumentos de percusin: tambor con tirantes de cuerda, bombo, tantn, cmbalo superior y cmbalo de copa. En total, el 3812 es capaz de crear 11 voces (sonidos de instrumentos) simultneamente. La Sound Blaster Pro 2 tiene integrado el ltimo chip de Yamaha, el YMF262 OPL3, que es capaz de realizar la sntesis de dos y cuatro operadores. La Sound Blaster 16 tambin contiene este chip OPL3. En la sntesis con cuatro operadores, se usan cuatro operadores para la sntesis de un nico instrumento. El timbre del sonido es slo en parte funcin de la frecuencia de las celdillas operadoras. Hay una amplia gama de parmetros de estos operadores que puede controlarse, con lo que se crea un sonido de textura muy rica. Cada uno de los siguientes parmetros de las celdillas operadoras puede ser controlado desde el chip Yamaha para crear un inico sonido: Frecuencia; tipo de envoltura (percusiva o no percusiva), amplitud de la envoltura; tiempos de subida/bajada/estabilizacin/relajacin (ADSR, Attack/Decay/Sustain/Release); valor de la clave de la escala; seleccin de la forma de onda (sinusoidal o no sinusoidal); profundidad del vibrato; profundidad del trmolo. Sonido estreo La tarjeta Sound Blaster Pro (anterior a la Pro 2) tiene dos chips 3812. Como resultado le ello puede producir hasta ll voces estreo o 22 voces monoaurales. De las 11 voces estreo, seis son instrumentos y cinco son percusin. El chip YMF262 que se usa en la tarjeta Pro 2 es casi compatible con el ms antiguo 3812. Como sabe todo el que haya trabajado con computadoras, casi compatible quiere decir que nunca es lo bastante compatible. Aunque el 3812 tiene 11 voces, y las primeras Sound Blaster Pro tienen dos chips 3812 con lo que consiguen 22 voces, la nueva Sound Blaster Pro 2 con el chip YMF262 tiene slo 20 voces, de las cuales 15 son instrumentos meldicos y cinco son de percusin. La limitacin a 20 voces no tiene importancia prctica, ya que 20 sonidos monoaurales o 10 estreos son suficientes normalmente -- poca gente necesita componer msica para ms de 20 instrumentos a la vez. Sntesis FM de cuatro operadores La Sound Blaster Pro 2, que usa el ltimo chip de Yamaha, puede realizar la sntesis FM de dos o de cuatro operadores. La ventaja de la sntesis de dos operadores es que asegura la
compatibilidad con los controladores existentes y soporta hasta 12 voces sintetizadas. La ventaja de la sntesis FM de cuatro operadores es que el sintetizador FM puede crear sonidos ms ricos mediante el uso de dos veces el nmero de operadores del caso anterior. EI inconveniente es que la Pro 2 est limitada a seis voces sintetizadas, porque se usan dos pares de operadores para cada voz, en lugar de un par. Cmo se llega a dominar el muestreo de sonido digital Los ltimos programas de Creative Labs para la grabacin de sonido digital le separan del filtro de la tarjeta de sonido. Estos programas seleccionan automticamente los filtros de entrada y de salida adecuados para la frecuencia de muestreo que se ha elegido, con lo que se evita que usted cometa algn error. Aunque no pueda configurar el filtro durante la grabacin, es importante que comprenda el propsito de dichos filtros para que su conocimiento sobre el sonido digital sea completo. La Sound Blaster contiene un filtro de entrada y otro de salida. El filtro de entrada (llamado a veces filtro de grabacin) es esencial para el correcto funcionamiento de los circuitos PCM que graban sonido digital. Este filtro es un filtro digital pasa-bajos que permite el paso libre de las seales por debajo de una cierta frecuencia, pero que bloquea las seales por encima de dicha frecuencia. E1 filtro se configura internamente, mediante la circuitera de la tarjeta de sonido, en la frecuencia de corte (roll-off) correcta, que es la frecuencia por encima de la cual se reduce la intensidad de la seal. EI teorema de Nyquist establece que la mxima frecuencia que puede ser muestreada con seguridad es la mitad de la frecuencia de muestreo que se usa al grabar. Por ejemplo, si la frecuencia de grabacin es de 44,1 kHz, el lmite de Nyquist es 22,05 kHz, y la frecuencia de corte debera estar por debajo de ese valor, en tomo a los 20 kHz. Dado que es imposible crear el filtro perfecto, uno que dejase pasar todas las frecuencias por debajo de la de corte, pero que eliminase las superiores, los ingenieros se han visto forzados a seleccionar una frecuencia de corte por debajo del lmite de Nyquist. Los fallos en el funcionamiento del filtro provocan un tipo de distorsin denominado aliasing. El correcto funcionamiento del filtro de entrada previene el fenmeno del aliasing, un tipo de distorsin de la seal que provoca que aparezcan en la grabacin sonidos falsos, sonidos que nunca existieron. Puede producirse este fenmeno si la frecuencia de muestreo es demasiado baja, para poder asegurar que se muestrean las componentes de alta frecuencia del sonido que se est grabando. Por ejemplo, suponga que usted selecciona para grabar voz una frecuencia de 11,025 kHz. De acuerdo con el teorema de Nyquist, esta frecuencia es adecuada para grabar sonidos cuya frecuencia ms alta sea como iucho de 5,5 kHz (suficiente para grabar la voz profunda de un adulto, pero no para rabar la voz chillona de un nio). Si hay una componente en frecuencia que exceda el lmite de Nyquist -- como por ejemplo un chillido --, el circuito PCM que realiza el muestreo crear un sonido falso con una frecuencia que es la diferencia entre las dos anteriores. La compresin de audio Se ha mencionado varias veces el hecho de que los archivos digitales de sonido ocupan mucho espacio en el disco duro --
Pag. 2-15 hasta 10,5MB por minuto. Afortuadamente existen sistemas de compresin bastante sofisticados que reducen los archivos de audio a tamaos ms manejables, hasta alcanzar incluso la cuarta parte del tamao oriinal. Esto implica que un archivo estreo comprimido de 44,1 kHz ocupa el mismo espacio que un archivo mono de 22,05 kHz que no est comprimido. Los requisitos de la compresin de audio Los archivos de sonido son fundamentalmente diferentes del resto de los archivos de datos con los que usted pueda trabajar; en consecuencia requieren un mtodo de compresin distinto. Por ejemplo, las hojas de clculo, los procesadores de textos y el resto de los archivos que consten nicamente de texto y nmeros, contienen muchos caracteres repetidos, tales como los espacios y los finales de lnea. Estos archivos se pueden comprimir sin ms que usar un compresor de propsito general, del tipo PKZIP, y se consigue reducirlos hasta la quinta parte de su tamao original. Este tipo de programas compresores no realiza un buen trabajo con los archivos de audio, ya que lo natural es ve el sonido (al igual que el vdeo) cambie continuamente. Incluso los perodos de "silencio" raramente estn exentos de sonido. Consecuentemente, es necesario un mtodo de compresin ms sofisticado, uno que est diseado para que aproveche las caractersticas del sonido. El formato de archivo VOC usa el concepto de bloques de silencio, es decir, un perodo extenso de silencio se reemplaza en el archivo audio con una marca y un valor de la duracin temporal. Puede que observe esto cuando utilice juegos que incluyan sonido digital. Este esquema trabaja relativamente bien, pero la mayora de los formatos de archivo de sonido no lo admiten. En particular, el formato Microsoft Wave no admite bloques de silencio. Modulacin lineal El sonido se transforma, gracias a los circuitos de modulacin cdigo-pulso, de analgico en digital y otra vez en analgico. A cada muestra se le asigna un valor de 8 o 16 bits que es proporcional -- linealmente -- a su intensidad; este proceso se denomina PCM lineal (LPCM). E1 sonido digital almacenado en un CD de audio es sonido digital de 16 bits LPCM. A menos que se haya seleccionado un mtodo de compresin, cuando se usa una tarjeta de sonido de Creative Labs y se graba en disco sonido digital, se guarda con el formato LPCM. Modulacin adaptable y diferencial cdigo-pulso Existe una variacin muy sofisticada del sistema PCM, conocida como modulacin adaptable y diferencial cdigopulso (ADPCM, Adaptative Differential Pulse-Code Modulation) y que almacena el sonido usando menos bits por cada muestra que el LPCM, as que se emplea frecuentemente para la audiocompresin. El mtodo ADPCM comprime estrechamente el sonido digital, con lo que, tras la descompresin, se observa una prdida de la fidelidad. El truco en el que se basa el mtodo ADPCM es captar la diferencia entre una muestra y la siguiente, y expresarla como una fraccin del valor actual de cada muestra. Se puede reconstruir la forma de la onda comenzando en un punto inicial y dibujando cada cambio. Esta tcnica recuerda a la grabacin de una partida de ajedrez, en la que slo se anotan los cambios
(prximo movimiento) y no el estado total del tablero. No es necesario almacenar el estado del tablero antes de cada movimiento, dado que la grabacin de los movimientos permite reconstruir la partida paso a paso sin ms que consultar la lista de los movimientos que se han hecho con cada pieza. Con slo 4 bits, es decir con 16 valores distintos, se puede realizar un buen trabajo a la hora de replicar una onda compleja. La tcnica ADPCM consigue esto mediante la asignacin de un valor de 4 bits, que es el factor de escala de una muestra. El valor no es la amplitud de la onda en ese punto del tiempo, sino que es el factor de escala, esto es, la cantidad por la que hay que multiplicar a la muestra anterior para obtener la amplitud de la muestra actual. Con los 4 bits que suele emplear ADPCM se tienen 16 factores de escala, con lo cual hay un control ms preciso sobre la forma de la onda, y si se emplearan 8 bits se tendran hasta 256 factores de escala, cantidad ms que suficiente. Hoy en da, Creative Labs emplea dos variedades distintas de ADPCM, ambas conocidas como CT ADPCM (tecnologa ADPCM de la compaa Creative Labs). Las tarjetas Sound Blaster 1.x/2.0 y Sound Blaster Pro de 8 bits, usan el algoritmo Creative ADPCM desarrollado originalmente para la Sound Blaster 1.x. Este algoritmo ofrece la posibilidad de configurar la compresin como 4:1, 3:1 o 2:1. La tarjeta Sound Blaster 16 de 16 bits usa una variante distinta de ADPCM que permite slo la compresin 4:1 y 2:1. La eleccin de comprimir 3:1 ha desaparecido de la Sound Blaster 16 para dejar paso a dos esquemas distintos de compresin 2:1, A-law y -law, que se describen en la si guiente seccin. Tcnicas alternativas para la compresin de 16 bits Los programas Soundo'LE y WREC (que funcionan, respectivamente, sobre Microsoft Windows y DOS) que vienen con la Sound Blaster 16 ofrecen la posibilidad de elegir entre tres tcnicas distintas para comprimir muestras de 16 bits: ADPCM, A-law y -law. Estos dos ltimos son algoritmos estndar CCITT (ahora UIT-T) para la compresin de voz. Alaw se usa sobre todo en Europa, mientras que -law se emplea ms en Estados Unidos y Japn. Ambos difieren slo en algunos detalles de su implementacin. Mientras que el ADPCM de Creative Labs puede comprimir muestras audio de 8 y de 16 bits, los otros dos algoritmos slo pueden actuar sobre muestras de 16 bits. Los algoritmos A-law y -law son muy parecidos al PCM lineal. Con LPCM se graba la amplitud de la onda, usando para ello las medidas obtenidas con una regla lineal, como las de dibujo, en las que la distancia viene dada por marcas repartidas uniformemente. Algo as como que si una cosa es dos veces ms larga que otra, se le asigna un nmero doble del anterior. Si se observan las ondas de sonido en la pantalla de un osciloscopio, se puede comprobar que este tipo de medida no es demasiado adecuado para la voz y el sonido. Este hecho se hace an ms notorio si nos fijamos en la msica orquestal. Este tipo de msica se toca a un volumen relativamente bajo, pero ocasionalmente est salpicado por chorros de energa. Una regla lineal no har justicia ni al periodo tranquilo en que se interpreta un solo de flauta ni al sbito estruendo de los cmbalos y los tambores. Una regla logartmica, adems de ser una buena aproximacin al modo en que el odo responde a la
Pag. 2-16 msica, es una eleccin mejor que la regla lineal en lo que se refiere a la grabacin del gama dinmica del sonido. Por esta razn se toma como base para los algoritmos A-law y -law. El efecto neto de estos dos algoritmos es que, en teora, los circuitos de sonido digital de 8 bits que utilizan uno de estos algoritmos pueden archivar una seal proporcional al ruido y un gama dinmica equivalente al del circuito LPCM de 12 bits. La tarjeta Sound Blaster 16 usa estos dos mtodos de modo diferente. Con miras a garantizar la fidelidad del sonido, dado un tamao fijo de muestreo de 8 o 16 bits, comprime el sonido a un nmero menor de bits -- de 16 a 8 bits -- pero lo hace conservando una fidelidad relativamente buena, ciertamente mejor que la que proporciona la compresin equivalente 2:1 hecha con ADPCM. Los poseedores de la tarjeta Sound Blaster 16 deberan intentar grabar msica usando las tres tcnicas de compresin y escuchar las diferencias entre ellas. Tcnicas de compresin para archivos VOC Cuando Creative Labs lanz su primera tarjeta Sound Blaster 1.x, el costo por byte del espacio del disco duro era considerablemente mayor al de hoy en da. Debido a esto, los ingenieros de Creative Labs pusieron un empeo considerable en desarrollar el archivo de voz de sonido digital (VOC). Un archivo VOC consta de una cabecera que identifica el archivo como de este tipo, seguido de un tren de bloques de datos. Cada bloque contiene un tipo especfico de informacin o un marcador. Con los archivos de voz se pueden emplear dos tcnicas diferentes para el empaquetamiento (que es la compresin especfica para los archivos de sonido digital VOC de los Creative Labs): reemplazamiento de los perodos de silencio con bloques de silencio y compresin de los datos almacenados en bloques de datos. Con estas tcnicas de empaquetamiento, los archivos pueden reducirse a slo una cuarta parte del tamao original. Sin embargo este sistema tiene algunos inconvenientes: Se producen prdidas en la calidad del sonido. Los archivos empaquetados no pueden convertirse a otro formato, como Microsoft Wave (WAV). Los editores de sonido digital, tales como Creative WaveStudio (Windows) o VEDIT2 de la Sound Blaster (DOS), no pueden revisar archivos comprimidos. No puede hacerse el empaquetamiento si los archivos VOC han sido grabados con una frecuencia de muestreo alta (esto slo es vlido para la Sound Blaster 1.x/2.0 y la Sound Blaster Pro). Antes de empaquetar se debe usar un programa del tipo de VEDIT2 para reducir la frecuencia de muestreo. Es fcil apreciar cmo el empaquetamiento de datos degrada la calidad de la grabacin. Para comprobarlo puede usar un editor de sonido digital del tipo de la Sound Blaster Deluxe, el VEDIT2 de la Sound Blaster Pro, el Creative WaveStudio o el programa Sound Blaster VOXKIT. Cargue repetidamente un archivo de sonido digital, empaqutelo y luego escuche los resultados. Empaquetamiento de bloques de silencio Los bloques de silencio son marcadores que contienen un valor de duracin temporal que representa un lapso de silencio o de casi silencio. Esta tcnica de empaquetamiento elimina los
perodos de silencio, tales como la pausa entre dos frases o palabras, y los reemplaza con bloques de silencio. Cuando un programa encuentre uno de estos bloques al interpretar un archivo VOC, suspender la salida de sonido digital durante el tiempo indicado por el bloque de silencio. Los bloques de silencio son parte del formato de archivo VOC de Creative pero no existen en la mayora de los dems formatos. En particular, el formato de a Microsoft WAV no dispone de estos bloques. Empaquetamiento de bloques de datos Los bloques de datos constituyen la parte principal de los archivos; son el equivalente a los bytes para el sonido digital actual. EI empaquetamiento de datos se realiza mediante la compresin ADPCM que estruja los bloques de datos hasta reducirlos a una cuarta parte del tamao original. Cuando se descomprime un archivo, los bytes de sonido son restaurados y pueden reproducirse mediante los circuitos de sonido digital de la tarjeta, aunque en este proceso se pierde fidelidad. Un elemento importante del esquema de empaquetamiento de datos es que la cabecera del archivo no se comprime. Un archivo VOC empaquetado y otro sin empaquetar tienen superficialmente el mismo aspecto: la extensin .VOC. E1 programa debe examinar la cabecera para comprobar que es un archivo VOC y ver si ha sido comprimido. La informacin de la cabecera tambin indica si es un archivo VOC de 8 o de 16 bits y da las instrucciones necesarias para reproducirlo, incluida informacin del tipo de la frecuencia de muestreo y si es un archivo estreo o monoaural. El empaquetamiento de datos se realiza en dos pasos. Primero: se comprime el archivo VOC de sonido digital. Segundo: se descomprime a medida que se interpreta. La compresin se realiza mediante software, despus de que se haya grabado el archivo; tanto el editor VEDIT2 como VOXKIT de la Sound Blaster 1.x/2.0 realizan esta compresin. La descompresin la hace el hardware de la Sound Blaster mediante un circuito dedicado especficamente a ello a medida que reproduce el archivo. A pesar de que la tcnica de compresin que se emplea hace que la descompresin sea simple y rpida, y consigue adems ahorrar una considerable cantidad de espacio de almacenamiento, tambin produce la prdida de parte de la informacin y, en consecuencia, de parte de la fidelidad del sonido. La cantidad de esta prdida depende del grado en que se comprima el archivo. La mayor prdida de fidelidad se produce con la mayor compresin, 4:1, ya que es difcil preservar una cantidad significativa de informacin cuando se estrujan 8 bits para que den lugar a 2, o 16 bits para que resulten 4. Aunque se pueden empaquetar los datos incluso con la compresin 4:1, hay que tener en cuenta varios factores antes de seleccionar la cantidad de la compresin. La extrema, es decir, la 4:1, causar demasiada distorsin para que resulte prctico emplearla con la msica o la voz. Esta compresin slo es eficaz para los efectos de sonido. La 3:1 (slo permitida para muestras de 8 bits) es apropiada para la voz, aun cuando si el disco tiene suficiente espacio se recomienda usar la compresin 2:1. En ningn caso se recomienda comprimir las grabaciones de msica.
Pag. 2-17 Para que la compresin sea la mejor posible, se debe hacer el empaquetamiento de los silencios antes que el de los datos (una vez que se hayan empaquetado los datos ser demasiado tarde para hacer lo mismo con los silencios). Los bloques de datos -- que probablemente estarn separados por bloques de silencio -- se comprimen uno a uno. La tcnica de compresin ADPCM de Creative Labs es simple y rpida -- cualidades que se hacen necesarias si la voz o la msica se van a comprimir sobre la marcha (a medida que se escucha el sonido). Hardware de descompresin Las tarjetas de sonido de 8 bits, como la Sound Blaster 1.x/2.0 y la Sound Blaster Pro, incluyen un chip de control especial que permite realizar la descompresin ADPCM (la compresin se hace sin necesidad de que haya un chip dedicado a ello -- se realiza por software, lo que quiere decir que lo hace la CPU, unidad central de proceso del PC). Aunque el chip se denomina "DSP", no es un chip de procesamiento de seales digitales, con lo que el nombre no es una eleccin demasiado afortunada. Actualmente, Creative Iabs se refiere a este chip como el chip de procesamiento de sonido digital. Mientras que un chip de proceso de seales digitales puede programarse para diferentes tareas (vase la seccin siguiente que trata de la tecnologa DSP), este chip de proceso de sonido digital slo acta como un auxiliar de la descompresin y se ocupa de algunas otras tareas menores. La ventaja de usar este chip es que la tarjeta Sound Blaster es capaz de reproducir archivos de sonido digital, incluso en una computadora relativamente lenta, del tipo de los PC originales de IBM, que tena como CPU un 8088, ya que el trabajo de descompresin lo realiza la tarjeta de sonido. Cuando se lanz la Sound Blaster 16 se la dot del chip DSP, de modo que es capaz de realizar la compresin, descompresin, procesamiento de sonido Q-sound y cualquier otra tarea que se programe en el chip. Una SBl6 que no tenga el chip DSP para el procesamiento avanzado de seales, puede realizar la compresin y la descompresin, pero a base de robar vitalidad al PC, ya que debe usar el chip UCP para estas tareas. Limitaciones tcnicas de la compresin Hay dos factores que acotan el trabajo realizable con archivos comprimidos: la prdida de fidelidad y la carencia, por parte de la computadora, de la potencia necesaria para realizar la compresin y descompresin lo suficientemente rpida como para que se mantenga el flujo normal de sonido. En esta seccin se trata acerca de esta ltima limitacin, la basada en la velocidad del circuito PCM de la tarjeta por un lado, y la de la CPU de la computadora y el tiempo de acceso al disco por otro. Limitaciones a la compresin de archivos de voz Si usted tiene una tarjeta Sound Blaster de 8 bits o una Sound Blaster Pro y quiere almacenar sonido en archivos VOC de 8 bits con datos empaquetados, debera evitar exceder la mxima frecuencia de muestreo permitida (las SB16 de 16 bits soportan hasta 44 kHz sin problemas). La descompresin de un archivo coloca una carga adicional sobre el circuito de la tarjeta de sonido. Como resultado, no se pueden reproducir archivos empaquetados a la misma velocidad que los que no lo estn. La frecuencia de muestreo mxima vara de acuerdo con la compresin seleccionada (vase la siguiente tabla). Si la
frecuencia de muestreo sobrepasa la mxima mostrada en la tabla, la tarjeta de sonido reproducir el archivo, pero la salida ser sonido "lento".
Opciones para la compresin de datos de 8 bits Sin comprimir
Compresin 2:1 (4 bits) Compresin 3:1 (2,6 bits) Compresin 4:1 (2 bits)
Mxima frecuencia de muestreo 44,1 kHz (Sound Blaster Pro) 15 kHz (Sound Blaster 2.0) 13 kHz (Sound Blaster 1.5 y MCV) 12 kHz 13 kHz 11 kHz
Pag. 2-18 dedicado a manejar esta carga de trabajo adicional. Nota: La mayora de las computadoras personales que se venden hoy en da tienen un tiempo de acceso al disco rgido por debajo de los 30 milisegundos, ms que adecuado para la transferencia de sonido digital. La segunda razn para que no se haga la compresin en tiempo real mediante software es que la industria de las tarjetas de sonido todava carece de un nico estndar para la compresin de sonido. Mientras que se acepta generalmente la tcnica ADPCM, su implementacin vara, as que un archivo de sonido que se haya comprimido usando un determinado paquete de programas no podr leerse con un paquete proporcionado por otra compaa. Peligros de la compresin y descompresin repetitivas El esquema de compresin puede ser con o sin prdidas. Con las tcnicas de compresin sin prdidas (como las realizadas por PKZIP) se pueden comprimir sonidos, imgenes u otro tipo de archivos, para almacenarlos o para su transmisin telefnica, y luego pueden expandirse y usarse sin ninguna degradacin en la calidad. Como los archivos de sonido no tienen redundancias, el ahorro que se produce en el tamao del archivo al comprimirlo es muy pequeo cuando se usan estas tcnicas sin prdidas. Por lo tanto, los archivos de sonido se comprimen generalmente con las tcnicas de compresin con prdidas ADPCM y similares. Se debe evitar comprimir y descomprimir repetidamente un archivo de sonido digital, ya que cada vez que se realiza una de estas operaciones se pierde una pequea parte de la informacin. Esta degradacin se produce de la siguiente manera: Cuando se redondea el valor de una muestra, se generan errores de cuantificacin. Por ejemplo, si una onda tiene una altura de 8,53 unidades, pero slo son admisibles los valores enteros entre son 1 y 10, debe redondearse a 9. En este caso el error de cuantificacin es de casi el 5%. Las sucesivas compresiones y descompresiones estropearn rpidamente la calidad del sonido, ya que se ir acumulando este tipo de error. Procesamiento de seales digitales: Tecnologas de punta Todas las tarjetas de sonido de Creative Labs graban y reproducen sonido digital LPCM (no comprimido). Una vez que el sonido se haya almacenado de forma digital, nmeros en la computadora, puede ser fcilmente procesado (transformado). La forma comn de denominar al trabajo con sonido e imgenes, cuando estn en forma digitalizada, es procesamiento de seales digitales. Tradicionalmente, los efectos especiales de sonido se llevaban a cabo mediante hardware analgico, como cuando se usa una unidad eco para aadir un eco, y frecuentemente se acompaaban con una base restringida de software, con lo que se vean limitados al tener que usar la CPU del PC. Como ejemplos de programas que realizan slo una cantidad limitada de procesamiento de seales digitales, ya que usan la CPU, podemos sealar Creative WaveStudio, VEDIT2 de la Sound Blaster Pro y Sound Recorder, un accesorio de Microsoft Windows. La Sound Blaster 16 con procesamiento avanzado de seales, la tarjeta ms novedosa de Creative Labs, tiene integrado un chip para el procesamiento de seales digitales (DSP). Gracias a este chip, la Sound Blaster 16 es capaz de
El programa VEDIT2 de la Sound Blaster Pro puede comprimir sonido digital de 8 bits, pero slo despus de haberlo capturado en forma no comprimida de la memoria (de la RAM de la computadora, no del disco fijo). Cuando se desee almacenar en disco se puede seleccionar la compresin 4:1 (8 bits se guardan como 2), la 3:1 (los 8 bits ocupan aproximadamente 2,6 bits) o la compresin 2:1 (los 8 bits se transforman en 4). Esta compresin es factible ya que VEDIT2 almacena en el disco a su propio ritmo, es decir, rpidamente desde nuestro punto de vista, pero despacio si se compara con la velocidad a la que se graba el sonido que llega del micrfono, del sonido en lnea o del sonido procedente de la salida del CD-ROM. Limitaciones a la compresin de los archivos Wave Creative Soundo'LE es un producto para Microsoft Windows -un programa de grabacin y edicin compatible que acompaa a todas las tarjetas Sound Blaster hoy en da. Este programa puede comprimir y descomprimir, en tiempo real, archivos de sonido digital de 16 bits mediante las tcnicas ADPCM, A-law y -law, pero slo cuando se ejecutan con la potente Sound Blaster 16. Las tarjetas de 8 bits Sound Blaster 1.x/2.0 y la Sound Blaster Pro tambin tienen cargado el Soundo'LE, pero una versin que no es capaz de realizar la compresin. VEDIT2 de la Soundblaster Pro puede comprimir, pero no en tiempo real. Hay dos razones por las que las tarjetas de Creative Labs -salvo la Sound Blaster 16 con procesamiento avanzado de seales -- tienen limitaciones a la hora de realizar la compresin en tiempo real. La primera razn es que sin un chip dedicado a la compresin (como el chip de procesamiento avanzado de seales), muchos PC no tienen la potencia computacional suficiente para hacer la compresin en tiempo real, si la frecuencia de muestreo es alta. Por ejemplo, la Sound Blaster 16 con procesamiento avanzado de seales, para manipular la compresin lo bastante rpido, necesita al menos un 386 DX/33 MHz o un 486 SX/25 MHz. Una Sound Blaster 16 sin el DSP tiene que emplear la CPU de la computadora para la compresin, as que necesita an ms potencia. Probablemente tendr que usar al menos una 386 DX/40 MHz o 486 SX/33 MHz. La razn de que la frecuencia mxima a la que se puede grabar o reproducir sonido digital en crudo (sin comprimir) sea de 44,1 kHz (Sound Blaster Pro y Sound Blaster 16) es que la tarjeta de sonido tiene un circuito PCM
procesar seales ms rpidamente y mejor que las tarjetas de sonido de 8 bits, ya que tiene un chip dedicado exclusivamente a esta tarea. Este chip es un tipo especial de microprocesador diseado especficamente para que ejcute las operaciones ms bsicas del procesamiento de seales digitales: adicin, multiplicacin y retardo. El procesamiento de seales digitales se aplica en numerosos campos, tales como tratamiento de sonido Q-Sound, compresin y descompresin, conversin de la frecuencia de muestreo, ecualizacin (cambio de la longitud relativa de las componentes en frecuencia), mezcla, encubrimiento de los errores (enmascaramiento de los defectos), descomposicin en frecuencias (FFT para el tratamiento de voz) y efectos musicales. Hoy en da, el nico procesamiento del que se encarga el DSP es la compresin, descompresin y sonido QSound. La mayor de las ventajas que surgen del uso del DSP, en lugar de la CPU de la computadora, para el procesamiento de seales digitales, es que el DSP toma para s el prosaico pero muy intensivo trabajo de procesar las seales digitales. As, la CPU de la computadora queda libre para interactuar con usted y ocuparse de otras tareas. La relacin que se establece entre la CPU y el DSP es la misma que la que existe entre la CPU y su coprocesador matemtico. Adems, dado que se ha optimizado el DSP para que realice el procesamiento de seales digitales, lo emprende a su propio ritmo furioso, ms rpidamente que un procesador de propsito general como el 80386 o el 80486; al menos es comparable a la velocidad de trabajo de un Pentium. Los melmanos apreciarn los efectos especiales del tipo de la reverberacin (el eco dbil que se escucha dentro de un auditorio o un edificio) y el efecto coro (los pequeos retardos que se producen al comienzo del sonido de un instrumento y que hacen que el sonido sintetizado de un nico instrumento se escuche como si tocasen juntos un grupo de instrumentos idnticos al anterior) y pueden hacerse en tiempo real, as que el sonido puede procesarse a medida que se graba o se interpreta. Los chips DSP son todava demasiado caros para que se haya extendido su uso en las tarjetas de sonido. Por esta razn, Creative Labs ofrece tanto la Sound Blaster 16 como la ms cara Sound Blaster 16 con procesamiento avanzado de seales. Cuando baje el coste de los DSP, stos harn su aparicin en todas las tarjetas de sonido y se dotar inmediatamente a las aplicaciones audio de una nueva potencia y flexibilidad. EMU8000: la siguiente generacin de sonido DSP Los visitantes que acudieron a Las Vegas en noviembre de 1993 para ver la exposicin de computadoras, pudieron vislumbrar lo que ser la base de la siguiente generacin de tecnologa del sonido: el chip EMU8000 para el procesamiento de seales digitales de sonido, de los laboratorios E-Mu Systems, Inc. (E-Mu). E-Mu, fundada en 1972, y que hoy en da es una empresa subsidiaria de Creative Labs, est a la cabeza de la fabricacin de instrumentos digitales. E-Mu est considerado como un lder en las industrias de la grabacin, los instrumentos musicales y la posproduccin de archivos/video. En base a su extensa experiencia con equipos profesionales, han creado un chip DSP de alta calidad y bajo costo que
Pag. 2-19 combina las funciones ms importantes de las tarjetas de sonido: sonido digital de 16 bits, sntesis de ondas muestreadas, soporte MIDI completo, mezcla de sonido, polifonas de 32 voces, filtro de sonido integrado y efectos especiales del tipo de la reverberacin, los coros, la ecualizacin digital, la panormica, la conversin de la frecuencia de muestreo y los cambios en el tono (sin cambiar la velocidad de reproduccin). El chip EMU8000 no es el primero ni el nico chip DSP que surge en el mundo del sonido (como ejemplo podemos sealar el potente chip de IBM M-Wave), pero es especial, ya que forma parte de un subsistema de sonido completo que rene el conjunto de caractersticas adecuado para llegar a ser un estndar industrial. E-Mu proporcionar pronto una solucin integrada de hardware y software preparada para su incorporacin a las tarjetas de sonido de Creative Labs, las tarjetas de las computadoras, los equipos profesionales de sonido y que incluso puede integrarse en algunas aplicaciones. Tecnologa de voz de DECtalk Creative Labs dio un salto cuantitativo en la sntesis de voz (conversin de texto en voz) con la adquisicin de la licencia exclusiva del dispositivo de voz DECtalk de Digital Equipment Corporation (DEC), un mdulo de programas cuidadosamente escritos, que ha sido optimizado para la sntesis de voz. En la industria de la voz, el dispositivo DECtalk est considerado como el que produce el sonido ms natural, a partir de texto, de los creados hasta la fecha. La mayor parte de los programas de texto a voz son inteligibles pero limitados. Tpicamente se escucha una sola voz con un timbre montono como en las pelculas de ciencia ficcin de los aos setenta, pero no es la que uno considerara como ideal para escuchrsela al PC todos los das. Creative Labs ha desarrollado un nuevo software para la sntesis de voz, llamado TextAssist y construido alrededor del dispositivo DECtalk. Creative ha reescrito DECtalk para que trabaje con la Sound Blaster 16 con procesamiento avanzado de seales. TextAssist no slo suena ms natural que Monologue para Windows, sino que adems ofrece muchas facilidades adicionales, incluyendo nueve voces predefinidas, masculinas y femeninas, de nio y de adulto, todas con excelente calidad. Usted puede aadir sus propias voces para que se adapten a su gusto personal, mediante el ajuste de parmetros como el tono, la duracin de los fonemas, la configuracin de la velocidad y del volumen, as como las caractersticas fsicas de las voces. La sntesis de voz DECtalk la invent Dennis Klatt, investigador del Instituto Tecnolgico de Massachusetts (MIT) y consultor de DEC hasta su fallecimiento en 1988. Klatt, con una slida formacin en ingeniera elctrica y muy interesado por la psicologa de la percepcin, estaba considerado como uno de los mejores cientficos de la voz en el mundo. El trabajo de su vida fue la creacin de una computadora que "modelaba" la forma en que se produce la voz humana. Su logro capital fue la creacin de un sintetizador de voz cuidadosamente desarrollado para imitar el acento del ingls americano. Esta tecnologa apareci por primera vez en 1983 como el componente software de un dispositivo hardware construido a medida, del tamao de un maletn. DECtalk PC estuvo disponible de forma prctica por primera vez en 1991 como
una tarjeta EISA/ISA para PC con un precio de venta al pblico de 1.195 dlares. Se ha adaptado esta misma tecnologa para que trabaje con el chip DSP de procesamiento avanzado de seales de la Sound Blaster 16. El enfoque ms comn a la sntesis de voz consiste en utilizar un sintetizador de fonemas o difonemas (la mitad de un fonema). Los fonemas son los sonidos ms importantes del discurso, ya que constituyen bloques de lenguaje. El ingls americano, por ejemplo, tiene alrededor de 40 fonemas. Los fonemas son los sonidos que cuando se sustituyen hacen que cambie el significado de una palabra. Por ejemplo, /b/ y /k/ son claramente dos fonemas diferentes porque si se sustituye la /k/ por la /b/ en la palabra "cat" (/k//a//t/), sta se transforma en la palabra "bat" (/b//a//t). Evidentemente, hay muchos ms de 40 sonidos en ingls. Siguiendo un ejemplo tomado de la Cambridge Encyclopedia of Science, el sonido "el" de la palabra "leaf' difiere de ese mismo sonido en la palabra "pool", aunque estos sonidos (llamados alfonos) pueden intercambiarse sin cambiar el significado de las palabras, a pesar de que la pronunciacin difiera en un acento. En cambio, en ruso, estos dos alfonos son fonemas distintos, dado que si se intercambian cambia el significado de la palabra. No hay ms que ver lo fcil que es crear nuevas palabras sin sentido en ingls para darse cuenta de que ste es un idioma muy rico en fonemas: dat, gat, jat, lat, y as sucesiva mente. Con la notable excepcin de DECtalk PC, la tecnologa subyacente bajo la sntesis de voz a partir de texto en el PC, se basa normalmente en la sntesis de fonemas. Monologue para Windows, que est instalado en cientos de miles de tarjetas de sonido de Creative Labs, es un ejemplo de sintetizador de fonemas. Con el propsito de aumentar la calidad de la sntesis de voz, cada fonema puede dividirse en dos mitades, cada una de las cuales se denomina difono. Con este mtodo, la palabra "cat" se representara como cuatro difonos:
Difono 1 2 3 4
Sonido Silencio + primera mitad de la "c" segunda mitad de "c" + primera mitad de la "a" segunda mitad de "a" + primera mitad de la "t" segunda mitad de "t" + silencio
Monologue para Windows, que sintetiza voz mediante el anlisis de palabras :omo fonemas ms que como difonos, ve la palabra "cat" como tres fonemas: /k/ /AE/ t/ donde /AE/ es el cdigo fontico de Monologue para la "a" cuando suena como en a palabra "cat". Un sintetizador de fonemas contiene muestras pregrabadas de cada fonema o difono. Para cada voz (tal como la de una mujer adulta o la de una adolescente), todas las nuestras deben provenir del mismo hablante nativo. Durante la produccin de voz, el texto que llega se transforma en una cadena de fonemas, y en el caso je los sintetizadores de voz basados en difonos, los sonidos se reducirn a difonos. A rontinuacin se aplican reglas y diccionarios -- la parte patentada en los sistemas de sntesis de voz a partir de fonemas -- para optimizar la secuencia difnica (conjunto de cdigos de difonos) y conseguir un discurso que suene de manera natural, mediante la inclusin de
Pag. 2-20 marcas especiales dentro de la secuencia de fonemas o difonos que mejoran a entonacin (timbre), el ritmo (velocidad) y el tono. La secuencia as obtenida se enva al hardware de generacin de la voz que ser el encargado de crear la forma de onda del sonido. La sntesis de constituyentes o formants, en ingls (un constituyente es un estallido de energa acstica, una explosin de sonido, que es caracterstica de muchos fonemas) es un enfoque de la sntesis de voz radicalmente disitinto de la sntesis de fonemas. En lugar de concatenar una secuencia de muestras pregrabadas de voz, que es el mtodo que se utiliza en los sintetizadores de fonemas, un sintetizador de constituyentes utiliza un modelo matemtico del tracto vocal humano, implementado como un programa de computadora. Es posible modelar el tracto vocal mediante algunos artefactos fsicos muy familiares, tales como una tubera (a modo de garganta) y una cuerda tensa (a modo de cuerdas vocales -- los fsicos han creado modelos que describen su comportamiento vibratorio). En DECtalk PC se incluye un sintetizador de constituyentes, del tipo del sintetizador Klatt de constituyentes (desarrollado por Dennis Klatt), que es capaz de generar voz con un sonido natural mediante un modelo matemtico donde se definen parmetros para especificar el tono, la amplitud, la duracin y otros factores que contribuyen a la generacin de voz. Los sintetizadores de fonemas y los sintetizadores de constituyentes, como el dispositivo DECtalk incluido en Creative TextAssist, coinciden en el primero y ltimo pasos, pero difieren en la manera en que se manipula la secuencia de fonemas. Mediante la aplicacin de reglas y el uso de diccionarios, el dispositivo DECtalk convierte la secuencia de fonemas en valores de control del sintetizador, que se envan al modelo computacional del tracto vocal, donde se crea la forma de onda de la voz. Es sencillo modificar las voces. Por ejemplo, para obtener una voz ms grave se modifican los parmetros que especifican el tamao de la laringe y el grosor de las cuerdas vocales. Los sintetizadores de constituyentes son mucho ms flexibles que los sintetizadores de fonemas debido a que no estn basados en un conjunto de sonidos pregrabados para cada voz. Con un sintetizador de fonemas, la creacin de una nueva voz requiere un laborioso proceso de grabacin adems de necesitar mucho espacio de almacenamiento -- de 350 a 750K, segn el tamao y el ritmo de la muestra. La creacin espontnea de nuevas voces es impensable. Por el contrario, con un sintetizador de constituyentes es posible crear voces nuevas o modificar las ya existentes (como la conversin de una voz hablada en la misma voz cantada) sin ms que asignar valores diferentes a los parmetros del dispositivo de voz. Debido al reducido nmero de parmetros necesarios para definir una voz, que no necesitan ms que 56 bytes para ser almacenados, es posible personalizar las voces de la computadora (como la voz de Talking Scheduler). En el futuro es posible que se desarrollen programas capaces de extraer e imitar las caractersticas de la voz de cualquier persona. Pocos de nosotros toleraramos escuchar a una computadora imitando perfectamente nuestra propia voz, pero en la oficina del siglo XXI podra ser habitual que en los mensajes electrnicos se incluyera un fragmento con la voz del
remitente. Dado que es posible definir de manera concisa las caractersticas de la voz, no es demasiado arriesgado pensar en futuros sistemas multimedios basados en TextAssist de Creative Labs que incluyan cientos, si no miles, de voces diferentes, creadas muchas de ellas de manera dinmica, en respuesta a diferentes situaciones, como si, por ejemplo, estando en un abarrotado mercado tunecino decidimos preguntarle una direccin a un tendero, a un turista o a un polica. La voz no se limita a la voz humana. El dispositivo de voz DECtalk tiene la posibilidad de crear el ladrido de un perro, el maullido de un gato y el sonido de cualquier otro animal cuyo tracto vocal sea lo bastante parecido al de los seres humanos. El mismo dispositivo, una vez se le aadan los analizadores adecuados para convertir en fonemas texto de otro idioma, es capaz de hablar esa lengua. Quiz nos encontremos ante un caso de tecnologa que corre desbocada, pero con las futuras versiones de TextAssist debera ser posible generar una voz por computadora que cantase en cualquier idioma y con cualquier acento.
Pag. 2-21 general para los archivos de datos de Windows con Multimedios. Toda la informacin para los multimedios puede (y debe) guardatse en el formato RIFF.
Desplazamiento 0000 0000 0008 000C 0010 0014 0016 0018 001C 0020 0022 0024 0028 002C
Charles Petzold, "Almacenando sonido: una mirada a los archivos de sonido con formas de onda", PC Magazine en espaol, mayo 1992.
Los programadores pueden usar las facilidades de sonido por forma de onda de las Extensiones de Multimedios para Windows bien con una interfaz de programacin de bajo o alto nivel. Con la de bajo nivel, se usan funciones que comienzan con el prefijo wave (onda). El sonido se graba en bloques de memoria global y se reproduce desde estos bloques. La interfaz de alto nivel se llama MCI (Interfaz de Control de Medios) y emplea archivos en lugar de bloques de memoria para grabar y reproducir el sonido por forma de onda. MCI est disponible bien a travs de una interfaz de mensaje y estructura o de cadenas de comandos. En ambos casos, los archivos con la extensin WAV se reconocen como archivos de sonido por forma de onda. Cubriremos los archivos en forma de onda y dos funciones ms de alto nivel que pueden reproducir el sonido por forma de onda. EL FORMATO DE SONIDO POR FORMA DE ONDA El Windows con Multimedios viene con varios archivos de sonido por forma de onda que se guardan en el subdirectorio MMDATA de su directorio de Windows. Los programas de MCI que he discutido antes tambin crean archivos.WAV. Se puede crear archivos de sonido por forma de onda usando el programa Grabadora de Sonido (sound recorder) que se incluye en el Windows con Multimedios, o los programas MCITEST y WAVEEDIT que vienen con el Kit para Programadores de Multimedios (MDK). Si echa un vistazo a estos archivos .WAV con un editor hexadecimal, ver que tienen un formato como el que se muestra en la Figura 1. Este formato es un ejemplo de un formato ms extenso conocido como RIFF (Formato de Archivo para Intercambio de Recursos), que es el formato
Bytes Datos 4 "RIFF" 4 tamao del bloque de forma de onda (tamao del archivo - 8) 4 "WAVE" 4 "fmt " 4 tamao del bloque de formato (16 bytes) 4 pcm.wf.wFormatTag = WAVE_FORMAT_PCM = 1 4 pcm.wf.nChannels 4 pcm.wf.nSamplesPerSec 4 pcmwfnAvgBytePerSec 4 pcmwf.nBlockAlign 4 pcm.wBitsPerSample 4 "data" 4 tamao de los datos de forma de onda datos de forma de onda
Figura 1. Ejemplo de archivo .WAV. Es parte de un formato ms general conocido como Formato de Archivo para Intercambio de Recursos (RIFF), que es el formato general para los archivos de datos de Windows con Multimedios.
RIFF es un formato de archivo marcado (tagged), con archivos que consisten de bloques de informacin identificados por un nombre de 4 caracteres ASCII y de un tamao de 4 bytes (32 bits). EI valor del tamao del bloque no incluye los 8 bytes que se requieren para el nombre y tamao del bloque. Un archivo de sonido por forma de onda comienza con la cadena de texto "RIFF"', que lo identifica como un archivo RIFF. A continuacin hay un bloque de 32 bits que es el tamao del resto del archivo, o sea, el tamao del archivo menos 8 bytes. El bloque de informacin comienza con la cadena de texto "WAVE", que lo identifica como un bloque de sonido por forma de onda. Otra cadena de texto "fmt" (note el espacio en blanco para hacerla una cadena de 4 bytes) viene a continuacin, lo que lo identifica con un bloque secundario que contiene el formato de los datos de sonido por forma de onda. A la cadena "fmt" la sigue el tamao de la informacin de formato, en este caso 16 bytes. La informacin de formato es una estructura PCMWAVEFORMAT. PCMWAVEFORMAT comienza con unaestructura WAVEFORMAT. E1 primer campo de WAVEFORMAT es wFormat Tag, el tipo de formato de la informacin, que se define en la actualidad como WAVE_FORMAT PCM (igual a 1), lo que indica modulacin de cdigo de pulso. Las versiones futuras de Windows con Multimedios pueden definir otros formatos para el sonido por forma de onda. El campo nChannel es bien 1 2, para sonido mono o estreo. El campo nSamplesPerSec es el nmero de muestras
por segundo; los valores estndares son 11.025, 22.050 y 44.100. El campo nAvgBytesPerSec es la razn de muestreo en muestras por segundo multiplicado por el nmero de canales y por el tamao de cada muestra en bits, dividido entre 8 y redondeado. Los tamaos estndares para las muestras son de 8 y 16 bits. EI campo nBlockAlign es el nmero de canales multiplicado por el tamao de la muestra en bits, dividido entre 8 y redondeado. Finalmente la estructura PCMWAVEFORMAT concluye con un campo nBitsPerSample, que es el nmero de canales multiplicado por el tamao de la muestra en bits. Despus de la informacin de formato viene la cadena de texto "data" seguida por un tamao de informacin de 32 bits, a lo que sigue la propia informacin de la forma de onda. Esta informacin no est comprimida y consiste simplemente de las muestras consecutivas. Los datos estn en el mismo formato que se usa en las facilidades de sonido por forma de onda de bajo nivel. Si el tamao de la muestra es de 8 bits o menos, cada muestra consiste de 1 byte (para mono) o 2 bytes (para estreo). Si el tamao de la muestra est entre 9 y 16 bits, cada muestra es de 2 bytes (mono) o 4 bytes (estreo). Para los datos de forma de onda en estreo cada muestra consiste del valor izquierdo seguido del derecho. Para los tamaos de muestra de 8 bits o menos, el byte de muestra se interpreta como un valor sin signo. (Por ejemplo, para un tamao de muestra de 8 bits un silencio es equivalente a una cadena de 0x80 bytes). Si el tamao de muestra es de 9 bits o ms, se interpreta la muestra como un valor con signo, y el silencio es equivalente a una cadena de 0 valores. EL FORMATO DE ARCHIVO PARA INTERCAMBIO DE RECURSOS (RIFF) Una discusin completa del RIFF aparece en la Referencia para el Kit para Programadores de Multimedios [MDK) de Windows. Un archivo RIFF consiste de uno o ms bloques que se identifican por un nombre en maysculas de 4 caracteres y un tamao de datos de 4 bytes, seguidos por el bloque de datos. El tamao de 4 bytes no incluye los 8 bytes que se requieren para los bytes del nombre y el tamao. En el caso de un archivo de sonido por forma de onda, el nombre del bloque es "RIFF" y el tamao de los datos son los prximos 4 bytes del archivo. El bloque de datos comienza con la palabra "WAVE" pero "WAVE" no introduce un nuevo bloque. Notar que no est seguida por un tamao del bloque. En cambio, el identificador "WAVE" est seguido por dos bloques secundarios. El primero de estos usa el identificador "fmt " y el segundo usa un identificador de bloque "data". Despus de ambos vienen tamaos de bloques de datos de 4 bytes. Los tamaos de datos deben aproximarse al siguiente mltiplo de 2. Una de las reglas ms importantes para leer los archivos marcados es ignorar los bloques con los que no quiere lidiar. Aunque un archivo de sonido por forma de onda requiere bloques secundarios "fmt" y "data" (en ese orden), puede contener tambin otros bloques secundarios. En particular, un archivo de sonido por forma de onda puede incluir un bloque secundario marcado como "INFO" y sub-bloques secundarios dentro del secundario que pro veen informacin del archivo de sonido por forma de onda.
Pag. 2-22 La tabla de la Figura 2 muestra un posible bloque secundario INFO que pudiera aparecer en un archivo de sonido por forma de onda. Este bloque secundario contiene tres subbloques secundarios con las etiquetas "INAM" (nombre), "ICOP" (derecho reservado), e "ICRD" (fecha de creacin). Tales bloques secundarios de informacin pueden aparecer en otros archivos RIFF. Este bloque secundario puede aparecer antes del bloque secundario de formato, entre el bloque secundario de formato y el bloque secundario de datos, o despus del bloque secundario de datos. Y tambin pudiera haber otros. Bytes 4 4 4 4 12 4 4 32 4 4 12 Datos "INFO" 80 "INAM" 12 "Audio Logo\0\0" "ICOP" 32 "Copyright 1991, Charkles Petzold\0" "ICRD" 12 "1991-10-30\0\0"
Figura 2. Un trozo secundario de informacin como este pudiera aparecer en cualquier archivo de sonido por forma de onda. As que si necesita sacar datos de un archivo de sonido por forma de onda, salte todo bloque secundario que no reconozca o con el que no pueda lidiar. Esto es fcil porque el tamao del bloque secundario sigue al identificador del bloque. NOMBRES DE SONIDO Los archivos de forma de onda pueden asociarse con "nombres de sonidos", que son entradas en la seccin "[sounds]" del archivo WIN.INI, en una versin instalada de Windows con Multimedios. Estos nombres de sonidos pueden usarse con MCI y con la funcin sndPlay Sound. (En seguida lo explicar en detalle). Las entradas en la seccin "[sounds]" de WIN.INI tienen el formato: SoundName=FileName Por ejemplo, encontrar dos entradas que parecen as: SystemStart=c:\mmwin\mmdata\water.wav SystemExit=c:\mmwin\mmdata\bella.wav Estos son los archivos de sonido que se tocan cuando comienza y termina Windows con Multimedios. Tambin encontrar las siguientes entradas: SystemDafault= SystemAstarisk= SystemExclamation= SystemHand= SystemQuestion=
con otros archivos.WAV que siguen a los signos de igual. Estas se usan junto con la funcin MessageBeep que explicar en los prrafos siguientes. El programa Reloj de Multimedios (multimedia clock) usa la seccin "[sounds]" de WIN.INI para guardar los nombres de archivos.WAV que el programa usa para imitar los sonidos de un reloj y sonar una alarma. Puede aadir los nuevos nombres de sonido, o cambiar los nombres de archivo asociados con los nombres de sonidos existentes, invocando la opcin de Sound en el Panel de Control de Windows con Multimedios. Un programa puede tener acceso al nombre de archivo asociado con un nombre de sonido o aadir nuevas enaadas usando las funciones GetProfileString y WriteProfileString. LA FUNCION ANDPLAYSOUND La funcin ms simple que puede usarse para tocar archivos de sonido por forma de ondaes probablemente la funcin sndPlaySound, que tiene la siguiente sintaxis: BOOL andPlaySound (lpzsSound, wFlags) Esta es la nica funcin en las extensiones de multimedios que tiene el prefijo "snd". Se asume que el primer parmetro es un nombre de sonido listado en la seccin "[sounds]" de WIN.INI. Si no puede encontrarse all un nombre de sonido, entonces se asume que es un nombre de archivo de sonido por forma de onda. Si no puede encontrar el archivo, la funcin toca el archivo de sonido por forma de onda asociado con el nombre de sonido asociado con la variable SystemDefault. En cualquier caso, el archivo de sonido por forma de onda debe caber en la memoria disponible. La funcin sndPlaySound retorna FALSE si no hay una entrada en SystemDefault o si no puede encontrarse el archivo asociado con SystemDefault. Pueden especificarse seis indicadores (flags) en el segundo parmetro. El prefijado es SND_SYNC (igual a 0), lo que significa que la funcin no regresa hasta que se termine de tocar el sonido. De forma alterna, puede especificar que SND_ASYNC toque el sonido de forma asincrnica. En este caso la funcin retorna inmediatamente y el sonido se toca en segundo plano. Si quiere detener un sonido que sndPlay Sound est tocando, puede llamar: andPlaySound(null,0); Si usa el indicador SND_ASYNC tambin puede incluir el indicador SND_LOOP para tocar el sonido sin cesar. Puede detener la repeticin llamando a sndPlaySound con un primer parmetro que sea NULL. Normalmente, sndPlaySound toca un archivo de sonido por forma de onda, pero si usa el indicador SND_MEMORY, el primer parmetro de sndPlaySound se asume que sea un puntero a un bloque de memoria que contiene una imagen en memoria de un archivo de forma de onda. Esto simplifica la inclusin de archivos de forma de onda.WAV en los recursos definidos por el programador para su programa. Usa LoadResource y LockResource para tomar un puntero al bloque de memoria que contiene el archivo y simplemente pasa el puntero a sndPlay Sound con el indicador SND_MEMORY.
Pag. 2-23 Los dos indicadores adicionales son SND_NODEFAULT y SND_NOSTOP. SND_NODEFAULT evita que la funcin toque los sonidos prefijados si no puede encontrar el sonido pedido. El indicador SND_NOSTOP hace que la funcin retorne FALSE si se est tocando otro sonido. LA NUEVA FUNCION MESSAGEBEEP La funcin MessageBeep ha estado en Windows desde la versin 1.0, pero siempre se ha definido de una forma algo peculiar. La sintaxis es: void MessageBeep (wType); En las versiones normales de Windows el parrnetro wType no se usa y "debe fijarse a cero", de acuerdo con la Referencia para el Programador de Windows de Microsoft (Realmente, el parmetro wType se ignora as que puede fijarlo a lo que quiera). En Windows con Multimedios el parmetro wType tiene un nuevo significado, como se muestra en la Figura 3. wType -1 0 MB_ICONASTERISK MB_ICONEXLAMATION MB_ICONHAND MB_ICONQUESTION Sonido El sonido de la PC Sonido "SystemDefault" Sonido "SystemAsterisk" Sonido "SystemExlamation" Sonido "SystemHand" Sonido "SystemQuestion"
Figura 3. En una versin que no sea de multimedios de Windows, el parmetro wType no es usado. Aqu se muestra cmo es usado en Multimedios de Windows.
Note que los valores de wType co mienzan con el prefijo MB que son las constantes que se usan en la funcin Mes sageBox para especificar el tipo de icono que se muestra. El uso de la funcin MessageBeep es la forma ms conveniente de hacer que sus programas de Windows "conozcan" el multimedios sin tener que aadir llamadas a funciones especficas de multimedios. Generalmente, use MessageBeep antes de llamar a MessageBox. Slo tiene que pasar el mismo parmetro a MessageBeep que usa para especificar el icono en MessageBox, de esta forma: MessageBeep(MB_ICONASTERISK); MEssage8ox (hwnd, "File Not Found!", NULL, MB_OK | MB_ICONATERISK); Asegrese de llamar a MessageBeep antes de MessageBox, porque MessageBox no regresa hasta que el usuario termine de mostrar la caja de mensaje. Bajo las versiones de Windows que no son de multimedios, MessageBeep simplemente hace sonar al altavoz de la PC sin importar el parmetro. Cuando se instalan las extensiones de Multimedios, MessageBeep toca un archivo de sonido definido por el usuario. Como existen muchos programas que sencillamente llaman a MessageBeep con un parmetro de cero, puede que quiera definir su sonido de SystemDefault para
que sea algo breve y simple. Puede divertirse con estos nombres de sonidos. Yo he grabado mi voz en archivos de sonido y he fijado los sonidos SystemAsterisk (asterisco), SystemExclamation (admiracin), SystemHand (mano) y SystemQuestion (pregunta) a archivos
Pag. 2-24 que contienen el sonido de las palabras "hey", "uhhhh", "pare!" y "cmo?". Algo interesante es que parece que la respuesta del odo a estas frases fuera ms rpida que la respuesta visual a los iconos.
2.3. Codificacin de la Voz a Baja Velocidad

En nuestro mundo que tiende cada vez a redes de banda ancha para altas velocidades, la codificacin del habla a bajas velocidades tiene su importancia. Una razn de ello es la creciente necesidad de transmitir mensajes hablados con alto nivel de seguridad sobre canales de baja velocidad, tales como enlaces militares va radio. Otro factor es el deseo de sistemas eficientes desde el punto de vista de memoria para el almacenamiento de voz y para lo que se conoce como el correo de voz, es decir buzones electrnicos donde se almacenan mensajes hablados. Un chip de memoria de 16 Mb podra guardar 1 hora de habla a 4 kb/s, as que la capacidad de dispositivos de grabacin, tales como mquinas contestadoras, puede aumentar significativamente. La codificacin del habla a baja velocidad permite compartir entre voz y datos un canal B a 64 kb/s de la ISDN (Red Digital de Servicios Integrados, donde todas las formas de comunicacin se reducen al formato digital). Se puede usar 56 o 48 kb/s para la voz y 8 o 16 kb/s para datos. Tambin es crucial para acomodar ms usuarios sobre canales comerciales que tienen limitaciones inherentes de ancho de banda o potencia, tal como la telefona celular o en las comunicaciones por satlite. Actualmente en telefona celular se usa canales analgicos FM con ancho de banda de 30 KHz, pero en el futuro se van a usar canales digitales con quizs 8 kb/s para codificar la voz con ancho de banda de 10 kHz. Las velocidades bajas pueden adaptar ms fcilmente los mensajes de voz para la conmutacin por paquetes (como Frame Relay). El cifrado de mensajes secretos o importantes puede llegar a ser ms facilmente disponible para el sector comercial o militar. Se podra afirmar que en las telecomunicaciones hay 2 tendencias claras de evolucin: mientras los expertos en codificacin tratan de bajar la velocidad binaria para un dado nivel de calidad, los expertos en transmisin digital tratan de subir la velocidad de transmisin que un canal puede acomodar. Por ejemplo, pronto puede ser prctico el enviar seales digitales de voz de alta calidad a unos 8 kb/s sobre una amplia gama de canales, en vez de los canales digitales de mayor ancho de banda, a los cuales estamos obligados actualmente. Algoritmos de codificacin robustos y de alta calidad estn reduciendo la velocidad de transmisin y nuevos modems, tal como el V.34bis trasmiten a 33.600 b/s sobre canales con ancho de banda de apenas 3 KHz. As que los enlaces de voz analgicos ahora utilizados para transmitir voz analgica de alta calidad sern entonces capaces de llevar voz digital de alta calidad con beneficios adicionales tal como seguridad y privacidad. Con la vista puesta en aplicaciones como las mencionadas, los entes de estandarizacin y los laboratorios de procesamiento digital de seales han estado muy activos en los ltimos aos. Los investigadores han ensayado una gran variedad de esquemas de codificacin y aparecen continuamente nuevos conceptos de codificacin que se aaden a los existentes. Si bien la tecnologa no est completamente madura, han aparecido numerosos productos y componentes. Los expertos en codificacin digital tratan de optimizar la interaccin de 4 parmetros: velocidad binaria, calidad, complejidad y retardo. En efecto, a medida que se trata de reducir la velocidad binaria, tambin se pierde la calidad del sonido, a menos que se aumente la complejidad del esquema de codificacin (y de los circuitos integrados que realizan el proceso). La complejidad incrementa los costos y a menudo aumenta el tiempo de procesamiento. Este retardo, por supuesto, no es un problema serio en aplicaciones como el correo de voz. Los investigadores se sienten optimistas ya que en el compromiso entre calidad de voz y velocidad binaria, los lmites fundamentales sugeridos por la percepcin del habla y la teora de la informacin son bastante bajos. Algunos opinan que se puede realizar la codificacin del habla con alta calidad a velocidadades tan bajas como 2 kb/s. A la relativamente alta velocidad de 64 kb/s, la calidad de la voz no es un problema. La modulacin por pulsos codificados convencional (PCM) es de una calidad altamente aceptable. De hecho muy pocas personas pueden decir si la voz en el otro extremo de la lnea telefnica se est transmitiendo digitalmente. Ms bien, como resultado de la transmisin digital, existe la ventaja de la mejor calidad de la voz, las interferencias quedan prcticamente eliminadas, el nivel de recepcin se vuelve independiente de la distancia y se puede conversar ms fcilmente con manos libres. Como se sabe, en PCM la forma de onda de la voz es muestrada, cuantificada y codificada digitalmente. En el extermo receptor se efecta el proceso inverso por medio de un decodificador. El nico algoritmo especial en PCM es la cuantificacin, donde se utiliza un cuantificador no lineal (ley A en Europa y ley en Estados Unidos y Japn), en el cual el paso de cuantificacin aumenta a medida que la amplitud aumenta. De esta forma la relacin seal a ruido de cuantificacin se mantiene constante sobre una amplia gama de niveles. Esta no linealidad favorece las bajas amplitudes, las cuales predominan en el habla. Tambin se explota una caracterstica de la audicin humana y es que las amplitudes altas logran enmascar, en cierta medida, el ruido de cuantificacin. A velocidades bajas, sin embargo, se requieren tcnicas mucho ms elaboradas. La funcin principal de estas tcnicas es analizar la seal de habla ms cuidadosamente, para as eliminar la redundancia presente de una forma ms profunda y usar los bits disponibles para codificar las partes no redundantes de una manera eficiente. A medida que la
velocidad binaria disponible se reduce a 32 kb/s, 16 kb/s, 8 kb/s y 4 kb/s, las tcnicas para la reduccin de la redundancia y el aprovechamiento de los bits deben ser cada vez ms sofisticadas. Un mtodo muy utilizado es la prediccin lineal, (LPC: Linear Predictive Coding) con el cual se codifica la seal de voz haciendo una estimacin de la misma como una funcin lineal de las muestras anteriores. El error de prediccin tiende a contener menor energa que la voz original y en consecuencia puede ser codificado usando menos bits para un dado grado de error de reconstruccin. LPC es una tcnica muy utilizada para el anlisis de muchas seales, no solamente la voz. Las seales producidas a travs del filtrado lineal de variaciones lentas son las ms adecuadas para LPC, especialmente si el filtro es excitado por pulsos breves pocos frecuentes. En el caso del habla, se asume que las seales son generadas por una fuente que excita un filtro lineal y la fuente puede representar soplos peridicos de aire que pasan a travs de la glotis (que es el espacio entre las cuerdas vocales) o que es el ruido producido por un estrechamiento en el tracto vocal y el filtro corresponde al tracto vocal superior. LPC es una forma de anlisis parmetrico, (esto es, basada en modelo) que permite una resolucin espectral ms precisa que la transformada de Fourier no parmetrica, sobre todo cuando la seal es estacionaria solamente por un corto tiempo. Para el habla, LPC utiliza un nmero reducido de parmetros vocales (llamados coeficientes LPC) que tienen que ver con la configuracin del tracto vocal y en consecuencia con el sonido que es emitido. Estos coeficientes puede ser utilizados en circuitos digitales como valores multiplicadores para generar una versin sinttica de la seal original o pueden ser almacenados como patrones para el reconocimiento de la voz. Otra tcnica es usar codificacin adaptable por sub-bandas, la cual fracciona el habla en bandas de frecuencias y asigna los bits diponibles de forma que se adecuen al espectro de la voz de entrada y a las propiedades del oido. Estas tcnicas pueden ser combinadas entre ellas en forma complementaria. Adicionalmente pueden ser combinadas con otra tcnica, llamada cuantificacin vectorial, en donde un bloque completo de entrada se cuantifica todo de golpe, en vez que en muestra por muestra. El resultado es un ahorro considerable en bits para un dado nivel de calidad de la voz reconstruida. Los sistemas que usan estas tcnicas son llamados codificadores de forma de onda (waveform coders) y son distintos de los llamados vocoders. Los primeros emplean algoritmos para lograr una salida que sea una aproximacin de la forma de onda de la seal de entrada. Los vocoders, en cambio, buscan una descripcin compacta de la seal de entrada y digitalizan solamente los parmetros de esta descripcin compacta. Esta descripcin usualmente se basa en la nocin de una seal de excitacin que alimenta un filtro lineal. Este es un modelo que trata de simular el proceso de excitacin y modulacin en el tracto vocal humano usando LPC. El resultado es por lo general un sonido artificial en el cual las palabras pueden ser entendidas claramente pero no se puede fcilmente identificar a la persona que habla. La calidad de los vocoders es aceptable para comunicaciones militares seguras que deben enviarse a velocidades muy bajas, por ejemplo, 4 kb/s o menos. En los Estados Unidos, por ejemplo, el estndar LPC-10 ha sido muy utilizado en ambiente militar durante aos. Los algoritmos
Pag. 2-25 utilizados por los vocoders no son muy robustos: pueden fallar cuando hay mucho ruido de fondo o cuando varias personas hablan simultneamente. Una aplicacin prometedora para el vocoder es en el correo de voz, ya que la codificacin puede ser efectuada sin prisa con un proceso cuidadoso que optimice la calidad de la voz. Algunos de los nuevos codificadores de forma de onda a baja velocidad incluso se aprovechan de la tecnologa de los vocoders. Estos cdificadores hbridos son ms robustos que los vocoders y su objetivo es lograr una calidad del habla que sea suficientemente buena para el servicio comercial, tanto en transmisin que almacenamiento, para velocidades de 8 kb/s y eventualmente de 4 kb/s. La compresin digital del sonido en general asume que una porcin de la onda que empieza de cierta forma probablemente contine de una forma conocida por un cierto tiempo ms. Esta predecibilidad hace innecesario representar la onda completa y permite que el codificador y el decodificador utilicen un algoritmo de prediccin basado en las propiedades estadsticas de la onda, cuantificando slo el error de prediccin. Este principio se explota, por ejemplo, en el PCM diferencial adaptable (ADPCM), donde la entrada al cuantificador es la diferencia entre una muestra de voz y la prediccin de la misma. Se utilizan 4 bits por muestra con velocidad de muestreo de 8 kHz, as que la velocidad binaria es de 32 kb/s en vez de los 64 kb/s del PCM convencional, donde se utilizan 8 bits por muestra. En el ADPCM la calidad subjetiva de la voz es comparable con el PCM y no hay incremento del retardo de procesamiento. La prediccin es lineal, ya que se hace una estimacin de la muestra de voz actual a partir de una combinacin lineal ponderada de muestras pasadas cuantificadas. El decodificador realiza una operacin inversa parecida a la integracin, aadiendo la seal diferencia cuantificada a su propia estimacin o prediccin de la muestra de voz actual. Si bien el principio del ADPCM se conoce desde hace muchos aos, no fue posible estandarizarlo en el CCITT como un cdigo a 32 kb/s sino hasta 1984, con el desarrollo de algoritmos eficientes y robustos. Estos algoritmos son eficientes en el sentido de que ellos adaptan la cuantificacin y la prediccin en forma sincrnica en el codificador y en el decodificador, sin trasmitir informacin explicita de adaptacin. Son robustos en el sentido de que funcionan razonablemente bien aun en ambiente con tasas de errores altas, hasta cerca de 1 error por cada 100 bits. Bajar de 8 a 4 bits por muestra involucra una relativa simple combinacin de cuantificacin adaptable y prediccin adaptable, pero ir de 4 a 2 bits por muestra (esto es, lograr la codificacin a 16 kb/s) es mucho ms difcil. Aqu se hace uso de la naturaleza peridica del habla y de una carcterstica de la forma como las personas escuchan, llamada enmascaramiento del ruido. La periodicidad del habla, esto es el hecho que personas hablan con un timbre caracterstico, permite la prediccin de ese timbre y en consecuencia codificarlo con pocos bits. El nmero de bits puede ser reducido ulteriormente por el enmascaramento del ruido: En lo que se refiere al que escucha, una fuerte formante (esto es, resonancia de vocal) tiende a enmascarar el ruido que se encuentra en la banda de frecuencias de la formante, si el ruido se encuentra a ms de 15 dB por debajo de la seal. Esto significa que cerca de las frecuencias de las formantes puede ser tolerado un error de
codificacin (el equivalente de ruido) relativamente alto y que la velocidad binaria puede ser reducida proporcionalmente. Como ejemplo, los esquemas ms complejos para codificacin sub-banda adaptable y el propio ADPCM usan prediccin del timbre y enmascaramiento del ruido, conformando el espectro de ruido. Ellos utilizan informacin acerca de las formantes de manera tal que las frecuencias del ruido de cuantificacin se modifican de acuerdo a la frecuencia del formante. En el ADPCM se le da cierta forma al espectro del ruido por medio de realimentacin del error o tcnicas de post-filtado. En cambio en la codificacin adaptable por sub-bandas, la forma del espectro del ruido se modifica por asignacin adaptable de los bits, esto es, se asignan ms bits a las frecuencias percibidas como ms importantes, logrando al mismo tiempo mantener un promedio de 2 bits por muestra. Para esto, la banda de voz se divide en 4 o ms sub-bandas contiguas por medio de un banco de filtros pasabanda y se emplea un esquema especfico de codificacin para cada sub-banda. En el extremo receptor, las seales de las sub-bandas son decodificadas y sumadas para as lograr una reproduccin fidedigna de la seal original. Como ejemplo, en el caso de un sistema de 4 sub-bandas de igual ancho, asumiendo que la velocidad de muestreo de cada subbanda sea 1/4 de 8 KHz (esto es 2 KHz), una velocidad promedio de 2 bits por muestra implica una velocidad total de 8 bits por muestra. En este caso la asignacin de bits apropiada a un segmento de habla con un espectro rico en bajas frecuencias podra ser, por ejemplo, 5, 2, 1, 0 bits para las 4 sub-bandas en orden creciente de frecuencias; la asignacin de bits apropiada para un segmento con un predominio de componentes de alta frecuencias podria ser 1, 1, 3, 3 bits para cada muestra de subbanda. Si se vara la asignacin de los bits en las distintas bandas, el nmero de niveles de cuantificacin puede controlarse independientemente en cada banda y la forma del espectro total del ruido de cuantificacin as puede ser controlado segn la frecuencia. En las bandas de bajas frecuencias, donde debe conservarse la informacin sobre el timbre y el formante, se usan en promedio ms niveles de cuantificacin. Sin embargo si predomina energa de alta frecuencia en un dado segmento de habla, el algoritmo adaptable automticamente asigna mayor nmero de niveles de cuantificacin para las frecuencias ms altas. Adicionalmente en un sistema de codificacin por sub-bandas, el ruido de cuantificacin de una banda se mantiene dentro de esa banda, as que una entrada de habla de bajo nivel no va a ser afectada por el ruido de cuantificacin en otra banda. Se pueden lograr velocidades todava ms bajas utilizando un tipo de cdigo que alimenta un filtro lineal predictivo con una seal de excitacin cuidadosamente optimimizada. Este es un sistema hbrido que adopta mucha de la eficiencia de los vocoders tradicionales, pero es suficientemente flexible para adaptarse a las sutiles propiedades de la forma de onda del habla. Utiliza los principio de codificacin de forma de onda de alta calidad para optimizar la seal de excitacin, en vez de usar excitacin rgida de 2 estados de los vocoders. Con las tcnicas hbridas ms avanzadas, se requieren apenas de 1 a 0.5 bits por muestra para codificar la voz, resultando as una velocidad de 8 a 4 kb/s. Optimizar la excitacin y los parmetros del filtro representa un gran desafo para los investigadores, ya que ambos tipos de parmetros deben variar
Pag. 2-26 con el tiempo para lograr calidad y naturalidad. Un buen candidato para la codificacin a 8 kb/s es la codificacin predictiva lineal por multipulsos, donde un nmero adecuado de pulsos se utilizan como la secuencia de excitacin correspondiente a un segmento del habla (por ejemplo, 10 pulsos para un segmento de 10 ms). Las amplitudes y la posicin de los pulsos se optimizan pulso por pulso a travs de una bsqueda de lazo cerrado. La velocidad binaria asignada a la excitacin es ms de la mitad de la velocidad total de 8 kb/s, lo cual no deja muchos bits para la informacin que proviene del filtro predictivo lineal, pero con la sofisticacin de la cuantificacin vectorial, la codificacin de los parmetros de prediccin puede hacerse suficientemente precisa. En la cuantificacin vectorial, el cuantificador busca en su memoria el conjunto que ms se asemeja a la secuencia de muestras, por ejemplo una secuencia de 40 muestras de largo. Luego escoje la direccin correspondiente a ese conjunto de secuencias y transmite esa direccin al receptor, en vez de la propia secuencia de 40 muestras. Si la tabla de cdigos contiene, por ejemplo, 1024 secuencias almacenadas, se requieren solamente 10 bits para transmitir la direccin del cdigo de 40 muestras y la codificacin se logra con apenas 0.25 bits por muestra. Para la codificacin a 4 kb/s se ha desarrollado la codificacin con excitacin estocstica. Esto es, el codificador tiene almacenado un repertorio de posibles excitaciones, donde cada una es una secuencia estocstica (esto es aleatoria) de pulsos. Por medio de una bsqueda en lazo cerrado se selecciona la mejor secuencia. Aqu es casi una necesidad la cuantificacin vectorial en el filtro predictivo lineal, con el fin de asegurar que estn disponibles suficientes bits para los parmetros de excitacin y prediccin. La cuantificacin vectorial asegura buena calidad permitiendo que haya suficientes secuencias a escoger en las tablas de cdigos de la excitacin y del filtro. Pruebas subjetivas de sistemas experimentales a baja velocidad han demostrado que los usuarios encuentran la calidad del los codificadores de forma de onda ms que adecuada. Como podra esperarse, una velocidad de 64 kb/s alcanza un puntaje alto en tales pruebas, pero velocidades substancialmente ms bajas, al ser realizadas con codificadores avanzados de alta complejidad, han logrado puntajes sorprendentemente favorables. La calidad se mide en forma subjetiva por medio de un puntaje promedio de opinin (MOS: Mean Opinion Score) obtenido a travs de pruebas rigurosas, formales, con personas. Un MOS de 5 se considera excelente, 4 bueno, 3 regular, 2 pobre y 1 malo. As que un MOS de 5 indica calidad perfecta, mientras que 4 o ms significa una alta calidad. (los ingenieros telefnicos la llaman toll quality, calidad de llamada de larga distancia, pagada). Un MOS mayor de 4 significa que la persona encuentra el habla tan inteligible como el original y libre de distorsin. Valores de MOS entre 3 y 4 corresponden a calidad apta para comunicaciones. Para estos valores la distorsin est presente, pero no es fcilmente distinguible y la inteligibilidad es todava muy alta. Valores de MOS entre 3.5 y 4 representan un nivel til de calidad del habla. Al fondo de la escala se encuentra la calidad sinttica tpica de los vocoders:
las palabras son en su mayora inteligibles pero no siempre puede ser identificada la persona que habla. Estas pruebas subjetivas de MOS complementan mediciones objetivas, tales como la relacin seal a ruido y, de hecho, a menudo son ms significativas. Por ejemplo, en base de mediciones de seal a ruido los codificadores de 16 kb/s, sin importar su complejidad, son bastante inferiores a los codificadores PCM de 64 kb/s. Pero en pruebas subjetivas los mejores codificadores de 16 kb/s se acercan en calidad a los codificadores PCM de alta velocidad y logran un puntaje MOS cercano a 4. Sin embargo, aun los sistemas ms sistemas ms sofisticados a baja velocidad se quedan a veces cortos con respecto a los sistemas PCM de 64 y 32 kb/s por lo siguiente: su calidad decrece abruptamente si la seal pasa por etapas sucesivas de codificacin/decodificacin, tal como la que se encuentra en un enlace de transmisin en el cual haya numerosas conversiones analgico/digital (por ejemplo, centrales viejas y modernas). Con PCM todava se logra alta calidad con hasta 8 etapas de conversin. Por supuesto, en enlaces completamente digitales de extremo a extremo (como ocurrira con la ISDN), las seales son codificadas y decodificadas una sola vez, por lo que las ventajas multietapas de las velocidades altas son menos importantes. Los algoritmos para la codificacin digital del habla usualmente se implementan en procesadores digitales de seal,
Pag. 2-27 los cuales son una combinacin de circuitos integrados de propsito general y de propsito especfico. La complejidad de esos procesadores se mide por el nmero de operaciones tipo multiplicacin-adicin requeridas para codificar el habla, usualmente expresada en millones de instrucciones por segundo (MIPS). Como regla prctica, en la gama de 64 kb/s a 8 kb/s el nmero de MIPS aumenta de un orden de magnitud cuando la velocidad de codificacin se reduce a la mitad, manteniendo aproximadamente la misma calidad del habla, como se ilustra en la Tabla 1. Los codificadores son por lo general mucho ms complejos que los decodificadores. Un algoritmo se considera generalmente prctico si se puede realizar en un solo chip. Los codificadores de baja velocidad estn destinados a un uso masivo (por ejemplo, en cada telfono digital) as que deben ser econmicos. Bajo este criterio, la mayora de los codificadores mostrados en la figura son actualmente prcticos, ya que un procesador de seales de propsito general puede trabajar hasta unos 10 MIPS. An la excepcin, esto es el codificador de prediccin lineal excitado estcsticamente, con una complejidad de 50 a 100 MIPS, puede ser realizado con unos cuantos chips especialmente diseados. La figura muestra valores tpicos para varios sistemas de codificacin de habla y muestra el compromiso entre complejidad, velocidad y calidad.
Tipo de cdigo Modulacin por pulsos codificados (PCM) PCM adaptable diferencial (ADPCM) Codificacin sub-bandas adaptable LPC multipulsos LPC con excitacin estocstica Vocoder LPC
Velocidad (kb/s) Complejidad (MIPS) 64 0.01 32 0.1 16 1 8 10 4 100 2 1
Retardo (ms) 0 0 25 35 35 35
Calidad alta alta alta comunicaciones comunicaciones sinttica
Tabla 1. Comparacin de distintos esquemas de codificacin del habla
Un tipo de cdigo no est necesariamente limitado a la velocidad que se muestra en la tabla; por ejemplo, el codificador PCM adaptable puede ser rediseado para lograr habla a 16 kb/s con calidad de comunicacin, en vez de habla alta calidad a 32 kb/s. De hecho, una versin altamente compleja puede conseguir habla de alta calidad a velocidad ms baja. En forma similar, la codificacin pedictiva lineal multipulso de baja complejidad puede lograr codificacin de alta calidad a 16 kb/s, mientras que un codificador predictivo lineal excitado estocsticamente, de baja complejidad, puede ser rediseado para que opere a 8 kb/s en vez de 4 kb/s. En casos especficos, los valores de complejidad pueden diferir substancialemnte de los ordenes de magnitud estimados en la figura. Por ejemplo, el codificador predictivo lineal excitado estocsticamente puede ser simplificado a 50 MIPS con solo una pequea prdida en la calidad de la voz. Por otro lado los valores de retardo estn redondeados y generalmente reflejan el mnimo para los distintos cdigos. Por ejemplo, una versin ampliamente usada del vocoder LPC posee un retardo mucho ms grande del que se muestra en la figura. Esto se debe a que los segmentos de habla son mucho ms largo que el valor de 10
ms asumido en la figura y porque se usan subsistemas adicionales para la interpolacin de parmetros y para la proteccin contra errores. El costo por supuesto es tambin un factor de compromiso pero es difcil de cuantificar en la figura. El costo del hardware generalmente aumenta con la complejidad, sin embargo el progreso en la tacnologa de procesadores de seales tiende a hacer bajar los costos para un dado nivel de complejidad y, mucho ms importante, a reducir la diferencia de costo entre las tcnicas de baja complejidad y las de alta complejidad. Por supuesto, a medida que los algoritmos se vuelven ms complejos, requieren ms tiempo para actuar. Los algoritmos complejos introducen un retardo entre el momento en que la persona que habla emite un sonido y el momento en que la versin codificada de ese sonido sale del codificador. Estos retardos pueden ser objetables en una conversacin telefnica bidireccional, especialmente cuando se suman los retardos en la propia red de transmisin (sobre todo en enlaces va satlite) y se combinan con ecos que no han sido neutralizados. Este ltimo problema se puede aliviar incorporando un cancelador de eco en el sistema. El retardo de codificacin no es problema si la voz se almacena en forma
Pag. 2-28 digital para su entrega posterior. En la Figura 1 se muestra la calidad de la voz en varios sistemas estandarizados por el ITU y por otros entes. En la Tabla 2 se reportan los valores comparativos de los ms recientes sistemas de compresin estandarizados por el ITU. El G.709 opera a 8 kb/s con un retardo de 15 ms. Provee habla con buena calidad y fue diseado originalmente para aplicaciones de telefona celular, pero es aplicable a comunicaciones de multimedia. El G.729.A es una versin del G.729 con complejidad reducida y fue diseado originalmente para aplicaciones de voz y datos en comunicaciones de baja velocidad. Por otro lado el G.723.1 opera a 6.3 y 5.3 kb/s y fue diseado para videotelfonos de baja velocidad. En aplicaciones donde se requieran bajos retardos, el G.723.1 puede no ser la solucin ms apropiada, sin embargo, si el retardo es aceptable, entonces el G.723.1, debido a su baja complejidad, puede ser una alternativa al G.729 a expensas de una ligera degradacin en la calidad del habla. La informacin en la Figura 1 y en la Tabla 2 se encuentra ampliada con ms detalles en algunas de las lecturas que siguen a continuacin.
Figura 1. La calidad en los codificadores de voz
Parameter Bit rate (kb/s) Frame size (ms) Subframe size (ms) Algorithmic delay (ms) MIPS (fixed-point DSP) RAM (16 bit words)
G.729 8 10 5 15 20 2.7 k
G.729A 8 10 5 15 10.5 2k
G.723.1 6.3 30 7.5 37.5 14.6 2.2 k
G.723.1 5.3 30 7.5 37.5 16 2.2 k
Tabla 2. Comparacin entre codificadores de voz estandarizados

Compresion 2

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Compresion 2

Enviado por

Direitos autorais:

Formatos disponíveis

Pag.

2. CODIFICACIN Y COMPRESIN DEL AUDIO

Tabla 2. Gama de frecuencias audibles (ancho de banda)

Fig. 2. How frequency components change with time

Fig. 3. The amplitude spectra for two vowel sounds

Fig. 1. Espectro de frecuencia vocal

Fig..3. El espectro de amplitud para dos sonidos vocales

Fig. 2. Cmo las componentes de frecuencia cambian con el tiempo

2.2. Tecnologas de Audio para PC

Opciones para la compresin de datos de 8 bits Sin comprimir

2.3. Codificacin de la Voz a Baja Velocidad

Velocidad (kb/s) Complejidad (MIPS) 64 0.01 32 0.1 16 1 8 10 4 100 2 1

Calidad alta alta alta comunicaciones comunicaciones sinttica

Tabla 1. Comparacin de distintos esquemas de codificacin del habla

Figura 1. La calidad en los codificadores de voz

G.723.1 6.3 30 7.5 37.5 14.6 2.2 k

G.723.1 5.3 30 7.5 37.5 16 2.2 k

Tabla 2. Comparacin entre codificadores de voz estandarizados

Você também pode gostar