Você está na página 1de 5

MP3: UMA HISTÓRIA DE SUCESSO

João Araújo (N.º 52443), Tiago Rebelo (N.º 52152) e Walid Karam (N.º 52174)

Instituto Superior Técnico


Av. Rovisco Pais, 1049-001 Lisboa, Portugal
E-mail: joaofaraujo@gmail.com, tiago.rebelo@netcabo.pt, wka13@hotmail.com
tecnologia. Assim, parece uma opção óbvia a escolha desta
RESUMO ferramenta de compressão áudio como tema deste artigo,
realizado no âmbito da disciplina de Comunicação de Áudio
Este artigo tem como objectivo abordar o MP3 de uma
e Vídeo, leccionada no Instituto Superior Técnico sob
forma que, embora sucinta, consiga não só explicar as
regência do Professor Fernando Pereira.
questões técnicas mais relevantes, como fazer perceber o
O MP3 (ou MPEG1, Audio Layer 3) é a parte de áudio
caminho que o MP3 percorreu até se tornar na norma de
da norma de compressão de vídeo definida pelo Moving
compressão de áudio digital mais conhecida, além de dar
Pictures Experts Group (MPEG). Desenvolvida na
uma ideia do impacto que tem na sociedade.
Alemanha, esta norma permite comprimir ficheiros de áudio
Começada ser desenvolvida em 1987, na Alemanha, a
com uma muito reduzida perda em termos de qualidade [2].
norma MPEG1, Audio Layer 3 só em 1999 atingiu a
Neste artigo, após se fazer um breve resumo histórico,
“velocidade cruzeiro” que lhe permitiu granjear o sucesso
tenta-se explicar, de forma sucinta mas completa, as
que hoje todos lhe reconhecem.
questões técnicas por detrás do MP3. Seguidamente, aborda-
O processo de codificação do MP3 transforma áudio
se o porquê do sucesso, rápida implementação e impacto
PCM em áudio com elevada qualidade, mas com tamanho
sociológico desta tecnologia, sem fugir às complexas
significativamente menor. O processo de descodificação faz,
questões legais que levantou. Finalmente, mostram-se
obviamente, o contrário: pega na sequência de bits
algumas das muitas hipóteses de reprodução do MP3 e
codificada para apresentar na saída áudio PCM.
lançam-se algumas pistas relativamente ao seu futuro.
Não obstante o enorme sucesso e impacto social, o
MP3 levantou – e continua a levantar – algumas questões 2. HISTÓRIA
legais, como o facto de ser o formato preferido para a
distribuição e download ilegal de música. Em 1987, o centro de investigação Fraunhofer Institut
Actualmente, encontram-se inúmeros leitores de MP3 à Integrierte Schaltungen, em Erlangen, Alemanha, começou
venda, a preços variados, garantindo que o MP3 ainda terá a investigar a codificação de áudio de alta qualidade a baixo
uns anos de sucesso à sua frente, apesar de já ter débito binário, num projecto denominado “EUREKA Project
concorrência de normas tecnologicamente superiores. EU147, Digital Audio Broadcasting” [3]. Dois anos depois,
o instituto Fraunhofer recebeu uma patente alemã para o
Index Terms — MP3, MPEG, Compressão, Áudio, MP3 e, em 1992, foi integrado na norma MPEG1. Mais
Fraunhofer tarde, a 7 de Julho de 1994, a Fraunhofer Society lançou o
primeiro software de codificação MP3 denominado l3enc.
1. INTRODUÇÃO Em Julho de 1995 a extensão .mp3 foi aprovada pela equipa
do Fraunhofer Institut, que antes utilizava a extensão .bit
Hoje em dia, a maioria das pessoas está ciente que a Internet
[4]. Em 1996, foi a vez dos Estados Unidos emitirem uma
está a introduzir grandes mudanças na indústria
patente para o MP3.
discográfica, no sentido em que proporciona, facilmente e a
Esta pequena resenha histórica não está completa sem
muito baixo custo, a possibilidade de distribuição e
se referir três momentos determinantes para o sucesso do
download de áudio.
MP3: primeiro, em 1997, um investigador da Advanced
No entanto, a distribuição, via Internet, de áudio com
Multimedia Products, Tomislav Vzelac, criou o “AMP MP3
toda a qualidade que o CD oferece, coloca um conjunto de
Playback Engine”, que é considerado o primeiro reprodutor
problemas, uma vez que requer o processamento de uma
de MP3 de sucesso; pouco tempo depois, Justin Frankel e
grande quantidade de dados a uma frequência de
Dmitry Boldyrev pegaram no AMP Engine, adicionaram-lhe
amostragem de 44.1 kHz [1]. É aqui que a tecnologia de
uma interface tipo Windows e chamaram-lhe Winamp; em
compressão de áudio ganha uma importância assinalável. O
1998, este software foi disponibilizado gratuitamente, sendo
MP3, pela sua sólida implementação a nível global e quase
um dos responsáveis pela massificação do MP3 [5]. Em
omnipresença na sociedade, é o principal representante desta
1999 surgiu o Napster, que permitiu que qualquer pessoa

1
com acesso à Internet pudesse encontrar e descarregar No algoritmo MP3 ISO (International Organization for
qualquer tipo de música que desejasse. Também em 1999 Standardization), o quantificador é não uniforme. A fórmula
apareceram os primeiros leitores de MP3 portáteis. Estava (1) faz o pré - ênfase do frame a ser descodificado de modo
em curso a grande revolução criada pelo MP3 que permitiu a aumentar o SNR (ao minimizar a atenuação e saturação), e
a qualquer um obter ficheiros neste formato de forma a fórmula (2) a sua amplificação,
simples e poder reproduzi-los, seja em casa, no trabalho ou
mesmo fora de portas, graças aos leitores portáteis, entre (1+ z )× P ( bi )
vários outros locais possíveis e imagináveis. De facto, a x' f . g (i) = x f . g (i ) × 2 (1)
revolução foi de tal ordem, que em poucos anos de (1+ z )×C ( bi )
existência este formato já se encontrava presente em x' ' f . g (i) = x' f . g (i) × 2 (2)
milhões de computadores em todo o mundo. Com tamanha
popularidade, o formato MP3 passou a constituir uma em que g representa o grânulo, f é o frame a ser
ameaça ao monopólio das indústrias discográficas que se quantificado, bi o factor de escala na banda da i-ésima linha
insurgiram contra aqueles que faziam a codificação e espectral, z determina se os factores de escala são
disponibilização de músicas neste formato. quantificados de modo logarítmico com um passo de 2 ou
2 , P(bi) é a tabela de pré – ênfase definida em (3), como
3. IMPLEMENTAÇÃO TÉCNICA
se mostra de seguida, e C(bi) obtém o factor de escala da
3.1. Codificação banda bi.
Então, xf.g(i) é quantificado pelo seguinte quantizador
A figura 1 representa um diagrama de blocos do processo de não-uniforme:
codificação do formato MP3. A entrada de áudio é
transformada frame por frame em componentes espectrais | x' ' f . g (i ) |
y f . g (i ) = n int{( ) 07.5 − 0.0946} (3)
através do mapeamento tempo - frequência. No bloco de 2(δ +q ) / 4
transformação híbrido, o MP3 emprega um filtro polifásico
seguido pelo DCT modificado, de modo a aumentar a em que nint é uma função que faz um arredondamento, q é o
resolução espectral e as componentes são agrupadas em limite inferior do parâmetro de quantização e δ é uma
bandas de diferentes factores de escala. Simultaneamente, o variável incremental.
sinal de áudio entra no Modelo Psicoacústico II (PAM II) A Figura 2 representa o ciclo de controlo de débito
para determinar o limiar de rácio de energia de sinal com o (também denominado por ciclo de iteração interna).
intuito de fazer um mascaramento de cada banda de factor
de escala.

Figura 1 – Bloco de codificação de MPEG [6].

A codificação da sequência de bits é comandada pelo


controlador de débito, que varia o quantificador de forma
ordenada, quantifica os valores espectrais e conta o número
de bits do código de Huffman necessário para codificar os
valores. A codificação de Huffman é escolhida como a Figura 2 – Controlo de débito no ciclo iterativo [6].
ferramenta codificadora sem perdas, recorrendo às tabelas
pré - definidas. O MP3 também adapta os factores de escala Este ciclo atribui bits a cada linha espectral, através de uma
para amplificar a energia da banda espectral, no caso em que quantificação de informação de áudio, explícito em (3). O
o ruído de quantificação excede o limiar de mascaramento. desafio é encontrar um parâmetro quantificador óptimo
O controlo de distorção ajusta os factores de escala de modo (também denominado por ganho global), bem como
a comandar a qualidade e, por fim, a informação pedida pelo escolher uma tabela de Huffman apropriada. Uma técnica
descodificador é unida com o áudio comprimido para iterativa é aplicada de modo a obter os parâmetros
resultar num conteúdo de MP3 válido. optimizados para um valor inicial, determinado pela medida

2
de spectral flatness 1 . São testadas muitas iterações no A redução dos blocos de aliasing 2 põe mais
processo de quantificação de modo a assegurar uma saída componentes nos coeficientes desquantificados, de forma a
dentro dos limiares da codificação de Huffman. obter uma reconstrução correcta da análise do filtro de sub-
banda. Logo, a DCT Inversa Modificada transforma os
3.2. Descodificação coeficientes em sinais de sub-banda no domínio do tempo.
Aplica-se a inversão de frequência para compensar a
O processo de descodificação de MP3 consiste em três redução do número de amostras usado na análise do filtro de
fases: descodificação de sequência de bits, desquantificação sub-banda. Depois, um filtro de sub-banda sintetizado é
e mapeamento frequência – tempo, como está ilustrado de aplicado aos sinais para resultar na saída de áudio PCM.
seguida, na figura 3.
4. O PORQUÊ DO SUCESSO E O IMPACTO
SOCIOLÓGICO

O MP3 tem tido o sucesso que se conhece em grande parte


graças à distribuição online de música: os consumidores
Figura 3 – Bloco de descodificação de MPEG/3ª Camada [6]. passaram a pensar no MP3 como “CDs na Internet” ou, em
muitos casos, “CDs grátis na Internet” [7].
A primeira fase sincroniza a sequência de bits
Depois surgiram os primeiros leitores portáteis de MP3,
codificado e outras informações acerca de cada frame. A
o que levou a que qualquer pessoa pudesse escolher entre
figura 4 apresenta o diagrama de blocos detalhado.
um grande número de músicas sem ter que transportar os
CDs consigo. Isto criou um ciclo: mais produtores de
conteúdos criam conteúdos em MP3, o que conduz a uma
procura de software e hardware MP3 cada vez maior.
Além disso, o MP3 tinha uma grande vantagem em
relação a outras normas concorrentes (que, em alguns casos,
até eram mais eficientes): os detentores originais da patente
permitiram, durante algum tempo, que qualquer pessoa
desenvolvesse um descodificador ou reprodutor
gratuitamente.
O fenómeno MP3 tornou-se revolucionário não só
devido às suas características específicas como ao impacto
sociológico (e económico) que teve. Quem é que hoje em
dia não tem um leitor de MP3, por mais simples ou
Figura 4 – Descodificação de bitstream [6]. complexo que este seja? Quem nunca viu alguém no metro,
no autocarro, ou mesmo a fazer jogging, enquanto ouve
A segunda fase, ou processo de desquantificação, música de um leitor MP3? O impacto tecnológico que o
reconstrói os coeficientes de frequência gerados pelos MP3 teve na sociedade pode-se assemelhar ao impacto que
blocos de DCT modificado durante a codificação. O cálculo o telemóvel, a televisão ou mesmo o próprio rádio tiveram
de desquantificação é baseado na saída de descodificação de em tempos anteriores. Poder-se fazer o download de um
Huffman e na informação do factor de escala, em que S(i) modo completamente simples, e “construir” a sua biblioteca
representa o sinal do bit de yf.g(i), wi é o short-block window musical em formato digital de um modo extremamente
da i-ésima linha espectral correspondente e Δs(wi) é o seu simples seria impensável antes da existência do formato
ganho, como se apresenta em (4). MP3, que abriu as portas a um mundo novo, com a
Δ f . g −8 Δ s ( wi )
intervenção directa dos utilizadores.
2 4
5. QUESTÕES LEGAIS
x f . g (i ) = (−1) s ( i ) × y f . g (i ) 4 / 3 × (1+ z )( C ( bi ) + P ( bi ))
(4)
2
5.1. O download ilegal
A última fase é constituída por uma série de operações
invertidas do DCT Modificado e da análise do filtro de sub- O formato MP3 surgiu na década em que um meio de
banda no codificador. O mapeamento frequência – tempo comunicação de enorme potencial e em ascensão se estava a
resulta na saída de áudio PCM a partir dos coeficientes propagar por todo o mundo, denominado Internet. As duas
desquantificados. potencialidades aliadas constituíram, a partir de meados da

2
1
Spectral Flatness – Medida utilizada para caracterizar o espectro Aliasing – sinais diferentes contínuos tornam-se indistinguíveis
de audição. Se for elevada, a potência é semelhante em todas as ao serem amostrados a frequências diferentes.
bandas, caso contrário, concentra-se num número inferior.

3
década de 90 (1995), uma enorme revolução no mundo da codificadores, e que os produtos não licenciados infringiam
música, uma vez que se tornava possível a troca de ficheiros os direitos sobre a patente do Instituto Fraunhofer e da
áudio com tamanhos muito reduzidos em relação ao formato Thomson Consumer Electronics (entidade que controla o
CD e com uma qualidade muito semelhante. Essas licenciamento da patente do MPEG-1/2 Layer 3 em alguns
características potenciaram ao aparecimento de programas dos países que reconhecem patentes de software, tais como
cuja função era a partilha e distribuição de ficheiros de Estados Unidos da América, Japão, Canadá e alguns países
música no formato MP3, tais como o Napster, imesh, da União Europeia), pelo que seria necessário obter uma
Kazaa, Limewire, Bearshare, Gnutella, Audiogalaxy entre licença de modo a poder produzir, vender e/ou distribuir
outros. O movimento de ficheiros MP3 através da Internet produtos utilizando o padrão MPEG-1/2 Audio Layer 3.
teve um aumento exponencial muito devido aos programas Tal iniciativa veio provocar um abrandamento do
anteriormente referidos, tendo assim passado a ser desenvolvimento da tecnologia do MP3 sem licenciamento,
extremamente fácil reproduzir, criar, partilhar e obter levando à necessidade de promover novos formatos
ficheiros de música. Tudo isto decorria um pouco à margem realmente livres, tais como o WMA e o Ogg Vorbis.
da lei, uma vez que não existia legislação adequada para tal. Apesar das restrições colocadas, o formato MP3
Algo que viria a ser alterado, fruto da pressão de alguns continua a ser o preferido por diversas razões:
músicos e da indústria discográfica, devido à violação dos • Familiaridade com o formato;
direitos de autor, uma vez que enquanto que o download de • A enorme quantidade de ficheiros de música
ficheiros não é ilegal, a distribuição de ficheiros de música disponível em formato MP3;
sem autorização constitui uma infracção à lei. Foram • A grande variedade existente de software e
desencadeadas várias acções sobre os programas de partilha hardware que tem como base o formato MP3;
de ficheiros MP3, resultando no encerramento de muitos • Fraca restrição por parte do DRM, o que torna fácil
sites de partilha, sendo que, aquele que foi mais mediatizado a edição, cópia e distribuição dos ficheiros.
foi o caso Napster, tendo-se visto obrigado a encerrar, e a
alterar o seu formato de partilha. No entanto, a indústria 7. LEITORES DE MP3
discográfica sabia que estava a enfrentar uma batalha
perdida. No caso americano, a Recording Industry Inicialmente os ficheiros MP3 apenas podiam ser lidos
Association of America (RIAA) procurou soluções para se através de programas instalados no computador como o
adaptar à revolução que se estava a dar no meio musical, Winamp (ver figura 5), o FreeAmp, MusicMatch Jukebox,
tendo para tal criado um grupo de trabalho, em finais de QuickTime, entre outros. Com a sua proliferação pela
1998, denominado Secure Digital Music Initiative (SDMI) Internet, tornou-se necessário produzir leitores portáteis que
de modo a explorar alternativas tecnológicas ao formato suportassem o formato do MP3, dadas as enormes vantagens
MP3 para a protecção contra a duplicação de ficheiros e que isso poderia trazer: o facto de poder transportar uma
distribuição em massa. No entanto, essa alternativa revelou- maior quantidade de músicas, com qualidade semelhante
se um fracasso tendo a iniciativa cessado funções em 2001. num espaço físico mais reduzido que os leitores de cassetes
Actualmente existem distribuidores de música em ou de CDs que dominavam o mercado do género. Os
formato digital, tais como o iTunes, que têm ficheiros que primeiros leitores surgiram em finais dos anos 90, com o
suportam DRM (Digital Rights Management), ferramenta MPMan F10 da Eiger Labs, o Rio da Diamond Multimedia e
que permite controlar as infracções aos direitos de autor, o Nomad da Creative. O seu aparecimento não foi de todo
havendo no entanto métodos que podem ultrapassar essas pacífico, uma vez que surgiram pressões por parte da
protecções. Existem também, pela Internet, distribuidores de indústria discográfica para que não fossem lançados no
ficheiros MP3 em que o download de ficheiros é feito mercado.
mediante o pagamento individual de cada ficheiro,
tornando-se mais prático para os consumidores e
beneficiando os artistas, uma vez que o custo de colocar
online os ficheiros MP3 é muito mais reduzido do que
recorrendo a uma companhia discográfica.

5.2. Licenças e Patentes

Outra questão pertinente que foi levantada teve a ver com os Figura 5 – Leitor MP3 Winamp.
direitos de utilização da tecnologia MP3. Em Setembro do
ano de 1998, o Instituto Fraunhofer, a casa mãe do MP3, Hoje em dia os aparelhos portáteis de leitura do formato
enviou comunicados a diversos criadores de programas MP3 estão perfeitamente integrados no mercado, havendo
MP3, exigindo a cobrança de royalties por essa patente. O um variado leque de escolhas. Desde o aspecto visual até à
comunicado informava que o licenciamento era necessário capacidade do próprio leitor, tendo maior ou menor espaço
para a distribuição e/ou venda de descodificadores e/ou de armazenamento e autonomia, entre outras opções, tais

4
como a de receptor de rádio. Os leitores mais populares são 9. REFERÊNCIAS
o iPod (ver figura 6) da Apple (que pode ser adquirido a um
preço que vai dos 80€ aos 380€, aproximadamente) o Zen da [1] S.H. Oh, W.J. Yoon, Y.H. Cho, K.S. Park, “A new spectral
enhancement algorithm in MP3 audio”, IEEE, pp. 285-286,
Creative (que podem ser encontrados a preços que rondam
2006.
os 70€ até aos 220€, dependendo do modelo), a nova versão [2] M. McCandless, “The MP3 Revolution” IEEE Intelligent
Walkman MP3 da Sony (entre os 50€ e os 170€, dependendo Systems, pp. 8–9, May/June 1999.
do modelo) entre outros que podem ser encontrados a preços [3] http://inventors.about.com/od/mstartinventions/a/mpthree.htm
inferiores, dependendo das possibilidades de cada um. [4] Wikipedia - http://en.wikipedia.org/wiki/Mp3
Actualmente os leitores portáteis não se limitam apenas a [5] http://www.webmonkey.com/00/31/index3a.html
poder reproduzir os ficheiros de música em formato MP3, [6] C.H. Yen, Y.S. Lin, B.F. Wu, “A low-complexity MP3
tendo outras funcionalidades, tais como a visualização de algorithm that uses a new rate control and a fast
vídeo, imagem e armazenamento de dados. dequantization”, IEEE Transactions on Consumer Electronics
Vol. 51 Nº2, pp. 571-579, May 2005
[7] B. Ponce, “The Impact of MP3 and the Future of Digital
Entertainment Products”, IEEE Communications Magazine,
pp 68-70, Sept 1999.

Figura 6 – Leitor MP3 iPod.

8. FUTURO

Neste momento já há vários formatos tecnologicamente


superiores ao MP3. Tanto o AAC como o Ogg Vorbis
conseguem qualidade superior ao MP3 quando comparados
a idêntico débito binário. Inclusivamente, o AAC (que foi
desenvolvido com a cooperação de companhias como
Dolby, Fraunhofer, AT&T, Sony e Nokia e já foi
reconhecido pelo MPEG como uma norma internacional) já
começa a estar bem implementado em alguns meios: é
usado, por exemplo, no iTunes e iPod da Apple e é a norma
padrão usada na Playstation 3 da Sony. No entanto, para a
grande maioria do público-alvo desta tecnologia, nem AAC
nem Ogg Vorbis devem ser expressões que tenham,
actualmente, muita notoriedade, ao contrário de MP3, que,
provavelmente, todos conhecem.
A explicação para isto reside no facto de, quando as
pessoas se habituam a determinada tecnologia,
especialmente com a penetração que o MP3 conseguiu, só
mudam se surgir uma nova oferta com um grande valor
acrescentado [7]. Caso contrário, os consumidores resistem
à mudança.
Talvez por isso, ainda hoje se encontram artigos de
investigação que propõem não alternativas ao MP3, mas
antes formas de melhorar esta tecnologia [1, 6].