Escolar Documentos
Profissional Documentos
Cultura Documentos
Shazam Final
Shazam Final
1. INTRODUÇÃO
1
mês e que se encontrada instalada em mais de 500 milhões Introduzindo este conceito de uma maneira genérica, uma
de dispositivos movéis [2]. fingerprint de áudio é um conjunto de características
retiradas do espetro de frequências do áudio de uma música,
3. FUNCIONALIDADE E INTERFACE que conseguem ser únicas à mesma, e, simultaneamente, ser
encontradas num conjunto de várias músicas, por
A aplicação Shazam identifica as breves amostras
comparação [7].
recorrendo a um sistema de impressões digitais de áudio
(Audio Fingerprints), cujo algoritmo tem por base a
Antes de entrar
análise do gráfico temporal-espectral (Spectogram) [1].
em detalhe sobre
Em primeiro lugar, o utilizador procede à gravação de um
a implementação
áudio recorrendo ao microfone integrado no aparelho.
do algoritmo, é
Posteriormente a aplicação analisa a amostra e verifica se a
necessário ter
nova impressão digital acústica corresponde a uma dos
em conta as
milhares de milhões de impressões digitais que já se
motivações para
encontravam armazenadas na extensa base de dados do
o uso do mesmo,
software. Caso ocorra a correspondência entre impressões e
e quais são as
o reconhecimento seja bem-sucedido, são apresentadas
dificuldades a
informações como o título do áudio, o artista, o álbum, Figura 3 – Modelo de Arquitetura
ultrapassar de
outras músicas populares relacionadas, e também é Global do Shazam [7]
forma a cumprir
disponibilizado um hyperlink através do qual é possível
o objetivo da
efetuar o download do áudio.
aplicação.
Uma das funcionalidades fornecidas pelo software é a
possibilidade de o utilizador ouvir o áudio original dentro da
Efetivamente, a finalidade do Shazam é identificar, a partir
própria aplicação e de acompanhar a respetiva letra
de áudio gravado pelo telemóvel (ou outro recetor) uma
completa. Para além disto é possível também o
música presente numa base de dados. Começando pelas
compartilhamento dos áudios através das redes sociais e
adversidades na captação e no ambiente exterior ao user, há
caso pretenda, o utilizador pode ouvir as músicas
as seguintes condições [8]:
identificadas no Shazam em outras aplicações e plataformas
como o Spotify, Youtube, Google Play Music e a Apple
O algoritmo tem de ser resistente a uma quantidade
Music [3].
considerável de ruído, visto que muitas vezes a
A aplicação é compatível em aparelhos com sistemas iOS,
captação é feita em ambientes com muito “barulho
Android, Blackberry OS e Windows Phone e consegue
de fundo”
identificar trechos de áudio provenientes de qualquer fonte,
Para identificar a música, tem de ser utilizada
desde que o nível de
informação que resiste à compressão do microfone
ruído de fundo não
do recetor. Muitas vezes, utilizando o microfone e
seja demasiado
a interface do telemóvel, a gravação áudio passa
elevado ao ponto de
por uma compressão destinada às características
dificultar a criação da
sonoras da Voz, não sendo ideais para música. (Na
nova impressão digital
altura que foi desenhado este algoritmo, o sinal
e do processo de
teria de passar por compressão GSM 6.10, pois
reconhecimento [1].
tinha de ser diretamente transmitido para o server
do Shazam)
Figura 2 – Interface atual e algumas funcionalidades [4] Frequentemente, a música que está a ser
reproduzida sofreu algum tipo de
filtração/modulação, mudando muitas das
4. ARQUITETURA GLOBAL DA APLICAÇÃO características inerentes à música original (ex: é
usual os DJs alterarem o tempo da música, mudar o
Como já foi anteriormente mencionado, o Shazam possui “pitch”, aplicar algum efeito como delay ou reverb)
um algoritmo de categorização e armazenamento de músicas O modo de identificação da música tem de ser
por meio de um tipo de identificação chamado Fingerprint “invariante no tempo”, ou seja, a música tem de ser
(impressão digital) [6]. reconhecível independentemente da secção da
música captada pelo user.
2
Em adição, considerando edificação da base de dados com o
máximo de músicas possíveis, o algoritmo de conversão e
indexação das músicas em informação utilizável para
procura, tem de conseguir aceitar músicas em muitos
formatos. A mesma música pode ter de ser convertida pelo
shazam vindo no formato 256kbit ACC, relativo ao iTunes,
ou no formato 256Kbit MP3, e obter a mesma identificação
para as duas. Figura 3 – Modelo da conversão de áudio em espetro de
frequências [7]
Por fim, também é preciso ter em conta a problemática
associada à procura da música na base de dados. Antes de passar à análise da conversão no espetro de
O algoritmo tem de ser bastante eficiente e rápido frequências, é necessário considerar o próprio input do
na procura, visto que a base de dados terá milhões sistema. Atendendo ao pré processamento do sinal, podemos
de músicas, e está sempre a ser atualizada e dividir esta fase em Digitalização, Conversão para PCM
aumentada. O objetivo inicial era que esta procura (Mono) e a Normalização.
fosse realizada num espaço de tempo de segundos.
A identificação das músicas tem de ser altamente A primeira parte consiste na transformação do som, um sinal
precisa, e bastante robusta em relação a analógico, num sinal digital, por meio da amostragem do
“mismatches”. Muitas músicas têm secções muito mesmo e a posterior quantização. Evidentemente, esta
semelhantes, e, devido ao ruído e todo o secção é referente ao processo de captura do áudio. No lado
processamento adicionado, várias podem ter do utilizador, consiste na captura da amostra de áudio a
características quase indistinguíveis. partir do microfone do telemóvel. Por outro lado, no
A estrutura de dados tem de ser capaz de retornar servidor, esta captura é referente à construção da base de
um conjunto de meta-data, como o nome da música dados com as músicas, logo não é feita de raiz, visto que o
e do artista, entre outros… áudio chega ao mesmo num dos formatos standards, tais
como MP3, AAC, ou OGG Vorbis.
4.1. Fingerprints
O seguinte passo, é a transformação no formato Pulse-Code
Atendendo às motivações apresentadas, a solução que Modulation (PCM). Este é o formato pretendido para o
resiste a todas estas adversidades, foi então uma processamento, pois é a forma básica (e mais simples) de
identificação da música por meio das características de representação digital, sendo mais fácil e transparente usar
frequência. uma forma elementar em que cada sample é representada
independentemente das outras, com o mesmo número de
A primeira fase da criação das fingerprints consiste em bits.
filtrar as frequências que mais interessam para a deteção da
música, ou seja, tentar eliminar ao máximo a intervenção do No lado do servidor, irá ser analisada a conversão de MP3
ruído. para PCM, visto ser o formato standard e mais vulgar de
codificação de áudio. Para música, geralmente, o áudio é
wideband, com largura de banda de 10 a 22kHz, sampling
4.1.1. Obter o Mapa espectral
rate de 48KHz, 16bits/sample e um bitrate entre os 128 e os
É evidente a complexidade e especificidade deste processo, 192Kbit/s [9]. No âmbito deste artigo, é utilizado um
e visto que não existe acesso à informação dada pela sampling rate de 44,1KHz de forma a se poder utilizar a
Shazam, é meramente possível apresentar uma hipótese de hipótese de implementação mencionada anteriormente. Este
implementação. valor foi escolhido por estar imediatamente acima do valor
Neste projeto recorremos várias vezes ao modelo sugerido mínimo de frequência de amostragem
por “Christophe” (username no website Coding Geek) no
artigo “How does Shazam work” [7], tendo em conta a
profundidade da análise e pesquisa feita, e do seguimento
das diretrizes provenientes do trabalho original sobre o
Shazam de Avery Li-Chun Wang em “An Industrial-Strength
Audio Search Algorithm” [8].
3
originais. Por conseguinte, só é possível analisar um espetro
de 0 a 5KHz. Porém, o Shazam é desenhado para precisar
somente dessa janela de frequências, pois estas são
suficientes e bastante representativas de cada música (na
prática, é mais fácil reconhecer uma música pelos seus sons
mais graves, do que propriamente pelos sons de frequência
muito alta).
4
atribuído um anchor point, naturalmente fora do conjunto,
A escolha lógica seria apenas manter as frequências com que serve como referência.
maior amplitude, mas tendo em conta as condições referidas
anteriormente, muitas vezes, num espaço ruidoso, há Contudo, em vez de fazer uma procura a partir da
frequências que se sobrepõem à música em termos de combinação de certas coordenadas de frequência, o
amplitude. Efetivamente, por muito que não seja percetível algoritmo utiliza a distância temporal entre esse conjunto de
ao ouvido humano, há muitas frequências graves de alta frequências. De certa maneira, podemos comparar esta
amplitude que são capturadas na gravação. associação ao método humano de reconhecimento de
músicas, pela relação entre várias frequências ao longo do
Tendo isto em conta, a solução a considerar, é dividir o tempo.
espetro de frequências em várias bandas. Desde frequências
muito graves (<500Hz), até às frequências mais altas, dentro Deste modo, o endereço utilizado pelo Shazam é da seguinte
do espetro de 5KHz. De seguida, calcula-se a média das forma:
frequências mais altas dentro de cada secção, e, por fim,
apenas se mantêm as frequências mais altas que essa média. Na procura:
[ f ref ; f i ; Δt ] →[ t¿ ¿i]¿
Desta forma, obtém-se o mapa espetral representado na
Fig.6, somente com as frequências selecionadas ao longo do
tempo. É notável que, a partir deste gráfico, já não é
f ref : frequência do ponto de referência
necessária qualquer informação sobre a amplitude, podendo f i : frequência do ponto selecionado na target zone
processar a identificação das “coordenadas de frequências” Δt : intervalo de tempo entre o ponto de referência e o ponto em
em duas dimensões. questão
t audio i
: tempo absoluto do ponto de referência no ficheiro áudio
4.2. Estrutura
de Dados E armazenado na tabela de dispersão:
4.2.1. Armazenar e
procurar Fingerprints
[ f ref ; f i ; Δt ] →[ t song ;id song ]
i
Para armazenar e Figura 5 – Pontos do mapa espetral que foram selecionados [8]
endereçar as fingerprints, a Shazam utiliza uma tabela de
dispersão (Hash Table), e é necessário ter em conta o tempo
de procura que irá ser feita posteriormente. Por esta razão,
seria impossível fazer uma mera busca intensiva de matches
t song : tempo absoluto do ponto de referência na música
i
de pontos consecutivos. É evidente que, com a escala deste id song : identificação da música
problema, a procura dentro de só uma música já
representaria um tempo considerável de computação. Evidentemente, a cada endereço está também associado a
meta-data relativa à música, como o título, artista, tempo da
Target Zones música, etc.
Por conseguinte, a estratégia utilizada foi agrupar um
determinado número de pontos em chamadas target zones. Matching
Desta forma a procura irá ser feita comparando conjuntos de Com os endereços já definidos, o processo de procura e de
pontos, diminuindo a iteração anteriormente necessária. pontuação é bastante simples. Para o M número de pontos
Como representado na de referência, percorre-se
Fig.6a, a cada conjunto de a tabela de dispersão à
pontos (8 pontos em procura de
específico no gráfico do correspondências
trabalho original) é (entendendo-se como
correspondência o match
de uma target zone
inteira). De seguida,
6
Investors) e Venture Capitalists. Nos primeiros anos, o 5.6. Balanço Económico
Shazam recebeu perto de 10 milhões de dólares De um modo geral, a aplicação tem registado ao longo dos
provenientes destas fontes (2000 e 2001) [1]. anos uma evolução positivamente crescente em termos de
saldo e receitas. O aumento exponencial da utilização de
Efetivamente, a empresa demorou muito tempo até ser smartphones e outros dispositivos móveis aliado às fortes
lucrativa, visto que necessitou de bastante capital para campanhas de anúncios publicitários e aos investimentos
desenvolver a sua tecnologia e plataforma, e, por outro lado, inteligentes tem contribuído para a expansão contínua do
todo o lucro gerado pela publicidade e mensagens não era modelo de negócio atual do Shazam [17].
suficiente. Para ultrapassar este peso financeiro, o Shazam
teve de se expandir ao máximo de mercados possíveis,
conseguindo só alcançar um balanço positivo após 17 anos 6. DINÂMICA DE MERCADO E COMPETIÇÃO
do começo da empresa, quando já se encontrava na
plataforma dos smartphones, com uma base de utilizadores Como mencionado anteriormente, o modo de operação do
que atingiu o pico máximo de 30 mil milhões de Shazam consiste em entrar no maior número de mercados
reconhecimentos de áudio em 2016, tendo registado um possível, tentando expandir a sua base de utilizadores para o
total de 20 milhões de utilizações diárias.
SoundHound Shazam
5.5. Apple compra Shazam
Em 2017, a Apple anunciou que ia comprar o Shazam por
400 milhões de dólares, fechando negócio oficialmente em
setembro de 2018 [15]. Apesar da Apple não anunciar os
seus planos oficiais desta aquisição, é bastante claro que o
objetivo seria integrar a tecnologia e funcionalidades do
Shazam nas plataformas da empresa.
7
Televisão. A partir daí, surgiram inúmeras parcerias, com Uma hipótese a explorar pelo Shazam poderia ser o
firmas como a AMC, A&E, Dick Clark Productions, Fuse, reconhecimento de voz, ou seja, criar uma base de dados
Fox. Eventos como o Super Bowl, Grammys e Oscars com a fingerprint da voz de pessoas (podia começar por ser
também beneficiam destes serviços [1]. de figuras públicas, políticos…) e utilizar essa informação
para categorizar automaticamente vídeos/filmagens de
6.2. Outras Parcerias Importantes notícias e entretenimento. Obviamente, esta plataforma iria
trazer várias problemáticas Éticas, que advém da proteção
Uma parte essencial da plataforma do Shazam é a sua base
de privacidade e propriedade intelectual.
de dados. Para a aplicação ter acesso aos ficheiros áudio
oficiais das músicas, e os seus direitos associados, precisa 8. CONCLUSÃO
de fazer variados acordos com editoras e entidades com
repositórios de música. Desta forma, para ter o máximo de Através deste artigo foi possível estabelecer um contacto
músicas possíveis, a empresa tenta fazer o máximo de mais próximo com os diversos aspetos tecnológicos, de
parcerias com entidades como a Warner Music Group, multimédia e comerciais relacionados com os serviços da
Vivendi's Universal Music Group e a Sony Music aplicação. Foi providenciada uma visão bastante intrínseca
Entertainment, mas também penetrar em mercados de várias no que toca à arquitetura global bem como um
regiões e países como a Saavn (streaming de música na esclarecimento das ideias do modelo de negócio e da
Índia), e de todo os estilos de música, como a Beatport (das situação dinâmica de mercado existente na atualidade.
principais “libraries” de música eletrónica) [1]. Foram abordadas algumas ideias e perspetivas relacionadas
com os desafios e obstáculos que o Shazam terá a enfrentar
6.3. Competição: Sound Hound no futuro, sendo especialmente focalizadas na exploração de
novas estratégias e medidas inovadoras a adotar, aliadas ao
Apesar da supremacia do Shazam no mercado, existem
desenvolvimento contínuo na área das tecnologias.
vários competidores de alta qualidade, que efetuam o
reconhecimento de áudio por meio de outras tecnologias,
também bastante inovadoras. Um dos maiores concorrentes REFERENCES
é o Sound Hound, que surge como uma alternativa com
tecnologia mais “avançada” e precisa, mas também se [1] Wikipedia (n.d) Shazam (application). Disponível em:
envolve em outros mercados, como plataformas de https://en.wikipedia.org/wiki/Shazam_(application)
processamento e assistência de voz por inteligência artificial [2] Murray Stassen (2020, 17 de novembro) Shazam surpasses
(Hound e Houndify). Perante a grande disputa entre qual a 200M Monthly active users worldwide. Disponível em:
melhor aplicação, consente-se que a plataforma e interface https://www.musicbusinessworldwide.com/shazam-surpasses-
do Shazam é mais acessível e abrangente, enquanto o 200m-monthly-active-users-worldwide/
Sound-Hound é mais preciso e tem mais features de grande [3] Carolina Ribeiro TechTudo (2019, 15 de setembro) Como
funciona o Shazam? Veja curiosidades sobre o identificador de
poder, como reconhecimento de músicas por “humming”
música. Disponível em:
[18]. https://www.techtudo.com.br/noticias/2019/09/como-funciona-o-
shazam-veja-curiosidades-sobre-o-identificador-de-musica.ghtml
7. PERSPECTIVAS PARA O FUTURO
[4] John Voorhees Macstories (2017, 11 de dezembro) Apple
Em seguimento da discussão sobre a concorrência do Acquires Shazam Song Identification Service. Disponível em:
Shazam, é possível afirmar que um dos maiores desafios https://www.macstories.net/search/Shazam/?
fbclid=IwAR2pDWbysno970nu4cwrmYRjkFAgPlEc6wGwMrqF
para a firma será manter o seu domínio do mercado, visto Z71lpMHgqOFdihNmu0s
que as principais competidoras (Sound Hound, Musixmatch, [5] Ketharaman Swaminathan Tag songs using your mobile
Tune Hunter…) apresentam tecnologias bastante inovadoras phone. Disponível em:
e apelativas aos utilizadores atuais, e estão a ganhar terreno https://sketharaman.com/blog/2006/12/10/tag-songs-using-your-
em relação ao seu alcance dos mercados e acessibilidade da mobile-phone/?fbclid=IwAR0bIUNtvr0tVx9-U--
interface [13]. Ebw1LFV0SR8jjbi-Dibq4K3XlvsJkAeU7WV99yIs
Tendo isto em conta, é de esperar que o Shazam comece a [6] Shazam Entertainment Ltd. © Copyright 2020 Apple Inc. e
explorar outras tecnologias que utilizem técnicas de suas afiliadas. Website: https://www.shazam.com/pt/company
[7] Cristophe (Username) (2015, 23 de maio) “How does Shazam
Machine Learning e Inteligência Artificial, para
work” in CodingGeek.com. Disponível em: http://coding-
complementar o seu serviço. Como antes referido, a Apple geek.com/how-shazam-works/
irá muito provavelmente incorporar a tecnologia do Shazam [8] A. L. Wang, Shazam Entertainment, Ltd. (data indeterminada)
a muitas das suas aplicações, tentando mesmo aprofundar a An Industrial-Strength Audio Search Algorithm. USA: Ross Road
sua influência no domínio da televisão e do cinema. Palo Alto, CA. United Kingdom: Kensington High Street, London.
8
Disponível em: Integrado em Engenharia Eletrotécnica e de Computadores
https://www.ee.columbia.edu/~dpwe/papers/Wang03-shazam.pdf do Instituto Superior Técnico. Tem como área de
[9] Bit Rate in Wikipedia. Disponível em: especialização principal Telecomunicações e como área
https://pt.wikipedia.org/wiki/Bit_rate
secundária Computadores.
[10] Figura por cortesia de D. Pan (2020, 11 de dezembro). Digital
Music Distribution and Audio Watermarking - Scientific Figure on
ResearchGate. Disponível em:
https://www.researchgate.net/figure/A-block-diagram-of-the-MP3-
encoding-and-decoding-process-Figure-courtesy-D-Pan-
32_fig1_2267187
[11] “América Móvil avança em entretenimento OTT com compra
de 10% da Shazam” (2013, 8 de Julho) em tele.síntese.com.br.
Disponível em: https://www.telesintese.com.br/america-movil-
avanca-em-entretenimento-ott-com-compra-de-10-da-shazam/
[12] Rute Claro, O que são os OTT? (2018, 15 de Junho) em
ComparaJá.pt. Disponível em:
https://www.comparaja.pt/blog/servicos-ott
[13] Trevir Nath, How Shazam Makes Money, (2019, 30 de Julho)
em Investopédia.com. Disponível em:
https://www.investopedia.com/articles/personal-
finance/010815/how-shazam-makes-money.asp
[14] Shazam In App Advertising (2016, 16 de fevereiro) in
StudyLib. Disponível em:
https://studylib.net/doc/18124718/shazam-in-app-advertising-
technical
[15] Shona Ghosh, “An early Shazam investor thinks the Apple
deal is 'fantastic' — but that Shazam was 7 years too early" (2017,
12 de Dezembro) em Business Insider. Disponível em:
https://www.businessinsider.com/shazam-investor-apple-great-too-
early-2017-12
[16] “Shazam: TV advertising is going to become our primary
revenue stream” (autor desconhecido, 2013) no Guardian.
Disponível em:
https://www.theguardian.com/media/appsblog/2013/feb/27/shazam
-tv-advertising-future
[17] “Abhijjith V” (username) (2019, 12 de fevereiro) “How does
Music Recognition apps like Shazam recognize every jam of
ours!” em Medium. Disponível em:
https://medium.com/@abhijjithvenkkatesh/how-does-music-
recognition-apps-like-shazam-recognize-every-jam-of-ours-
9ceaec503688
[18] Christine Chan, (2019, 6 de maio) “SoundHound vs. Shazam:
Which music identification service should you use?” on iMore.
Disponível em: https://www.imore.com/soundhound-vs-shazam