Shazam Final

SHAZAM: IDENTIFICAÇÃO DE UMA EXPERIÊNCIA SONORA
João Paixão nº90112 Ricardo Pato nº90175
Instituto Superior Técnico

Av. Rovisco Pais, 1049-001 Lisboa, Portugal
E-mail: {joao.p.paixao, ricardo.santos.pato}@tecnico.ulisboa.pt
ABSTRATO Por fim é fornecida uma ideia/ perspetiva de como a

aplicação se poderá desenvolver no futuro e que possíveis
A compreensão, aprendizagem e o domínio de determinados alterações e relações poderão existir com outros serviços de
aspetos de multimédia tem tido um papel fulcral no diferentes áreas.
desenvolvimento de múltiplas áreas, não só a nível
científico e tecnológico, como também a nível das relações 2. BREVE EVOLUÇÃO HISTÓRICA
interpessoais.
A comunicação de áudio e vídeo surge neste âmbito e cada A empresa que originalmente desenvolveu a aplicação,
vez mais se tem afirmado como um pilar imprescindível no denominada por Shazam Entertainment Limited, foi criada
dia a dia dos seres humanos, na medida em que promove um em 1999 por Chris Barton, Philip Inghelbrecht, Avery Wang
leque de competências técnico-artísticas relacionadas com e Dhiraj Mukherjee.
todo o processo de manipulação, produção e difusão de Inicialmente este serviço apenas tinha sido lançado no Reino
imagens e sons. Unido e era conhecido como “2580”, uma vez que era este o
Com o objetivo de corroborar este interesse e motivação na número para o qual os utilizadores enviavam uma
área das comunicações, o presente artigo debruça-se mensagem (SMS) para descobrir algumas informações
precisamente em diversos aspetos tecnológicos e de relacionadas com o áudio emitido. 30 segundos após o
multimédia que se encontram interligados e que são envio, o dispositivo móvel recebia de volta uma mensagem
aprofundados juntamente com o tópico central retratado: a a indicar o título do áudio e o respetivo autor [1].
aplicação Shazam.
Palavras-Chaves: Fingerprint, Espectrograma, Shazamable
1. INTRODUÇÃO
Já aconteceu a todos nós ouvir uma música ou um áudio de

um programa que nos soa familiar, mas infelizmente não
nos conseguimos lembrar das informações relacionadas com
o áudio (autor, nome da música, álbum etc.). Figura 1 – Serviço da app em 2002 [5]
A aplicação Shazam surge neste contexto, na medida em
que é uma ferramenta que permite a identificação e Nos anos seguintes houve diversas atualizações nos serviços
reconhecimento de músicas, filmes, programas de TV, da aplicação, nomeadamente, a inclusão de hyperlinks nas
anúncios e outros suportes de áudio através da reprodução mensagens recebidas pelos dispositivos, através dos quais
de uma pequena amostra recorrendo ao microfone de um era possível realizar o download dos áudios online.
dispositivo móvel. Em 2012, a Shazam revelou que os serviços da sua
Este artigo explora os diversos serviços incorporados na aplicação tinham sido utilizados para identificar mais de 5
aplicação, começando por dar uma contextualização breve biliões de músicas, programas de televisão e anúncios, tendo
da sua evolução histórica, o esclarecimento das sido registados mais de 225 milhões de utilizadores em 200
funcionalidades disponíveis e da relação da interface com o países diferentes [1].
utilizador, bem como a explicação da tecnologia que Nos últimos anos foram realizados outros updates, como a
potencia o funcionamento e que está por trás da app. possibilidade de ouvir a música dentro da própria aplicação
Procede-se também à avaliação do modelo de negócio, ao e a disponibilização da letra completa do áudio.
estudo da dinâmica de mercado e à análise da competição Atualmente dados estatísticos apontam que a aplicação tem
com outras aplicações cujo serviço é semelhante. sido utilizada ativamente mais de 200 milhões de vezes por
1
mês e que se encontrada instalada em mais de 500 milhões Introduzindo este conceito de uma maneira genérica, uma
de dispositivos movéis [2]. fingerprint de áudio é um conjunto de características
retiradas do espetro de frequências do áudio de uma música,
3. FUNCIONALIDADE E INTERFACE que conseguem ser únicas à mesma, e, simultaneamente, ser
encontradas num conjunto de várias músicas, por
A aplicação Shazam identifica as breves amostras
comparação [7].
recorrendo a um sistema de impressões digitais de áudio
(Audio Fingerprints), cujo algoritmo tem por base a
Antes de entrar
análise do gráfico temporal-espectral (Spectogram) [1].
em detalhe sobre
Em primeiro lugar, o utilizador procede à gravação de um
a implementação
áudio recorrendo ao microfone integrado no aparelho.
do algoritmo, é
Posteriormente a aplicação analisa a amostra e verifica se a
necessário ter
nova impressão digital acústica corresponde a uma dos
em conta as
milhares de milhões de impressões digitais que já se
motivações para
encontravam armazenadas na extensa base de dados do
o uso do mesmo,
software. Caso ocorra a correspondência entre impressões e
e quais são as
o reconhecimento seja bem-sucedido, são apresentadas
dificuldades a
informações como o título do áudio, o artista, o álbum, Figura 3 – Modelo de Arquitetura
ultrapassar de
outras músicas populares relacionadas, e também é Global do Shazam [7]
forma a cumprir
disponibilizado um hyperlink através do qual é possível
o objetivo da
efetuar o download do áudio.
aplicação.
Uma das funcionalidades fornecidas pelo software é a
possibilidade de o utilizador ouvir o áudio original dentro da
Efetivamente, a finalidade do Shazam é identificar, a partir
própria aplicação e de acompanhar a respetiva letra
de áudio gravado pelo telemóvel (ou outro recetor) uma
completa. Para além disto é possível também o
música presente numa base de dados. Começando pelas
compartilhamento dos áudios através das redes sociais e
adversidades na captação e no ambiente exterior ao user, há
caso pretenda, o utilizador pode ouvir as músicas
as seguintes condições [8]:
identificadas no Shazam em outras aplicações e plataformas
como o Spotify, Youtube, Google Play Music e a Apple
 O algoritmo tem de ser resistente a uma quantidade
Music [3].
considerável de ruído, visto que muitas vezes a
A aplicação é compatível em aparelhos com sistemas iOS,
captação é feita em ambientes com muito “barulho
Android, Blackberry OS e Windows Phone e consegue
de fundo”
identificar trechos de áudio provenientes de qualquer fonte,
 Para identificar a música, tem de ser utilizada
desde que o nível de
informação que resiste à compressão do microfone
ruído de fundo não
do recetor. Muitas vezes, utilizando o microfone e
seja demasiado
a interface do telemóvel, a gravação áudio passa
elevado ao ponto de
por uma compressão destinada às características
dificultar a criação da
sonoras da Voz, não sendo ideais para música. (Na
nova impressão digital
altura que foi desenhado este algoritmo, o sinal
e do processo de
teria de passar por compressão GSM 6.10, pois
reconhecimento [1].
tinha de ser diretamente transmitido para o server
do Shazam)
Figura 2 – Interface atual e algumas funcionalidades [4]  Frequentemente, a música que está a ser
reproduzida sofreu algum tipo de
filtração/modulação, mudando muitas das
4. ARQUITETURA GLOBAL DA APLICAÇÃO características inerentes à música original (ex: é
usual os DJs alterarem o tempo da música, mudar o
Como já foi anteriormente mencionado, o Shazam possui “pitch”, aplicar algum efeito como delay ou reverb)
um algoritmo de categorização e armazenamento de músicas  O modo de identificação da música tem de ser
por meio de um tipo de identificação chamado Fingerprint “invariante no tempo”, ou seja, a música tem de ser
(impressão digital) [6]. reconhecível independentemente da secção da
música captada pelo user.
2
Em adição, considerando edificação da base de dados com o
máximo de músicas possíveis, o algoritmo de conversão e
indexação das músicas em informação utilizável para
procura, tem de conseguir aceitar músicas em muitos
formatos. A mesma música pode ter de ser convertida pelo
shazam vindo no formato 256kbit ACC, relativo ao iTunes,
ou no formato 256Kbit MP3, e obter a mesma identificação
para as duas. Figura 3 – Modelo da conversão de áudio em espetro de
frequências [7]
Por fim, também é preciso ter em conta a problemática
associada à procura da música na base de dados. Antes de passar à análise da conversão no espetro de
 O algoritmo tem de ser bastante eficiente e rápido frequências, é necessário considerar o próprio input do
na procura, visto que a base de dados terá milhões sistema. Atendendo ao pré processamento do sinal, podemos
de músicas, e está sempre a ser atualizada e dividir esta fase em Digitalização, Conversão para PCM
aumentada. O objetivo inicial era que esta procura (Mono) e a Normalização.
fosse realizada num espaço de tempo de segundos.
 A identificação das músicas tem de ser altamente A primeira parte consiste na transformação do som, um sinal
precisa, e bastante robusta em relação a analógico, num sinal digital, por meio da amostragem do
“mismatches”. Muitas músicas têm secções muito mesmo e a posterior quantização. Evidentemente, esta
semelhantes, e, devido ao ruído e todo o secção é referente ao processo de captura do áudio. No lado
processamento adicionado, várias podem ter do utilizador, consiste na captura da amostra de áudio a
características quase indistinguíveis. partir do microfone do telemóvel. Por outro lado, no
 A estrutura de dados tem de ser capaz de retornar servidor, esta captura é referente à construção da base de
um conjunto de meta-data, como o nome da música dados com as músicas, logo não é feita de raiz, visto que o
e do artista, entre outros… áudio chega ao mesmo num dos formatos standards, tais
como MP3, AAC, ou OGG Vorbis.
4.1. Fingerprints
O seguinte passo, é a transformação no formato Pulse-Code
Atendendo às motivações apresentadas, a solução que Modulation (PCM). Este é o formato pretendido para o
resiste a todas estas adversidades, foi então uma processamento, pois é a forma básica (e mais simples) de
identificação da música por meio das características de representação digital, sendo mais fácil e transparente usar
frequência. uma forma elementar em que cada sample é representada
independentemente das outras, com o mesmo número de
A primeira fase da criação das fingerprints consiste em bits.
filtrar as frequências que mais interessam para a deteção da
música, ou seja, tentar eliminar ao máximo a intervenção do No lado do servidor, irá ser analisada a conversão de MP3
ruído. para PCM, visto ser o formato standard e mais vulgar de
codificação de áudio. Para música, geralmente, o áudio é
wideband, com largura de banda de 10 a 22kHz, sampling
4.1.1. Obter o Mapa espectral
rate de 48KHz, 16bits/sample e um bitrate entre os 128 e os
É evidente a complexidade e especificidade deste processo, 192Kbit/s [9]. No âmbito deste artigo, é utilizado um
e visto que não existe acesso à informação dada pela sampling rate de 44,1KHz de forma a se poder utilizar a
Shazam, é meramente possível apresentar uma hipótese de hipótese de implementação mencionada anteriormente. Este
implementação. valor foi escolhido por estar imediatamente acima do valor
Neste projeto recorremos várias vezes ao modelo sugerido mínimo de frequência de amostragem
por “Christophe” (username no website Coding Geek) no
artigo “How does Shazam work” [7], tendo em conta a
profundidade da análise e pesquisa feita, e do seguimento
das diretrizes provenientes do trabalho original sobre o
Shazam de Avery Li-Chun Wang em “An Industrial-Strength
Audio Search Algorithm” [8].
Com efeito, analisamos a representação gráfica da

implementação proposta:
3
originais. Por conseguinte, só é possível analisar um espetro
de 0 a 5KHz. Porém, o Shazam é desenhado para precisar
somente dessa janela de frequências, pois estas são
suficientes e bastante representativas de cada música (na
prática, é mais fácil reconhecer uma música pelos seus sons
mais graves, do que propriamente pelos sons de frequência
muito alta).
Discrete Fourier Transform

Após a diminuição do número de amostras, prossegue-se
então para a conversão do sinal temporal digital para o
Figura 4 – Modelo de codificação e descodificação de MP3
(PCM como input e output) [10] espetro de frequências. Como antes referido, utiliza-se a
Transformada de Fourier Discreta (DFT) para este efeito (o
Considerando a parte inferior da Fig.4, relativa à sinal não é transmitido em tempo contínuo, mas sim por
descodificação, é possível observar que o bitstream samples no domínio discreto). Porém, é previsto que o
transmitido em MP3, sofre um processo que se poderá dizer algoritmo do Shazam use algum método que diminua o
“inverso” ao que se conhece como a codificação MPEG-1 tempo de computação, tendo em conta o grande número de
de Layer 3. Mais especificamente, o código de entropia iterações que estaria associado a uma DFT sem alterações.
(Huffman code) é descodificado, assim como os restantes Uma solução adequada e usual seria o uso de uma Fast
bits referentes à informação sobre a “codificação”. De Fourier Transform (FFT), implementando o algoritmo radix
seguida, o fator de escala introduzido na codificação é 2 Cooley–Tukey [7].
“anulado”, assim como a quantização aplicada
anteriormente, ambos fatores decididos através dos modelo Outro parâmetro a ter em conta na conversão é a função
psico-acústico associado. Posteriormente, é aplica a MDCT usada para definir a janela de transformação (window
inversa, que é referente a inverter o processo de aplicação function). No modelo representado na Fig.3, podemos ver
dos coeficientes da Modified Discrete Cossine Function. Por que foi escolhido uma janela de Hamming, pois esta suporta
fim, as bandas anteriormente separadas na codificação são bem níveis de ruído altos, mantém uma considerável
juntas, retornando uma PCM stream, claramente degradada resolução espetral e evita eficazmente o espalhamento
em relação à que deu origem ao ficheiro MP3. espetral, em comparação com outras hipóteses típicas
Muitas vezes, o ficheiro MP3 é recebido em formato stereo (Janela Retangular, de Blackman…)
(Mono/Stereo ou Joint Stereo). Portanto, um método de Filtração
força bruta para condensar os dois canais num só seria
Ao desenhar o gráfico das frequências obtidas pelas
utilizar a média dos sinais de cada canal somados.
conversões anteriores ao longo do tempo do ficheiro áudio,
constrói-se um mapa espetral semelhante ao da Fig.5,
Relativamente ao utilizador, o áudio capturado no microfone
retirado do trabalho original de A. L. Wang.
de voz do telemóvel é convertido diretamente em PCM.
Normalmente, nestas condições (Speech) a largura de banda
é de 300 a 3400Hz, com um sampling rate de 8k,
Como é possível
8bits/sample e um PCM bitrate de 64Kbit/s. Excluindo o
observar, este
tratamento inicial da amostra introduzida no sistema, o
gráfico ainda contém
processamento é essencialmente o mesmo no User e no
muito ruído, ou seja,
Server.
um grande número
de frequências
Down-sampling indesejadas (para
Ao obter a stream PCM a 44.1KHz, antes de converter a Figura 5 – Exemplo de Espetrograma cada intervalo
função temporal em frequências (por meio de uma FFT, obtido na conversão de um ficheiro temporal, há muitas
explicada posteriormente), é fulcral realizar um passo de áudio [8] frequências que
downsampling, de forma a diminuir a janela que irá ser representam ruído
utilizada na transformação, mas mantendo a resolução na gravação, ou erro acrescentado na conversão). Para poder
espetral. Utilizando o exemplo escolhido [7], ao efetuar um fazer uma boa identificação da música, é espectável haver
downsampling de factor 4, passa-se de uma frequência de algum tipo de filtragem, de forma a apenas lidar com as
44.1KHz para 11.025KHz, com um quarto das amostras frequências dominantes da música.
4
atribuído um anchor point, naturalmente fora do conjunto,
A escolha lógica seria apenas manter as frequências com que serve como referência.
maior amplitude, mas tendo em conta as condições referidas
anteriormente, muitas vezes, num espaço ruidoso, há Contudo, em vez de fazer uma procura a partir da
frequências que se sobrepõem à música em termos de combinação de certas coordenadas de frequência, o
amplitude. Efetivamente, por muito que não seja percetível algoritmo utiliza a distância temporal entre esse conjunto de
ao ouvido humano, há muitas frequências graves de alta frequências. De certa maneira, podemos comparar esta
amplitude que são capturadas na gravação. associação ao método humano de reconhecimento de
músicas, pela relação entre várias frequências ao longo do
Tendo isto em conta, a solução a considerar, é dividir o tempo.
espetro de frequências em várias bandas. Desde frequências
muito graves (<500Hz), até às frequências mais altas, dentro Deste modo, o endereço utilizado pelo Shazam é da seguinte
do espetro de 5KHz. De seguida, calcula-se a média das forma:
frequências mais altas dentro de cada secção, e, por fim,
apenas se mantêm as frequências mais altas que essa média. Na procura:
[ f ref ; f i ; Δt ] →[ t¿ ¿i]¿
Desta forma, obtém-se o mapa espetral representado na
Fig.6, somente com as frequências selecionadas ao longo do
tempo. É notável que, a partir deste gráfico, já não é
f ref : frequência do ponto de referência
necessária qualquer informação sobre a amplitude, podendo f i : frequência do ponto selecionado na target zone
processar a identificação das “coordenadas de frequências” Δt : intervalo de tempo entre o ponto de referência e o ponto em
em duas dimensões. questão
t audio i
: tempo absoluto do ponto de referência no ficheiro áudio
4.2. Estrutura
de Dados E armazenado na tabela de dispersão:
4.2.1. Armazenar e
procurar Fingerprints
[ f ref ; f i ; Δt ] →[ t song ;id song ]
i
Para armazenar e Figura 5 – Pontos do mapa espetral que foram selecionados [8]
endereçar as fingerprints, a Shazam utiliza uma tabela de
dispersão (Hash Table), e é necessário ter em conta o tempo
de procura que irá ser feita posteriormente. Por esta razão,
seria impossível fazer uma mera busca intensiva de matches
t song : tempo absoluto do ponto de referência na música
i
de pontos consecutivos. É evidente que, com a escala deste id song : identificação da música
problema, a procura dentro de só uma música já
representaria um tempo considerável de computação. Evidentemente, a cada endereço está também associado a
meta-data relativa à música, como o título, artista, tempo da
Target Zones música, etc.
Por conseguinte, a estratégia utilizada foi agrupar um
determinado número de pontos em chamadas target zones. Matching
Desta forma a procura irá ser feita comparando conjuntos de Com os endereços já definidos, o processo de procura e de
pontos, diminuindo a iteração anteriormente necessária. pontuação é bastante simples. Para o M número de pontos
Como representado na de referência, percorre-se
Fig.6a, a cada conjunto de a tabela de dispersão à
pontos (8 pontos em procura de
específico no gráfico do correspondências
trabalho original) é (entendendo-se como
correspondência o match
de uma target zone
inteira). De seguida,
Figura 6 – a) Representação da target zone escolhida, e o seu

5
ponto de referência (anchor point) b) Demonstração do
endereçamento de uma fingerprint [8]
seleciona-se as músicas com mais correspondências, ou seja, Numa primeira fase, este serviço só estava disponível no
com um número de correspondências maior que um certo Reino Unido, pois países como os Estados Unidos ainda não
coeficiente, dependente do número target zones. possuíam a tecnologia para suportar o tipo de mensagens
necessárias no âmbito da aplicação (com mensagens de
Após esta seleção, surge outro problema. Se duas músicas áudio e hyperlinks).
tiverem o mesmo número de correspondências, qual é que se
deve escolher? Note-se que o número de correspondências Em 2004, o Shazam foi finalmente lançado pela rede sem
feitas em nada se relaciona com a distribuição temporal das fios da AT&T, a principal empresa de telecomunicações
mesmas, ou seja, é necessário agora analisar a ordem de americana. Nesta fase, apesar de ter um funcionamento
cada match. No fim, a música que tiver mais semelhante, a aplicação era oferecida gratuitamente.
correspondências na ordem temporal certa é, naturalmente, a
escolhida como resposta. 5.2. Era dos Smartphones
Com o aparecimento dos primeiros smartphones, o Shazam
Para fazer esta contagem final, é necessário criar outra
estreou-se como uma aplicação gratuita na Apple App Store,
tabela de dispersão, para armazenar uma nova variável delta
e, ao longo dos anos, foi-se expandindo pelos outros
ΔT =¿ t song i−t i∨¿, relativamente às músicas sistemas operativos, como o Android, Windows e
selecionadas. De seguida, para cada valor de delta, conta-se BlackBerry.
as vezes que a condição t song i =t i + ΔT se verifica, para
cada ponto do mapa espetral, obtendo um novo número de Apesar de várias alterações estruturais na aplicação, a partir
correspondências e, consequentemente, a música com maior desta última grande mudança de paradigma, o modelo de
semelhança. Irá se obter valores de delta diferentes para o negócio manteve-se essencialmente o mesmo.
mesmo ponto do mapa espetral do ficheiro áudio, visto que
é habitual certas partes repetirem-se na mesma música, 5.3. Modelo de Negócios Freemium
porém isso não causa nenhum problema neste algoritmo. Efetivamente, o Shazam foi uma das aplicações de
smartphone pioneiras a ganhar rendimentos através de
publicidade em grande escala, enquanto disponibilizando a
4.3. Transmissão via OTT
plataforma de forma gratuita aos utilizadores. O seu modelo
Em termos da transmissão para o server das fingerprints e de negócio Freemium consiste, na maior parte, em cobrar às
de toda a data associada ao user e ao áudio gravado (e vice- empresas de streaming de música, para que a sua plataforma
versa), o Shazam utiliza serviços OTT (Over The Top) [11], de compra de multimédia seja referenciada em cada
que são justamente plataformas de distribuição de conteúdos reconhecimento de música feito pela aplicação. Por outras
via Internet. Esta transmissão é concretizada por meio de palavras, por cada reconhecimento de música que a
uma conexão direta entre a plataforma e o usuário, sem aplicação faz, é apresentada a informação da música
intermédio de outras empresas e serviços de selecionada (nome, artista, álbum…), mais os links para as
Telecomunicações. Desta forma, o Shazam usufrui de maior plataformas que queiram vender o streaming dessa mesma
independência e menores custos de transmissão, assim como música (Spotify, iTunes…), sendo esta referência paga,
de grande alcance e versatilidade [12]. proporcionalmente ao número de vendas de música
(relativas ao iTunes), ou ao número de subscrições (Spotify)
5. MODELO DE NEGÓCIO [13].
Para analisar o modelo de negócio e a sua evolução, temos
Obviamente, como quase todas as aplicações presentes no
de olhar para a história e desenvolvimento da app em si.
mercado atualmente, o Shazam também ganha rendimentos
através da exibição de publicidade propriamente dita,
5.1. Primeira RTM (Release To Market) utilizando os formatos standards na indústria. Esta
Como já antes referido, o Shazam foi lançado em 2002, publicidade, em display nos cabeçalhos e em vários
exclusivamente no Reino-Unido, como uma aplicação de formatos espalhados pelo ecrã e loading screens, não é
pagamento “direto”, ou seja, ao marcar o “2580”, ao necessariamente relacionada com streaming de música [14].
utilizador seriam automaticamente cobradas 0,5 libras, caso
a música tenha sido reconhecida. Este preço subiu 5.4. Funding
posteriormente em 2006 e foi acrescentada a opção de
Desde a génese da empresa como start-up, maior parte do
subscrição mensal [1].
rendimento operativo é proveniente de financiamento
externo, por meio de investidores individuais (Angel
6
Investors) e Venture Capitalists. Nos primeiros anos, o 5.6. Balanço Económico
Shazam recebeu perto de 10 milhões de dólares De um modo geral, a aplicação tem registado ao longo dos
provenientes destas fontes (2000 e 2001) [1]. anos uma evolução positivamente crescente em termos de
saldo e receitas. O aumento exponencial da utilização de
Efetivamente, a empresa demorou muito tempo até ser smartphones e outros dispositivos móveis aliado às fortes
lucrativa, visto que necessitou de bastante capital para campanhas de anúncios publicitários e aos investimentos
desenvolver a sua tecnologia e plataforma, e, por outro lado, inteligentes tem contribuído para a expansão contínua do
todo o lucro gerado pela publicidade e mensagens não era modelo de negócio atual do Shazam [17].
suficiente. Para ultrapassar este peso financeiro, o Shazam
teve de se expandir ao máximo de mercados possíveis,
conseguindo só alcançar um balanço positivo após 17 anos 6. DINÂMICA DE MERCADO E COMPETIÇÃO
do começo da empresa, quando já se encontrava na
plataforma dos smartphones, com uma base de utilizadores Como mencionado anteriormente, o modo de operação do
que atingiu o pico máximo de 30 mil milhões de Shazam consiste em entrar no maior número de mercados
reconhecimentos de áudio em 2016, tendo registado um possível, tentando expandir a sua base de utilizadores para o
total de 20 milhões de utilizações diárias.
SoundHound Shazam
5.5. Apple compra Shazam
Em 2017, a Apple anunciou que ia comprar o Shazam por
400 milhões de dólares, fechando negócio oficialmente em
setembro de 2018 [15]. Apesar da Apple não anunciar os
seus planos oficiais desta aquisição, é bastante claro que o
objetivo seria integrar a tecnologia e funcionalidades do
Shazam nas plataformas da empresa.
Na altura da compra, a Shazam já somava um investimento

de 140 milhões de dólares no total, e tinha apenas gerado
40,3 milhões de libras nesse ano. Era, de facto, considerada
uma empresa não lucrativa, com perdas a rondar os 3,7
milhões de libras, também nesse ano (dezembro 2016).
máximo de serviços multimédia. De facto, tudo o que é
Apesar de todo o risco associado, há muitos mais benefícios
codificável pelo algoritmo (áudio e vídeo), pode ser
a ter em consideração. O Shazam já tinha mais que 100
explorado pela empresa, que já passou a era de uma mera
milhões de utilizadores ativos mensalmente. Por outro lado,
aplicação de reconhecimento de músicas, para uma
já foram feitos no passado vários acordos e sinergias entre
plataforma de informação sobre todo o tipo de produtos
as duas firmas (o Shazam foi das primeiras apps
multimédia, que atualmente opera no ramo da televisão,
introduzidas em exclusividade na App Store nos primeiros
rádio, cinema e aplicações como o Snapchat [1].
iPhones), provando o valor acrescentado na integração da
aplicação. O algoritmo do Shazam podia ser adaptado a
várias frentes da Apple, tais como a Siri. Em adição, na 6.1. TV e Cinema Shazamable
aplicação em concreto, a primazia dada ao iTunes seria uma Desde 2014 que o Shazam entrou no ramo da TV e do
grande vantagem sobre os outros competidores de streaming cinema, permitindo, perante o reconhecimento do conteúdo,
de música. a exibição de publicidade, informação/ofertas de produtos
sobre o programa/filme, quizzes/sondagens, etc.
"20% of all iPhones in the US used Shazam last month, and
Figura 5 – Comparação entre o Sound Hound e o Shazam [18]

in some European countries like France, Germany and the Esta transição começou por parcerias com a National
UK we're seeing closer to 30% or 40%. And we're currently CineMedia, que fornecia conteúdo “Shazamable” nos
adding at least 2m new users a week, and more than 3m anúncios pré-filme da FirstLook, em cinemas da Regal,
some weeks." David Jones, Vice-Presidente Executivo do AMC e Cinemark. No mesmo ano, o Shazam lançou a
Shazam (2013) [16] “Resonate”, um produto de vendas que permite o acesso às
tecnologias da aplicação por parte das networks de
7
Televisão. A partir daí, surgiram inúmeras parcerias, com Uma hipótese a explorar pelo Shazam poderia ser o
firmas como a AMC, A&E, Dick Clark Productions, Fuse, reconhecimento de voz, ou seja, criar uma base de dados
Fox. Eventos como o Super Bowl, Grammys e Oscars com a fingerprint da voz de pessoas (podia começar por ser
também beneficiam destes serviços [1]. de figuras públicas, políticos…) e utilizar essa informação
para categorizar automaticamente vídeos/filmagens de
6.2. Outras Parcerias Importantes notícias e entretenimento. Obviamente, esta plataforma iria
trazer várias problemáticas Éticas, que advém da proteção
Uma parte essencial da plataforma do Shazam é a sua base
de privacidade e propriedade intelectual.
de dados. Para a aplicação ter acesso aos ficheiros áudio
oficiais das músicas, e os seus direitos associados, precisa 8. CONCLUSÃO
de fazer variados acordos com editoras e entidades com
repositórios de música. Desta forma, para ter o máximo de Através deste artigo foi possível estabelecer um contacto
músicas possíveis, a empresa tenta fazer o máximo de mais próximo com os diversos aspetos tecnológicos, de
parcerias com entidades como a Warner Music Group, multimédia e comerciais relacionados com os serviços da
Vivendi's Universal Music Group e a Sony Music aplicação. Foi providenciada uma visão bastante intrínseca
Entertainment, mas também penetrar em mercados de várias no que toca à arquitetura global bem como um
regiões e países como a Saavn (streaming de música na esclarecimento das ideias do modelo de negócio e da
Índia), e de todo os estilos de música, como a Beatport (das situação dinâmica de mercado existente na atualidade.
principais “libraries” de música eletrónica) [1]. Foram abordadas algumas ideias e perspetivas relacionadas
com os desafios e obstáculos que o Shazam terá a enfrentar
6.3. Competição: Sound Hound no futuro, sendo especialmente focalizadas na exploração de
novas estratégias e medidas inovadoras a adotar, aliadas ao
Apesar da supremacia do Shazam no mercado, existem
desenvolvimento contínuo na área das tecnologias.
vários competidores de alta qualidade, que efetuam o
reconhecimento de áudio por meio de outras tecnologias,
também bastante inovadoras. Um dos maiores concorrentes REFERENCES
é o Sound Hound, que surge como uma alternativa com
tecnologia mais “avançada” e precisa, mas também se [1] Wikipedia (n.d) Shazam (application). Disponível em:
envolve em outros mercados, como plataformas de https://en.wikipedia.org/wiki/Shazam_(application)
processamento e assistência de voz por inteligência artificial [2] Murray Stassen (2020, 17 de novembro) Shazam surpasses
(Hound e Houndify). Perante a grande disputa entre qual a 200M Monthly active users worldwide. Disponível em:
melhor aplicação, consente-se que a plataforma e interface https://www.musicbusinessworldwide.com/shazam-surpasses-
do Shazam é mais acessível e abrangente, enquanto o 200m-monthly-active-users-worldwide/
Sound-Hound é mais preciso e tem mais features de grande [3] Carolina Ribeiro TechTudo (2019, 15 de setembro) Como
funciona o Shazam? Veja curiosidades sobre o identificador de
poder, como reconhecimento de músicas por “humming”
música. Disponível em:
[18]. https://www.techtudo.com.br/noticias/2019/09/como-funciona-o-
shazam-veja-curiosidades-sobre-o-identificador-de-musica.ghtml
7. PERSPECTIVAS PARA O FUTURO
[4] John Voorhees Macstories (2017, 11 de dezembro) Apple
Em seguimento da discussão sobre a concorrência do Acquires Shazam Song Identification Service. Disponível em:
Shazam, é possível afirmar que um dos maiores desafios https://www.macstories.net/search/Shazam/?
fbclid=IwAR2pDWbysno970nu4cwrmYRjkFAgPlEc6wGwMrqF
para a firma será manter o seu domínio do mercado, visto Z71lpMHgqOFdihNmu0s
que as principais competidoras (Sound Hound, Musixmatch, [5] Ketharaman Swaminathan Tag songs using your mobile
Tune Hunter…) apresentam tecnologias bastante inovadoras phone. Disponível em:
e apelativas aos utilizadores atuais, e estão a ganhar terreno https://sketharaman.com/blog/2006/12/10/tag-songs-using-your-
em relação ao seu alcance dos mercados e acessibilidade da mobile-phone/?fbclid=IwAR0bIUNtvr0tVx9-U--
interface [13]. Ebw1LFV0SR8jjbi-Dibq4K3XlvsJkAeU7WV99yIs
Tendo isto em conta, é de esperar que o Shazam comece a [6] Shazam Entertainment Ltd. © Copyright 2020 Apple Inc. e
explorar outras tecnologias que utilizem técnicas de suas afiliadas. Website: https://www.shazam.com/pt/company
[7] Cristophe (Username) (2015, 23 de maio) “How does Shazam
Machine Learning e Inteligência Artificial, para
work” in CodingGeek.com. Disponível em: http://coding-
complementar o seu serviço. Como antes referido, a Apple geek.com/how-shazam-works/
irá muito provavelmente incorporar a tecnologia do Shazam [8] A. L. Wang, Shazam Entertainment, Ltd. (data indeterminada)
a muitas das suas aplicações, tentando mesmo aprofundar a An Industrial-Strength Audio Search Algorithm. USA: Ross Road
sua influência no domínio da televisão e do cinema. Palo Alto, CA. United Kingdom: Kensington High Street, London.
8
Disponível em: Integrado em Engenharia Eletrotécnica e de Computadores
https://www.ee.columbia.edu/~dpwe/papers/Wang03-shazam.pdf do Instituto Superior Técnico. Tem como área de
[9] Bit Rate in Wikipedia. Disponível em: especialização principal Telecomunicações e como área
https://pt.wikipedia.org/wiki/Bit_rate
secundária Computadores.
[10] Figura por cortesia de D. Pan (2020, 11 de dezembro). Digital
Music Distribution and Audio Watermarking - Scientific Figure on
ResearchGate. Disponível em:
https://www.researchgate.net/figure/A-block-diagram-of-the-MP3-
encoding-and-decoding-process-Figure-courtesy-D-Pan-
32_fig1_2267187
[11] “América Móvil avança em entretenimento OTT com compra
de 10% da Shazam” (2013, 8 de Julho) em tele.síntese.com.br.
Disponível em: https://www.telesintese.com.br/america-movil-
avanca-em-entretenimento-ott-com-compra-de-10-da-shazam/
[12] Rute Claro, O que são os OTT? (2018, 15 de Junho) em
ComparaJá.pt. Disponível em:
https://www.comparaja.pt/blog/servicos-ott
[13] Trevir Nath, How Shazam Makes Money, (2019, 30 de Julho)
em Investopédia.com. Disponível em:
https://www.investopedia.com/articles/personal-
finance/010815/how-shazam-makes-money.asp
[14] Shazam In App Advertising (2016, 16 de fevereiro) in
StudyLib. Disponível em:
https://studylib.net/doc/18124718/shazam-in-app-advertising-
technical
[15] Shona Ghosh, “An early Shazam investor thinks the Apple
deal is 'fantastic' — but that Shazam was 7 years too early" (2017,
12 de Dezembro) em Business Insider. Disponível em:
https://www.businessinsider.com/shazam-investor-apple-great-too-
early-2017-12
[16] “Shazam: TV advertising is going to become our primary
revenue stream” (autor desconhecido, 2013) no Guardian.
Disponível em:
https://www.theguardian.com/media/appsblog/2013/feb/27/shazam
-tv-advertising-future
[17] “Abhijjith V” (username) (2019, 12 de fevereiro) “How does
Music Recognition apps like Shazam recognize every jam of
ours!” em Medium. Disponível em:
https://medium.com/@abhijjithvenkkatesh/how-does-music-
recognition-apps-like-shazam-recognize-every-jam-of-ours-
9ceaec503688
[18] Christine Chan, (2019, 6 de maio) “SoundHound vs. Shazam:
Which music identification service should you use?” on iMore.
Disponível em: https://www.imore.com/soundhound-vs-shazam
João Paixão, natural de Lisboa, nasceu

a 5 de maio de 1999. Atualmente
frequenta o quarto ano do Mestrado
Integrado em Engenharia Eletrotécnica
e de Computadores no Instituto
Superior Técnico. Tem como área de
especialização principal Sistemas de
Decisão e Controlo e como área
secundária Telecomunicações.
Ricardo Pato, natural de Lisboa, nasceu a 18 de agosto de

1999. Atualmente frequenta o quarto ano do Mestrado

Shazam Final

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Shazam Final

Enviado por

Direitos autorais:

Formatos disponíveis

SHAZAM: IDENTIFICAÇÃO DE UMA EXPERIÊNCIA SONORA

João Paixão nº90112 Ricardo Pato nº90175

Instituto Superior Técnico

ABSTRATO Por fim é fornecida uma ideia/ perspetiva de como a

Palavras-Chaves: Fingerprint, Espectrograma, Shazamable

Já aconteceu a todos nós ouvir uma música ou um áudio de

Com efeito, analisamos a representação gráfica da

Discrete Fourier Transform

Figura 6 – a) Representação da target zone escolhida, e o seu

Na altura da compra, a Shazam já somava um investimento

Figura 5 – Comparação entre o Sound Hound e o Shazam [18]

João Paixão, natural de Lisboa, nasceu

Ricardo Pato, natural de Lisboa, nasceu a 18 de agosto de

Você também pode gostar