Você está na página 1de 46

ANDR CAMPOS RODOVALHO MARCIO EGDIO DE MELO

SOFTWARE DE ANLISE DE MSICAS DIGITAIS E GERAO AUTOMTICA DE LISTAS DE REPRODUO

GOIANIA GO 2011

UNIVERSIDADE FEDERAL DE GOIS - UFG ESCOLA DE ENGENHARIA ELTRICA E COMPUTAO EEEC

ANDR RODOVALHO MARCIO EGDIO DE MELO

SOFTWARE DE ANLISE DE MSICAS DIGITAIS E GERAO AUTOMTICA DE LISTAS DE REPRODUO

Trabalho

de

concluso

do

curso

de

Engenharia de Computao disciplina de Projeto Final 2 para a Escola de Engenharia Computao como requisito para a concluso do curso e a obteno do ttulo de Bacharel em Engenharia de Computao.

Orientador: Prof(a) Dr. Karina Rocha Gomes da Silva

GOIANIA GO 2011

ANDRE CAMPOS RODOVALHO MARCIO EGIDIO

SOFTWARE DE ANLISE DE MSICAS DIGITAIS E GERAO AUTOMTICA DE LISTAS DE REPRODUO

Trabalho de concluso do curso de Engenharia de Computao como requisito para obteno do ttulo bacharel em Engenharia de Computao na Escola de Engenharia Eltrica e Computao da Universidade Federal de Gois.

Banca Examinadora:

Orientador:

___________________________________________________ Prof(a) Dr. Karina Rocha Gomes da Silva

Membros:

___________________________________________________ Prof. Dr. Marcelo Stehling de Castro

Membros:

___________________________________________________ Prof. Dr. Srgio Granato de Arajo

GOIANIA, 13 DE DEZEMBRO DE 2011

DEDICATRIA

Gostaramos de dedicar esta obra a nossos pais e namoradas. To prximos e to prestativos. Lembrando ainda dos nossos professores que nos inspiram a cada dia.

AGRADECIMENTOS

Agradecemos Escola de Engenharia Eltrica e Computao, bem como a prpria Universidade Federal de Gois, pela oportunidade e dedicao aos alunos. De igual maneira aos nossos pais pelo exemplo, presena e fora nesses ltimos dias. Aos nossos mestres, amigos e companheiros que no se cansam de nos mostrar nossos erros, ainda bem. A todos aqueles que nos ajudaram de vrias formas. Agradecemos ainda aos autores das fontes pesquisadas, que acreditamos terem nos ensinado conceitos e formas de ver o mundo que antes eram to distantes.

RESUMO

O trabalho tem por objetivo mostrar como e porque foi desenvolvido um aplicativo para gerao automtica de listas de reproduo de udio baseadas em grau de agitao, que pudesse rodar em mquinas de uso domstico. Definimos uma taxonomia: calma, mediana e agitada e discutimos a forma como a classificao foi criada e suas dificuldades de entendimento pela comunidade. Mostra a arquitetura dos arquivos de mdia utilizados no processamento pelo software, bem como a forma como ele foi construdo e funciona. Por fim apresenta uma pesquisa que compara resultados obtidos pelo aplicativo e a opinio das pessoas, onde houve acerto de 56,64%. Os resultados foram satisfatrios em vista de o erro maior ser em msicas moderadas onde a classificao do meio termo mais complicada frente falta de parmetros de extremo e/ou a grande diferena entre os parmetros pessoais de extremo.

PALAVRAS CHAVES: classificao e processamento de sinal de udio, decodificador MP3, listas de reproduo, influncia de msicas no ser humano, desenvolvimento de aplicativo.

ABSTRACT

The paper aims to show how and why an application was developed to automatically generate udio playlists based on agitation levels, which can run on household machines. We defined a taxonomy: median, calm agitated and discussed how the classification was created and the difficulties of understanding by the community. Shows the architecture of media files used, wich have being processed by the software, and how it was built and works. Finally presents a study that compares gotten results from application and opinion of people, there was 56.64% accuracy. The results were satisfactory, considering that the greater error was on moderate level songs, on wich classifying a "middle ground" is more complicated, because of a lack of parameters and/or the big difference between personal extreme limits perception.

KEYWORDS: classification and audio signal processing, MP3 decoder, playlists, influence of music on a human being, applications development.

LISTA DE FIGURAS
Figura 1 - Framework formulado por MYINT & PWINT ........................................................................ 15 Figura 2 - Multidimensinal escala de sentimentos - RUSSEL 1980........................................................ 16 Figura 3 - Anlise do aumento do bitrate ............................................................................................. 19 Figura 4 - Frame de uma mp3 ............................................................................................................... 20 Figura 5 - Forma de onda de uma msica calma - Tears In Heaven de Erick Clapton .......................... 21 Figura 6 - Forma de onda da msica agitada Wait da banda Earshot .................................................. 22 Figura 7 - Ampliao de uma msica agitada - Wait de EarshotFigura................................................. 22 Figura 8 - Ampliao de msica calma - Tears In Heaven de Eric Clapton ............................................ 22 Figura 9 - Ampliao de msica mediana - A sua maneira de Capital Inicial ........................................ 23 Figura 10 - Diagrama de classes modo texto ........................................................................................ 27 Figura 11 - Diagrama de Classes do modo grfico ................................................................................ 28 Figura 12 - Imagem do programa rodando em modo texto, ajuda ...................................................... 30 Figura 13 - Imagem do AudioLevels fazendo as anlises. ..................................................................... 30 Figura 14 - Imagem da tela modo grfico ao abrir o programa, no Windows. ..................................... 31 Figura 15 - Programa AudioLevels aps iniciar as anlises, no Linux. ................................................... 31 Figura 16 - Imagem de uma das pesquisas realisadas .......................................................................... 34 Figura 17 - Grfico de nvel da msica La Bomba Explosiva, mediana.................................................. 36 Figura 18 - Grfico de nvel da msica Dead World, agitada ................................................................ 36 Figura 19 - Grfico de nvel da msica Tears In Heaven, calma ............................................................ 37 Figura 20 - Respostas dadas para msicas TRANQUILAS ...................................................................... 38 Figura 21 Respostas dadas para msicas MEDIANAS ........................................................................ 38 Figura 22 - Respostas dadas para msicas AGITADAS .......................................................................... 39

LISTA DE ABREVIATURAS

EEEC: Escola de Engenharia Eltrica e Computao IDE: Integrated Development Environment Ambiente de desenvolvimento ISO: International Standardization Organization IEC: International Electrotechnical Commission JLAYER: Biblioteca Java para aplicaes e tocadores de mp3 M3U: Tipo de arquivo de lista de reproduo MP3: Tipo de arquivo MPEG de Camada 3 MPB: Msica Popular Brasileira MPEG: Moving Picture Experts Group P2P: Tipo de sistema distribudo: Peer to Peer SQLlite: Software e biblioteca para criao de banco de dados SQL: Linguagem de consulta a banco de dados relacional SWT: The Standard Widget Toolkit TAG: marcao ou etiqueta para identificao de algo URL: Uniform Resource Locator WAV: tipo de arquivo de udio que no possui compresso de dados JVM: Java Virtual Machine

SUMRIO

1 2

INTRODUO .........................................................................................................................................11 TAXONOMIA ..........................................................................................................................................14 2.1 2.2 2.3 DEFINIO............................................................................................................................................... 14 DIFICULDADES DA DEFINIO DA TAXONOMIA ................................................................................................ 14 ESCOLHA DO MODELO TAXONMICO ........................................................................................................... 16

EXTRAO DE PARMETROS ..................................................................................................................18 3.1 3.2 3.3 O ARQUIVO MP3 ...................................................................................................................................... 18 ANLISE GRFICA ...................................................................................................................................... 21 ANLISE ESTATSTICA ................................................................................................................................. 23

SOFTWARE DE CLASSIFICAO UDIO LEVELS .....................................................................................25 4.1 DEFINIES BSICAS DO SOFTWARE .............................................................................................................. 25 4.2 PROJETO DE SOFTWARE ............................................................................................................................. 26 4.2.1 Classes bsicas ................................................................................................................................. 26 4.2.3 Entrada e sada de dados ................................................................................................................ 28 4.2.4 Arquivo m3u .................................................................................................................................... 29 4.2.5 Viso das telas ................................................................................................................................. 30

5 6 7

TESTE DE FERRAMENTA DE CLASSIFICAO ...........................................................................................33 CONCLUSES E CONSIDERAES............................................................................................................40 REFERENCIAS BIBLIOGRFICAS ...............................................................................................................43

APNDICE A ....................................................................................................................................................46

INTRODUO
A msica interage com o ser humano de forma a enriquecer a sua vida. Independe de

idade, a msica interage com o corpo humano de forma a causar bem estar e relaxamento. Algumas vezes a msica usada com fins teraputicos, o caso da musicoterapia. A msica conhecida como meio teraputico desde a antiguidade. Papiros egpcios datados de cerca de 1550 antes de cristo atribuam msica influencia teraputica. Durante a Segunda Guerra Mundial houve um incio efetivo da utilizao cientfica da msica, dando origem Musicoterapia. [RODOVALHO, 2010] O ser humano tem diferentes gostos musicais, que podem variar de acordo com o horrio do dia, o ambiente em que se encontra e at mesmo de acordo com seu humor. Por outro lado o avano indiscriminado da tecnologia na vida das pessoas modificou permanentemente a produo musical bem como a sua distribuio e organizao. A quantidade de artistas que produzem msicas e as divulgam na internet tornou-se de difcil organizao devido sua magnitude. A demanda por produzir ainda mais aumenta a cada dia com a facilidade dos equipamentos mveis para reproduo de mp3. Neste cenrio surge a demanda de ferramentas automticas para organizar, catalogar e facilitar a procura, recuperao e tratamento. A primeira idia que vem a mente e provavelmente a mais importante delas classificao de msicas por gnero. Uma ferramenta conhecida neste sentido a Classificao Automtica de Sinais Musicais em Gneros. Esta ferramenta utiliza-se de anlise e processamento de sinais para extrao de parmetros capazes de fornecer caractersticas que agrupe determinadas msicas encontrando assim seus respectivos gneros automaticamente. A definio destes gneros para que se possam classificar posteriormente as msicas entre eles uma das discusses de maior conflito nesta rea do conhecimento j que na comunidade os gneros no so bem definidos criando divergncias por cultura, geografia, histria e outras influncias na determinao de diferentes gneros musicais e no somente questes sobre qual forma de onda a msica possui. Neste trabalho apresentamos uma outra forma de classificar embora nos trabalhos da literatura esta discusso ainda seja muito forte tentamos aqui reduzir o problema para discutir uma organizao til em nvel domstico. Na literatura do assunto encontramos vrios textos que ajudaram a dar diretrizes para o estudo. Destes trabalhos destacamos alguns muito importantes como Classificao Automtica de Gneros de udio Digital de Moacir Souza que ofereceu timas contribuies

com relao ao processamento de sinais [SOUZA, 2006]. O trabalho de Pereira Erica e Moura que discutiu a capacidade de eficincia dessas ferramentas e apresenta uma bela discusso da taxonomia e sua aplicao [PEREIRA, 2009]. Existem vrios trabalhos que aplicam as tcnicas diferentes de encontrar parmetros e classific-los. Um dos textos mais citados o de George Tzanetakis e Perry Cook [Tzanetakis & Cook, 2002]. Neste trabalho eles usam trs parmetros para a definio entre um grupo de 10 gneros musicais. Aqui o ndice de acerto foi de 60%. Uma outra forma muito utilizada para classificar as msicas, a utilizao de redes neurais. O trabalho de Alan Rafael Fachini [FACHINI, 2011] mostrou uma forma de se utilizar dessas redes neurais para melhorar os acertos da classificao. Tambm esclarece outras interessantes formas de identificar instrumentos de udio e classific-los usando samples musicais como exemplo de som. Neste trabalho sua taxa de acerto ficou em aproximadamente 85% na identificao automtica de sons de determinados instrumentos. Existem ainda outras formas de definir os gneros musicais ou os tipos de sons que sero classificados. A anlise de sinais carece de vrias ferramentas mais eficientes que ajudem a organizar todos estes dados. Uma das estratgias de organizar de forma indireta utilizando-se de sistemas colaborativos na internet. Grandes portais de divulgao de trabalhos musicais ou mesmo de venda de arquivos digitais de msicas possuem um sistema de indicao automtica por gosto musical criando uma espcie de rede de estilos que se assemelham por votao de usurios, listas de reproduo criadas ou mesmo comentrios e votos. Esta forma de classificao indireta j permite um sistema que facilita encontrar msicas novas por gosto musical semelhante ao que acontece no YouTube [youtube.com.br], no LastFM [lastfm.com.br] e no TheSixtyOne [thesixtyone.com]. A opo do sistema colaborativo no foi adotada neste trabalho, mas mostram-se cada dia mais interessante. Um sistema colaborativo nada mais que uma forma de usar a opinio de milhes de usurios para colocar os dados ordenados de forma adequada. Desta forma vaise corrigindo os erros devido a opinies exageradas de algumas pessoas. Um exemplo conhecido o do WikiPedia que colaborativo, e que caso algum altere ou adicione informaes erradas em pginas de muito acesso elas so corrigidas por outros usurios em questo de segundos. [OLIVEIRA, 2006] Apesar dos vrios esforos da linha de pesquisa, faltam outras ferramentas de classificao mais simples para uso domstico, como o que foi desenvolvido neste trabalho. Para grandes empresas que divulgam msicas ou armazenam e processam estes dados os sistemas robustos so de extrema necessidade; mas para usurios domsticos, ainda carece

uma taxonomia que tenha maior serventia para sua lista de msicas pessoais. Neste caso o usurio j selecionou as msicas previamente, mas tem o interesse em ouvir especificamente um grupo de msicas, no de um gnero especfico, mas que traga algum significado diferente para o ouvinte. A msica interage psicologicamente com o ouvinte e interessante que ela possa ser classificada desta forma tambm. neste sentido que procuramos uma taxonomia que esteja voltada para essa necessidade. O objetivo desta monografia se concentra no desenvolvimento de um software capaz de classificar msicas no formato mp3 em trs grupos: calma, moderada ou agitada. Ele dever funcionar em ambiente grfico ou modo texto. Dever ser leve, de fcil utilizao, de cdigo livre e multiplataforma. Este aplicativo no s classificar as msicas como criar uma lista de reproduo para o usurio organizando as msicas para serem ouvidas posteriormente de acordo com o gosto do ouvinte. Tambm no incomum na literatura de anlise e processamento de sinais bem como na msica e psicologia estudos sobre a interferncia da msica no humor. nesse caminho que selecionamos essa outra taxonomia. No texto de Ei Ei Pe Myint e Moe Pwint [MYINT; PWINT 2010] so utilizados quatro tipos de estilos de humor musical em um diagrama. Eles so compostos de: exuberante, contentamento, depressiva ou ansiosa. E se organizam em dois nveis sequenciais aumentando direita para agitao e cima para euforia. A motivao para a execuo deste trabalho so as inmeras aplicaes comerciais e pessoais para este software. Facilitando a classificao das msicas para ouvintes e para a melhor capacidade de oferta de msicas acertadas ao ouvinte em determinado ambiente (seja em lojas, stios de compra ou mesmo stios que oferecem msicas para serem vendidas). Este estudo servir de base ainda para criao de outros softwares seletivos tanto para desktops quanto para tocadores de mp3, sistemas de reconhecimento de voz, remoo de rudo, identificao de contedo e instrumentos. O restante deste trabalho ser organizado da seguinte forma: apresentaremos uma discusso sobre a classificao ou taxonomia, que definiremos com o intuito de posteriormente classificar as msicas; faremos uma explanao detalhada da forma como extramos os dados das msicas, e os tratamos para chegar s concluses de classes de msicas; apresentaremos o software incluindo o projeto, classes, funes, telas e entrada e sada de dados; testaremos os resultados do software analisando respostas coletadas na comunidade; e conclumos mostrando os resultados do software produzido bem como suas limitaes e os resultados da pesquisa.

2 2.1

TAXONOMIA Definio

O estudo da taxonomia a compreenso da classificao. Sejam em nveis, camadas, tipos. O ato de classificar exige um esforo de padronizao anterior, que procura mapear se possvel, todos os casos daquilo que se pretende classificar. [CAMPOS; GOMES, 2007] No meio artstico de produo musical, existe uma extensa gama de classes de gneros musicais e formas de organizar essas classes. Nesse trabalho sero levadas em considerao essas classificaes, e em especial uma nova opo criada aqui para dar outro ponto de vista para o usurio sobre quais das suas msicas so de um ou outro determinado tipo. Como a definio da taxonomia est diretamente relacionada com o objetivo do trabalho vamos especificar melhor as caractersticas dessa tarefa para ficar clara a escolha da nova classificao. Estruturas taxonmicas podem ser de diversas formas possuindo nveis diferentes, grupos, classes ou mesmo famlias que se interagem em tipos diferentes entre si formando outros grupos. O mais comum iniciar a classificao pela separao da presena ou no da voz na msica e os instrumentos. Separam-se inicialmente tambm os sons no classificados como msica que chamaremos aqui de rudos.

2.2

Dificuldades da Definio da Taxonomia

Existe uma dificuldade em se alcanar um consenso sobre a definio de uma taxonomia. Isso se deve a vrios fatores geogrficos, culturais, histricos, sociais e ainda de estilo ou tipos de instrumentos. Como so pessoas que fazem as estruturas taxonmicas, ento varia a opinio de pessoa para pessoa, ao classificar algo como sendo rock, ou pop, ou jazz, ou ainda MPB brasileiro. Os prprios crticos musicais esto em desacordo sobre a classificao musical e isso alterado claramente com o passar do tempo. O que se conhecia antigamente como rock hoje dificilmente visto como tal. Existem trabalhos na literatura que falam especificamente sobre a definio confusa de taxonomias [Pachet & Cazaly, 2000] bem como outros que procuram mostrar todas as escolhas taxonmicas dando uma viso geral das vrias opes de se classificar a vasta biblioteca de msicas na internet [Barbedo & Lopes, 2006]. Essa dificuldade pode ser vista claramente quando se busca os gneros musicais salvos nos prprios arquivos mp3 encontrados na internet. Na rede mp3.com foram encontrados 430

gneros diferentes. J na allmusic.com havia 513, enquanto que na amazon.com podia-se contar 719 gneros diferentes. [PEREIRA, 2009] Como neste trabalho estamos focando um ponto de vista diferente da anlise musical, espera-se grficos de organizao taxonmicas mais simples. No entanto o que se pode perceber que tambm existem algumas divergncias com relao melhor forma de tratar a anlise de humor e msica. A anlise da influncia de humor das msicas pode ser vista no stio thesixtyone.com que classifica as msicas de acordo com as opinies dos usurios em 19 grupos diferentes chamados de music moods. O modelo de Ei Ei Pe Myint e Moe Pwint pode ser visto para demonstrar a variao de forma de classificao com relao ao humor onde deveremos encontrar semelhante dificuldade para padronizar gneros e caractersticas.

Figura 1 - Framework formulado por MYINT & PWINT

Percebe-se que o modelo sugerido caminha em duas direes ao mesmo tempo. Esta forma de se organizar as msicas lembra a forma como se classificam as emoes de acordo com Russel em seu artigo sobre o modelo circunferencial de emoes [RUSSEL, 1980]; que a maior referencia com relao classificao de emoes e expresses faciais.

O modelo de Russel mostra um grupo especfico de sentimentos e uma classificao em duas dimenses e desta forma podemos interagir com dois grupos de caractersticas produzindo um tipo de sentimento.

Figura 2 - Multidimensinal escala de sentimentos - RUSSEL 1980

Considerando a quantidade de sentimentos que foram modelados no passado e o que a literatura especializada tem como objetivo, percebemos que ainda h uma crescente rea de estudo e tambm para refinar, especialmente os tipos de sentimentos que sero utilizados para criar padres. Provavelmente ser de grande dificuldade como na anlise de gneros. Esta dificuldade traz problemas mais complicados gerando interoperabilidade entre as pesquisas e claro, que para que exista algum significado na definio dessas classes, importante que as caractersticas de determinada classe sejam bem definidas, no importando o nome que seja dado quela classe. [Barbedo & Lopes, 2006]

2.3

Escolha do Modelo Taxonmico

Levando em considerao as dificuldades para a definio, e estudando uma forma de encontrar parmetros simples para computadores, com baixa capacidade de processamento, de forma a produzir uma ferramenta til a usurios domsticos, procuramos definir uma

taxonomia simples e til ao dia-a-dia do usurio. Uma forma de classificar e gerar listas de reproduo. Assim definimos a primeira caracterstica do modelo taxonmico, que sua finalidade. A partir dela vamos procurar as caractersticas aqui definidas como parmetros que sero extrados para enfim agrupar as msicas. Normalmente os parmetros so extrados buscando a voz, instrumentos e separando os rudos. Aqui nos basearemos em um estudo anterior puramente estatstico definindo um parmetro que possa ser usado para comparar todas as msicas de um usurio. O mtodo usado contabiliza impulsos sonoros divididos em cinco faixas de intensidade (amplitude da onda) que servir de base para a classificao do udio e sero discutidos a fundo no Captulo 3. [RODOVALHO, 2010] Estes parmetros nos permitiro fazer uma anlise estatstica e definir as msicas em trs grupos somente: calmas, moderadas ou agitadas. Nesta estrutura no precisamos definir grupos de ramificaes, combinaes de classes ou nveis de hierarquia. Desta forma facilitamos o agrupamento das msicas e reduzimos as possibilidades de erro do software, bem como aumentamos a sua possibilidade de uso por usurios leigos, que pretendem simples classificaes em sua biblioteca pessoal de msicas.

CALMA

MODERADA

AGITADA

Figura 3 Estrutura taxonmica

EXTRAO DE PARMETROS
Ao analisar as msicas precisamos definir exatamente como extrairemos os

parmetros de comparao. Ao definirmos uma finalidade e uma taxonomia reduzida tambm diminumos a quantidade de dados que precisaremos extrair de cada msica para atribuir uma classe. Na literatura existem vrias formas j identificadas de extrair estas caractersticas, e s este assunto j suficiente para motivao de novas pesquisas. Quando se pretende classificar em gneros musicais vrios parmetros so necessrios para extrair da msica diferentes caractersticas e aumentar a capacidade de acerto. A combinao de vrios parmetros consegue uma boa probabilidade de acerto do gnero enquanto que a utilizao de apenas um parmetro no gera nenhuma informao sobre o gnero. [Theodoridis & Koutroumbas, 2006]. Existem diferentes formas de extrair parmetros de sons. A forma escolhida neste trabalho foi a de anlise estatstica das amplitudes. Esta escolha foi feita devido a um bom resultado de classificao musical aliada a uma menor quantidade de processamento o que permitiu a criao do aplicativo domstico.

3.1

O arquivo mp3
Neste trabalho utilizaremos o arquivo mp3. O arquivo mp3 um arquivo de udio que

na verdade se chama MPEG Audio Layer 3 que foi desenvolvido com o intuito de comprimir udio gerando modificaes quase imperceptveis ao ouvido humano. Criado pelo grupo MPEG (Moving Picture Experts Group) que definiu as caractersticas deste formato de arquivo. Os arquivos de formato MPEG foram divididos em trs tipos dados como Layers. Cada um deles possui um nvel de compresso e quanto maior a compresso maior as perdas. O nvel 1 usado para gravao e trabalho de sons profissionais com o intuito de se obter o mximo de dados nas msicas. J o nvel 3 mais simples foi projetado para o cliente final que no sofrer mais ciclos de processamento no futuro e pode levar apenas os dados de udio perceptveis ao ouvido humano. interessante ressaltar que a cada Layer a mais existe um grau de compresso adicionado na msica e que o tipo de compresso feita no permite resgatar os dados anteriores a compresso; ou seja, no importa o quo pouco um arquivo foi comprimido com o intuito de manter sua originalidade ainda assim haver perdas de informaes.

A primeira verso do mp3 foi aprovada em 1993 pelo ISO/IEC 11172-3:1993 e pelo ISO/IEC 13818-3:1998 e vem melhorando suas capacidades de compresso, organizao e fidedignidade com o udio original. Neste mesmo ano o mp3 j comeou a ganhar popularidade e ao ser lanado o NullSoft WinAmp, se tornou um tipo de arquivo consagrado gerando consequncias diretas para a forma de se produzir, vender e distribuir msica. Com a popularizao do acesso a internet o arquivo mp3 passou a ser amplamente distribudo, especialmente por softwares de conexo p2p (peer-to-peer), que consolidaram o acesso a msica digital e permitiu tambm um grande avano na pirataria. Para codificar um udio em mp3 as definies no foram definidas com exatido e por isso diferentes formas de criar mp3 so utilizadas. O objetivo era poder criar um arquivo mp3 que possusse caractersticas especficas de cada aplicao como compresses diferentes para qualidades especficas. Para decodificar existe uma definio cuidadosa no padro. O arquivo dividido em frames. Nos arquivos mp3 os frames so independentes entre si e o arquivo no possui um cabealho geral, comum maioria dos tipos de arquivos, porm cada frame tem um cabealho que o define e tambm serve como sincronizador perante todos os outros frames. O frame de uma mp3 nada mais que um minsculo pedao de udio. Este pedao pode ser tocado de maneira independente dos outros. Existem dois tipos gerais de mp3, um deles varia a preciso com que os dados de udio so expostos, por isso importante ler cada cabealho. Isso feito alterando o bitrate de cada frame, com o intuito de reduzir as informaes de algumas partes da msica sem causar danos qualidade, isso aumenta a taxa de compresso. Para analisar o som de um arquivo mp3 necessrio utilizar os dados salvos em seus frames. Em cada frame pode haver, por conseguinte, especificidades que so especificadas no seu cabealho.

Figura 3 - Anlise do aumento do bitrate

A coleo dos frames unida serialmente, formando um bitstream. E estes so os dados em forma binria das msicas unidos aos seus mecanismos de controle. O esquema geral de um frame est demonstrado na Figura 4. Os bits de udio em si esto na diviso Audio Data; o restante cabealho, que serve de controle.

Figura 4 - Frame de uma mp3

Alm deste cabealho os arquivos mp3 possuem ainda TAGs, que foram adicionadas posteriormente especificao mp3; so usadas para descrever o arquivo de udio com informaes como: nome do artista, banda, ttulo do lbum, ano de publicao, gnero, comentrios e at arquivos de imagem. Os arquivos mp3 no tm todos a TAG formatada da mesma maneira, nem contm os mesmos dados. Existem vrios padres chamados verses da especificao dessas TAGs e elas podem inclusive estar em posies diferentes dentre os vrios frames. A ID3 Tag, ltima at o momento, especifica que as TAGs apaream inicialmente num arquivo mp3, isso porque para transmisses de udio em tempo real ser possvel informar os dados contemplados antes de a msica comear a tocar. Do contrrio estes dados s poderiam ser mostrados ao final da transmisso, consequentemente ao final da msica, o que um inconveniente.

Devido falta de padro para codificar as msicas em mp3 o software de apoio, que decodifica os dados encontrou dificuldades em processar algumas msicas, e nestes casos elas produzem uma parada inesperada. Felizmente conseguimos contornar esta situao no software desenvolvido, e nestes casos ele lana um erro informando o ocorrido, e tambm que a msica poder ser analisada novamente caso seja re-codificada.

3.2

Anlise grfica
Para bolar o mtodo de classificao, inicialmente analisamos as msicas visualmente,

em suas formas de onda. A observao da plotagem do sinal digital de uma msica foi suficiente para perceber seu grau de agitao. Comeamos analisando a msica Tears in Heaven de Erick Clapton. Na forma de onda da msica que identificamos como calma percebemos os limites de alcance da amplitude. Podemos prever assim um padro com relao anlise dessa amplitude.

Figura 5 - Forma de onda de uma msica calma - Tears In Heaven de Erick Clapton

No entanto a simples plotagem das msicas no foi suficiente para a extrao do parmetro de variao de amplitude. Foi necessrio gerar os grficos com uma ampliao j que as msicas agitadas teriam srias dificuldades para serem analisadas j que preenchiam completamente o grfico no permitindo identificar suas variaes, vide Figura 6.

Figura 6 - Forma de onda da msica agitada Wait da banda Earshot

J analisando as msicas com uma ampliao conseguimos verificar com mais facilidade a variao das amplitudes nas msicas agitadas em comparao com as calmas.

Figura 7 - Ampliao de uma msica agitada - Wait de EarshotFigura

Figura 8 - Ampliao de msica calma - Tears In Heaven de Eric Clapton

A anlise grfica permitiu mostrar que as formas de onda das musicas agitadas variam entre -1 e 1 que so os mximos e mnimos possveis para esta representao deste tipo de dado. J a msica calma fica entre os limites -0.2 e 02.

Figura 9 - Ampliao de msica mediana - A sua maneira de Capital Inicial

Neste contexto as msicas moderadas ficam entre esses dois grupos. Pode-se verificar pelo seu grfico, mostrado na Figura 8.

3.3

Anlise Estatstica
Aps verificar visualmente os grficos no podemos ter certeza da manuteno de um

valor de amplitude em toda a msica. Desta forma o algoritmo desenvolvido no analisa apenas o nvel de intensidade unicamente de acordo com a frequncia, e sim somamos as intensidades de dada faixa pr-definida, e dividindo o valor obtido pela quantidade total de pulsos de um udio, obtendo portanto, a frequncia relativa da ocorrncia de valores de tal faixa nessa msica. [RODOVALHO, 2010] Assim:

Fr i Ti

Frequncia relativa de uma faixa Intensidade compreendida na faixa Total de intensidades de um udio

Definimos cinco faixas de frequncia de acordo com os grficos de frequncia para essa representao (valores compreendidos entre -1 e 1):

1. Valores de -0.2 a 0.2 2. Valores de -0.8 a -0.2 3. Valores de 0.2 a 0.8 4. Valores de -1 a -0.8 5. Valores de 0.8 a 1

E para fazer a classificao soma-se as frequncias relativas das faixas 2, 3, 4 e 5 e multiplicamos por 100 com o intuito de fazer o parmetro percentual. Este primeiro parmetro o P1. J o valor de frequncia relativa da faixa 1 multiplicado por 100 nos retorna o P2. ()

P1 Fr(i) i

Parmetro de anlise 1 Frequncia relativa da faixa i Intervalo de referencia ( )

P2

Parmetro de anlise 2

Fr(1) Freqncia relativa da faixa 1

Por fim conclumos com esta estrutura que quando P1 +1 for maior ou igual a P2, o algoritmo classifica a mdia como agitada. Se a percentagem de P2 for superior a 70%, o algoritmo classifica a mdia como calma e se no cair em nenhum dos dois casos ela classificada como moderada.

SOFTWARE DE CLASSIFICAO UDIO LEVELS


A proposta de desenvolvimento de um software que classifique as msicas dos

usurios domsticos foi desafiadora em vrios sentidos. As ferramentas de desenvolvimento que permitem anlise do sinal de msica em mp3 ainda no so maduras, isso dificultou em parte o trabalho. Outras dificuldades surgiram na verso com interface grfica j que ela consome parte do processamento impedindo uma anlise rpida das msicas.

4.1

Definies bsicas do software


O software desenvolvido foi batizado como AudioLevels. A linguagem Java foi

uma deciso para facilitar a universalidade do cdigo para diferentes sistemas operacionais. A linguagem foi escolhida por ser uma linguagem de uso universal e principalmente por j possuir um FrameWork especfico para tratamento de msicas e tocadores de mp3. O Java foi criado pela Sun Microsystems e hoje um projeto organizado pela Oracle que adquiriu o Sun posteriormente. Suas facilidades e novidades provm principalmente do fato de ser uma linguagem compilada para um bytecode que executado por uma mquina virutal. O FrameWork utilizado para decodificar as msicas mp3 foi o JLayer. Desenvolvido para a plataforma Java. Esta biblioteca de funcionalidades permitiu a anlise do sinal da msica contida em um mp3 sem muitas modificaes. A forma de analisar a msica aqui foi diferente das outras pesquisas que utilizam normalmente o formato wav. Isso nos trouxe uma dificuldade maior para processar devido compactao, porm no houve perda de acurcia em comparao com os resultados obtidos processando-se diretamente wav. Essa modificao permitiu o uso a usurios, pois em sua maioria eles possuem em somente msicas em mp3 e no em wav. Essa troca tambm proporciona uma economia de memria durante o processo, j que os arquivos mp3 so bem menores e no preciso ser carregados por inteiro para anlise. O JLayer um projeto cdigo aberto que viabiliza vrios testes e outros projetos cientficos que procuram usar o arquivo mp3. Para o desenvolvimento da verso modo grfico utilizamos o framework SWT (The Standard Widget Toolkit) que permitiu um desenvolvimento rpido e com interessantes funcionalidades para o usurio domstico. Entre elas a possibilidade de acompanhar o progresso da anlise das msicas e poder rodar o software em segundo plano. O SWT funciona diretamente como um plugin para o Eclipse. Isto foi o que nos chamou mais

ateno para a escolha do SWT j que era feito em cima do padro de criao de janelas grficas e era fcil configurao no Eclipse, onde o projeto foi codificado. O Eclipse uma ferramenta de desenvolvimento. Um tipo de IDE (Integrated Development Environment) ou um ambiente de desenvolvimento integrado que permite facilmente testar, analisar, compartilhar e desenvolver cdigos. Um dos problemas que encontramos ao desenvolver o software foi o fato de que estaramos criando uma grande quantidade de informao para o usurio classificando msica por msica. Para facilitar a visualizao e a posterior utilizao desses dados utilizamos um banco de dados. Acoplamos no AudioLevels o banco de dados SQLite. O SQLite uma sistema que implementa um banco de dados transacional e dispensa a configurao de um servidor. Todo o cdigo necessrio para manipular o banco fica internamente na aplicao, que no caso especfico foi introduzida no software desenvolvido atravs de um pacote JAR [SQLiteJDBC]. No o SQLite o banco todo fica armazenado em um arquivo apenas, com extenso .db, essa caracterstica permitiu a organizao de muitas informaes em ambientes de baixo processamento como celulares e hoje amplamente utilizada em sistemas embarcados. O software AudioLevels est disponvel em modo grfico e texto e foi testado compilado em Windows e no Linux. Ficou evidente a maior velocidade de processamento das msicas em modo texto com relao ao modo grfico. Uma diferena de aproximadamente cinquenta e sete segundos. No modo texto conseguimos analisar em mdia em 3 segundos e no modo grfico em 1 minuto. O software tambm ser oferecido para a comunidade testar, utilizar e modificar de acordo com a licena GNU. O projeto tambm estar disponvel seu diagrama de classes e outros dados relevantes num stio na internet. Todos os documentos foram gerados de forma a facilitar a leitura e por isso o cdigo foi escrito em ingls que a linguagem de desenvolvimento mais difundida no mundo.

4.2

Projeto de Software

4.2.1 Classes bsicas


O projeto roda de duas formas, porm um pacote apenas.

Figura 10 - Diagrama de classes modo texto

Tanto em linha de comando quanto em ambiente grfico o cdigo final no se altera. Porm o fluxo de informaes fica estrito a algumas partes do programa quando em linha de comando, isso demonstrado atravs da Figura 10 e Figura 11. A Figura 10 um diagrama de classes intermedirio, que foi obtido durante o desenvolvimento do aplicativo, quando ele ainda s tinha a capacidade de rodar em modo texto. J a Figura 11 o diagrama final do programa. A classe FilesController cuida de criar o banco de dados e manipular o mesmo, inserir dados e devolver esses dados quando necessrio. A classe PlayerDrain dever consumir um arquivo mp3 funcionando como um tocador de mp3, decodificando os dados. Essa classe o nico elo com o JLayer. Com os dados em mo ao contrrio do comum (enviar ao dispositivo de sada) ela envia estes dados de forma adequada ao SignalAanalyzer. A classe SignalAnalyzer faz a anlise e devolve a definio de grau de agitao da msica em questo. Aqui finalmente temos o corao da aplicao, um pseudo cdigo est presente no Apndice A, mostrando como o AudioLevels toma a deciso do grau de agitao. A classe PlaylistGenerator a partir dos dados do banco de dados, gera um arquivo m3u para o usurio. Para as funcionalidades da interface grfica foi necessrio fabricar as classes GraphicalInterface, ActionListener e ActionController. O conjunto das trs classes representa o elo com o pacote SWT.

A classe GraphicalInterface deve gerar a interface grfica e gerencia o seu funcionamento. J o ActionListener uma interface (abstrao em cdigo) necessria para o controle assncrono do processo de anlise. A ultima classe adicionada a ActionsController responsvel por acompanhar modificaes de estados do prprio aplicativo, evidenciadas e comandadas por um clique do mouse por exemplo, alm de implementar os mtodos funcionais em si. Ela uma parte chave, e utiliza as outras classes assim como a classe Main da Figura 10.

Figura 11 - Diagrama de Classes do modo grfico

4.2.2 Funcionalidades
O AudioLevels procurou ser bem especfico em suas funcionalidades oferecendo apenas aquelas interessantes definio do grau de agitao e a gerao do arquivo de lista de reproduo. As funcionalidades indiretas foram includas para tornar o software mais interessante par ao usurio. A prpria interface grfica, a possibilidade de se saber a proporo de msicas que j foram analisadas e a capacidade de rodar o programa em segundo plano.

4.2.3 Entrada e sada de dados

Para analisar uma quantidade de msicas grandes, de maneira descomplicada, o software capta como entrada um caminho de um diretrio; o diretrio raiz, onde a biblioteca de mdia est localizada. Com isto, resgatar atravs de pesquisas recursivas os arquivos mp3. O software expelir mensagens de depurao e informao. Este histrico incluir a informao do grau de agitao da msica, sua localizao e o tempo de execuo da anlise opcionalmente. Ao mesmo tempo os dados sero salvos em um banco de dados. Num arquivo que ser armazenado na mesma localizao do executvel do aplicativo desenvolvido. Finalmente como sada mais interessante ao usurio final, ser a gerao de trs arquivos m3u. Estes arquivos so exatamente o conjunto de endereos das msicas dos trs graus de agitao: calma, mediana e agitada.

4.2.4 Arquivo m3u


Como arquivo de sada escolhemos o m3u que um padro de lista de reproduo de mdias. Na verdade um arquivo texto que contem exatamente os endereos dos arquivos que sero reproduzidos. O arquivo to simples que reconhecido por uma ampla quantidade de tocadores de mdias e caracterstica que tornou de fcil implementao como sada de dado. Pode ser escrito com um endereo direto: C:/Documentos/Msicas/sambafeliz_zeca_pagodinho.mp3 C:/Documentos/Msicas/sambatriste_zeca_pagodinho.mp3 Pode ser definido um local para todos os arquivos e mostrar C:/Documentos/Msicas Sambafeliz_zeca_pagodinho.mp3 Sambatriste_zeca_pagodinho.mp3 E pode ainda incluir uma URL. Uma URL (Uniform Resource Locator) um endereo virtual para o arquivo que identifica exatamente onde ele esta na rede. Dessa forma o mesmo arquivo m3u pode conter arquivos de mdia na mquina local, na rede local ou at mesmo na internet [WIKIPEDIA].

4.2.5 Viso das telas


As telas so evidenciadas nas duas formas, modo texto e modo grfico.

Figura 12 - Imagem do programa rodando em modo texto, ajuda

A possibilidade de rodar em ambos modos deixa o software mais robusto. Na linha de comando menos custos em termos de recursos computacionais so consumidos, alm disso, perfeitamente possvel um servidor sem um sistema de janelas, apenas com o JVM, processar msicas. Isso viabiliza seu uso para ser oferecido como um servio em larga escala, num sistema online por exemplo.

Figura 13 - Imagem do AudioLevels fazendo as anlises.

Figura 14 - Imagem da tela modo grfico ao abrir o programa, no Windows.

O software foi programado para rodar repetidas vezes aproveitando os dados contabilizados no banco SQLite. O processo, portanto, pode sofrer paradas e iniciar de acordo com as necessidades, por exemplo, sempre ao ligar o computador, no havendo perdas nem mesmo em caso de paradas inesperadas, voltando sempre no ponto onde parou. Isso tambm importante, pois, em grandes bibliotecas de mdias digitais o tempo total de processamento pode levar at mesmo dias!

Figura 15 - Programa AudioLevels aps iniciar as anlises, no Linux.

A diferena entre o modo texto e o modo grfico so claras: usabilidade, desempenho e funes. No modo texto o processamento das anlises bem mais rpido, sua usabilidade bem menor j que este ambiente no de uso to comum e possui menos funes como deixar rodando em plano de fundo, porm esta funo normalmente padro em um ambiente Linux para qualquer programa em modo texto. O modo grfico reduz sua velocidade de processamento, mas facilita o usa e oferece a barra de progresso de msicas analisadas bem como a possibilidade de enviar o programa para o plano de fundo.

TESTE DE FERRAMENTA DE CLASSIFICAO


Uma pesquisa para a anlise dos resultados do software foi feita com o intuito de

avaliar se a opinio do pblico equivalente. Para a pesquisa foram selecionadas 20 msicas que foram classificadas pelo software sendo que 7 delas so agitadas, 7 medianas e 6 tranquilas. As msicas escolhidas so apresentadas nesta LISTA:

Agitadas: 1. Static X The Only 2. Chevelle Tug-o-War 3. Killswitch Engage Desprate Times 4. Disturbed Shout 2000 5. Earshot Wait 6. Charlie Brown Jr. Rubo 7. Static X Dead World

Medianas: 1. Engenheiros do Hawaii 3x4 2. Breaking Benjamin Forget It 3. Capital Inicial A Sua Maneira 4. Ele Project La Bomba Explosiva 5. Cidade Negra Sbado Noite 6. Finch New Beginings 7. Disturbed - Breathe

Tranquilas: 1. Sade No Ordinary Love 2. Audioslave Like a Stone 3. Coldplay The Cientist 4. Eric Clapton Tears in Heaven 5. Eros Ram. Cosas de La Vita 6. Fala Mansa Avisa

Aps escolher as msicas e enumer-las separamos em grupos de 6 msicas para facilitar as respostas das pessoas. Elas foram organizadas em treze grupos de 6 msicas variando as msicas e as posies mas mantendo sempre 2 agitadas, 2 medianas e 2 tranquilas. Para fazer as perguntas comunidade utilizamos a ferramenta do Google que faz parte do Google Docs Forms. Geramos treze formulrios de perguntas diferentes com as msicas de cada grupo anterior. Utilizamos links para o YouTube para oferecer a cada pessoa as seis msicas e logo aps questionamos sua opinio sobre seu grau de agitao. A pesquisa foi feita pela internet em redes sociais. Em 4 dias houve 65 respostas.

Figura 16 - Imagem de uma das pesquisas realisadas

A Tabela 1 foi feita a sequencia das msicas em cada pesquisa de forma a criar uma certa aleatoriedade na influencia da musica anterior na segunda avaliao.
Tabela 1 - Formao das pesquisas

P1 A1 T1 M7 A2 T2 M6

P2 A3 T3 M5 A4 T6 M4

P3 A5 M3 A6 T5 T4 M2

P4 A7 M1 M7 T1 T2 A1

P5 T3 A2 T6 M6 A3 M5

P6 T5 A4 T4 M4 A5 M3

P7 T1 M2 A6 A7 T2 M1

P8 T3 M7 A1 A2 T6 M6

P9 T5 T4 A3 M5 A4 M4

P10 M3 A5 T1 M2 A6 T2

P11 M1 T3 T6 A7 M7 A1

P12 M6 T5 T4 A2 M5 A3

P13 M4 T1 M3 A4 A5 T2

Ento a lista de msicas apresetada ateriormente forma cada pesquisa onde P1, P2, P3 e assim por diante at P13 so os identificadores dos diferentes formulrios de pesquisa. Para melhor entendimento veja na lista abaixo quais msicas foram colocadas na Pesquisa 1, temos: 1. A1 Static X The Only 2. T1 Sade No Ordinary Love 3. M7 Disturbed Breathe 4. A2 Chevelle Tug-o-War 5. T2 Audioslave Like a Stone 6. M6 Finch New Beginings

A pesquisa mostrou uma taxa de acerto global de 56,64%. O que claramente no significa que o resultado do software esteja errado mas que mostra a dificuldade em ser definir taxonomias que sejam facilmente absorvidas pelas opinies das pessoas. Em toda a pesquisa precisamos levamos em conta a fidedignidade das respostas j que foram feitas sem acompanhamento. A possibilidade das respostas terem sido

descompromissadas bem como o fato de que provavelmente no ouviram a msica toda pode ter aumentado a margem de discrepncia entre o resultado do software e as respostas. Analisando as msicas Agitadas obtivemos um acerto de 63% que foi satisfatrio dado os resultados de outros softwares de anlise de msicas. [PEREIRA] As msicas Medianas se mostraram com a maior taxa de erro e existem vrias razes para isto. A questo da dificuldade em se avaliar um meio termo a definio clara dos

extremos. Quando no se conhece claramente os extremos procura-se por eles inicialmente, e por isso que julgamos que muitas msicas medianas foram equivocadamente avaliadas como calmas ou agitadas principalmente com sua proximidade (em termos de parmetros) de uma msica agitada ou calma. Por exemplo, a msica Ele Project La Bomba Explosiva, que obteve resultados muito ruins, estava muito prxima de ser uma msica agitada.

Figura 17 - Grfico de nvel da msica La Bomba Explosiva, mediana

Figura 18 - Grfico de nvel da msica Dead World, agitada

Visualmente fcil perceber observando os grficos dos valores acumulados (na vertical) pela amplitude da onda sonora (na horizontal) demonstrado nas Figuras 17, 18 e 19.

Figura 19 - Grfico de nvel da msica Tears In Heaven, calma

Foi visto pela pesquisa que a msica mais facilmente identificada como agitada foi Static X Dead World (Figura 18). Comparando com uma msica calma, (Figura 19) percebe-se claramente que a msica mediana est mais prxima de uma agitada. Analisando o grupo das msicas calmas, percebemos uma outra discrepncia interessante, que o caso da msica Fala Mansa Avisa. Neste caso como a msica amplamente conhecida como danante, comum pessoas avaliarem como no mnimo mediana, j que a prpria palavra calma ou tranquila remete a um estado de pouca agitao. J o pior resultado entre as calmas foi a Coldplay The Cientist que apesar de comear calma, ela termina com um pouco mais de agitao, o que pode ter influenciado nas respostas colocando-a como uma msica mediana. Em todos os casos analisados existem ainda outras influencias que modificam nossa opinio sobre o grau de agitao das msicas. Por exemplo, uma msica que cause lembranas de uma poca triste, de uma guerra ou acidente pode ser muito calma e mesmo assim ser classificada como mediana, j que traz sentimento de angstia e incmodo que no condiz com a definio de calma. O grfico de RUSSEL mostra inclusive que o conceito de emoo mediana no possui uma definio. Isto claro, j que emoes de pouca intensidade geralmente no so facilmente visveis. Os resultados por estilo musical foram esto demonstrados atravs dos grficos nas Figuras 20, 21 e 22; veja.

Figura 20 - Respostas dadas para msicas TRANQUILAS

Figura 21 Respostas dadas para msicas MEDIANAS

Figura 22 - Respostas dadas para msicas AGITADAS

Desta forma chegamos concluso de que apesar dos nmeros no serem to bons a definio taxonmica pode ser repetida para qualquer tipo de msica sem a interferncia da opinio das pessoas diferente do caso da discusso de gneros musicais. E que para uma ferramenta de uso domstico ela conseguir atingir os objetivos de facilitar a organizao de msicas.

CONCLUSES E CONSIDERAES
Ainda h muito que se estudar e aperfeioar a respeito da classificao de udio

digital. Especialmente com relao nova taxonomia proposta neste trabalho. A pesquisa realizada demonstrou que o mtodo de classificao adequado, com 56,64% de acerto global, ele est dentro da mdia da efetividade alcanada por algoritmos de intuito parecido. H melhor acerto entre as agitadas - 62,6% e o pior ndice de acerto esto nas moderadas - 51,5% - indicando que talvez haja para um humano uma falta de parmetros em que se possa basear para fazer a classificao. A definio dos parmetros de msica agitada e calma que definem os extremos no reconhecida pelas pessoas devido a uma experincia musical diferente de cada um. Aqueles acostumados a musicas agitadas tendem a no concordar que certas msicas menos agitadas estejam neste patamar; e provavelmente avaliariam uma msica mediana como calma. J ouvintes acostumados com msicas calmas fariam a anlise ao contrrio colocando as moderadas como agitadas. A outra dificuldade da nova taxonomia um problema conceitual. Como foi apresentado no inicio do trabalho no diagrama de Russel das emoes, percebemos que grau de agitao tem a ver com a excitao da msica e no com o seu contentamento, porm o contentamento tende a interferir na opinio das pessoas sobre uma msica ou outra. Msicas com cunho histrico, que falem de represso, violncia ou passagens tristes, mesmo sendo mais calmas fazem com que o incmodo influencie na percepo do ouvinte, dando a ele a impresso de msica mais agitada. Ele provavelmente vai classific-la como agitada, e isso de acordo com o conceito de Russel no uma resposta errada, j que a presena do sentimento j caracteriza a msica de uma forma um pouco diferente que a anlise heurstica proposta. Como sugesto para novas pesquisas, talvez fosse interessante adicionar exemplos de msicas de cada uma das trs possibilidades; ou quem sabe deixar claro que existe certo nmero de msicas agitadas, calmas e moderadas, afim de que o classificador humano apele para o bom senso e classifique as msicas de acordo com prioridade comparativa entre as amostras entregues a ele. Temos conscincia de que isso influenciaria na escolha, e de certa forma produziria uma pesquisa tendenciosa. Por isso coloca-se a possibilidade tambm de um tipo de pesquisa validativa, onde estariam reunidos a amostra, a resposta da classificao automatizada e o espao para a classificao humana. Podendo ser a classificao humana apenas booleana (certo ou errado) ou em nota de acerto (0-3; 0-5 ou 0-10)

Os resultados da pesquisa demonstraram tambm que as msicas moderadas tomaram grande maioria das respostas, indicando que este grau de agitao seja ainda maior que o previsto, de acordo com a opinio das pessoas. Por isso, classificar as msicas em quatro nveis de agitao pode ser mais conveniente; como sugesto, em ordem crescente de grau de agitao, teramos: calma, moderada, agitada e super-agitada. Existe ainda a possibilidade de fazer adequaes nos parmetros de classificao de acordo com cada usurio, aplicando-se testes iniciais. Assim possvel saber um pouco mais sobre o que determinado usurio considera calmo ou agitado, e isso poderia ser utilizado posteriormente na prpria montagem dos parmetros. Para isso ser necessrio agregar uma gama maior ainda de conhecimento a respeito de gostos, humor e opinio, e de como identific-los com testes computacionais. Essa tica abriria ainda mais o leque de possibilidades e de certa forma distancia a possibilidade da obteno de um parmetro timo universal, o que pode ser inadequado para o objetivo proposto do software domstico com baixo consumo de processamento e de fcil utilizao por todos. Para melhorar os resultados tambm seria interessante, em outro estudo, aumentar a quantidade de classes definidas na taxonomia, incluindo os sentimentos de contentamento, de forma a reduzir a influncia errnea dos mesmos no grau de agitao. Nesse sentido talvez seja invivel produzir um software para uso domstico, mas certamente seria possvel em software colaborativo. De qualquer forma avanamos bastante neste estudo, o software produzido muito til. Atendeu todos os preceitos esperados, de fcil utilizao e estar disposio da comunidade de software livre para que seja aprimorado. Alm do mais, a base deste software boa e pode ter o mtodo de classificao trocado facilmente, isso faz dele uma tima ferramenta cientfica e de estudo para o assunto. O custo de processamento do software produzido ainda grande, e na verdade compe o gargalo maior de tempo de classificao, e pode, ou melhor, deve ser melhorado aplicandose tcnicas de seleo de amostras da prpria mdia a ser analisada. Essa uma das maiores faltas que o JLayer demonstrou, a falta de ferramentas j prontas para captao aleatria e/ou casual de dados. Porm o tempo de processamento de uma msica apenas relativamente baixo quando o software est configurado para o mximo processamento e rodando em linha de comando. Leva em mdia 5 a 10 segundos para o processamento total da mdia em um computador com

processador Intel Centrino de 1.66 GHz em ambiente Linux. Nestas condies, o processo do Java no sistema no ultrapassou 55 MB de memria.

REFERENCIAS BIBLIOGRFICAS

TZANETAKIS, George; ESSL, Georg; COOK, Perry; Automatic Musical Genre Classification Of Audio Signals; Princeton University, USA: disponivel em:

http://ismir2001.ismir.net/pdf/tzanetakis.pdf

RUSSEL, James A, A Circumplex Model of Affect; University of British Columbia, Vancourver, Canada 1980, Vol. 39, N 6 Journal of Personality and Social Psychology.

RODOVALHO, Andr Campos; PEREIRA, lvaro B. M; Estudo Heurstico da Classificao Automtica de udio Digital; Universidade Federal de Uberlndia, Uberlndia, Minas Gerais, Brasil 2010 VIII Conferencia de Estudos em Engenharia Eltrica.

PEREIRA, Erica Moura; Estudos Sobre Uma Ferramenta de Classificao Musical; Universidade Estadual de Campinas, Campinas, So Paulo, 2009

MYIN, Ei Ei Pe; PWINT, Moe; An Approach for Mulit-Label Music Mood Classification; Myanmar 2010 2nd International Conference on Signal Processing Systems (ICSPS)

FENG, Yazhong; ZHUANG, Yueting; PAN, Yunhe; Music Information Retrieval by Detecting Mood via Computational Media Aesthetics; Zhejiang University, China 2003 Proceedings of the IEEE/WIC International Conference on Web Intelligence (WI03)

SOUZA, Moacir da Cruz: Classificao Automtica de Gneros de udio Digital; Universidade de Pernambuco, Recife, 2006.

FACHINI, Alan Rafael; Classificao de udio Baseada em Extrao de Caractersticas e Redes Neurais; Universidade do Estado de Santa Catarina, Joinvile SC, 2011.

OLIVEIRA,

Carla;

Sistemas

Colaborativos: acessado

Conceito, em

Caractersticasdes disponvel

e em:

Funcionalidades;

Contedo

virtual

12/12/2011

http://imasters.com.br/artigo/4655/gerencia/sistemas_colaborativos_conceito_caracteristicasd es_e_funcionalidades/

CAMPOS, Maria Luiza de Almeida; GOMES, Hagar Espanha: TAXONOMIA E CLASSIFICAO: a categorizao como princpio. Salvador, Bahia, Brasil Encontro Nacional de Pesquisa em Cincia da Informao 2007.

BARBEDO, J. G. A.; LOPES, A. (2006). Automatic genre classication of musical signals. EURASIP Journal on Advances in Signal Processing, 2007 PACHET, Franoi; CALAZY, Daniel; A Taxonomy of Musical Genres: Paris, Frana Sony CSL-Paris: Content-Based Multimedia Information Access Conference (RIAO) 2000.

THEODORIDIS, S. & KOUTROUMBAS, K. (2006). Pattern Recognition. Academic Press, Terceira edio.

ISO/IEC 11172-3:1993: INTERNATIONAL STANDARD ORGANIZATION: contedo de normais disponvel em: http://www.iso.org/iso/iso_catalogue/catalogue_tc/catalogue_detail.htm?csnumber=22412

ISO/IEC 13818-3:1998: INTERNATIONAL STANDARD ORGANIZATION: contedo de normais disponvel em: http://www.iso.org/iso/iso_catalogue/catalogue_ics/catalogue_detail_ics.htm?csnumber=2679 7

JLAYER: Biblioteca de desenvolvimento de aplicativos Java para audio disponvel em: http://www.javazoom.net/javalayer/javalayer.html

SWT: Framework de desenvolvimento de aplicativos em modo grfico disponvel em: http://eclipse.org/swt/

SQLite: Sistema de banco de dados disponvel em: http://www.sqlite.org/about.html

WIKIPEDIA: Referencia para os dados: M3U: http://en.wikipedia.org/wiki/M3U MP3: http://pt.wikipedia.org/wiki/Mp3 / http://en.wikipedia.org/wiki/Mp3

MP3 CONVERTER: How MP3 Works: Inside the Codec; 2000 2011. Contedo disponvel em: http://www.mp3-converter.com/mp3codec/

HACKER, Scot: MP3: The Definitive Guide; Editora O'Reilly Media, 2000.

SQLiteJDBC: SQLiteJDBC - Xerial - Track disponvel em: http://www.xerial.org/trac/Xerial/wiki/SQLiteJDBC

APNDICE A
INICIO LER pulsosAudio; acFaixa1 <- 0; acFaixa2 <- 0; acFaixa3 <- 0; acFaixa4 <- 0; acFaixa5 <- 0; ENQUANTO no for final de pulsosAudio ENTAO LER pulso pulsoAudio; SE( (-0.2 <= pulso) && (pulso <= 0.2) ) ENTAO acFaixa1 <- acFaixa1 + 1; SENAO SE( (-0.8 <= pulse) && (pulse < -0.2) ) ENTAO acFaixa2 <- acFaixa2 + 1; SENAO SE( (0.2 < pulse) && (pulse <= 0.8) ) ENTAO acFaixa3 <- acFaixa3 + 1; SENAO SE( (-1 <= pulse) && (pulse < -0.8) ) ENTAO acFaixa4 <- acFaixa4 + 1; SENAO SE( (0.8 < pulse) && (pulse <= 1) ) ENTAO acFaixa5 <- acFaixa5 + 1; SENAO Escreva ('Erro!'); FIM-SE FIM-ENQUANTO p2 <- (acFaixa1 / total de pulsosAudio) * 100; f2 <- (acFaixa2 / total de pulsosAudio) * 100; f3 <- (acFaixa3 / total de pulsosAudio) * 100; f4 <- (acFaixa4 / total de pulsosAudio) * 100; f5 <- (acFaixa5 / total de pulsosAudio) * 100; p1 <- f2 + f3 + f4 + f5; SE ( (p1+1) >= p2 ) ENTAO Escreva('Agitada'); SENAO SE ( p2 > 70 ) ENTAO Escreva('Calma'); SENAO Escreva('Mediana'); FIM-SE FIM