Você está na página 1de 10

Fernando Rimola da Cruz Mano

Classificao e Segmentao de udio a partir de Fatores


PUC-Rio - Certificao Digital N 0510972/CA

de Escala MPEG

Dissertao de Mestrado Dissertao apresentada como requisito parcial para obteno do ttulo de Mestre pelo Programa de PsGraduao em Informtica da PUC-Rio. Orientador: Prof. Bruno Feij

Rio de Janeiro, setembro de 2007

Fernando Rimola da Cruz Mano

Classificao e Segmentao de udio a partir de Fatores de Escala MPEG

PUC-Rio - Certificao Digital N 0510972/CA

Dissertao apresentada como requisito parcial para obteno do ttulo de Mestre pelo Programa de PsGraduao em Informtica da PUC-Rio. Aprovada pela Comisso Examinadora abaixo assinada.

Prof. Bruno Feij Orientador Departamento de Informtica - PUC-Rio Prof. Lisandro Lovisolo Departamento de Eletrnica e Telecomunicaes - UERJ Mnica Maria Ferreira da Costa Midiarte Prof. Jos Eugenio Leal Coordenador(a) Setorial do Centro Tcnico Cientfico - PUC-Rio

Rio de Janeiro, 03 de setembro de 2007

Todos os direitos reservados. proibida a reproduo total ou parcial do trabalho sem autorizao da universidade, do autor e do orientador.

Fernando Rimola da Cruz Mano

Ficha Catalogrfica Mano, Fernando Rimola da Cruz Classificao e segmentao de udio a partir de fatores de escala MPEG / Fernando Rimola da Cruz Mano ; orientador: Bruno Feij. 2007.
PUC-Rio - Certificao Digital N 0510972/CA

62 f. : ; 30 cm Dissertao (Mestrado em Informtica)Pontifcia Universidade Catlica do Rio de Janeiro, Rio de Janeiro, 2007. Inclui bibliografia 1. Informtica Teses. 2. MPEG. Fatores de escala. 3. Domnio comprimido. 4. Segmentao. 5. Classificao. 6. Anlise do udio. I. Feij, Bruno. II. Informtica. III. Ttulo. Pontifcia Universidade Catlica do Rio de Janeiro. Departamento de

CDD: 004

Agradecimentos

PUC-Rio - Certificao Digital N 0510972/CA

minha famlia, por todo o apoio e incentivo.

Aos meus amigos, em especial Cristina, eterna companheira de reclamaes.

Ao Professor Bruno Feij e aos membros da Midiarte Mnica, em especial, e Dilza, pela orientao e ajuda no desenvolvimento desse trabalho.

A todos que me ofereceram apoio e ajuda, por menor que fosse, durante todo o mestrado.

Resumo
Rimola da Cruz Mano, Fernando; Feij, Bruno. Classificao e Segmentao de udio MPEG a partir dos Fatores de Escala. Rio de Janeiro, 2007. 62p. Dissertao de Mestrado - Departamento de Informtica, Pontifcia Universidade Catlica do Rio de Janeiro. As tarefas de segmentao e classificao automticas de udio vm se tornando cada vez mais importantes com o crescimento da produo e armazenamento de mdia digital. Este trabalho se baseia em caractersticas do padro MPEG, que considerado o padro para acervos digitais, para sugerir algoritmos de grande eficincia para realizar essas tarefas. Ao passo que h muitos estudos trabalhando a partir do vdeo, o udio ainda pouco utilizado de forma eficiente para auxiliar nessas tarefas. Os algoritmos sugeridos partem da leitura apenas dos fatores de escala presentes no Layer 2 do udio MPEG para ambas as tarefas. Com isso, necessria a leitura da menor quantidade possvel de
PUC-Rio - Certificao Digital N 0510972/CA

informaes, o que diminui significativamente o volume de dados manipulado durante a anlise e torna seu desempenho excelente em termos de tempo de processamento. O algoritmo proposto para a classificao divide o udio em quatro possveis tipos: silncio, fala, msica e aplausos. J o algoritmo de segmentao encontra as mudanas significativas de udio, que so indcios de segmentos e mudanas de cena. Foram realizados testes com diferentes tipos de vdeos, e ambos os algoritmos mostraram bons resultados.

Palavras-chave
MPEG; fatores de escala; domnio comprimido; segmentao; classificao; anlise do udio

Abstract
Rimola da Cruz Mano, Fernando; Feij, Bruno. Classification and Segmentation of MPEG Audio based on Scale; Factors. Rio de Janeiro, 2007. 62p. Dissertao de Mestrado - Departamento de Informtica, Pontifcia Universidade Catlica do Rio de Janeiro. With the growth of production and storing of digital media, audio segmentation and classification are becoming increasingly important. This work is based on characteristics of the MPEG standard, considered to be the standard for digital media storage and retrieval, to propose efficient algorithms to perform these tasks. While there are many studies based on video analysis, the audio information is still not widely used in an efficient way. The suggested algorithms for both tasks are based only on the scale factors present on layer 2 MPEG audio. That allows them to read the smallest amount of information possible, significantly diminishing the amount of data manipulated during the analysis and
PUC-Rio - Certificao Digital N 0510972/CA

making their performance excellent in terms of processing time. The algorithm proposed for audio classification divides audio in four possible types: silent, speech, music and applause. The segmentation algorithm finds significant changes on the audio signal that represent clues of audio segments and scene changes. Tests were made with a wide range of types of video, and both algorithms show good results.

Keywords
MPEG; scale factors; compressed domain; segmentation; classification; audio analysis

Sumrio

1 Introduo 1.1. Classificao e Segmentao de Vdeo 1.2. MPEG-1 Layer 2 1.2.1. O padro de udio MPEG-1 Layer 2 1.2.2. Motivos da escolha do padro 1.3. Escopo da dissertao 1.4. Organizao da Dissertao 2 Trabalhos relacionados 2.1. Domnio no-comprimido
PUC-Rio - Certificao Digital N 0510972/CA

11 11 13 13 16 18 19 20 20 22 25 27 27 29 30 30 32 35 38 38 42 45 45 46 48 48

2.2. Domnio comprimido 2.3. Trabalhos a partir dos scale factors 3 Classificao 3.1. Resumo do algoritmo proposto 3.2. Caractersticas do udio extradas para anlise 3.3. Funcionamento do algoritmo 3.3.1. Etapa principal 3.3.2. Ps-processamento 3.4. Inovaes apresentadas 4 Segmentao 4.1. Algoritmo proposto 4.2. Inovaes apresentadas 5 Resultados e testes 5.1. Acervo de vdeos 5.2. Classificao 5.3. Segmentao 5.3.1. Mtodos e termos

5.3.2. Resultados 6 Concluso 6.1. Resumo 6.2. Trabalhos futuros 7 Referncias bibliogrficas

49 53 53 55 58

PUC-Rio - Certificao Digital N 0510972/CA

Lista de figuras

Figura 1 Sensibilidade do ouvido humano Figura 2 Mascaramento de freqncias e temporal Figura 3 Formato dos quadros de udio MPEG Figura 4 Algoritmo de classificao do udio

14 14 15 28

PUC-Rio - Certificao Digital N 0510972/CA

Lista de tabelas

Tabela 1 Mdia de acertos da classificao por tipo de vdeo Tabela 2 Mdia de acertos da classificao por tipo de udio Tabela 3 Desempenho do algoritmo de segmentao a partir do tipo de vdeo

46 47 50

PUC-Rio - Certificao Digital N 0510972/CA