Reconhecimento Canto de Pássaros

Pr-processamento de Sons para Reconhecimento Automtico de Pssaros
Fernando Aparecido CARVALHO, Paulo Csar Miranda MACHADO

Escola de Engenharia Eltrica e de Computao, UFG, Goinia-GO 74001970
Email: feapca@gmail.com, pcmmachado@gmail.com
Palavras-chave: Reconhecimento de padres, filtros digitais, segmentao, espectograma
INTRODUO
Com o avano da tecnologia de reconhecimento de padres, sistemas cada vez mais

automticos se tornam possveis. Um padro qualquer entidade da qual possvel extrair
algum tipo de caracterstica, seja ela simblica ou numrica, e o que as tcnicas
computacionais de reconhecimento de padres buscam, a partir destas caractersticas, por
uma maneira eficiente de organizarem estes padres em agrupamentos ou classes que
compartilhem
determinadas
semelhanas
(NOGUEIRA,
2006).
Exemplos
de
reconhecimento de padres so: identificao de impresso digital, reconhecimento ptico de

caracteres, identificao de seqncias de DNA, reconhecimento de fala, reconhecimento de
sons de aves e animais, etc.
O crescimento das cidades e a devastao do cerrado tm causado a migrao de
pssaros para regies urbanizadas procura de alimento. Muitos pssaros so encontrados em
lixes a cu aberto ou at mesmo reas alagadas prximas a aeroportos aumentando o risco de
acidentes e incidentes com aeronaves. Com a degradao de ecossistemas, habitat de espcies
nativas, o monitoramento dessas espcies por bilogos se torna necessrio a fim de prever as
possveis conseqncias no meio-ambiente. O monitoramento pode ser feito por sistema
automtico de reconhecimento de som (vocalizao) de aves.
Os sons dos pssaros so divididos em cantos e chamadas. Cantos so geralmente mais
longos e complexos e esto relacionados procriao e a defesa territorial, enquanto
chamadas so mais curtas e esto relacionadas a alarme, vo e alimentao (FAGERLUND,
2007).
Os mtodos de reconhecimento de padres so divididos em quatro fases: prprocessamento, extrao de caractersticas, classificao, questes sobre classificao e psprocessamento. O pr-processamento, tratado neste trabalho, consiste na normalizao do
sinal, remoo de rudo e segmentao.
Revisado pelo orientador.
Orientando: Fernando Aparecido Carvalho. Orientador: Paulo Csar Miranda Machado
METODOLOGIA
Neste trabalho utilizaremos arquivos de sons coletados da internet (CORNELL LAB

OF ORNITHOLOGY, WIKIAVES). Nosso enfoque ser na Perdiz, ave da famlia dos
Tinamdeos, por ter um som caracterstico e que aparenta ser mais fcil de aplicar e adquirir
domnio sobre as tcnicas de pr-processamento. Como os arquivos de sons so coletados nos
mais diversos formatos (mp3, flv, ra, etc), primeiramente convertem-se os arquivos para o
mesmo formato, sendo escolhido o formato wav. Os arquivos coletados possuem, na sua
maioria, a frequncia de amostragem de 44100 Hz, o que compatvel com o espectro de som
dos pssaros, que se situa entre 100 Hz e 8 kHz (KWAN, 2006).
O primeiro passo do pr-processamento eliminar a componente contnua do sinal,
calculando-se a mdia do sinal e subtraindo-a do prprio sinal a fim de se obter um sinal com
mdia igual a zero. Em seguida, para que todos os sinais tenham a mesma intensidade, eles
so normalizados isto , cada sinal dividido pelo seu valor mximo, obtendo-se um sinal
normalizado entre -1 e 1 (KWAN, 2004), (SELIN, 2007).
Como os sons so normalmente gravados no ambiente em que as aves vivem, as
gravaes esto sujeitas aos mais variados tipos de rudos, dentre os quais foram encontrados
os seguintes tipos:
Estalos (cliques): so pontos de saturao, ou seja, valores muito diferentes dos

valores vizinhos em localizaes aparentemente aleatrias, que podem ser percebidos
nitidamente atravs de anlise grfica. Esse tipo de rudo pode ser observado na Fig. 1.
Figura1: Som de perdiz apresentando estalos.
Chuva: um som contnuo e o pingar bastante intenso e rpido (Fig. 2). A interao
majoritariamente entre lquido e slido o que gera maiores cavidades de ressonncia.
A energia sonora encontra-se distribuda por todas as freqncias a partir de 500-700
Hz (DA SILVA, 2007).
Figura 2: Forma de onda e espectro do som da chuva. Fonte: (DA SILVA, 2007).
Grilos: os machos produzem um som roando uma asa contra a outra (essas asas
possuem uma srie de pelos na borda) para atrarem a fmea para a reproduo. Os
machos produzem sons consecutivos de pequena durao cuja frequncia restrita a
2500 a 3000 Hz, conforme Fig. 3 (DA SILVA, 2007).
Figura 3: Forma de onda e espectro do som do grilo. Fonte: (DA SILVA, 2007).
Vento: apresenta sinal contnuo com aumento gradual do sinal at valores mais
elevados (Fig.4). Apresenta maior energia para freqncias menores que 500 Hz,
atingindo com menores taxas de energia cerca de 2000 Hz (DA SILVA, 2007).
Figura 4: Forma de onda e espectro do som do vento. Fonte: (DA SILVA, 2007).
60 Hz e harmnicos: distoro do sinal apresentando altas taxas de energia para

valores de frequncia de 60 Hz e mltiplos (Fig. 5).
Figura 5: Espectro de som de perdiz apresentando harmnicos em 60 Hz e mltiplos.
O prximo passo do pr-processamento a utilizao de filtros para a eliminao dos

rudos. Os filtros utilizados foram Butterworth, Chebyshev do tipo 1 e 2 , elptico e Comb:
Butterworth possui banda passante plana, porm, sua variao da magnitude baixa
sendo necessria altas ordens para implementao de certas especificaes
particulares.
Chebyshev possui variao da magnitude maior que o Butterworth, mas possui

ondulaes (riples) na banda passante ou na banda de bloqueio.
Chebyshev do tipo 1 apresenta ondulaes na banda passante e grandes

variaes da magnitude a baixas ordens.
Chebyshev do tipo 2 apresenta ondulaes na banda rejeitada e possui menor

variao de magnitude que o do tipo 1.
Elptico permite maior taxa de variao da magnitude, porm, apresenta ondulaes na

banda passante e na banda de rejeio.
Comb (pente) adiciona uma parte do sinal, ao prprio sinal, levemente defasado
cancelando partes indesejadas do sinal.
A Fig. 6 mostra a resposta em freqncia do filtro Comb:
Figura6: Resposta em freqncia do filtro Comb.

Fonte: http://www.mathworks.com/help/toolbox/dsp/ref/fdesign.comb.html
A Fig. 7 mostra a resposta em freqncia dos demais filtros, todos com os mesmos
parmetros:
Figura 7: Resposta em freqncia Butterworth, Chebyshev 1 e 2 e Elptico.

Fonte: http://pt.wikipedia.org/wiki/Filtros_Butterworth
RESULTADOS E DISCUSSO
Primeiramente foi retirada a componente contnua, sinal foi normalizado e utilizado o

filtro Comb para eliminar a interferncia de 60 Hz e seus harmnicos da vocalizao de uma
perdiz (Fig. 8).
Figura 8: Filtro Comb aplicado a um sinal contendo interferncia da frequncia de 60 Hz e

seus mltiplos (harmnicos).
A Fig. 9 mostra o sinal aps a eliminao da interferncia da freqncia de 60 Hz e

seus harmnicos, verificando-se que o sinal ainda apresenta bastante rudo. A mesma figura
mostra tambm o espectograma e o sinal no domnio da frequncia.
A este sinal aplicou-se quatro tipos de filtros diferentes, todos com a mesma ordem
(no caso ordem 6) para verificar o efeito dos vrios tipos de filtros na eliminao de rudos em
sinais de cantos de pssaros.
As figuras de 10 a 13 mostram o sinal, seu espectograma e o sinal no domnio da
frequncia aps o uso dos filtros Butterworth, Chebyshev1, Chebyshev2 e Elptico,
respectivamente.
Figura 9: Sinal com rudo, aps a eliminao da interferncia da freqncia de 60 Hz e seus

harmnicos, seu espectograma e sinal no domnio da freqncia.
Figura 10: Sinal aps utilizao do filtro Butterworth (ordem 6), seu espectograma e
sinal no domnio da freqncia.
Figura 11: Sinal aps utilizao do filtro Chebyshev1 (ordem 6), seu espectograma e
sinal no domnio da freqncia
Figura 12: Sinal aps utilizao do filtro Chebyshev2 (ordem 6), seu espectograma e
sinal no domnio da freqncia.
Figura 13: Sinal aps utilizao do filtro Elptico (ordem 6), seu espectograma e sinal
no domnio da freqncia.
Todos os filtros so do tipo passa banda onde a frequncia de corte superior e inferior
so iguais a 120% e 80% da frequncia de maior energia, respectivamente.
Quando comparados os sinais das guras de 10 a13, resultantes do processo de
ltragem, embora todos os ltros tenham conseguido deixar bem evidente o sinal do canto da
ave, nota-se vantagem do ltro Chebyshev2, pois o sinal est bem mais ntido. Ao analisar os
espectrogramas nota-se que o ltro Chebyshev2 realmente conseguiu clarear mais o sinal,
deixando permanecer no espectro uma faixa de frequncia bem prxima aos limites mximo e
mnimo denidos como parmetro do ltro passa banda.
Com base no espectrograma resultante da filtragem os valores da Densidade Espectral
de Potncia (PSD Power Spectral Density) Tempo-Frequncia so analisados com o
objetivo de realizar a segmentao das regies de som e silncio. Primeiramente encontrado
o valor da PSD relacionado frequncia mnima detectada e este valor usado ento como
limiar. A partir de ento analisado cada segmento de tempo e verificado qual o seu valor
mximo, criando um vetor com marcaes das regies de som e silncio, definido como
y[i]=1, se max(P(:,i)) for maior ou igual ao limiar;
y[i]=0, se max(P(:,i)) for menor que o limiar;
em que 0 representa silncio, 1 representa som e P(:,i) so as colunas da matriz de PSD.
Aps o vetor y ser gerado, este analisado para verificar se as regies marcadas como
silncio e som esto de acordo com limites pr-definidos. Para este trabalho foi definido um
tempo superior a 2 segundos de pausa para ser considerado silncio e 0.5 segundo de som
para ser considerado canto.
A figura 14 mostra o resultado da utilizao da tcnica para a segmentao do som de
uma Perdiz com duas regies de canto da ave. Percebe-se que neste caso a segmentao
funcionou com estimativa bem precisa das regies de som, mostrando claramente as duas
regies de canto da ave.
Figura 14: Sinal aps filtragem e segmentao.
CONCLUSES
Neste trabalho foram apresentados procedimentos para pr-processamento de sinais de
cantos de pssaros como a retirada da componente contnua, normalizao do canto,
eliminao da interferncia de 60Hz e harmnicos e filtragem dos variados tipos de rudos.
Assim, com os testes realizados, conclui-se que, de maneira geral, qualquer um dos
filtros poderia ser escolhido como padro para a etapa de pr-processamento, pois todos
conseguiram eliminar os distrbios e atenuar o rudo fora da faixa de frequncia da ave.
Entretanto, o filtro Chebyshev2 apresentou, levemente, um melhor desempenho, conseguindo
clarear mais o espectro do sinal.
A metodologia utilizada para a segmentao do sinal mostrou-se eficiente, separando

claramente as regies de canto da ave das regies de silncio.
Como trabalho futuro pretende-se estudar e implementar mtodos de extrao de
caractersticas para o reconhecimento automtico de aves.
REFERNCIAS
DA SILVA, S. M. C. Traos Acsticos e Perceptivos de Sons No Verbais e da Fala,

dissertao (mestrado em Cincias da Fala e da Audio) - Escola Superior de Sade da
Universidade de Aveiro, Aveiro-Portugal, 2007.
NOGUEIRA, A.; AZEVEDO, J.; BAPTISTA, V.; SIQUEIRA, S. Um Overview Sobre
Reconhecimento de Padres, VIII SEGeT, pp. 1-11, 2006.
FAGERLUND, S.; Bird Species Recognition Using Support Vector Machines, EURASIP
Journal on Advances in Signal Processing, pp. 1-11, 2007.
KWAN, C.; MEI, G.; ZHAO, X.; REN, Z.; XU, R.; STANFORD, V.; ROCHET, C.; AUBE,
J.; HO, K. C. Bird Classification Algorithms: Theory and Experimental Results,
ICASSP2004, pp. V289-V292, 2004.
C. Kwan et al., An automated Acoustic System to Monitor and Classify Birds, Eurasip
Journal on Applied Signal Processing, pp. 1-19, 2006.
CORNELL LAB OF ORNITHOLOGY. Disponvel em http://macaulaylibrary.org/. Acesso
em 08/04/2011.
WIKIAVES. Disponvel em http://www.wikiaves.com.br/. Acesso em 08/04/2011.
SELIN, A.; TURUNEN, J.; TANTTU, J. T. Wavelets in Recognition of Bird Sounds,
EURASIP Journal on Applied Signal Processing, vol. 2007, pp. 1-9, 2007.

Reconhecimento Canto de Pássaros

Enviado por

Dados do documento

Descrição original:

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Reconhecimento Canto de Pássaros

Enviado por

Direitos autorais:

Formatos disponíveis

Pr-processamento de Sons para Reconhecimento Automtico de Pssaros

Fernando Aparecido CARVALHO, Paulo Csar Miranda MACHADO

Com o avano da tecnologia de reconhecimento de padres, sistemas cada vez mais

reconhecimento de padres so: identificao de impresso digital, reconhecimento ptico de

Neste trabalho utilizaremos arquivos de sons coletados da internet (CORNELL LAB

Estalos (cliques): so pontos de saturao, ou seja, valores muito diferentes dos

Figura1: Som de perdiz apresentando estalos.

60 Hz e harmnicos: distoro do sinal apresentando altas taxas de energia para

Figura 5: Espectro de som de perdiz apresentando harmnicos em 60 Hz e mltiplos.

O prximo passo do pr-processamento a utilizao de filtros para a eliminao dos

Chebyshev possui variao da magnitude maior que o Butterworth, mas possui

Chebyshev do tipo 1 apresenta ondulaes na banda passante e grandes

Chebyshev do tipo 2 apresenta ondulaes na banda rejeitada e possui menor

Elptico permite maior taxa de variao da magnitude, porm, apresenta ondulaes na

A Fig. 6 mostra a resposta em freqncia do filtro Comb:

Figura6: Resposta em freqncia do filtro Comb.

Figura 7: Resposta em freqncia Butterworth, Chebyshev 1 e 2 e Elptico.

Primeiramente foi retirada a componente contnua, sinal foi normalizado e utilizado o

Figura 8: Filtro Comb aplicado a um sinal contendo interferncia da frequncia de 60 Hz e

A Fig. 9 mostra o sinal aps a eliminao da interferncia da freqncia de 60 Hz e

Figura 9: Sinal com rudo, aps a eliminao da interferncia da freqncia de 60 Hz e seus

y[i]=1, se max(P(:,i)) for maior ou igual ao limiar;

y[i]=0, se max(P(:,i)) for menor que o limiar;

em que 0 representa silncio, 1 representa som e P(:,i) so as colunas da matriz de PSD.

Figura 14: Sinal aps filtragem e segmentao.

A metodologia utilizada para a segmentao do sinal mostrou-se eficiente, separando

DA SILVA, S. M. C. Traos Acsticos e Perceptivos de Sons No Verbais e da Fala,

Você também pode gostar