Você está na página 1de 8

Avaliao de Algoritmos para Supresso de Silncio em Aplicaes de VoIP

Ricardo Becker
rbecker@gparc.org

Moiss Coster
mcoster@gparc.org

Ricardo Balbinot
rbalbinot@gparc.org

Guilherme Corsetti
gcorsetti@gparc.org

Fladhimyr C. Castello
fcastello@gparc.org

Jorge Guedes Silveira


jguedes@gparc.org

Grupo de Pesquisas Avanadas em Redes de Comunicao & Tecnologia da Informao


(GPARC&TI)
Departamento de Engenharia Eltrica, Pontifcia Universidade Catlica do Rio Grande do Sul,
Porto Alegre, Rio Grande do Sul, Brasil
Abstract
The objective of this paper is to perform tests with
Voice Activity Detection (VAD) in time domain and
frequency domain using techniques of detection and
suppression of silence for Voice over Internet Protocol
(VoIP) applications, measuring and obtaining a
satisfactory performance for silence suppression in voice
communications over internet. In this article we made
considerations about the properties to measuring of talk
spurts, techniques used and your results in a simulation
desk and also the future perspectives of applications in a
VoIP context.

1. Introduo
A necessidade de economia de banda em redes de
transmisso de voz se faz cada vez mais necessria
considerando o grande aumento na troca de informaes
entre as pessoas e os custos associados implantao dos
sistemas de transmisso. Quando nos referimos
especificamente a sistemas de voz sobre IP (VoIP Voice
over IP), a necessidade a mesma. Foi constatado que
durante uma conversao mdia entre duas pessoas, cada
pessoa fala apenas de 35% a 50% do tempo total [1,2,3].
Isto leva a pensar no desperdcio de banda ocasionado na
rede IP pela transmisso de perodos de silncio. Neste
momento, encontramos uma oportunidade para o
desenvolvimento e aplicao das tcnicas de deteco e
supresso de silncio em chamadas telefnicas.
A economia de banda em sistemas de VoIP,
especialmente quando consideradas as aplicaes em
tempo real e em redes de capacidade de transmisso
limitada, faz-se necessria principalmente devido a

sobrecarga que a transmisso de voz sobre datagramas


causa (overhead do cabealho IP). O foco nessa situao
fazer com que o detector de silncio identifique a
inatividade de voz, e evite a transmisso de um datagrama
que no possui informao significativa para a aplicao.
O objetivo deste trabalho avaliar o desempenho de
seis algoritmos de deteco de silncio (VAD- Voice
Activity Detection) utilizando tcnicas para aplicaes de
VoIP, obtendo resultados satisfatrios para a supresso do
silncio que combinem uma qualidade aceitvel de
comunicao e uma baixa complexidade computacional.
VAD definido como o processo de separao de
trechos de uma conversao em segmentos de voz ou no.
Para o reconhecimento dos seguimentos de voz ou no, o
nvel de energia, os picos de fala, o nmero de
cruzamentos do zero e propriedades estatsticas e de
espectro do sinal so usualmente consideradas [4].
Na continuao deste trabalho so abordadas questes
a respeito dos mtodos, parmetros e algoritmos
utilizados para a determinao da presena ou no de voz
em determinado perodo de udio. Tambm so
apresentadas algumas caractersticas desejadas para os
algoritmos, bem como, algumas tcnicas auxiliares que
podem facilitar a aplicabilidade das tcnicas, neste
trabalho apresentadas, em sistemas de VoIP. Por fim, so
descritas as concluses finais, alm de algumas sugestes
para trabalhos futuros.

2. Mtodos de deteco de silncio


Para a implementao e avaliao dos seis algoritmos
de deteco e supresso de silncio foram consideradas a
energia dos pacotes de voz, a taxa de cruzamentos do

O desenvolvimento deste trabalho s foi possvel com o apoio do CNPq, que proveu recursos fsicos e financeiros sob o processo de nmero
552093/2002-5 da chamada conjunta MCT/SEPIN FINEP CNPq 01/2002.

zero, propriedades estatsticas e anlise espectral para a


determinao dos segmentos de voz ativa e inativa.
Geralmente o mtodo empregado para a deteco de
silncio, consiste na anlise da quantidade de energia em
cada pacote de voz como forma de estimativa para a
deteco de silncio [5]. Com este mtodo, todo o pacote
com uma determinada quantidade de energia abaixo de
um determinado valor (limiar de silncio) ser, em alguns
casos, reavaliado e se ainda assim, no estiver dentro dos
parmetros relevantes para a aplicao, ser considerado
silncio e conseqentemente, o pacote no ser
transmitido, desta forma proporcionando uma no
ocupao de banda da rede.
Para a realizao da anlise de um sinal de voz no que
se refere tomada de deciso quanto a sua atividade,
foram utilizadas amostras de voz processadas no domnio
do tempo simplesmente e em freqncia via transformada
DCT (DCT- Discrete Cossine Transform). O fato de se
trabalhar a anlise nos dois domnios tem por objetivo
avaliar e comparar os desempenhos dos algoritmos no que
est relacionado a sua aplicabilidade em sistemas de
VoIP. Como itens a serem considerados a fim de
determinar a aplicabilidade de cada algoritmo esto
avaliao dos tempos de processamento do algoritmo, do
percentual de compresso e qualidade subjetiva da voz.
A deteco do silncio e a sua remoo, no se referem
apenas ao silncio que ocorre quando uma das partes em
uma conversao (locutor e ouvinte) est em silncio ou
entre pequenos intervalos de fala, mas inclusive pausas
entre palavras e slabas. A remoo destes perodos de
silncio, especialmente pausas entre palavras e slabas
merecem especial cuidado na implementao das tcnicas
de deteco e supresso de silncio. Algoritmos de VAD
necessitam ser bastante especficos em suas rotinas. Isto
se faz indispensvel para que no sejam causados
problemas de perda de qualidade da voz, dentre estes
problemas, o efeito de clipping ocasionado na reproduo
da voz e a no deteco de sons fricativos.
O efeito de clipping causa interrupes abruptas da
fala, como o corte sbito do udio no meio de uma letra,
por exemplo, podendo degradar de forma drstica a
qualidade da voz a ser transmitida. J sons fricativos so
produzidos pela formao de uma constrio em um
ponto do trato vocal e pela expulso de ar por esta
constrio, criando uma turbulncia que produz uma fonte
de rudo para excitar o trato vocal [6]. Em termos simples,
isto ocasiona uma grande quantidade de inverses no sinal
da magnitude da amostra de voz devido turbulncia
citada.
Para este trabalho convencionou-se que voz ativa so
os trechos de fala com contedo relevante, palavras,
slabas e ou letras da conversao, e voz inativa so

trechos compostos apenas por rudos no decisivos para a


boa compreenso da comunicao. Desta forma, como se
observa nas Figuras 1 e 2, pode-se distinguir claramente o
que so trechos de voz ativa e inativa, quando feita a
visualizao de um perodo de fala submetido a um
detector e supressor de silncio.

Figura 1 Perodo de fala sem a atuao de um


supressor de silncio.

Figura 2 - Perodo de fala sob a atuao de um supressor


de silncio.

3. Voice activity detection


VAD o processo de separao da conversao por
voz em segmentos de voz ativa ou inativa [5,7]. Desta
forma so discriminados quais pacotes de voz sero
transmitidos via rede IP e quais sero suprimidos pelo
sistema.
Os algoritmos de VAD possuem uma srie de
aplicaes dentro da rea de processamento de sinais
digitais. No por menos que uma srie de emergentes
aplicaes, que envolvem tecnologias de processamento
digital de voz, necessitem de solues para a reduo do
rudo ambiente, de forma que trabalhem de maneira
combinada com precisos algoritmos de VAD [8].
A insero de algoritmos VAD nas aplicaes
especficas de voz sobre IP, tem um importante papel no
que diz respeito a todo o sistema de comunicao, deste o
locutor at o receptor. Podendo as tcnicas de deteco e
supresso de silncio, dentro das quais est inserido o
VAD, serem o maior benefcio para comunicaes em
tempo real via internet quando se faz referncia
limitao fsica das redes de pacotes de dados, devido
economia de banda que as mesmas podem proporcionar.

4. Aspectos desejveis para algoritmos de


VAD
Objetivando a deteco e supresso de silncio em
sistemas de comunicao de tempo real via redes IP,
existem alguns aspectos desejveis que precisam ser
considerados e respeitados quando do uso de algoritmos
VAD neste tipo de aplicao, em especial, voz sobre IP.
Citam-se alguns destes aspectos [5,9,10]:
Boa regra de deciso: diz respeito ao fato de se
explorar algumas propriedades fsicas da voz a fim de dar
maior consistncia ao julgamento e classificao dos
segmentos do sinal de voz em silncio ou voz.
Adaptabilidade ao rudo varivel: adaptabilidade ao
rudo ambiente no estacionrio torna o algoritmo mais
robusto permitindo a aplicao do mesmo em ambientes
mais especficos.
Baixa
complexidade
computacional:
baixa
complexidade computacional exige rapidez e simplicidade
do algoritmo a fim de garantir a aplicabilidade em
sistemas de tempo real.
Baixa perda de qualidade da voz: o algoritmo
necessita acrescentar um mnimo de perdas quando da
supresso dos segmentos considerados silncio, do
contrrio o sistema se tornar invivel e no
comercializvel.
Economia de banda maximizada: objetivo principal
do VAD, economizar banda com o fim de tornar viveis
as comunicaes de voz em tempo real, via mnima
ocupao da rede IP.
O que importante salientar a direta relao que
existe entre alguns dos aspectos desejveis para o VAD
citados acima. Por exemplo, a relao que se pode fazer
entre boa regra de deciso e baixa complexidade
computacional, ou baixa perda de qualidade da voz e
economia de banda maximizada.
Para a primeira relao, boa regra de deciso e baixa
complexidade computacional, faz-se necessrio um
meticuloso trabalho para que o algoritmo de VAD possa
fazer a anlise de caractersticas fsicas da voz e ainda sim
ter uma baixa complexidade. Isto porque a maioria das
tcnicas referenciadas nas bibliografias relacionadas,
utilizam de uma combinao de algoritmos.
J na segunda relao feita, baixa perda de qualidade
da voz e economia de banda maximizada, uma tende a ser
o inverso da outra por um lado, e compatveis por outro.
Geralmente quanto maior for a economia de banda
proporcionada pela deteco do silncio feita pelo VAD,
teoricamente mais rpido ser o trfico de pacotes de voz
pela rede IP. Mas em outro caso, um percentual muito

elevado de supresso de silncio pode degradar a


qualidade da voz suprimindo partes da fala do locutor que
seriam importantes para o bom entendimento da
conversao por parte do ouvinte.

5. Construo dos pacotes de voz


Para as implementaes dos algoritmos de VAD,
alguns parmetros foram estabelecidos no que se refere ao
processo de captura e formao dos pacotes de voz a
serem processados.
Para a digitalizao do sinal de voz a ser analisado
pelas tcnicas de deteco e supresso de silncio
implementadas, foi adotada uma freqncia de
amostragem de 8kHz, 256 nveis de quantizao linear
com codificao PCM [9,10] e 20ms de durao para cada
pacotes de voz em um nico canal.
Para a determinao do tamanho dos pacotes de voz,
precisam ser levados em considerao alguns aspectos.
Como estamos falando de comunicaes em tempo real,
os pacotes precisam ser pequenos, em torno de 10 a 20
milessegundos, de forma a facilitar o trfego dos mesmos
pela rede evitando assim constantes atrasos e grandes
perdas de qualidade quando da perda de pacotes no
transporte pela rede IP. Outro aspecto relevante a
freqncia de amostragem utilizada pelo sistema.
Diferentes freqncias de amostragem iro alterar o
nmero de amostras por pacotes, o que certamente eleva o
tempo de processamento do mesmo no caso do aumento
da freqncia.
A Equao 1 apresenta a frmula para a determinao
da quantidade de amostras do pacote de voz a ser
processada pelo algoritmo de VAD. Na mesma Equao
1, N representa a quantidade de amostras do pacote, tpacote
representa o tempo determinado para o pacote e famostragem
a freqncia de amostragem utilizada pelo sistema para a
discretizao do sinal de voz.
N=

t pa cot e
1
f amostragem

Equao 1 Nmero de amostras por pacote de voz


Para os testes e verificaes, foram
implementadas seis tcnicas, sendo elas baseadas nas
bibliografias consultadas [9,10]. Especificaes de cada
tcnica quanto ao domnio de trabalho (tempo ou
freqncia) do algoritmo bem como sua base de clculo,
alm da adaptabilidade a rudo ambiente inconstante com
especificao da regra de adaptao so apresentados na
seqncia.

6. Parmetros para a determinao da


presena de voz no pacote de udio
Todas as tcnicas de deteco e supresso de silncio
necessitam de parmetros para que possam mensurar a
existncia ou no de voz em um determinado segmento de
fala. Como cita Tanyer [9], para o reconhecimento dos
segmentos de voz, em voz ativa ou inativa, as
propriedades usualmente utilizadas so o nvel de energia,
o pitch da voz, a taxa de cruzamentos do zero,
propriedades estatsticas e anlise espectral.
O parmetro mais comum para a avaliao e
determinao da existncia ou no de voz o nvel de
energia das amostras. As amostras so analisadas uma a
uma e no final tirada a energia mdia do pacote de voz,
assim como mostra a Equao 2. Nesta Equao, Em a
energia mdia do pacote de voz, Eamostra a energia da
amostra de voz e N o nmero total de amostras do pacote
determinado pela Equao 1.

Em =

1
N

N 1

(E

amostra

)2

Equao 2 Energia de cada pacote de voz


O pitch a freqncia fundamental de vibrao das
cordas vocais. Medidas de picth tem recebido especial
ateno na pesquisa de voz. O pitch pode ser
determinado no domnio freqncia pelo clculo do
espaamento espectral entre picos do espectro ou, no
domnio tempo, pela medida direta do perodo da forma
de onda da voz [6]. A determinao do pitch e sua
utilizao em tcnicas de VAD no sero aprofundadas
neste trabalho.
A taxa de cruzamentos do zero se refere quantidade
de vezes que o sinal de voz tem o sinal da sua magnitude
invertido. Apesar de ser uma estimativa grosseira, em
alguns casos pode ser muito eficiente. Como se sabe, a
energia dos sons vozeados (ativos) tende a se concentrar
abaixo de 3 kHz, enquanto a energia dos fricativos
geralmente est concentrada acima de 3 kHz [6]. Deste
modo a medida do nmero de cruzamentos de zero pode
ser utilizada para decidir se um determinado sinal de voz
ativo ou inativo. J Prasad, Sangwan e Chiranth [9],
citam que o nmero de cruzamento do zero para um
pacote de 10 ms de voz, por exemplo, varia dentro de uma
faixa fixa, sendo o valor entre 5 e 15 cruzamentos. Esta
faixa fixa foi adotada para fins de implementao desta
tcnica neste trabalho.
Para uma avaliao estatstica, diferentes algoritmos
podem ser empregados, dentre eles os que utilizam o
clculo da varincia, Equao 3, do sinal de voz [9].
Como exemplo, o caso de sinal voz avaliado no domnio
das freqncias, a verificao da varincia deste sinal

pode indicar a presena ou no de voz ativa ou inativa. O


rudo ambiente tem normalmente uma varincia bastante
baixa diferente do sinal ativo de voz, sendo possvel desta
forma, fazer a distino. Este algoritmo possui
recomendao, na mesma referncia [9], de emprego
deste algoritmo para sistemas executados em ambientes
com baixa relao sinal rudo.
2

_
_
_

x1 x + x2 x + ..... + xn x
2
=

VAR =
(n 1)

i =1
(n 1)
n

Equao 3 Equao para a determinao da varincia


das amostras de cada pacote
Na Equao 3, os termos xn so as amostras distintas
do sinal de voz, x barrado a mdia das amostras e n o
nmero de amostras.
Para a anlise espectral existem diferentes formas de
serem realizadas avaliaes dos sinais de voz para fins de
deteco de atividade de voz. Uma destas formas a
avaliao da energia por sub-bandas. Isto ocorre de forma
que as faixas de maior concentrao das freqncias da
voz humana, no caso at 4 kHz, so avaliadas de forma
separada de modo a garantir que as principais
componentes da voz esto de forma ativa em um
determinado pacote. Esta tcnica de deteco e supresso
de silncio, apresentada de forma ilustrativa na Figura 3.

Figura 3 Avaliao do sinal de voz por sub-bandas [9]

7. Transformao do domnio tempo para


freqncia
Como se pode perceber pelos itens anteriores deste
trabalho, algumas so as tcnicas para a deteco do
silncio e sua supresso, executadas no domnio da
freqncia. Partindo do fato de que o sistema recebe um
sinal de voz, a ser processado, no domnio do tempo,
precisa-se ento, transforma-lo para o domnio freqncia
de forma a executar tais manipulaes.
Para este trabalho a transformao do domnio tempo

para a freqncia se d pela implementao da DCT


(DCT Discret Cossine Transform).
A DCT, Equao 4 e Equao 5, uma ferramenta
matemtica que possui muitas aplicaes para a
eletrnica, de filtros de udio compresso de vdeo. A
DCT transforma a informao do domnio espacial ou
temporal para o domnio freqncia, sobre o qual fica
mais adequada a aplicao de algumas ferramentas.

C (0) =

N 1

f ( x)
N
x =0

Equao 4 Equao para a determinao da 1a


componente da DCT

C (u ) =

(2 x + 1)u
2 N 1
f ( x) cos

N x =0
2N

Equao 5 Equao para a determinao das demais


componentes da DCT
Para u = 0, 1, 2, ..., N-1.
A utilizao da DCT para sistemas de transmisso de
voz em tempo real sobre redes IP, sugerida pela
bibliografia [9], devido ao fato da mesma, conforme o
autor, possuir baixa complexidade computacional. Outra
caracterstica vlida a facilidade de compreenso e uso
desta transformada por se trabalhar apenas no conjunto
dos nmeros reais.

8. Determinao do limiar de silncio


A escolha do limiar de silncio, ou threshold do
ambiente ponto crucial para a construo de um detector
de atividade de voz [11].Uma boa escolha do limiar de
silncio a indicao de um eficiente detector, podendo
ter como limiar um valor fixo, (Figura 4) ou um valor
varivel, sendo este segundo, dependente das condies
do rudo ambiente. Conforme Benyassine cita [12], o
rudo ambiente pode mudar consideravelmente entre
diferentes conversaes ou gravaes, bem como a
durao e o local da conversa, sendo desde uma sala
silenciosa at o rudo das ruas ou de um carro em
movimento.

Como citado por Renevey e Drygajlo em [5], o limiar


de silncio aplicado sobre os parmetros extrados do
sinal de voz e na seqncia este mesmo sinal dividido
em segmentos de fala e rudo. Este limiar pode ser fixo ao
logo da conversao, ou adaptativo conforme a variao
do rudo ambiente.
Para o caso do limiar de silncio com valor fixo, um
valor pr-determinado, ou pelo usurio ou pelo sistema,
fica sendo o limite entre o que considerada voz ativa ou
inativa em uma conversao. Sendo algoritmos de VAD,
em grande parte, baseados no clculo da energia do sinal
de voz [5], as referncias [9,10,13] citam que a
determinao do limiar de silncio inicial pode ser feita
atravs da utilizao da energia de amostras que
contenham apenas rudo ambiente. Ainda [9,10,13], citam
tambm que para a obteno da energia do rudo podem
ser usados dois mtodos.
O primeiro mtodo consiste no treinamento do
algoritmo de VAD, de forma que ele calcule a energia de
pacotes que contenham apenas sons de rudo ambiente, de
forma que o valor de energia encontrado para estes
pacotes ser o utilizado como limiar de silncio para o
restante dos pacotes no caso de um limiar fixo, j no caso
de um limiar adaptvel, este ser apenas o valor inicial. O
outro mtodo assume que os primeiros 200 milessegundos
de uma comunicao via um sistema de VoIP, so apenas
rudo ambiente, de maneira que a energia encontrada
nestes primeiros 200 milessegundos ser utilizado da
mesma forma que no metodo anterior.
O que tem se verificado [8,5,12,7,9,12,13,14] que a
forma mais eficiente para a determinao do valor do
limiar de silncio, especialmente em ambientes com
grande variao do rudo ambiente, quando da utilizao
de algoritmos adaptativos. Os procedimentos adaptativos
consistem principalmente de dois passos [14]: deciso e
adaptao. A deciso, no caso de algoritmos de VAD
baseados no clculo da energia, consiste na comparao
entre a energia do sinal de voz e a energia do limiar de
silncio. J a adaptao do algoritmo pode ser feita por
diversas formas, algumas destas formas a serem
abordadas nas implementaes deste trabalho.

9. Tcnicas auxiliares
As tcnicas auxiliares visam dar suporte aos algoritmos
de VAD de forma a garantir que no haja degradao
significativa da voz que entregue ao usurio.

Figura 4 Representao do limiar de silncio fixo


junto a energia dos segmentos de fala

Como tcnicas auxiliares fundamentais para o bom


funcionamento das tcnicas de deteco e supresso de
silncio esto a tcnica de hangover, o recobrimento por
rudo de conforto e a utilizao de algoritmos de controle
automtico de ganho.

9.1 Hangover
Hangover uma tcnica para evitar o sbito clipping
da voz, quando da utilizao de tcnicas de deteco e
supresso de silncio, funcionando como uma histerese
[13], ou uma pequena ligao entre trechos da fala,
especialmente consoantes que seriam suprimidas. Dentro
do tempo de hangover, mesmo que haja um pacote de
voz considerado silncio, este ser considerado parte do
ltimo trecho de fala, e se dentro deste mesmo tempo de
hangover um pacote ativo de voz detectado, o tempo
de hangover renovado [15].
O que se verifica em [15] que o tempo de hangover
pode ser determinado por um limitado nmero de pacotes
que no total iro perfazer um determinado tempo. Por
exemplo, para o caso de um tempo de hangover com
cinco pacotes de voz, sendo os pacotes de 20
milessegundo, teremos um tempo de 100 milessegundos
de tempo de hangover.

9.2 Rudo de conforto


Para sistemas de VoIP, a gerao de rudo de conforto
funciona como uma forma de preenchimento dos espaos
criados, pelo supressor de silncio, entre os pacotes
considerados ativos. Como cita Benyassine [12],
algoritmos de VAD so usualmente combinados com um
CNG (CNG Confort Noise Generator), gerador de rudo
de conforto, o qual tenta gerar rudo equivalente ao do
ambiente para o ouvinte durante os perodos de silncio
do locutor.
O funcionamento do CNG ocorre no lado do ouvinte,
ficando geralmente atrelado existncia do algoritmo no
codificador do mesmo, ou no lado do locutor que pode
transmitir via Payload de Confort Noise [16] quando da
utilizao do protocolo RTP (RTP Real Time Transport
Protocol). O CNG acionado no receptor quando o
mesmo recebe um pacote de dados proveniente do locutor
informando a deteco de silncio junto ao mesmo, de
forma que o rudo ser gerado at o momento do
recebimento de um novo pacote ativo de voz.

9.3 Controle automtico de ganho


O controle automtico de ganho um compensador
para diferentes intensidades de som no microfone devido
as diferentes distncias que podem haver entre o
microfone e a boca do locutor. Um controle rpido e
robusto permite uma compensao instantnea de
diferentes intensidades de som.
Em sistemas de VoIP os algoritmos de controle
automtico de ganho desempenham uma importante
funo na manuteno da estabilidade do nvel sonoro que
processado pelo sistema. Isto porque, por exemplo, os

algoritmos de VAD, podem perder sua funcionalidade


quando os nveis sonoros tornam-se muito altos, e em
caso de nveis sonoros muito baixos, os algoritmos podem
degradar completamente a voz.

10. Algoritmos no domnio do tempo


LED (Linear Energy Based Detector) uma tcnica
adaptativa, baseada no domnio do tempo e que tem como
base de clculo do algoritmo a energia do sinal de voz.
Possui uma caracterstica adaptativa (Equao 6) a qual
faz a soma de percentual do pacote atual com do ltimo
pacote considerado inativo para fins de atualizao do
limiar de silncio [4].

Threshold = (1 - p) Energy_old + p Energy_new


Equao 6 Equao para adaptao do limiar de silncio
a variao do rudo ambiente
A determinao do threshold adaptativo na tcnica
LED dada pela Equao 6, onde Energy_new a energia
do pacote de voz atual, Energy_old a energia do ltimo
pacote de voz considerado silncio, antes do atual. O
parmetro p o ndice que determina o passo de
adaptao, podendo variar de 0 a 1.
ALED (Adaptative Linear Energy-Based Detector)
tcnica que utiliza dos mesmos artifcios da LED, com
exceo sua adaptabilidade, a qual o ndice p, antes
determinado pelo usurio, o resultado da comparao,
da razo da varincia da energia do pacote atual com a
varincia da energia do ltimo pacote considerado
silncio, com a tabela-1.

NEW
1,25
OLD

0,25

1,25

NEW
1,10
OLD

0,20

1,10

NEW
1,00
OLD

0,15

NEW
OLD

0,10

1,00

Tabela-1: Valores de p dependentes de

NEW
OLD

WFD (Weak Fricatives Detector) esta tcnica se


diferencia das anteriores por no ser exclusivamente
baseada na energia do sinal de voz. Esta tcnica vem a ser
um artifcio estatstico para a deteco de alguns fonemas
que possuam uma reduzida energia atravs da contagem

do nmero de cruzamentos do zero que o sinal apresenta


em um determinado tempo, no caso 20ms, para um sinal
amostrado a 8 kHz, sendo que para considerao de
pacote ativo devem haver de dez a trinta cruzamentos.

ainda sim seja inativo, ser feita a verificao pela


varincia da energia do pacote. Este algoritmo tem sua
base de clculo no domnio freqncia, e utiliza da
adaptabilidade da Equao 6 por sub-banda.

11. Algoritmos no domnio freqncia

12. Resultados e concluses

DCTLSED (DCT Linear Sub-Band Energy Detector)


este algoritmo, baseado no domnio freqncia, tem sua
tomada de deciso para a determinao do pacote ativo ou
no baseado na diviso do sinal em quatro sub-bandas de
1kHz cada. Outra caracterstica a adaptabilidade ao
rudo ambiente, fazendo uso da equao-1 para a
atualizao do threshold por sub-banda.

Os resultados das implementaes feitas podem ser


visualizadas na figura 6, onde apresentado um
comparativo entre as tcnicas de VAD.

DCTSFD (DCT Spectral Flatness Detector) algoritmo


implementado no domnio freqncia com a finalidade de
garantir que pacotes de voz com baixo SNR no sejam
perdidos. Seu funcionamento baseado na comparao da
varincia da energia do pacote atual de voz com a
varincia do rudo ambiente, equao 7. Sua
adaptabilidade ao rudo dada pela equao 8. O ndice
p determinado pelo usurio do sistema.
VarVoz VarSilncio
Equao 7 Comparao entre as varincias dos
pacotes de voz e de silncio1

VarSilncio = (1 - p) VarSilncio + p VarVoz


Equao 8 - Equao para adaptao da varincia do rudo
conforme alteraes do mesmo no ambiente
DCTCVAD (DCT Comprehensive VAD) algoritmo
que trabalha com uma combinao de algumas das
implementaes anteriores. Utiliza da avaliao da
energia do sinal por sub-bandas, caso seja o pacote inativo
feito o teste do nmero de cruzamentos do zero, e caso

Figura 6: Percentual de Supresso x Tcnicas


Implementadas
Para obteno destes dados, foram entrevistadas dez
pessoas de ambos os sexos de forma que respondessem
sim para uma boa qualidade da voz e no para m
qualidade de voz aps ouvirem uma amostra gravada de
voz. Esta amostra era apresentada aos entrevistados no
seu formato original de gravao e posteriormente
mesma amostra sob a ao das tcnicas de deteco e
supresso de silncio. O percentual de supresso de
silncio foi alterado at o estabelecimento de um limite do
que seria uma boa qualidade subjetiva e um bom
percentual de supresso de silncio. Por fim foi calculada
a mdia do que foi considerado como satisfatrio entre os
entrevistados.
Para os testes realizados neste trabalho, foram
utilizadas das tcnicas auxiliares de hangover, fixada em
3 pacotes de recobrimento e substituio dos demais
pacotes suprimidos pelos algoritmos de VAD por rudo de
conforto. A utilizao destas duas tcnicas aumentou
significativamente a qualidade percebida pelos ouvintes.

Figura 5 Fluxo de deciso do CVAD [9].

Silncio neste caso, referncia o rudo ambiente.

Em comparao com os resultados apresentados em


[9], as tcnicas implementadas no domnio freqncia
apresentaram um percentual de supresso menor. Em
contrapartida, as tcnicas implementadas no domnio
tempo apresentaram uma relao percentual de supresso
versus qualidade subjetiva bem maior do que as
referncias [9,10] indicam. Destacando que as mesmas

referncias no apontam utilizao de nenhuma das


tcnicas auxiliares descritas neste trabalho.

Engenharia), ITA Instituto Militar de Engenharia, Rio de


Janeiro, 1988.

Quanto aplicabilidade destes algoritmos para


aplicaes de voz em tempo real, no caso especfico de
tempo de processamento para sistemas de VoIP, as
tcnicas implementadas no domnio tempo apresentam
um bom resultado, algo em torno de 80 microssegundos
de processamento de cada pacote. J para as tcnicas
implementadas no domnio da freqncia, sempre em
torno de trs milessegundos.

[7] Tanyer, S.G.; zer, H.: Voice activity Detection in


Nonstationary Gaussian Noise, Eusipco-98, Island of Rhodes,
Greece, 1998.

13. Trabalhos futuros


Como futuros trabalhos no que tange a continuidade
das implementaes das tcnicas de deteco e supresso
de silncio, est a construo das classes bases de
deteco e supresso de silncio, as classes de gerao de
rudo de conforto e a integrao das mesmas no cliente de
voz sobre IP a ser desenvolvido por este grupo de
trabalho.
Tambm como trabalho futuro est a implementao
de um algoritmo de controle automtico de ganho a fim
de garantir uma melhora na qualidade na captura do udio
para o melhor funcionamento das tcnicas de deteco e
supresso.
Aps a construo das classes e implementao do
algoritmo de controle de ganho, sero ento feitos testes
de qualidade com as tcnicas implementadas seguindo a
recomendao P.800 (MOS Mean Opinion Score) do
ITU-T, alm dos testes em ambiente de rede no ideal.

14. Bibliografia
[1] Monteiro, R. F.; Errico, L.; Yehia, H. C.: Implementao de
Transporte Robusto de Voz em Redes Baseadas em Protocolos
IP. XVIII SBRC. Belo Horizonte, 2002.
[2] Kondoz, A.M.; Evans, B.G.: A High Quality Voice Coder
With Integrates Echo Canceller and Voice Activity Detector for
VSAT Systems. Center for Satellite Engeneering Research.
University of Surrey. 200.
[3] Rabiner, L., R.; Schafer, R. W.: Digital Processing of Speech
Sinals. Prentice-Hall, Inc., Englewood Cliffs, New Jersey, 1978.
[4] Tanyer, S.G.; Ozer,H. Voice Activity Detection in
Nonstacionary Gaussian Noise, Ankara, Turkey. ICSP98
[5] Renevey, P; Drygajlo, A: Entropy Based Voice Activity
Detection in Very Noisy Conditions. European Conference on
Speech Communication and Technology, Aalborg, Denmark,
September 2001, vol. 3, pp. 18831886
[6] Rodrigues, S. L.: Implementao e Avaliao do
Desempenho de um Sistema Automtico de Reconhecimento de
Locutor pela Anlise de Frases Curtas. Tese (Mestrado em

[8] Ramirez, J.; Segura, J. C.; Benitez, C.; Torre, .; Rubio, A.:
Efficient Voice Activity Detection Algoritms Using Long-term
Speech Information, Dept. of Eletronics and Computer
Tecnology, University of Granada, 2002.
[9] Prasad, R.V.; Sangwan, A. Chiranth, M. C. Sah.:
Comparation of Voice Activity Detection Algoritms for VoIP.
IEEE, Bangalore India, 2002.
[10] Sangwan, A.; Chiranth, M. C.; Jamadagni, H. S.; Sah, R.;
Prasad, R. V.: VAD Techniques for Real-Time Speech
Transmission on the Internet. High Speed Networks and
Multimedia Communications 5th IEEE International Conference
on, Jeju Island, S. KOREA, 2002.
[11] Balbinot, R; Silveira, J. G.; Castello, F. C.; Santos, P. M.;
Quadra, A. S.: Voz sobre IP Tecnologia e tendncias. SBT
2004. Belm, Brasil, 2004.
[12] Benyassine, A.; Shlomot, E.; Su, H.; Yuen, E.: A Robust
Low Complexity Voice Activity Detection Algorithm for
Speech Communication System. IEEE Workshop on Speech
Coding, Pocono Manor, Pennsylvania, USA, 1997.
[13] Sangwan, A.; Jamadagni, H. S.; Chiranth, M. C.; Sah, R.;
Prasad, R. V.; Gaurav, V.: Second and Third Order Adaptable
Threshold for VAD in VoIP. ICSP-02, Beijing, CHINA. 2002.
[14] Zhang, J.; Ward, W.; Pellom, B.: Phone Based Voice
Activity Detection Using Online Bayesian Adaptation with
Conjugate Normal Distributions. ICASSP'2002, Orlando
Florida, 2002.
[15] Jiang, W; Schulzrine, H.: Analysis of on-off Patters in VoIP
and Their Effect on Voice Traffic Aggregation, IEEE,
Department of Computer Science. Columbia University, 2000.
[16] RFC 3389 Payload of Comfort Noise. Setembro de 2002.