Você está na página 1de 5

Abstract Voice over Internet Protocol (VoIP) is one of the

most important technologies in the world of communication. In


this work, end-users connect via ADSL modem to broadband IP
network and a variety of multimedia services utilized in this
network. VoIP is the most important services in the broadband
network and attempts focused on improving quality of voice in
VoIP toward the quality of voice in PSTN. Perceived voice
quality is an important function in VoIP applications. The main
aim is to find an efficient speech enhancement method for
perceptual optimization of voice quality. In this work, use band-
width extension (BWE) method to estimate wideband envelope
and improve quality and intelligibility. This method applies to
some common codecs (e.g. G.711/ G.726/ G.729/ iLBC, speex) and
then evaluates quality with ITU P.862.2 (wideband PESQ).
Simulation takes under both low packet loss conditions and non
packet loss conditions. The results illustrate that the BWE
algorithm can achieve reliable perceived voice quality in
comparison with the previous condition.

Keywords VoIP, Bandwidth Extension, Voice Codec,
Quality Improvement, Broadband Network.
I. INTRODUO
l crecimiento rpido del Protocolo de Internet (IP) bas
las redes y el acceso ofrecido de red de banda anchas con
un precio bajo ha dirigido muchos intereses hacia los
servicios Voz sobre IP (VoIP). VoIP es simplemente una
manera para hacer llamadas telefnicas va internet. Es decir
VoIP transmite el sgnalo de la voz va una unidad de
informacin cambiada y basada en la red en la cual las
unidades de informacin de la voz pueden escoger el camino
ms eficaz.
En este artculo, la red principal usada es una red de banda
ancha que dise para la multimedia, la aplicacin de la
transmisin como VoIP.
La cuestin ms importante en una red de VoIP es la
calidad del sgnalo de la voz. Por los avances tecnolgicos
durante aos, la comunicacin tradicional de la voz sobre
PSTN est caracterizada por alta calidad, a menudo referida
como la calidad toll.
En las redes VoIP , la calidad de la voz est afectada por
dos factores. Primero la calidad de los servicios (QoS) y el
segundo cdec de la voz.
Las averas de QoS en una red de VoIP son el retraso y
jitter. VoIP est principalmente averiada por el retraso largo
lado-a-lado. En general el retraso de las redes de VoIP pueden


F. Mousavipour, Universidad Shahab Danesh, Qom, Iran,
Mousavipour@shahed.ac.ir
M. J. Khosravipour, Universidad Sciense Tecnologica Nacional, Tehran,
Iran, Javad_khosravipour@elec.iust.ac.ir

aumentar por dos factores: (a) cuando se comunican dos cdec
distintos de la voz. (b) cuando el usuario reside detrs de un
Gateway residencial.
En [1-2] ITU-T y ETSI se recomienda algunos lmites de
retrasos para las conexiones de VoIP.
Jitter es el resultado de la congestin de la red y
alineamiento inoportuno. Por la parte del remitente, las
unidades de informacin de la voz estn transmitidas en un
ritmo constante, mientras en otro lado, las unidades de
informacin pueden recibirse en un ritmo desigual. Los
valores de jitter entre 30 y 75ms tambin pueden estar
admitidos.
El retraso lado-a-lado y jitter causan la falta de las unidades
de informacin. En una red de VoIP los datos del discurso
estn segmentados en mrgenes y cada margen est
empaquetado para la transmisin sobre la red. Si el retraso y
jitter son ms que la limitacin, la falta de las unidades de
informacin ocurre.
Los cdec trabajan bajo tres condiciones: banda ancha,
banda estrecha y banda ultra ancha. Los sistemas tradicionales
del cambio transmiten los sgnalos de la voz usando solamente
una banda estrecha de cdec G.711(PCM).
En una red de VoIP con la banda ancha o ultra ancha los
cdec pueden usarse, PSTN impuso la condicin de cdec de
la banda estrecha en la red de VoIP.
Recientes estudios han discutido sobre los mtodos de
estimar los datos perdidos y esconderlos. Estos mtodos
normalmente compensan la calidad de la voz pero tienen un
costo elevado creciente por ms retraso.
Se puede considera que la red es un red de banda ancha que
los usuarios conectan a travs de un modem ADSL a la red IP.
La manera en la cual la red IP conecta con la red PSTN es un
Gateway.













Figura 1. La arquitectura basica de voip.
F. Mousavipour and M. J. Khosravipour
VoIP Quality Enhancement with Wideband
Extension Method in Broadband Networks
E
1190 IEEE LATIN AMERICA TRANSACTIONS, VOL. 10, NO. 1, JAN. 2012


En tal red, las unidades de informacin de VoIP estn
transmitidas va un cambio de la unidad de informacin que
basaron red de banda ancha en el cual las unidades de
informacin de la voz pueden escoger el camino ms eficaz.
Red de banda ancha transmite el trafico del dato y tpicamente
lleva a cabo eficazmente esta tarea.
El clculo de la calidad es ITU-T P.862.1 y ITU-T P.862.2
que estn referidos a la banda estrecha PESQ y la banda ancha
PESQ [6-7]. La banda ancha PESQ est solamente usada para
el modelo de la escucha de la banda ancha.
II. CDECS DE VOZ
Los cdecs de voz son los algoritmos que permiten al
sistema llevar la voz anloga sobre lneas digitales. Hay varios
cdecs, que varan en complejidad, exigencia de amplitud de
banda y calidad de voz. La mayora de los sistemas PSTN
domsticos funcionan con la voz probada en el esquema de
cuantificacin no lineal de 8 kilohercios y de 8 trozos segn
[8], que codifica en 64 kb/s. Hay algunos cdecs de voz
conocidos, clasificados en tres categoras. A saber, cdecs de
banda estrecha que funcionan en seales de audio filtradas a
una variedad de frecuencia de 300 a 3400 Hz y probado en 8
kilohercios, cdecs de banda ancha que funcionan en seales
de audio filtradas a una variedad de frecuencia de 50 a 7000
Hz, y probado en 16 kilohercios y cdecs de multimodo que
pueden funcionar en seales de banda ancha o en banda
estrecha. En estos cdecs de banda estrecha de papel y cdecs
de multimodo usados.
A. Cdecs de Banda estrecha

G.711
El G.711 es un esquema PCM que produce un valor de 8
trozos cada 125 s, causando un 64 flujo de bit kb/s. Este
estndar tiene dos formas, - ley y A-ley. La forma de A-ley
se convierte las muestras de PCM lineales de 13 trozos de
largo en 8 trozos comprimieron muestras de PCM en el
codificador, y el decodificador realiza la conversin viceversa.

G.726
Este cdec desarrollado despus de G.723 y descarte esto.
Esto trabaja en 4 tasa de bitss, es decir, 16, 24, 32, 40 kb/s.
Con este trabajo 40 kb/s tasa de bits solan ganar la calidad
fina. El G.726 es un discurso de forma de onda coder que usa
la Modulacin por Impulsos Codificados Diferencial
Adaptable (ADPCM) y tiene la complejidad muy baja la
menos de 1 tardanza de cdec y MIP es igual a G.711. Esto
tambin es el cdec estndar usado en sistemas telefnicos
inalmbricos DECT.

G.729
El cdec G.729 permite que el relleno de ms entre a la
amplitud de banda limitada [10]. El algoritmo bsico de G.729
usa la estructura conjugada el cdigo algebraico excit la
prediccin lineal (CS-ACELP) algoritmo que corre en 8 kb/s.
En la esencia, esto contiene un mdulo VAD y un mdulo
DTX que actualiza parmetros del ruido de fondo durante
perodos de silencio.

iLBC
El iLBC denota el Internet Bajo Cdec de tasa de bits y es
un cdec de discurso de banda estrecha sin derechos,
desarrollado por el Sonido de IP global (GIPS) [11]. Este
cdec es usado en algunas aplicaciones famosas como: Skype,
Conversacin de Google, Se abren Wengo. EliLBC usa 30
longitud de marco de Sra. en 13.33 kb/s. Este cdec usa un
algoritmo LPC independiente de bloque. El hecho de codificar
cada bloque de muestras independientemente de los anteriores
hace este cdec resistente para enmarcar prdidas.
B. Cdecs de multimodo

Speex
El cdec de Speex es un formato de compresin de audio
sin patente de la Fuente Abierto diseado para el discurso
[12]. El Speex es principalmente diseado para tres
velocidades de muestreo diferentes: 8, 16 y 32 kilohercios. Su
modo de banda estrecha est basado en CELP y es el diseo
para comprimir la voz en untasa de bits de 15 kb/s. Esto es
tambin uno de los pocos cdecs que pueden cambiar su tasa
de bits dinmicamente, en cualquier momento. El Speex
tambin emplea la ocultacin de prdida de paquete, que lo
hace un candidato interesante por el ambiente inalmbrico.
La Fig. 2 muestra la comparacin entre el resultado de
MOS de cdecs mencionados. Con este trabajo, la base de
datos de discurso de referencia fue tomada del ITU-T dataset
[13]. Estas muestras fueron abajo probadas a 8 kilohercios sin
la prdida de paquete y luego la evaluacin de calidad fue
realizada. Nuestro mtodo de evaluacin objetivo es PESQ-
MOS para el discurso de seal de banda estrecha.

Para los susodichos cdecs de discurso, los resultados
femeninos y machos fueron comparados para evaluar la
interpretacin de algoritmo. Con este trabajo, los resultados
muestran que ninguna diferencia clara existe entre ellos.

Figura 2. Codecs MOS (Hombre, Mujer, Medio).

3.2
3.3
3.4
3.5
3.6
3.7
3.8
3.9
4
4.1
4.2
G.726 G.729 iLBC speex G.711
N
-
B
-
P
E
S
Q
Male
Female
Average
MOUSAVIPOUR AND KHOSEAVIPOUR : VOIP QUALITY ENHANCEMENT WITH 1191


La Fig. 2 muestra que tanteos machos y femeninos son
cercanos juntos. El G.711 y speex (4 superiores) tienen el
mejor resultado mientras G.726 tiene el resultado peor (cerca
3.6). Una puntuacin promedio fue obtenida por hacer un
promedio sobre todas las muestras de discurso (unas 16
muestras totales, consista en 8 machos y 8 hembras).
III. EFECTO DE PRDIDA DE PAQUETE
En esta seccin, el efecto de prdida de paquete en la
calidad de voz es contemplado. La prdida de paquete
representa significativo mtrico. La prdida de paquete puede
ocurrir debido a muchos motivos. Un paquete puede ser
perdido debido a la congestin en la red de IP, es decir, un
gestor de trfico es inundado de un nmero enorme de
paquetes que esto no puede manejar. Un paquete tambin
puede desechar en el destino, por ejemplo, cuando un paquete
llega demasiado tarde para ser llevado a su fin. Las pautas
tpicas para el precio de prdida de paquete son el 3 % o
menos [14].

La prdida de paquete puede ocurrir cuando la seal
original codificada y quiere transmitir sobre la red pero no
puede. En el lado de receptor, los paquetes perdidos pueden
ser perjudicados la calidad de cdecs de voz descifrados. Los
sistemas de VoIP pueden emplear su propia ocultacin de
prdida de paquete como: rplica de paquete o substitucin de
silencio.
Un sistema VoIP puede ser configurado en varios modos de
unin respectivamente: ordenador personal a ordenador
personal, Telefona a Telefona y ordenador personal a
Telefona. Adems, la telefona puede ser el tipo digital o un
tipo anlogo.
Con este trabajo, un precio de prdida de paquete fue
generado del 0 % al 3 %, en un paso incremental del 1 % con
PESQ de banda estrecha, el resultado tambin incluy para la
comparacin. La Fig. 3 muestra el resultado de PESQ de los
cdecs en condiciones de prdida de paquete bajas. La calidad
G.711 es el ms afectado mientras hay la menor parte de
impacto en la interpretacin speex. En este paquete de papel la
ocultacin de prdida no es usada para ningn cdec .
Figura 3. Codecs qualidad frente de a la tasa de perdida de paquetes.
Cuando seal original codificada en codificador y luego
transmitiendo sobre la red. Despus de Que los paquetes de IP
pasan el codificador, la prdida de paquete puede ser ocurrida.
En el plomo de prdida de paquete de lado de receptor a la
calidad de dao de la voz descifrada los .Codecs emplean su
propia ocultacin de prdida de paquete como: rplica de
paquete o substitucin de silencio.
El G.726 tiene un resultado bajo cerca 3.6 para ninguna
condicin de prdida de paquete y con su calidad degrad
hasta ms cuando hay prdida de paquete. Los resultados
adicionales no hacen el resultado de G.726 contenido debido a
la calidad baja de este cdec.
El speex tiene la interpretacin eficaz en la condicin de
prdida de paquete baja, sin embargo si el precio de prdida
de paquete es ms del 5 %, la calidad de este cdec es
afectada ms que otros cdecs.
Algunos Cdecs como G.711 y G.726 son la muestra
basada que cada muestra en la red de banda ancha. Otros
cdecs como iLBC y speex son el marco basado. Este
significa la seal de discurso segmentada a 20 o 30 marcos de
Sra. y luego codificado. Si la prdida arbitraria se aplicara a
cada muestra, el dao es la prdida de marco bastante
arbitraria demasiado eficaz.
IV. MTODO DE EXTENSIN DE ANCHURA DE CINTA
es producir el discurso de banda ancha del discurso de
telefona de banda estrecha porque se conoce que la banda
ancha parece ms natural y es generalmente preferida. El
trabajo reciente ha mostrado que este es factible [15]. Nuestro
objetivo es un mtodo que no confa en la formacin de modo
que el algoritmo sea robusto a la variacin en condiciones de
canal. Al mismo tiempo un sistema con la complejidad baja es
deseable.


Figura 4. ancho de banda tipica de systema de extencion.

Un sistema tpico es mostrado en la Fig. 4. Ya que la cinta
baja ya existe, la seal de entrada tiene que ser retrasada antes
de que pueda ser combinado con una seal de banda ancha
sintetizada.
Por su parte la seal de band ancha es tpicamente creada
generando una seal de banda ancha en primer lugar y luego
usando slo la porcin ancha de esta seal sinttica. La mayor
parte de tcnicas de extensin de amplitud de banda usan el
libro de cdigos que traza un mapa de mtodos para la
extraccin de las cintas ausentes de la informacin disponible.
Los parmetros del sobre espectral ausente y excitacin en las
cintas ms altas son obtenidos de libros de cdigos entrenados
en vectores de rasgo articulados del discurso de banda
estrecha y de banda ancha. La representacin de sobre
espectral para la correlacin de libro de cdigos est basada en
la lnea la frecuencia espectral (LSF) parmetros que sacamos
de un coeficiente de prediccin lineal del discurso.

La inicializacin consiste en segmentar el discurso en marcos
(20-30 Sra.), y luego estimar coeficientes de LP con la orden
18. Los coeficientes de LP podran ser utilizados durante la
0 0.5 1 1.5 2 2.5 3
2.6
2.8
3
3.2
3.4
3.6
3.8
4
4.2
Packet Loss Rate
N
-
B

P
E
S
Q

G.711
G.726
iLBC
speex
1192 IEEE LATIN AMERICA TRANSACTIONS, VOL. 10, NO. 1, JAN. 2012


formacin, pero ya que los coeficientes espectrales tienen
mejores propiedades de cuantificacin y decorrelacion bueno,
los coeficientes de LP son transformados en la lnea
coeficientes de frecuencia espectrales. El rasgo de cinta
ampliado generado con un algoritmo de libro de cdigos. Este
mtodo puede usar la iteracin para ganar la mejor calidad, sin
embargo este resulta en la complejidad aumentada y la
naturalidad de disminuciones de discurso.

V. RESULTADOS DE SIMULACIN
A fin de comparar la seal de banda ancha mejorada con la
banda estrecha descifr la seal de discurso, un libro de
cdigos el algoritmo de BWE fue puesto en prctica [16]. Las
muestras de discurso de banda ancha del ITU-T eran
muestrean a 8 kilohercios, transmitidos sobre cdecs y luego
ancha samplado a 16 kilohercios. Entonces las seales de
salida fueron salvadas como seales de discurso de banda
ancha degradadas. Las seales degradadas fueron introducidas
al algoritmo BWE mostrado en la Fig. 5 y luego ahorraron
como seales de discurso de banda ancha mejoradas.


Fs=8kHz improved
Signal

Figura 5. libro de cdigos que comprende algoritma de systema de extencion
en una ancho de banda.
El procedimiento de libro de cdigos es un algoritmo de
complejidad bajo descrito en .[5]
El procedimiento de libro de cdigos tiene la tardanza de
complejidad muy baja. Otros mtodos como GMM y HMM y
red de los nervios tienen el algoritmo complejo lo que resulta
aumentando juntando los dos extremos la tardanza de la red.
Los factores principales de la prdida de paquete son la
inquietud y juntando los dos extremos tardan.
Un resultado de calidad ha sido calculado basado en PESQ
de banda ancha para G.711, G.726, iLBC y cdecs speex.
La Fig. 6 muestra el resultado de PESQ de banda ancha
proporcionado por el libro de cdigos mtodo de BWE. El
G.711 tiene el resultado ms bajo con respecto a los otros
cdecs. Cada color indica la proporcin de prdida de paquete
(Negro: el 1 %, Blanco: el 2 %, lloriqueado: el 3 .(%
En algunos papeles tratan con la extensin de banda ancha
artificial, distancia de Itakura-Saito solicitada midiendo la
interpretacin de mtodos.
Este criterio no muestra la inteligibilidad de la seal de voz
realzada. Los Itakura-Saito distancian slo el espectculo la
diferencia entre espectros de poder de marcos de voz. Este
procedimiento calcul espectros de poder de diferencia de
seal de banda ancha y seal de sntesis y luego haciendo un
promedio entre todos los marcos.







Figura 6. PESQ de banda ancha proporcionada por el algoritmo de WBE.
(Negro: 1%, blanco: 2%, canoso: 3% la tasa de prdida de paquetes).

El cdec speex tiene la mejor interpretacin tanto en
trminos de prdida de paquete como mejora WBE. Ya que
uso en un broadband comn conectan a la red esto los
usuarios finales se unen con un mdem ADSL a la red de IP,
el speex es el mejor cdec en la condicin de prdida de
paquete baja. El speex tasa de bits es bajo y su relacin de
compresin es alta. Sin embargo una de las desventajas del
cdec speex es su complejidad alta comparada a otro cdec
como: G.711, G.726.
VI. CONCLUSIONES.
En una red de banda ancha diseada para la aplicacin de
transmisin multimedia, los usuarios finales se unen va el
mdem ADSLa la red con una aplicacin significativa que es
VoIP. La calidad de la voz transmitida es una cuestin
importante en la red de VoIP. Este trabajo intenta mejorar la
calidad de seales de voz en VoIP hacia la calidad de voz
proporcionada en PSTN. El mtodo BWE ha sido usado para
mejorar la calidad de voz basada en PESQ de banda ancha.
Con este trabajo, en primer lugar varios cdecs de voz
modernos fueron seleccionados para evaluar la calidad de voz
bajo no condiciones de prdida de paquete. El Speex y G.711
fueron encontrados para proporcionar la mejor calidad sin la
diferencia clara entre machos y hembras. El G.726 tiene la
calidad peor cuando esto es el cdec ms comprimido.
Nuestro resultado de medida de evaluacin est basado en
PESQ de banda estrecha.

El siguiente paso implic aplicar una condicin de prdida
de paquete baja a los cdecs. En esta condicin, todos los
cdecs perjudicaron la seal pero la interpretacin de speex
permanece en un nivel aceptable, solo entre todos los cdecs .
Se ha propuesto un algoritmo de clculo de coste bajo para
la extensin de amplitud de banda para aumentar la
inteligibilidad y la calidad de seales de voz de banda ancha.
En este caso, PESQ de banda ancha fue usado como la medida
de evaluacin. Los resultados muestran que el mtodo de
extensin de amplitud de banda de libro de cdigos mejora la
inteligibilidad y la naturalidad de la seal de discurso. Con la
mejora del resultado de PESQ de banda ancha de ms de 1
mientras la prdida de paquete baja tiene un impacto muy bajo
en este cdec.
El cdec speex tanto en prdida de paquete baja como en
condiciones de prdida de no paquete expone la interpretacin
fina. La desventaja principal de este cdec es su clculo de
complejidad alto, y latencia aumentada en codificador y
operacin de decodificador (30 Sra. para cada marco).
Window
20ms, 50%
LPC LS
Codebook
Procedure
MOUSAVIPOUR AND KHOSEAVIPOUR : VOIP QUALITY ENHANCEMENT WITH 1193


Despus de esto iLBC es el cdec bueno que tiene el
algoritmo de ocultacin de prdida de paquete internamente y
funcionar en sistemas de comunicacin inalmbricos. El
algoritmo de ocultacin de prdida de paquete que iLBC
usado est basado en reproducir el marco anterior o haciendo
un promedio entre el marco anterior y siguiente y luego
reproducindose con el marco perdido.
Finalmente, este trabajo demostr speex como el mejor cdec
para la aplicacin VoIP en redes de banda ancha que tienen la
proporcin de prdida de paquete de alta calidad y baja.
RECONOCIMIENTO
El trabajo es apoyado en la parte de una subvencin de
ITRC en la Escucha y la Forma de gobierno de Diseo y
Realizacin
Piloto de investigacin para red de banda ancha en la
tecnologa, Red y Proyecto de reas de Usuario.

REFERENCIAS
[1] ITU-R Recommendation G.114, General Characteristics of International
Telephone Connections and International Telephone Circuits: One-way
Transmission Time, February 1996.
[2] ETSI TIPHON, End-to-End Quality of Service in TIPHON Systems;
Part 2: Definition of Quality of Service (QoS) Classes, TS 101 329-2,
July 2000.
[3] ETSI DTR/TIPHON-05001, Telecommunications and Internet Protocol
Harmonization Over Networks (TIPHON); General Aspects of Quality
of Service (QoS), TR 101 329 Ver. 1.2.5, October 1998.
[4] K. Fujimoto, S. Ata, and M. Murata, "Adaptive Playout Buffer
Algorithm for EnhancingPerceived Quality of Streaming Applications, "
Spinger: Telecommunication Systems,vol. 25, pp. 2337-2342, March
2004.
[5] Nels Rohde, Svend Aage Vedstesen, Artificial Bandwidth Extension of
Narrowband Speech, Masters thesis, Aalborg University Department
of Electronic Systems, 2007.
[6] ITU-T Recommendation P.862, Perceptual Evaluation of Speech Quality
(PESQ), An Objective Method for End-to-End Speech Quality
Assessment of Narrowband Telephone Networks and Speech Codecs,
February 2001.
[7] ITU-T Recommendation P.862.2, Wideband extension to
recommendation P.862 for the assessment of wideband telephone
networks and speech codecs, 2005.
[8] ITU-T Recommendation G.711, Pulse Code Modulation (PCM) of Voice
Frequencies, November 1988.
[9] ITU-T Recommendation G.726, 40, 32, 24, 16 kbit/s Adaptive
Differential Pulse Code Modulation (ADPCM), December 1990.
[10] ITU-T Recommendation G.729, Coding of Speech at 8 kbit/s using
Conjugate-structure Algebraic-Code-Excited Linear Prediction
(CSACELP), March 1996.
[11] S. Andersen, A. Duric, H. Astrom, R. Hagen, W. Kleijn, J. Linden,
Internet Low Bit Rate Codec (iLBC), IETF RFC 3951, December 2004.
[12] Speex Official Website. <http://www.speex.org>.
[13] International Telecommunicaion Union, Objective measuring
apparatus, Appendix 1: Test signals, ITU-T Recommendation P.50, Feb
1998.
[14] ITU-T Contribution D. 110, 1999, Subjective Results on Impairment
Effects of Packet Loss, September 1999.
[15] R. Hu, V Krishnan, D. V. Anderson, Speech bandwidth extension by
improved codebook mapping towards increased phonetic classification,
Interspeech 2005 pp. 1501-1504M.







Farid Mousavipour received the B.S. degree in
Biomedical Engineering and M.S. degrees in Electrical
Engineering from Shahed University in 2007 and 2011,
respectively. From 2011 he has been working for ITRC
as a member of R&D Project Engineer. His Interest
research field is speech processing, speech enhancement,
voice codecs, and communication systems.

Mohammad Javad Khosravipour was born on 14
february,1987 in Kangavar, Iran.he received B.Sc.
degree in Electrical and Electronic Engineering from
Shahed University,Tehran, iran in 2010 and M.Sc.
student in communication Systems from the University
of Science and technology, Tehran, Iran.
His research interests include Wireless sensor
network,Cooperative communication, Information
theory,Coding and Adaptive filters.

1194 IEEE LATIN AMERICA TRANSACTIONS, VOL. 10, NO. 1, JAN. 2012

Você também pode gostar