Abstract Voice over Internet Protocol (VoIP) is one of the
most important technologies in the world of communication. In
this work, end-users connect via ADSL modem to broadband IP network and a variety of multimedia services utilized in this network. VoIP is the most important services in the broadband network and attempts focused on improving quality of voice in VoIP toward the quality of voice in PSTN. Perceived voice quality is an important function in VoIP applications. The main aim is to find an efficient speech enhancement method for perceptual optimization of voice quality. In this work, use band- width extension (BWE) method to estimate wideband envelope and improve quality and intelligibility. This method applies to some common codecs (e.g. G.711/ G.726/ G.729/ iLBC, speex) and then evaluates quality with ITU P.862.2 (wideband PESQ). Simulation takes under both low packet loss conditions and non packet loss conditions. The results illustrate that the BWE algorithm can achieve reliable perceived voice quality in comparison with the previous condition.
Keywords VoIP, Bandwidth Extension, Voice Codec, Quality Improvement, Broadband Network. I. INTRODUO l crecimiento rpido del Protocolo de Internet (IP) bas las redes y el acceso ofrecido de red de banda anchas con un precio bajo ha dirigido muchos intereses hacia los servicios Voz sobre IP (VoIP). VoIP es simplemente una manera para hacer llamadas telefnicas va internet. Es decir VoIP transmite el sgnalo de la voz va una unidad de informacin cambiada y basada en la red en la cual las unidades de informacin de la voz pueden escoger el camino ms eficaz. En este artculo, la red principal usada es una red de banda ancha que dise para la multimedia, la aplicacin de la transmisin como VoIP. La cuestin ms importante en una red de VoIP es la calidad del sgnalo de la voz. Por los avances tecnolgicos durante aos, la comunicacin tradicional de la voz sobre PSTN est caracterizada por alta calidad, a menudo referida como la calidad toll. En las redes VoIP , la calidad de la voz est afectada por dos factores. Primero la calidad de los servicios (QoS) y el segundo cdec de la voz. Las averas de QoS en una red de VoIP son el retraso y jitter. VoIP est principalmente averiada por el retraso largo lado-a-lado. En general el retraso de las redes de VoIP pueden
F. Mousavipour, Universidad Shahab Danesh, Qom, Iran, Mousavipour@shahed.ac.ir M. J. Khosravipour, Universidad Sciense Tecnologica Nacional, Tehran, Iran, Javad_khosravipour@elec.iust.ac.ir
aumentar por dos factores: (a) cuando se comunican dos cdec distintos de la voz. (b) cuando el usuario reside detrs de un Gateway residencial. En [1-2] ITU-T y ETSI se recomienda algunos lmites de retrasos para las conexiones de VoIP. Jitter es el resultado de la congestin de la red y alineamiento inoportuno. Por la parte del remitente, las unidades de informacin de la voz estn transmitidas en un ritmo constante, mientras en otro lado, las unidades de informacin pueden recibirse en un ritmo desigual. Los valores de jitter entre 30 y 75ms tambin pueden estar admitidos. El retraso lado-a-lado y jitter causan la falta de las unidades de informacin. En una red de VoIP los datos del discurso estn segmentados en mrgenes y cada margen est empaquetado para la transmisin sobre la red. Si el retraso y jitter son ms que la limitacin, la falta de las unidades de informacin ocurre. Los cdec trabajan bajo tres condiciones: banda ancha, banda estrecha y banda ultra ancha. Los sistemas tradicionales del cambio transmiten los sgnalos de la voz usando solamente una banda estrecha de cdec G.711(PCM). En una red de VoIP con la banda ancha o ultra ancha los cdec pueden usarse, PSTN impuso la condicin de cdec de la banda estrecha en la red de VoIP. Recientes estudios han discutido sobre los mtodos de estimar los datos perdidos y esconderlos. Estos mtodos normalmente compensan la calidad de la voz pero tienen un costo elevado creciente por ms retraso. Se puede considera que la red es un red de banda ancha que los usuarios conectan a travs de un modem ADSL a la red IP. La manera en la cual la red IP conecta con la red PSTN es un Gateway.
Figura 1. La arquitectura basica de voip. F. Mousavipour and M. J. Khosravipour VoIP Quality Enhancement with Wideband Extension Method in Broadband Networks E 1190 IEEE LATIN AMERICA TRANSACTIONS, VOL. 10, NO. 1, JAN. 2012
En tal red, las unidades de informacin de VoIP estn transmitidas va un cambio de la unidad de informacin que basaron red de banda ancha en el cual las unidades de informacin de la voz pueden escoger el camino ms eficaz. Red de banda ancha transmite el trafico del dato y tpicamente lleva a cabo eficazmente esta tarea. El clculo de la calidad es ITU-T P.862.1 y ITU-T P.862.2 que estn referidos a la banda estrecha PESQ y la banda ancha PESQ [6-7]. La banda ancha PESQ est solamente usada para el modelo de la escucha de la banda ancha. II. CDECS DE VOZ Los cdecs de voz son los algoritmos que permiten al sistema llevar la voz anloga sobre lneas digitales. Hay varios cdecs, que varan en complejidad, exigencia de amplitud de banda y calidad de voz. La mayora de los sistemas PSTN domsticos funcionan con la voz probada en el esquema de cuantificacin no lineal de 8 kilohercios y de 8 trozos segn [8], que codifica en 64 kb/s. Hay algunos cdecs de voz conocidos, clasificados en tres categoras. A saber, cdecs de banda estrecha que funcionan en seales de audio filtradas a una variedad de frecuencia de 300 a 3400 Hz y probado en 8 kilohercios, cdecs de banda ancha que funcionan en seales de audio filtradas a una variedad de frecuencia de 50 a 7000 Hz, y probado en 16 kilohercios y cdecs de multimodo que pueden funcionar en seales de banda ancha o en banda estrecha. En estos cdecs de banda estrecha de papel y cdecs de multimodo usados. A. Cdecs de Banda estrecha
G.711 El G.711 es un esquema PCM que produce un valor de 8 trozos cada 125 s, causando un 64 flujo de bit kb/s. Este estndar tiene dos formas, - ley y A-ley. La forma de A-ley se convierte las muestras de PCM lineales de 13 trozos de largo en 8 trozos comprimieron muestras de PCM en el codificador, y el decodificador realiza la conversin viceversa.
G.726 Este cdec desarrollado despus de G.723 y descarte esto. Esto trabaja en 4 tasa de bitss, es decir, 16, 24, 32, 40 kb/s. Con este trabajo 40 kb/s tasa de bits solan ganar la calidad fina. El G.726 es un discurso de forma de onda coder que usa la Modulacin por Impulsos Codificados Diferencial Adaptable (ADPCM) y tiene la complejidad muy baja la menos de 1 tardanza de cdec y MIP es igual a G.711. Esto tambin es el cdec estndar usado en sistemas telefnicos inalmbricos DECT.
G.729 El cdec G.729 permite que el relleno de ms entre a la amplitud de banda limitada [10]. El algoritmo bsico de G.729 usa la estructura conjugada el cdigo algebraico excit la prediccin lineal (CS-ACELP) algoritmo que corre en 8 kb/s. En la esencia, esto contiene un mdulo VAD y un mdulo DTX que actualiza parmetros del ruido de fondo durante perodos de silencio.
iLBC El iLBC denota el Internet Bajo Cdec de tasa de bits y es un cdec de discurso de banda estrecha sin derechos, desarrollado por el Sonido de IP global (GIPS) [11]. Este cdec es usado en algunas aplicaciones famosas como: Skype, Conversacin de Google, Se abren Wengo. EliLBC usa 30 longitud de marco de Sra. en 13.33 kb/s. Este cdec usa un algoritmo LPC independiente de bloque. El hecho de codificar cada bloque de muestras independientemente de los anteriores hace este cdec resistente para enmarcar prdidas. B. Cdecs de multimodo
Speex El cdec de Speex es un formato de compresin de audio sin patente de la Fuente Abierto diseado para el discurso [12]. El Speex es principalmente diseado para tres velocidades de muestreo diferentes: 8, 16 y 32 kilohercios. Su modo de banda estrecha est basado en CELP y es el diseo para comprimir la voz en untasa de bits de 15 kb/s. Esto es tambin uno de los pocos cdecs que pueden cambiar su tasa de bits dinmicamente, en cualquier momento. El Speex tambin emplea la ocultacin de prdida de paquete, que lo hace un candidato interesante por el ambiente inalmbrico. La Fig. 2 muestra la comparacin entre el resultado de MOS de cdecs mencionados. Con este trabajo, la base de datos de discurso de referencia fue tomada del ITU-T dataset [13]. Estas muestras fueron abajo probadas a 8 kilohercios sin la prdida de paquete y luego la evaluacin de calidad fue realizada. Nuestro mtodo de evaluacin objetivo es PESQ- MOS para el discurso de seal de banda estrecha.
Para los susodichos cdecs de discurso, los resultados femeninos y machos fueron comparados para evaluar la interpretacin de algoritmo. Con este trabajo, los resultados muestran que ninguna diferencia clara existe entre ellos.
Figura 2. Codecs MOS (Hombre, Mujer, Medio).
3.2 3.3 3.4 3.5 3.6 3.7 3.8 3.9 4 4.1 4.2 G.726 G.729 iLBC speex G.711 N - B - P E S Q Male Female Average MOUSAVIPOUR AND KHOSEAVIPOUR : VOIP QUALITY ENHANCEMENT WITH 1191
La Fig. 2 muestra que tanteos machos y femeninos son cercanos juntos. El G.711 y speex (4 superiores) tienen el mejor resultado mientras G.726 tiene el resultado peor (cerca 3.6). Una puntuacin promedio fue obtenida por hacer un promedio sobre todas las muestras de discurso (unas 16 muestras totales, consista en 8 machos y 8 hembras). III. EFECTO DE PRDIDA DE PAQUETE En esta seccin, el efecto de prdida de paquete en la calidad de voz es contemplado. La prdida de paquete representa significativo mtrico. La prdida de paquete puede ocurrir debido a muchos motivos. Un paquete puede ser perdido debido a la congestin en la red de IP, es decir, un gestor de trfico es inundado de un nmero enorme de paquetes que esto no puede manejar. Un paquete tambin puede desechar en el destino, por ejemplo, cuando un paquete llega demasiado tarde para ser llevado a su fin. Las pautas tpicas para el precio de prdida de paquete son el 3 % o menos [14].
La prdida de paquete puede ocurrir cuando la seal original codificada y quiere transmitir sobre la red pero no puede. En el lado de receptor, los paquetes perdidos pueden ser perjudicados la calidad de cdecs de voz descifrados. Los sistemas de VoIP pueden emplear su propia ocultacin de prdida de paquete como: rplica de paquete o substitucin de silencio. Un sistema VoIP puede ser configurado en varios modos de unin respectivamente: ordenador personal a ordenador personal, Telefona a Telefona y ordenador personal a Telefona. Adems, la telefona puede ser el tipo digital o un tipo anlogo. Con este trabajo, un precio de prdida de paquete fue generado del 0 % al 3 %, en un paso incremental del 1 % con PESQ de banda estrecha, el resultado tambin incluy para la comparacin. La Fig. 3 muestra el resultado de PESQ de los cdecs en condiciones de prdida de paquete bajas. La calidad G.711 es el ms afectado mientras hay la menor parte de impacto en la interpretacin speex. En este paquete de papel la ocultacin de prdida no es usada para ningn cdec . Figura 3. Codecs qualidad frente de a la tasa de perdida de paquetes. Cuando seal original codificada en codificador y luego transmitiendo sobre la red. Despus de Que los paquetes de IP pasan el codificador, la prdida de paquete puede ser ocurrida. En el plomo de prdida de paquete de lado de receptor a la calidad de dao de la voz descifrada los .Codecs emplean su propia ocultacin de prdida de paquete como: rplica de paquete o substitucin de silencio. El G.726 tiene un resultado bajo cerca 3.6 para ninguna condicin de prdida de paquete y con su calidad degrad hasta ms cuando hay prdida de paquete. Los resultados adicionales no hacen el resultado de G.726 contenido debido a la calidad baja de este cdec. El speex tiene la interpretacin eficaz en la condicin de prdida de paquete baja, sin embargo si el precio de prdida de paquete es ms del 5 %, la calidad de este cdec es afectada ms que otros cdecs. Algunos Cdecs como G.711 y G.726 son la muestra basada que cada muestra en la red de banda ancha. Otros cdecs como iLBC y speex son el marco basado. Este significa la seal de discurso segmentada a 20 o 30 marcos de Sra. y luego codificado. Si la prdida arbitraria se aplicara a cada muestra, el dao es la prdida de marco bastante arbitraria demasiado eficaz. IV. MTODO DE EXTENSIN DE ANCHURA DE CINTA es producir el discurso de banda ancha del discurso de telefona de banda estrecha porque se conoce que la banda ancha parece ms natural y es generalmente preferida. El trabajo reciente ha mostrado que este es factible [15]. Nuestro objetivo es un mtodo que no confa en la formacin de modo que el algoritmo sea robusto a la variacin en condiciones de canal. Al mismo tiempo un sistema con la complejidad baja es deseable.
Figura 4. ancho de banda tipica de systema de extencion.
Un sistema tpico es mostrado en la Fig. 4. Ya que la cinta baja ya existe, la seal de entrada tiene que ser retrasada antes de que pueda ser combinado con una seal de banda ancha sintetizada. Por su parte la seal de band ancha es tpicamente creada generando una seal de banda ancha en primer lugar y luego usando slo la porcin ancha de esta seal sinttica. La mayor parte de tcnicas de extensin de amplitud de banda usan el libro de cdigos que traza un mapa de mtodos para la extraccin de las cintas ausentes de la informacin disponible. Los parmetros del sobre espectral ausente y excitacin en las cintas ms altas son obtenidos de libros de cdigos entrenados en vectores de rasgo articulados del discurso de banda estrecha y de banda ancha. La representacin de sobre espectral para la correlacin de libro de cdigos est basada en la lnea la frecuencia espectral (LSF) parmetros que sacamos de un coeficiente de prediccin lineal del discurso.
La inicializacin consiste en segmentar el discurso en marcos (20-30 Sra.), y luego estimar coeficientes de LP con la orden 18. Los coeficientes de LP podran ser utilizados durante la 0 0.5 1 1.5 2 2.5 3 2.6 2.8 3 3.2 3.4 3.6 3.8 4 4.2 Packet Loss Rate N - B
P E S Q
G.711 G.726 iLBC speex 1192 IEEE LATIN AMERICA TRANSACTIONS, VOL. 10, NO. 1, JAN. 2012
formacin, pero ya que los coeficientes espectrales tienen mejores propiedades de cuantificacin y decorrelacion bueno, los coeficientes de LP son transformados en la lnea coeficientes de frecuencia espectrales. El rasgo de cinta ampliado generado con un algoritmo de libro de cdigos. Este mtodo puede usar la iteracin para ganar la mejor calidad, sin embargo este resulta en la complejidad aumentada y la naturalidad de disminuciones de discurso.
V. RESULTADOS DE SIMULACIN A fin de comparar la seal de banda ancha mejorada con la banda estrecha descifr la seal de discurso, un libro de cdigos el algoritmo de BWE fue puesto en prctica [16]. Las muestras de discurso de banda ancha del ITU-T eran muestrean a 8 kilohercios, transmitidos sobre cdecs y luego ancha samplado a 16 kilohercios. Entonces las seales de salida fueron salvadas como seales de discurso de banda ancha degradadas. Las seales degradadas fueron introducidas al algoritmo BWE mostrado en la Fig. 5 y luego ahorraron como seales de discurso de banda ancha mejoradas.
Fs=8kHz improved Signal
Figura 5. libro de cdigos que comprende algoritma de systema de extencion en una ancho de banda. El procedimiento de libro de cdigos es un algoritmo de complejidad bajo descrito en .[5] El procedimiento de libro de cdigos tiene la tardanza de complejidad muy baja. Otros mtodos como GMM y HMM y red de los nervios tienen el algoritmo complejo lo que resulta aumentando juntando los dos extremos la tardanza de la red. Los factores principales de la prdida de paquete son la inquietud y juntando los dos extremos tardan. Un resultado de calidad ha sido calculado basado en PESQ de banda ancha para G.711, G.726, iLBC y cdecs speex. La Fig. 6 muestra el resultado de PESQ de banda ancha proporcionado por el libro de cdigos mtodo de BWE. El G.711 tiene el resultado ms bajo con respecto a los otros cdecs. Cada color indica la proporcin de prdida de paquete (Negro: el 1 %, Blanco: el 2 %, lloriqueado: el 3 .(% En algunos papeles tratan con la extensin de banda ancha artificial, distancia de Itakura-Saito solicitada midiendo la interpretacin de mtodos. Este criterio no muestra la inteligibilidad de la seal de voz realzada. Los Itakura-Saito distancian slo el espectculo la diferencia entre espectros de poder de marcos de voz. Este procedimiento calcul espectros de poder de diferencia de seal de banda ancha y seal de sntesis y luego haciendo un promedio entre todos los marcos.
Figura 6. PESQ de banda ancha proporcionada por el algoritmo de WBE. (Negro: 1%, blanco: 2%, canoso: 3% la tasa de prdida de paquetes).
El cdec speex tiene la mejor interpretacin tanto en trminos de prdida de paquete como mejora WBE. Ya que uso en un broadband comn conectan a la red esto los usuarios finales se unen con un mdem ADSL a la red de IP, el speex es el mejor cdec en la condicin de prdida de paquete baja. El speex tasa de bits es bajo y su relacin de compresin es alta. Sin embargo una de las desventajas del cdec speex es su complejidad alta comparada a otro cdec como: G.711, G.726. VI. CONCLUSIONES. En una red de banda ancha diseada para la aplicacin de transmisin multimedia, los usuarios finales se unen va el mdem ADSLa la red con una aplicacin significativa que es VoIP. La calidad de la voz transmitida es una cuestin importante en la red de VoIP. Este trabajo intenta mejorar la calidad de seales de voz en VoIP hacia la calidad de voz proporcionada en PSTN. El mtodo BWE ha sido usado para mejorar la calidad de voz basada en PESQ de banda ancha. Con este trabajo, en primer lugar varios cdecs de voz modernos fueron seleccionados para evaluar la calidad de voz bajo no condiciones de prdida de paquete. El Speex y G.711 fueron encontrados para proporcionar la mejor calidad sin la diferencia clara entre machos y hembras. El G.726 tiene la calidad peor cuando esto es el cdec ms comprimido. Nuestro resultado de medida de evaluacin est basado en PESQ de banda estrecha.
El siguiente paso implic aplicar una condicin de prdida de paquete baja a los cdecs. En esta condicin, todos los cdecs perjudicaron la seal pero la interpretacin de speex permanece en un nivel aceptable, solo entre todos los cdecs . Se ha propuesto un algoritmo de clculo de coste bajo para la extensin de amplitud de banda para aumentar la inteligibilidad y la calidad de seales de voz de banda ancha. En este caso, PESQ de banda ancha fue usado como la medida de evaluacin. Los resultados muestran que el mtodo de extensin de amplitud de banda de libro de cdigos mejora la inteligibilidad y la naturalidad de la seal de discurso. Con la mejora del resultado de PESQ de banda ancha de ms de 1 mientras la prdida de paquete baja tiene un impacto muy bajo en este cdec. El cdec speex tanto en prdida de paquete baja como en condiciones de prdida de no paquete expone la interpretacin fina. La desventaja principal de este cdec es su clculo de complejidad alto, y latencia aumentada en codificador y operacin de decodificador (30 Sra. para cada marco). Window 20ms, 50% LPC LS Codebook Procedure MOUSAVIPOUR AND KHOSEAVIPOUR : VOIP QUALITY ENHANCEMENT WITH 1193
Despus de esto iLBC es el cdec bueno que tiene el algoritmo de ocultacin de prdida de paquete internamente y funcionar en sistemas de comunicacin inalmbricos. El algoritmo de ocultacin de prdida de paquete que iLBC usado est basado en reproducir el marco anterior o haciendo un promedio entre el marco anterior y siguiente y luego reproducindose con el marco perdido. Finalmente, este trabajo demostr speex como el mejor cdec para la aplicacin VoIP en redes de banda ancha que tienen la proporcin de prdida de paquete de alta calidad y baja. RECONOCIMIENTO El trabajo es apoyado en la parte de una subvencin de ITRC en la Escucha y la Forma de gobierno de Diseo y Realizacin Piloto de investigacin para red de banda ancha en la tecnologa, Red y Proyecto de reas de Usuario.
REFERENCIAS [1] ITU-R Recommendation G.114, General Characteristics of International Telephone Connections and International Telephone Circuits: One-way Transmission Time, February 1996. [2] ETSI TIPHON, End-to-End Quality of Service in TIPHON Systems; Part 2: Definition of Quality of Service (QoS) Classes, TS 101 329-2, July 2000. [3] ETSI DTR/TIPHON-05001, Telecommunications and Internet Protocol Harmonization Over Networks (TIPHON); General Aspects of Quality of Service (QoS), TR 101 329 Ver. 1.2.5, October 1998. [4] K. Fujimoto, S. Ata, and M. Murata, "Adaptive Playout Buffer Algorithm for EnhancingPerceived Quality of Streaming Applications, " Spinger: Telecommunication Systems,vol. 25, pp. 2337-2342, March 2004. [5] Nels Rohde, Svend Aage Vedstesen, Artificial Bandwidth Extension of Narrowband Speech, Masters thesis, Aalborg University Department of Electronic Systems, 2007. [6] ITU-T Recommendation P.862, Perceptual Evaluation of Speech Quality (PESQ), An Objective Method for End-to-End Speech Quality Assessment of Narrowband Telephone Networks and Speech Codecs, February 2001. [7] ITU-T Recommendation P.862.2, Wideband extension to recommendation P.862 for the assessment of wideband telephone networks and speech codecs, 2005. [8] ITU-T Recommendation G.711, Pulse Code Modulation (PCM) of Voice Frequencies, November 1988. [9] ITU-T Recommendation G.726, 40, 32, 24, 16 kbit/s Adaptive Differential Pulse Code Modulation (ADPCM), December 1990. [10] ITU-T Recommendation G.729, Coding of Speech at 8 kbit/s using Conjugate-structure Algebraic-Code-Excited Linear Prediction (CSACELP), March 1996. [11] S. Andersen, A. Duric, H. Astrom, R. Hagen, W. Kleijn, J. Linden, Internet Low Bit Rate Codec (iLBC), IETF RFC 3951, December 2004. [12] Speex Official Website. <http://www.speex.org>. [13] International Telecommunicaion Union, Objective measuring apparatus, Appendix 1: Test signals, ITU-T Recommendation P.50, Feb 1998. [14] ITU-T Contribution D. 110, 1999, Subjective Results on Impairment Effects of Packet Loss, September 1999. [15] R. Hu, V Krishnan, D. V. Anderson, Speech bandwidth extension by improved codebook mapping towards increased phonetic classification, Interspeech 2005 pp. 1501-1504M.
Farid Mousavipour received the B.S. degree in Biomedical Engineering and M.S. degrees in Electrical Engineering from Shahed University in 2007 and 2011, respectively. From 2011 he has been working for ITRC as a member of R&D Project Engineer. His Interest research field is speech processing, speech enhancement, voice codecs, and communication systems.
Mohammad Javad Khosravipour was born on 14 february,1987 in Kangavar, Iran.he received B.Sc. degree in Electrical and Electronic Engineering from Shahed University,Tehran, iran in 2010 and M.Sc. student in communication Systems from the University of Science and technology, Tehran, Iran. His research interests include Wireless sensor network,Cooperative communication, Information theory,Coding and Adaptive filters.
1194 IEEE LATIN AMERICA TRANSACTIONS, VOL. 10, NO. 1, JAN. 2012