Escolar Documentos
Profissional Documentos
Cultura Documentos
VoIP
(Voice over IP)
El servicio de voz sobre este tipo de redes se llama VoIP (Voice over Internet
Protocol) y permite el uso de redes de datos para realizar llamadas de voz. Para
este proceso, es necesario el tratamiento de la voz. El método empleado consiste
en la toma de muestras discretas de ésta (tomadas en puntos discretos del espacio
o del tiempo) que son posteriormente representadas en un formato específico
dependiendo del tipo de medio, denominado codificación. El procedimiento de
codificación lleva implícitos una serie de tratamientos a través de los cuales la señal
es finalmente representada con un número limitado de bits. Una vez tratada la voz
humana y codificada como una señal digital, se envía a través de las redes de
datos, siendo la más común Internet. Existen diferentes códecs para tratar la voz,
cada uno de los cuales con unas características determinadas que se estudiarán el
apartado correspondiente.
1
Definición dada por el Grupo de Estudio 13 del Sector de Normalización de la Unión Internacional de
Telecomunicaciones (UIT –T) en la Recomendación Y.2001. Más información consultar Anexo II.1
Las redes IP parecen a priori la solución más rápida y factible para alcanzar la
convergencia de redes debido sobre todo a la gran cobertura actual y a su
aceptación por parte de los usuarios. La integración de la voz en redes IP mediante
tecnología VoIP aporta múltiples ventajas:
Ahorros de costos: llevando el tráfico de voz sobre redes IP, las compañías
pueden reducir o eliminar los cargos asociados con el transporte de llamadas
sobre la red telefónica pública conmutada (PSTN). Los proveedores de servicios
y los usuarios finales pueden aun conservar ancho de banda invirtiendo una
capacidad adicional solo cuando es necesario. Esto es posible por la naturaleza
distribuida de VoIP y por los costos de operación reducida según las compañías
combinen tráficos de voz y datos dentro de una red. Los costes de transmisión
de tráfico de telecomunicaciones se pueden reducir drásticamente. El coste de
transmisión de llamadas por IP podría ser de hasta la cuarta parte de las
llamadas por la red telefónica pública conmutada (RTPC) y los gastos de
mantenimiento podrían reducirse en 50 ó 60 % porque las llamadas VoIP sólo
utilizan 10 % del ancho de banda necesaria para una llamada por la red
pública. Otras consideraciones que también influencian la adopción del VoIP
serían los elevados costes de mantenimiento de la infraestructura heredada y la
necesidad de pasar a las redes inteligentes basadas en las tecnologías más
recientes.
Cabe por último destacar la principal ventaja que esta tecnología ofrece respecto al
resto de opciones, la facilidad y flexibilidad para la introducción de nuevos servicios
en la Red. Entre las características que proporcionan estas ventajas podemos citar:
Para realizar una transmisión de voz, es necesario que todos los paquetes lleguen
ordenados, que se garantice una mínima tasa de transmisión y sobre todo que no
haya pérdidas de paquetes. Cada paquete contiene aproximadamente unos 20
milisegundos de señal vocal (depende del códec empleado), lo que equivale a
medio fonema. Los principales problemas que se deben solventar para conseguirlo
son:
Para tratar de minimizar las degradaciones producidas por los factores arriba
expuestos y lograr la calidad de servicio especificada un cada momento, se han
desarrollado un conjunto de mecanismos cuyo uso mejora significativamente la
calidad obtenida. Estas soluciones son:
Cuando dicho flujo intenta consumir más ancho de banda del que le corresponde,
debe existir algún mecanismo que se lo impida o, de lo contrario, se verán
afectados el resto de los flujos. La diferencia entre las funciones policía y las
técnicas de adaptación del trafico estriba en el modo en que responde a dichas
violaciones. Mientras que las funciones policía marcan los paquetes que exceden el
límite como descartados, las funciones de adaptación modifican la tasa del tráfico a
través de mecanismos de encolado en los que se retienen los paquetes y se liberan
de manera que el flujo de salida se encuentre dentro de los parámetros
establecidos
2.3. Protocolos
Protocolo H.323
H.323 presentan una gran latencia y no garantizan una determinada calidad del
servicio (QoS). Para la conferencia de datos se apoya en la norma T.120, con lo que
en conjunto soporta las aplicaciones multimedia. Los terminales y equipos conforme
a H.323 pueden tratar voz en tiempo real, datos y vídeo, incluida videotelefonía.
Forma parte de la serie de protocolos H.32x, los cuales también dirigen las
comunicaciones sobre RDSI (H.320), RTC o SS7. Esta familia de protocolos ha ido
evolucionando con el tiempo para permitir mejorar las transmisiones de voz y vídeo
en LANs y WANs sobre distintos medios. La versión actual data de 2006 y se
conoce como H.323v6.
1. Terminales H.323: que son puntos finales (equipos que usan directamente
los usuarios) en una LAN.
2. Pasarelas que trabajan como la interfaz de red entre la LAN y de
conmutación de circuitos, hacen de enlace con la red telefónica conmutada,
actuando de forma transparente para el usuario.
3. Porteros o Gatekeepers que realiza funciones de control de admisión y otras
tareas. Son el centro de toda organización VoIP y son el equivalente a las
centralitas privadas o PBX (Private Branch eXchange). Normalmente se
implementan por software.
4. MCU (Multipoint Control Unit) que ofrece conferencias entre tres o más
puntos finales.
Protocolo SIP
SIP (Session Initiation Protocol) es un protocolo de señalización (situado en el nivel
ISO / OSI de aplicación) para el establecimiento, mantenimiento y terminación de
sesiones interactivas entre usuarios. Estas sesiones pueden tratarse de
conferencias multimedia, chat, sesiones de voz o distribución de contenidos
multimedia. SIP, creado en 1996 por Mark Handley y Henning Schulzrinne, ha sido
estandarizado por la IETF (Internet Engineering Task Force) y la especificación más
reciente de SIP se puede encontrar en el RFC 3261.
Redirección de llamadas
Resolución de direcciones
Determinar la disponibilidad de un punto final
Establecer llamadas punto a punto o multipunto
Para la comparación de estos dos protocolos, se ha usado como base una serie de
artículos que aparecen recogidos en la bibliografia. La conclusión se ha obtenido
ponderando tanto la conclusión propia de dicho estudio como las características
específicas de este proyecto. El estudio comparativo obtenido es el siguiente:
a. Complejidad. En este punto SIP tiene una ventaja sobre H.323, dado que
este último presenta procesos más complejos para codificar y decodificar
paquetes, a pesar de que los mismos por si solos no presentan mayor
Conclusión
Una vez analizados los aspectos que permitieron establecer la comparación entre
ambos protocolos, se procedió a establecer una tabla comparativa con las
características estudiadas y su peso relativo normalizado sobre 1 para cuantificar la
mejoría de un proyecto sobre otro.
Como se observó en la tabla anterior, SIP superó a H323v4 en un 20% de todas las
características generales, sin embargo, el futuro no es completamente claro, dado
que existen otras muchas variables que son difíciles de analizar como por ejemplo
las estrategias de mercado, la aceptación del usuario, desarrollo de
microtecnologías, que son las que normalmente definen la supervivencia de un
protocolo sobre otro o la coexistencia de ambos.
Soluciones para VoIP en Software Libre se especifican estos criterios) y una de las
razones por las que su uso se hacía óptimo como solución al escenario de trabajo
de Persan. Es por todo esto que se usará SIP como protocolo de trabajo en este
proyecto.
Paquetes con
Muestreo Periódico
codificadas una o más
(‘TRAMAS’) tramas
Una vez las tramas se han generado, se les añade la cabecera de transporte
adecuada. Estas cabeceras son compartidas por un número de tramas de códec,
puesto que el número de octetos de la cabecera es muy grande comparado con el
de una trama de códec. El número de tramas que comparten cabecera está limitado
tanto por el retardo (el eco) como por la temporización (marca de tiempo).
Códecs de Audio
µ
[
F −1 ( y ) = sgn( y )( 1 ) (1 + µ )
y
]
−1 −1 ≤ y ≤ 1
Utilizar G.711 para VoIP nos dará la mejor calidad de voz; ya que no usa
ninguna compresión y es el mismo códec utilizado por la red RTC y líneas
RDSI, suena como si utilizáramos un teléfono RDSI normal. También tiene la
menor latencia puesto que no hay necesidad de compresión, lo cual cuesta
menos capacidad de procesamiento. La pega es que utiliza más ancho de
banda que otros códecs, hasta 84 Kbps incluyendo todo el overhead de
TCP/IP. No obstante, aumentando el ancho de banda, esto no debería ser un
problema.
G.723.1: Un standard ITU del tipo narrow-band audio codec que codifica el
habla en una cadena de datos cada 30ms (240 muestras en total). Cada
frame puede ser de 24 o 20 bytes de longitud, lo que hace a la cadena de
datos tanto de 6.4kb/sec o 5.3kb/sec. Este códec esta cubierto por una
variedad de patentes, lo que significa que debe ser pagada una patente
antes de poder ser utilizado comercialmente.
GSM: GSM emplea una modulación GMSK (Gaussian Minimum Shift Keying)
obtenida a partir de una modulación MSK que es un tipo especial de FSK.
Para el acceso en el interfaz radio o Abis se utiliza el sistema TDMA de
banda estrecha (Time Division Multiple Access) entre la estación base y el
teléfono celular utilizando 2 de canales de radio de frecuencia dúplex. Para
minimizar las fuentes de interferencia y conseguir una mayor protección se
utiliza el (frequency hopping) o salto en frecuencia entre canales, con una
velocidad máxima de 217 saltos/S. y siempre bajo mandato de la red.
Una llamada de voz utiliza un codificador GSM específico a velocidad total de
13Kbits/s, posteriormente se desarrolló un códec a velocidad mitad de 6,5
kbits/s que permitirá duplicar la capacidad de los canales TCH, se denomina
FR (Full Rate) y HR (Half Rate).
ILBC: iLBC, "Internet Low Bit rate Codec" es un códec para voz apropiado
para comunicaciones robustas sobre VoIP. Este códec está diseñado para
ahorrar ancho de banda y resulta en un carga útil de 13.33 Kb/s usando
tramas de 30 ms y en 15.20 Kb/s usando tramas de 20 ms. El códec es
capaz de enfrentar la eventualidad de que se pierdan tramas, lo cual ocurre
cuando se pierde la conexión o se retrasan los paquetes IP.
El algoritmo iLBC, usa una codificación de predicción-lineal y bloques-
independientes (LPC), este algoritmo tiene soporte para dos tamaños
básicos de tramas: 20 ms a 15.2 Kb/s y 30 ms a 13.33 Kb/s.
Speex: El proyecto Speex tiene como objetivo crear un códec libre para voz,
sin restricciones de ninguna patente de software. Speex está sujeto a la
Licencia BSD y es usado con el contenedor Ogg de la Fundación Xiph.org.
Las metas en el diseño eran permitir buena calidad en la voz y bajo bit-rate
(desafortunadamente no al mismo tiempo). Buena calidad también
significaba tener soporte para wideband (frecuencia de muestreo de 16 kHz)
además de narrowband (calidad de teléfono, frecuencia de muestreo de 8
kHz).
El diseño para VoIP en vez de teléfonos celulares significa que Speex debe
ser robusto a pérdida de paquetes, pero no corromperlos, entonces los
paquetes llegan sin alteración o no llegan para nada. También, la idea era
tener una complejidad y requerimiento en memoria razonable sin
comprometer mucho la eficiencia del códec.
Asterisk soporta todos los códecs mencionados en este apartado, sin embargo será
necesario estudiar cuál de ellos se adapta mejor a las limitaciones de ancho de
banda así como a otras consideraciones derivadas de la arquitectura propuesta
como solución al trabajo. El objetivo principal es llegar a un compromiso entre la
mayor eficiencia posible y el ancho de banda disponible. Todo este estudio se
puede consultar en el Anexo I.1 que hace referencia a la metodología para
seleccionar el códec de audio en función de la solución de red.
Existen estándares diferentes para la codificación del color, NTSC4 (utilizado en casi
toda América, dependencias estadounidenses, Corea, Japón y Myanmar), SECAM5
2
Red, Green and Blue.
3
CCD es familiar como uno de los elementos principales de las cámaras fotográficas y de video digitales.
En éstas, el CCD es el sensor con diminutas células fotoeléctricas que registran la imagen. Desde allí la
imagen es procesada por la cámara y registrada en la tarjeta de memoria. La capacidad de resolución o
detalle de la imagen depende del número de células fotoeléctricas del CCD. Este número se expresa en
píxeles. A mayor número de píxeles, mayor resolución
4
NTSC (National Television System Committee) , Comisión Nacional de Sistemas de Televisión) es un
sistema de codificación y transmisión de Televisión en color analógico desarrollado en Estados Unidos en
torno a 1940 y consiste en una ampliación del sistema monocromático (blanco y negro).
5
SECAM (Séquentiel Couleur à Mémoire), "Color secuencial con memoria". Es un sistema para la
codificación de televisión en color analógica utilizado por primera vez en Francia.
Mayor robustez ante el ruido. las señales analógicas son más susceptibles
que los pulsos digitales a la amplitud, frecuencia y variaciones de fase. Esto
se debe a que con la transmisión digital, no se necesita evaluar esos
parámetros, con tanta precisión, como en la transmisión analógica. En
cambio, los pulsos recibidos se evalúan durante un intervalo de muestreo y
se hace una sola determinación si el pulso está arriba (1) o abajo de un
umbral específico (0).
Almacenamiento y procesamiento: las señales digitales se pueden guardarse
y procesarse fácilmente que las señales analógicas.
Los sistemas digitales utilizan la regeneración de señales, en vez de la
amplificación, por lo tanto producen un sistema más resistente al ruido que
su contraparte analógica.
Las señales digitales son más sencillos de medir y evaluar. Por lo tanto es
más fácil comparar el rendimiento de los sistemas digitales con diferentes
capacidades de señalización e información, que con los sistemas analógicos
comparables.
Los sistemas digitales están mejor equipados para evaluar un rendimiento
de error (por ejemplo, detección y corrección de errores), que los
analógicos.
Los equipos que procesan digitalmente consumen menos potencia y son más
pequeños, y muchas veces con más económicos.
Además del ancho de banda, hay que tener en cuenta, que la transmisión digital
requiere de sincronización precisa de tiempo, entre los relojes del transmisor y
receptor.
El sistema Secam fue inventado por un equipo liderado por Henri de France trabajando para la firma
Thompson. Es históricamente la primera norma de televisión en color europea.
6
PAL es la sigla de Phase Alternating Line (en español línea de fase alternada). Es el nombre con el que
se designa al sistema de codificación utilizado en la transmisión de señales de televisión analógica en
color en la mayor parte del mundo
Son tres las redundancias que pueden darse en una transmisión de señal de vídeo
digital:
1. Redundancia temporal
Se tiene por tanto dos tipos de información, una de fondo, que es siempre la
misma y, por lo tanto, redundante, y la otra variable. Esto, aplicado al vídeo
digital supone la transmisión de sólo las diferencias entre un cuadro de
vídeo y sus contiguos. Todos los elementos redundantes que puedan existir
entre dos cuadros contiguos generan un tercer cuadro, denominado de
‘compresión inter-cuadro’, lo cual comprime la información de los dos
cuadros originales.
2. Redundancia espacial
3. Redundancia estadística
Compresión Espacial
Compresión Temporal
Para este proceso se usan los macro-bloques, ya que son éstos los más apropiados
para este tipo de codificación. La compensación de imágenes se aplica a imágenes
tipo P, generándose dos tipos de información:
Tipos de Imagenes
Para conseguir las citadas compresiones de señal de vídeo, se emplean tres tipos
de imágenes que se almacenan para posibilitar una predicción temporal de
pérdidas o imágenes incompletos que recibe el receptor. Estas imágenes son:
Las Intra imágenes (I) se codifican sin referencia a otras imágenes. Su tasa de
compresión es moderada, ya que sólo eliminan redundancia espacial.
No dependen, por tanto, de las imágenes previas y es el punto donde el
decodificador inicia su trabajo con un grupo de escenas que contienen una
secuencia. Las imágenes I se insertan cada 12 imágenes tipo P.
Las imágenes tipo B reciben información tanto de las imágenes I como de las P
anteriores o posteriores. Son las imágenes con mayor tasa de compresión. Para
permitir la predicción hacia atrás, a partir de imágenes futuras, el codificador
ordena las imágenes, de forma que as de tipo B son transmitidas después de las
imágenes pasadas o futuras a las que están referenciadas.
Las imágenes se presentan agrupadas en 12 cuadros o GOP (Group Of Pictures),
cuyo orden ha de ser tal que sean las Intra imágenes la base del orden, es decir, la
referencia para elaborar las imágenes P y B, pues sin la presencia de las imágenes I
el decodificador no es capaz de predecir ni una P ni una B.
Para obtener más información sobre cada uno de estos códec así como de las
características particulares que emplean en la codificación de video. Toda esta
información se puede encontrar en el Anexo I.2 .