Escolar Documentos
Profissional Documentos
Cultura Documentos
Editores
Francisco Almeida
Vicente Blanco
Coromoto Len
Casiano Rodrguez
Francisco de Sande
79 Septiembre 2011
Actas de las XXII Jornadas de Paralelismo JP2011
Editores: Francisco Almeida, Vicente Blanco, Coromoto Len,
Casiano Rodrguez y Francisco de Sande
ISBN: 978-84-694-1791-1
Servicio de Publicaciones. Universidad de La Laguna, Tenerife, 2011
Edicin: 1a
Impresin: 1a
No de pginas: 744
Formato: 17 x 24
Materia CDU: 004 Ciencia y tecnologa de los ordenadores. Infor-
mtica
Reservados los derechos para todos los pases de lengua espaola. De conformidad con lo dispuesto en el
artculo 270 y siguientes del cdigo penal vigente, podrn ser castigados con penas de multa y privaci6n de
libertad quienes reprodujeren o plagiaren, en todo o en parte, una obra literaria, artstica o cientfica fijada
en cualquier tipo de soporte sin la preceptiva autorizacin. Ninguna parte de esta publicacin, incluido el
diseo de la cubierta, puede ser reproducida, almacenada o trasmitida de ninguna forma, ni por ningn medio,
sea ste electrnico, qumico, mecnico, e1ectroptico, i grabacin, fotocopia o cualquier otro, sin la previa
autorizacin escrita por parte de la editorial.
COPYRIGHT
2011
c UNIVERSIDAD DE LA LAGUNA.
svpubl@ull.es
1a Edicin, 1a Impresin
ISBN: 978-84-694-1791-1
http://jp2011.pcg.ull.es
Crditos:
Diseo de Portada: Jose A. de Luis jobues@yahoo.es
Maquetacin LATEX: LOS EDITORES
con la clase LATEXconfproc (por V. Verfaille)
JP2011-vii
Actas XXII Jornadas de Paralelismo (JP2011) , La Laguna, Tenerife, 7-9 septiembre 2011
JP2011-viii
Actas XXII Jornadas de Paralelismo (JP2011) , La Laguna, Tenerife, 7-9 septiembre 2011
Redes y comunicaciones
367 Desarrollo de un Prototipo para la Noticacin Automtica de Accidentes de Trco usando Redes Vehiculares
Manuel Fogue, Piedad Garrido, Francisco J. Martinez, Carlos T. Calafate, Juan Carlos Cano, Pietro Manzoni
373 Hierarchical Analysis of Resilience Benchmarking Results Using LSP: Ad Hoc Networks As a Case Study
Jess Friginal, Juan-Carlos Ruiz, David de Andrs, Pedro Gil
379 Protocolo para entrega able de contenidos en redes inalmbricas basado en codicacin Raptor
Miguel Bguena, Carlos T. Calafate, Juan Carlos Cano, Pietro Manzoni
385 Evaluating video streaming performance in MANETs using a testbed
Tim Bohrloch, Carlos T. Calafate, Alvaro Torres, Juan Carlos Cano, Pietro Manzoni
391 Statistical Modeling of Transmission Path Loss in Underwater Acoustic Networks
J. Llor, Manuel P. Malumbres
397 Predictive and Distributed Routing Balancing for High Speed Interconnection Networks
C. Nez Castillo, D. Lugones, D. Franco, Emilio Luque
403 Evaluacin de una alternativa para aumentar el nmero de puertos de los conmutadores
Juan Antonio Villar, Francisco J. Andjar, Jos L. Snchez, Francisco J. Alfaro, Jos Duato
JP2011-ix
Actas XXII Jornadas de Paralelismo (JP2011) , La Laguna, Tenerife, 7-9 septiembre 2011
409 Combinando diferentes enfoques para el control de congestin en redes de interconexin de altas prestaciones
Jess Escudero-Sahuquillo, E. G. Gran, Pedro Javier Garca, Jos Flich, T. Skeie, O. Lysne, F. J. Quiles, Jos
Duato
415 Un acercamiento a la ecacia de las tcnicas de control de congestin en redes de interconexin con topologas
directas
Daniel Gmez-Garca, Pedro Javier Garca, Francisco Jos Quiles, Jess Escudero-Sahuquillo, Juan Antonio
Villar, Jos Flich, Jos Duato
421 Peripheral twists for torus topologies with arbitrary aspect ratio
Enrique Vallejo, Miquel Moret, Carmen Martnez, Ramn Beivide
427 Performance analysis of an IEEE 802.21 based Vertical Handover protocol using ns-2
Johann Mrquez-Barja, Carlos T. Calafate, Juan Carlos Cano, Pietro Manzoni
433 Mecanismos de Comunicacin Ecientes en Redes de Altas Prestaciones para Bibliotecas de Paso de Mensajes
en Java
Roberto R. Expsito, Guillermo L. Taboada, Juan Tourio, Ramn Doallo
439 Comunicaciones Escalables en Memoria Compartida para Paso de Mensajes en Java
Sabela Ramos, Guillermo L. Taboada, Juan Tourio, Ramn Doallo
445 Aproximacin distribuida de incendios forestales con WSN usando la envolvente convexa
M. ngeles Serna, Aurelio Bermdez, Rafael Casado, Pawel Kulakowski
451 A First Approach to King Topologies for On-Chip Networks
E. Stafford, J.L. Bosque, C. Martinez, F. Vallejo, Ramn Beivide, C. Camarero
JP2011-x
Actas XXII Jornadas de Paralelismo (JP2011) , La Laguna, Tenerife, 7-9 septiembre 2011
543 Comparacin del rendimiento entre los hipervisores XEN y KVM usando virtualizacin por hardware
Isaac Zablah, R. Valin, Antonio Garca-Loureiro, Javier Lpez Cacheiro, Fernando Gomez-Folgar
583 E-Assessment of Matlab Assignments in Moodle: Application to an Introductory Programming Course for En-
gineers
Julin Ramos, Mara A. Trenas, Sergio Romero, Eladio Gutirrez
589 Sobre la integracin del Curriculum Initiative on Parallel and Distributed Computing en los planes de estudio del
Grado en Ingeniera Informtica
Francisco Almeida, Domingo Gimnez, Jos Miguel Mantas, Antonio M. Vidal
595 Experiencias en Docencia de Diseo y Evaluacin de Conguraciones
A.M. Mora, P. Garca-Snchez, P.A. Castillo, M.G. Arenas, J.J. Merelo, J. Ortega
599 Diseo de un cluster de computadores como actividad para Arquitectura de Computadores
F. Javier Fernndez-Baldomero, Mancia Anguita
Evaluacin de prestaciones
607 Achieving interactive multiagent simulations over Jason through Java tuning
Vctor Fernndez Bauset, Francisco Grimaldo Moreno, Miguel Lozano Ibez, Juan Manuel Ordua Huertas
613 Dynamically Tuning Master/Worker Applications with MATE
A. Martnez, A. Morajko
619 Anlisis de un sistema Android como plataforma para juegos de realidad aumentada
A.L. Sarmiento, M. Amor, C.V. Regueiro, E.J. Padrn
625 Un modelo analtico mejorado para la arquitectura CUDA
M. Vias, B.B. Fraguela, M. Amor, Ramn Doallo
631 Anlisis de Escalabilidad en Aplicaciones Paralelas con Carga de Trabajo No Equilibrada
J.L. Bosque, OD. Robles, P. Tohara, L. Pastor
637 Mejorando las aplicaciones de red en arquitecturas multincleo heterogneas
A. Ortiz, J. Ortega, Antonio F. Daz, A. Prieto
643 Estimacin del efecto de los fallos cache en el rendimiento de aplicaciones paralelas
D.R. Martnez, Vicente Blanco, J.C. Cabaleiro, T.F. Pena, Francisco F. Rivera
649 Metodologa para la sintonizacin de aplicaciones OpenMP en sistemas multicore
C. Allande, J. Jorba, E. Csar, A. Morajko
655 Herramientas para la monitorizacin de los accesos a memoria de cdigos paralelos mediante contadores hard-
ware
Oscar G. Lorenzo, Juan A. Lorenzo, Dora B. Heras, Juan C. Pichel, Francisco F. Rivera
661 Evaluacin del Benchmark Rodinia en los sistemas del SAII
L. Cerrudo, A. J. Dorta, J. J. Fumero, C. Gonzlez, L. Grillo, I. Lpez, F. de Sande
JP2011-xi
Actas XXII Jornadas de Paralelismo (JP2011) , La Laguna, Tenerife, 7-9 septiembre 2011
JP2011-xii
Actas XXII Jornadas de Paralelismo (JP2011) , La Laguna, Tenerife, 7-9 septiembre 2011
Resumen Debido al gran numero de nodos que in- arquitectura de un CMP. Del estudio realizado en [5]
corporan los actuales sistemas en chip y el escaso gra- se puede observar que estas aplicaciones no escalan
do de escalabilidad que las aplicaciones logran alcan-
zar, se espera que aumente el numero de aplicaciones bien a partir de 16 hilos. Por lo tanto, para aprove-
que se podran ejecutar de forma concurrente en un char gran parte de los recursos que ofrecen los CMPs,
mismo sistema. De esta forma, es posible aprovechar se espera que varias aplicaciones se ejecuten de ma-
gran cantidad de los recursos disponibles. Como con-
secuencia, se produce un aumento de las interferencias
nera simultanea. Ademas, a medida que aumenta el
entre las diferentes aplicaciones y por tanto el rendi- numero de nodos, se espera que el numero de aplica-
miento de cada aplicacion por separado puede verse ciones que se ejecutan de forma simultanea tambien
seriamente afectado. A nivel de red de interconexion, aumente. Dichas aplicaciones pueden ser de diversa
es posible reducir las interferencias mediante meca-
nismos de virtualizacion. Una posible estrategia de ndole (vision por computador, procesamiento multi-
virtualizacion consiste en dividir la red en diferentes media, animacion, simulacion, etc.) provocando que
particiones tal que cada una puede ejecutar diferentes los patrones de traco sean completamente imprede-
aplicaciones.
En este trabajo se propone un mecanismo de recon- cibles.
guracion de la red para ofrecer soporte de virtuali- En este escenario, multiples aplicaciones compar-
zacion bajo escenarios realistas. En dichos escenarios,
multiples aplicaciones entran y salen del sistema con- ten todos los recursos que forman el CMP. Como
tinuamente. En este caso, el sistema debe proporcio- consecuencia, se produce un aumento de las interfe-
nar mecanismos de reasignacion dinamica de recursos rencias entre las diferentes aplicaciones. As, es evi-
con el n de satisfacer las necesidades de las aplicacio-
nes. Los resultados de evaluacion muestran un buen dente que si los recursos no se asignan de forma e-
entorno de virtualizacion que permite reducir el tiem- ciente, el rendimiento de cualquier aplicacion puede
po de ejecucion de las aplicaciones. verse seriamente afectado.
Palabras clave Chip Multiprocesador, Redes en
Chip, Virtualizacion, Reconguracion. A nivel de red, las interferencias se pueden reducir
drasticamente mediante el uso de mecanismos de vir-
I. Introduccion tualizacion. Una red virtualizada consiste en dividir
la red en diferentes particiones donde cada particion
Con el n de aumentar la velocidad de compu-
puede ser utilizada para diferentes aplicaciones y u-
tacion, las tecnicas actuales de fabricacion permiten
jos de traco. No obstante, la clave de esta propuesta
incluir multiples nodos de procesamiento en un uni-
es el hecho de no permitir que el traco proceden-
co chip. Aunque estos nodos no alcanzan la velocidad
te de una aplicacion pueda afectar al de otras apli-
que proporciona un unico y potente procesador de un
caciones. En [6] se ha propuesto un mecanismo de
nodo, varios de ellos mejoran las prestaciones de for-
virtualizacion capaz de reducir los efectos negativos
ma global. Los chip multiprocesador (CMPs) son un
que producen las interferencias. En concreto, el me-
excelente ejemplo de estos sistemas [1], [2].
canismo se analizo bajo un escenario estatico donde
El exito de los sistemas CMP no solo depende del
cuatro aplicaciones comparten un CMP en el mismo
numero de nodos que incorporan sino tambien de-
intervalo de tiempo.
pende de otros recursos tales como el sistema de me-
moria (caches, memoria principal, protocolo de cohe- No obstante, en un sistema real, las aplicaciones
rencia, etc.), y el sistema de comunicacion. Debido al entran y salen del sistema continuamente. En un es-
alto numero de componentes a interconectar y para cenario dinamico, se debe permitir la reasignacion de
permitir una conguracion eciente entre los recur- recursos de red a diferentes particiones con el objeti-
sos, es necesaria una red de interconexion de altas vo de adaptarse a las necesidades de las aplicaciones.
prestaciones. Este es el caso de las redes en chip (Net- Por esta razon, en este trabajo, se propone un me-
works on chip, NoCs) capaces de reducir a valores canismo eciente de reconguracion de la red para
aceptablemente bajos los tiempos de transmision de ofrecer soporte de virtualizacion bajo escenarios rea-
la informacion [4]. listas, que tiene por objetivo readaptar la NoC para
Por otra parte, las aplicaciones actuales muestran permitir la creacion de particiones de forma dinami-
bajo grado de escalabilidad. Como ejemplo, el estu- ca.
dio realizado en [5] revela el poco grado de escalabili- Este artculo esta organizado de la siguiente mane-
dad obtenido por las aplicaciones PARSEC cuando se ra: la seccion II muestra el trabajo relacionado. En
consideran todos los componentes involucrados en la la seccion III se describe, en primer lugar, la pro-
1 Grupo de Redes y Arquitecturas de Altas Prestacio- puesta para aislar el traco de aplicaciones en una
nes (RAAP), Universidad de Castilla-La Mancha, e-mail: NoC. En segundo lugar, se detalla el mecanismo de
{ftrivino,falfaro,jsanchez}@dsi.uclm.es. reconguracion de red propuesto. La seccion IV pre-
2 Grupo de Arquitecturas Paralelas (GAP), Universitat Po-
senta la evaluacion de prestaciones y los resultados
litecnica de Valencia, e-mail: jflich@disca.upv.es.
3 Departamento de Informatica, Universidad Peruana Caye- obtenidos. Finalmente, en la seccion V se presentan
tano Heredia,santos.gonzalez.t@upch.pe. las conclusiones.
JP2011-261
Actas XXII Jornadas de Paralelismo (JP2011) , La Laguna, Tenerife, 7-9 septiembre 2011
JP2011-262
Actas XXII Jornadas de Paralelismo (JP2011) , La Laguna, Tenerife, 7-9 septiembre 2011
(a) (b)
Fig. 2. (a) Segmentacion en zig-zag, y (b) bits LBDR para el algoritmo SR en una malla 2D 4x4 con 9 segmentos.
mutador, respectivamente. En otras palabras, estos Se parte del hecho de que el algoritmo de encami-
bits indican si los mensajes pueden o no cambiar de namiento es SR [11]. Con el algoritmo SR, es posi-
direccion en el siguiente conmutador. Para el puerto ble pre-congurar un conjunto de bits LBDR para
de salida norte los bits son etiquetados como Rne y una malla 2D completa y totalmente conectada. Por
Rnw, para el puerto de salida oeste: Rwn y Rws, y ejemplo, la gura 2.(a) muestra el resultado de apli-
nalmente para el puerto de salida sur: Rse y Rsw. car el algoritmo SR a una malla 4 41 . Aunque hay
La gura 1 muestra un ejemplo del mecanismo numerosas instancias que se pueden obtener del al-
LBDR donde un CMP de 16 nodos se ha dividido goritmo SR, se ha elegido segmentar la red y asignar
en dos particiones, cada una de 8 nodos. A modo de las restricciones en forma de Zig-Zag de izquierda a
ejemplo, en esta gura se detallan los bits de conec- derecha empezando de arriba hacia abajo. Este meto-
tividad y de encaminamiento para el conmutador 6. do ha sido analizado obteniendo buenas prestaciones
La gura representa con echas las restricciones de con respecto a otras segmentaciones alternativas [17].
encaminamiento, es decir, el conjunto de dos enla- Una vez que se ha obtenido el conjunto de restric-
ces consecutivos que no pueden atravesar los men- ciones de encaminamiento (representadas por echas
sajes. En este ejemplo se ha aplicado el algoritmo en la gura 2.(a)), se calculan los bits del LBDR en
Segment-Based Routing (SR) [11] en cada particion cada conmutador. Estos bits pueden ser deducidos
por separado. de forma sencilla teniendo en cuenta la localizacion
Notese que las rutas de comunicacion de cada par- de las restricciones de encaminamiento y de conecti-
ticion dependen del algoritmo de encaminamiento vidad en la red. A modo de ejemplo, la gura 2.(b)
usado en la red. Dicho algoritmo debe ser lo sucien- muestra los bits para la topologa de la gura 2.(a).
temente exible para permitir particiones irregulares Teniendo en cuenta la conguracion de encamina-
y debe ser disenado teniendo en cuenta los estrictos miento anterior, y una vez que el sistema operativo
requisitos aplicados a arquitecturas CMP en cuanto comienza a ejecutar aplicaciones, se necesita identi-
a latencia, consumo de energa y area. El algoritmo car las nuevas formas que resultan de la creacion de
SR cumple con dichas restricciones. nuevas particiones. Por ejemplo, la gura 3.(a) mues-
tra una situacion donde tres aplicaciones han sido
B. Mecanismo de Reconguracion asignadas en el CMP donde los bits del mecanismo
En esta seccion se describe un metodo efectivo, LBDR se han adaptado consecuentemente. Primero,
practico y rapido para recongurar los bits de enca- los bits de conectividad establecen los limites de las
minamiento en una NoC y permitir as la virtuali- particiones (por ejemplo, se congura a 0 el bit de
zacion de los recursos de red (mediante la division conectividad sur de los conmutadores 2 a 7, mien-
de la red en diferentes particiones) en un entorno tras que el puerto norte de los conmutadores 6 al
dinamico. 11 se conguran tambien a 0). Ademas, las restric-
En primer lugar hay que tener en cuenta que el ciones de encaminamiento se deben congurar para
tamano y forma de las particiones son elegidas por evitar ciclos en las particiones. Dichos bits de enca-
un gestor de recursos que, por regla general, se eje- minamiento se conguran de forma independiente en
cuta bajo el sistema operativo. El gestor de recursos cada particion. Por ejemplo, el conmutador 5 tiene
puede tener en cuenta diferentes requisitos a la hora una restriccion bidireccional en las direcciones este-
de asignar recursos a las aplicaciones tales como: la norte y norte-oeste.
minimizacion de la latencia de red entre los elemen- Cuando se crea una nueva particion, los bits LBDR
tos de proceso, la posicion de los controladores de se revisan y se actualizan acorde con la forma de la
memoria, la reduccion de la fragmentacion de red, nueva particion. La gura 3.(b) muestra un ejem-
posibles fallos en la red, ahorro de energa, etc. En plo a partir de la situacion inicial de la gura 3.(a)
nuestro caso, unicamente se tiene en cuenta el nume- donde las aplicaciones App1 y App3 han completado
ro de hilos que componen las aplicaciones, donde un su ejecucion. Despues, una nueva aplicacion (App4)
hilo requiere un nodo. A nivel de red, hay que tener solicita 8 nodos y el sistema operativo le asigna los
en cuenta que el gestor de recursos es independiente 1 No confundir los segmentos SR (lneas punteadas) con las
del mecanismo de reconguracion. particiones (lneas continuas) del mecanismo de virtualizacion.
JP2011-263
Actas XXII Jornadas de Paralelismo (JP2011) , La Laguna, Tenerife, 7-9 septiembre 2011
0 1 2 3 0 1 2 3 0 1 2 3
App1 App4
App3
4 5 6 7 4 5 6 7 4 5 6 7
8 9 10 11 8 9 10 11 8 9 10 11
12 13 14 15 12 13 14 15 12 13 14 15
nodos de 0 al 7 (Figura 3.(c)). En esta situacion, los otra para instrucciones, una cache L2 compartida, un
bits del LBDR para los conmutadores 0 a 7 se deben conmutador para comunicarlo con el resto de nodos,
recongurar antes de comenzar con la ejecucion de la unidos con una red de interconexion con topologa de
aplicacion App4. Como se puede deducir facilmente, malla de dos dimensiones. La coherencia entre los di-
los bits de conectividad norte de los conmutadores ferentes niveles de cache se preserva mediante el pro-
6 y 7 se deben recongurar para permitir la comu- tocolo MOESI. En cuanto al acceso fuera del chip se
nicacion con todos los nodos de la nueva particion. usa la tecnica 3D-Stacking [12] por lo que cada nodo
Lo mismo sucede con los bits de conectividad sur de tiene acceso fuera del chip. Para la red de intercone-
los conmutadores 2 y 3. Por ultimo, se computan las xion se asume conmutacion wormhole con tamanos
restricciones de encaminamiento para la nueva par- de colas de 4 bits. El tamano de it denido es de 4
ticion. bytes. Por otra parte, se utiliza el mecanismo LBDR
Tengase en cuenta que este proceso de recongu- que permite la creacion de particiones junto con el
racion se basa en una reconguracion estatica (no algoritmo de encaminamiento SR [11]. Ademas, la
hay traco circulando por la red) y afecta solo a las red opera a la misma velocidad que los procesado-
partes de la red donde no hay mensajes circulando res. Por ultimo, para reducir las interferencias entre
a traves de los conmutadores ya que las aplicaciones la cache L2 de diferentes particiones, se obliga a que
que los estaban usando han terminado su ejecucion. los bloques de L2 pertenecientes a una particion sean
Esto es muy importante porque en otro caso podran utilizados por la aplicacion que ocupa dicha particion
aparecer bloqueos. En ese caso, para evitar los blo- [13]. De esta forma, se consigue aislar el contexto de
queos, se tendra que detener todo el traco de la red las aplicaciones a nivel de sistema de memoria.
antes de recongurar la funcion de encaminamiento, Como carga de trabajo se han utilizado aplicacio-
o si se quiere evitar drenar la red previamente, se de- nes incluidas en los benchmarks SPLASH-2 [14] y
bera considerar otro mecanismo de reconguracion PARSEC v2,1 [15]. La suite SPLASH-2 contiene un
mas complejo que no afecte el resto de particiones de conjunto de programas que representan una amplia
la red. Gracias al hecho de que no hay interferencias variedad de aplicaciones cientcas y de ingeniera.
entre el traco perteneciente a diferentes particiones, La suite PARSEC posee una amplia variedad de pa-
es posible realizar una reconguracion local sin que trones de computacion y comunicacion que permiten
afecte al resto de particiones de la red. En el ejemplo evaluar las actuales tecnologas de CMP con mayor
anterior, solo se deben congurar los bits del LBDR ecacia.
de los nodos libres 0 al 7. Por esta razon, el mecanis-
mo de reconguracion siempre asegura una situacion A. Escenarios
libre de bloqueo.
A n de evaluar el mecanismo de reconguracion
IV. Evaluacion de Prestaciones se han considerado diferentes escenarios. En cada es-
cenario se ejecutan 5 conjuntos de aplicaciones di-
En esta seccion, se evalua mediante simulacion el ferentes. Cada conjunto de aplicaciones contiene 20
entorno de virtualizacion, que incluye el mecanismo aplicaciones seleccionadas de forma aleatoria de los
de reconguracion descrito anteriormente. Para lle- repositorios de aplicaciones SPLASH-2 y PARSEC
var a cabo la evaluacion hemos utilizado un entorno v2,1. Los requisitos de las aplicaciones estan basa-
de simulacion [3] basado en herramientas existentes y dos unicamente en el numero de hilos. Se ha consi-
orientado a la evaluacion de redes en chip. Dicho en- derado que cada hilo solicita un nodo diferente. Los
torno modela de forma lo sucientemente detallada requisitos de cada aplicacion son elegidos de forma
una NoC, as como los diferentes componentes que aleatoria desde 2 hasta 8 hilos. El gestor de recur-
forman una arquitectura CMP completa (procesado- sos asigna automaticamente los recursos del CMP a
res, sistema de memoria, sistema operativo, aplica- las aplicaciones de forma secuencial. Las aplicacio-
ciones reales, etc.). nes son almacenadas en una cola FIFO hasta que el
El sistema simulado es un CMP homogeneo de gestor de recursos tiene sucientes recursos para co-
16 nodos. Dicho CMP se estructura en una serie de menzar la ejecucion de la siguiente aplicacion. Los
nodos; cada uno contiene un procesador en orden escenarios se diferencian en el uso que se hace de los
(UltraSparc III), una cache L1 privada para datos y recursos del CMP.
JP2011-264
Actas XXII Jornadas de Paralelismo (JP2011) , La Laguna, Tenerife, 7-9 septiembre 2011
JP2011-265
Actas XXII Jornadas de Paralelismo (JP2011) , La Laguna, Tenerife, 7-9 septiembre 2011
JP2011-266
ndice de Autores