Ejemplo de Presentacion 2

Decoupling Computation and Data Scheduling
in Distributed Data-Intensive Applications
Kavitha Ranganathan, Ian Foster

University of Chicago
11th IEEE International Symposium on High Performance Distributed

Computing, 2002. HPDC-11 2002. Proceedings.
Introduccin
La planificacin de procesos en sistemas distribuidos es un

problema complejo.
Crtico en aplicaciones y simulaciones cientficas.
Intento de resolucin de distintas formas pero sigue sin

encontrarse una solucin ptima para todo tipo de
arquitecturas, datos y procesos.
2
Definicin del problema
Dados un conjunto de procesadores (CE) y unidades

de almacenamiento (SE) distribuidos por sitios.
Dadas aplicaciones con requisitos de CPU y de
almacenamiento.
Objetivos:

Buscar una estrategia que:
Maximice la productividad (throuhgput)
Maximice el uso de los recursos en global
3
Arquitectura
N users User User User User User
E External Schedulers ES ES
J
Data
Local Mover D LS DS LS DS
Scheduler
Request Migrate
S Sites Q: J J
remote data data
D
DataSet
Scheduler Computers Storage Computers Storage
Schedule on
idle node Monitor
popularity
J J J D D D
Computers Storage
4
Propuesta
Analizar el impacto de:

Planificacin de trabajos

Planificacin de datos
que tienen juntos y por separado a la hora de
conseguir el mximo beneficio.
Se utilizarn distintos algoritmos de planificacin.
5
Planificacin de Trabajos (ES)
Random

Elegir el sitio de forma aleatoria.
LeastLoaded

Elegir el sitio menos cargado
Local

El trabajo se realiza en el sitio que lo recibe.
AtData

El trabajo se manda al sitio donde ms cantidad de datos
que necesite tenga.

Si hay varios se elige el menos cargado
6
Replicacin de Datos (DS)
Caching

no se replica,
Ramdom

Se elige para replicar los archivos ms
populares. Cuando sobrepasa un cierto umbral,
se elije al azar la mquina a replicarlo
LeastLoaded

Cuando pasa del umbral al que menos cargado
est.
7
Metodologa de evaluacin
Simulador:

Realizado en Parsec (simulador de eventos discretos).
Las entidades (CE, SE, DM, ES, la red, etc.) se
comunican por mensajes.
Los algoritmos se realizan en cada una de las
entidades involucradas.

No hay topologa de red, los sitios estn todos
interconectados.

Ancho de banda de la red constante.

Usuarios asociados a 1 ES.

Varios ES, no intercomunicados.
8
Infraestructura simulada
Nmero de usuarios: 120

Nmero de sitios: 30
Nmero total de trabajos: 6000
Ancho de banda: 10MB/seg
Elementos de cmputo por sitio: 2-5
9
Carga de trabajo
Peticiones por una Poisson con llegada cada 5 seg

Tamaos de conjuntos de datos distribucin entre
500MB-2GB.
Cada trabajo necesita un nico fichero para la
ejecucin y tarda 300D segundos, donde D=tam
fichero en GB.
Se ignora la salida.
Coste transmisin= size fich/ ancho de banda.
El tipo de trabajos se genera con una Zip-f
10
Resultados
11
Resultados
12
Conclusiones
Localidad de los datos importante para planificar.

Desacoplamiento movimiento de datos/ planificacin
de trabajos incrementa el rendimiento y descentraliza
el sistema.
Dependencia de las caractersticas del Grid.
Trabajos con ficheros pequeos: mejor mandar a
varios sitios y esperar respuesta que mandar los datos
por la red.
13
Conclusiones personales
14

Ejemplo de Presentacion 2

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Ejemplo de Presentacion 2

Enviado por

Direitos autorais:

Formatos disponíveis

Decoupling Computation and Data Scheduling

in Distributed Data-Intensive Applications

Kavitha Ranganathan, Ian Foster

11th IEEE International Symposium on High Performance Distributed

La planificacin de procesos en sistemas distribuidos es un

Crtico en aplicaciones y simulaciones cientficas.

Intento de resolucin de distintas formas pero sigue sin

Dados un conjunto de procesadores (CE) y unidades

N users User User User User User

Analizar el impacto de:

Nmero de usuarios: 120

Peticiones por una Poisson con llegada cada 5 seg

Localidad de los datos importante para planificar.

Você também pode gostar