Escolar Documentos
Profissional Documentos
Cultura Documentos
Source:
2007 ACM/IEEE conference on
Supercomputing
contorno
Introduccin
Para la programacin de Arquitectura Rendimien
to-asimtrica
Evaluacin
Conclusin
Introduccin
core4
Introduccin (cont.)
Programadores desistemas operativosasumen tra
contorno
Introduccin
Para la programacin de Arquitectura Rendimien
to-asimtrica
Evaluacin
Conclusin
laproximadautilizandofrecuencias dencleo.
Ccuantificarpotencia de clculo de mineral
mayorfrecuencia tienen
P = FS,dondeSes unfactordeescalayS<1.
de un ncleo
que es el nmero de procesos en su cola de ejecuci
n, es decir,ejecutar longitud de lacola.
Balanceo de carga
Para cualquier ncleo con escalado depotenciaP,definir s
L=1.5
P=1 L=3 P=1 L=3 P=1 L=2
Not
loadbalance
d
Core 1
Core 2
Core 3
Ex2:
P=2
L=2
P=1 L=2 P=1 L=2 P=1 L=2
Loadbalance
d
Lmax Lmin = 0
Core 0
10
Core 1
Core 2
Core 3
Ms rpido-Core-Primera Programacin
Programacin ms rpida de ncleo primera perm
11
Ms rpido-Core-Primera Programacin
(cont.)
Ms rpido-Core-primer algoritmo
Paraun hilo de nueva creacin, AMPScalcular la nu
12
Migracin NUMA-Aware
Cuandoun hilo migra a un nuevo ncleo, incurre e
nerror decachobligatoria.
Por lotanto,los programadores del sistema operat
13
Core
1
Core
2
Core
3
Memory Controller
DRAM
14
DRAM
DRAM
Core
0
Core
1
Memory
Controller
DRAM
DRAM
Node 0
15
Core
2
Scalable
Interconne
ct
DRAM
DRAM
Core
3
Memory
Controller
DRAM
Node 1
DRAM
istemasNUMA.
Por lo tanto, extendemos AMPS conlas polticas de
migracinNUMA.
16
ficioso o no?
Prediccin por encima de migracin
17
ncleodeAaBncl
eo,nuestro algoritmo predice la sobrecarga migraci
n a ser alta sitodaslas siguientes condiciones sonver
daderas.
Un ncleo central y B estn en diferentes nodos.
Un cdigo est en un nodo para el que el hilo T tiene
elvalordelcontadormximo RSS(tamano del conjun
to residente) en comparacin con otros nodos.
El valor RSS contador del hilo T para elnodode ncleo
A'sesmayor que la LLC(Ultima nivel de cach) el tam
ano de la base B.
18
19
Outline
Introduccin
Para la programacin de Arquitectura Rendimien
to-asimtrica
Evaluacin
Conclusin
20
Evaluation
Hemos implementado AMPS en elncleo de Lin
21
Evaluation (Cont.)
Para emular el reloj de la CPU, asumirncle
Most
ver-subscribe
time in parallel
the system
phases
with
and
more
a small
threads
fraction
than
incores
sequential phases
22
SMP Evaluation
Performance
1.44
Median: 1.16
23
25%
24
88%
25
26
SMP
Evaluation
(cont.)
AMPS introduce un gran nmero de
migraciones
adicionales;sin
Hardware
Migration Overhead
embargo, slo dan lugar a cantidades
insignificantes de sobrecarga en
trminos de tiempo de ejecucin.
27
proporciones se pierda de la
instruccin TLB, los datos TLB y el
cach de traza con la accin de
Linux y AMPS son casi idnticos
entre s
debido a la obtencin previa de
hardware ser ms eficaz con AMPS,
reduciendo as
el nmero de L2 se pierde.
NUMA Evaluation
Evaluamos AMPS para dos configuraciones NUM
A:
NUMA-1:
8 ncleos ms rpidosen losnodos2ylos restantes 24 n
NUMA-2:
cada unode los 8 nodos contiene 1 ncleo ms rpido.
Representanconfiguraciones deasimetradentro de unzc
alo.
28
30
Outline
Introduccin
Para la programacin de Arquitectura Rendimien
to-asimtrica
Evaluacin
Conclusin
31
Conclusion
En este trabajo sepropone elplanificadorAMPS siste