Sic414 Ii 07.04.13 1

1
TLB Translation Lookaside Buffer

Diego Rosero Facultad de Ingenier a en Sistemas Escuela Politecnica Nacional
email: die go ja vier@yahoo.com
Resumen que contiene partes de la tabla de El TLB (Translation Lookaside Buffer) es una memoria cache es decir, relaciones entre direcciones virtuales y reales; por lo tanto es una memoria paginacion, de de contenido direccionable, el mecanismo de busqueda asociativa que utiliza en la traduccion direcciones virtuales a f sicas, consume importante catidad de energ a a este problema se dan algunas alternativas para reducir el consumo energetico del TLB. Index TermsTLB, Energy Reduction , Interference Reduction .
1.
I NTRODUCCI ON
el consumo de energ a de la TLB y la de Memoria. [3]-[5] Unidad de Gestion
A TLB puede consumir una cantidad considerable de energ a al estar organizada en una estructura totalmente o altamente asociativa al computador y a la que se accede a cada instruccion de datos para conseguir y la obtencion En los ultimos la meinformacion. anos moria ha sido un foco principal para para los arquitectos de la computacion, de explorar oportunidades de reduccion que se analienerg a, es por esta razon zar a diversos trabajos con estudios acerca del mejoramiento del rendimiento de la TLB. del consumo de energ La reduccion a para redude la TLB importante no solo cir la energ a total consumida por el procesador, sino tambi en para aliviar la alta densidad de potencia en el procesador. Varios investigadores han propuesto ecientes nivel de circuito, microarquitecturales software y t ecnicas para reducir
2.
M ETODOLOG IA
Translation look-aside Buffers (TLB) son cach es pequenas para acelerar la traduccion de direcciones en los procesadores con memoria virtual. La TLB, consume energ a signicativa debido al mecanismo de busqueda asociativa que utiliza en la traduccion de direcciones virtuales a f sicas. En primer lugar, el contenido de de los la entrop a o la informacion numeros de las p aginas virtuales de la pila son bajas debido al alto localidad espacial de las referencias de memoria de pila. En segundo lugar, la entrop a de los bits de orden superior de las referencias de memoria global es baja,
de los datos globales ya que el tamano se determina y se ja durante la de un programa. compilacion
El subsistema de memoria, incluyendo traducciones de direcciones y accesos de cach e, consume una parte importante de energ a en un procesador, asi que mediante el uso de una arquitectura racional se podr reducir el consumo de energ a sin comprometer el rendimiento. Esto se logra mediante la de las busquedas disociacion de d-TLB y los accesos de cach e de datos, basado en las regiones sem anticas de nido por y el En segundo lugar, utilizamos una los lenguajes de programacion software convencional en subujos de serie de bits altos de la direccion virtual para determinar al espacio referencia discretas. de direcciones que pertenece. Si la se encuentra en el espacio En un procesador convencional cada direccion acceso a la memoria virtual hace que la de direcciones sin asignar, se puede directamente debe ser manejado a trav aplicacion es de asignar la direccion la TLB. Esto signica que al comparar la mediante el uso de algoritmos y no es capacidad de memoria principal con la necesario tener acceso a la RAM de TLB. de TLB, la velocidad de manipulacion errores de TLB a escalas solo con la la- Se tiene acceso a la RAM de TLB tencia de la memoria. El rendimiento de hasta que sea necesario. Por lo tanto, amica de la RAM puede la TLB se est a convirtiendo m as cr tico la fuerza din ya que la capacidad de las memorias del ser controlada a un nivel inferior, y la sistema r apidamente supera a la reduc- RAM puede permanecer en estado de baja potencia por m as tiempo. de la latencia. cion
[6]-[8] [1]-[2]
ultimo acceso. Si las dos direcciones se encuentran en la misma p agina, no se tendr a acceso la memoria RAM de TLB y la etiqueta anterior f sica del ultimo acceso se utiliza para acceder a esta memoria. Por otra parte, esta logica de comparacion se procesa simult aneamente con la operacion de consulta CAM para evitar un retraso adicional en la ruta cr tica. Debido a que la ultima informacion accedida se mantendr a en los registros inherentemente hasta que un llegue un nuevo acceso.
ITLB y DTLB son muy frecuentemente accedidos de forma simult anea para el original. As diseno que una RAM de dos puertos es necesaria para evitar Reduciendo la potencia conictos y mantener el rendimiento del original. Pero despu diseno es de usar la El m etodo se describe en dos partes: mejora de reducir la energ a, el requisito En primer lugar, cuando hay un de acceso a la RAM se reduce mucho. Por ejemplo, el conicto de Dhrystone nuevo acceso a la memoria, la direccion original, reduce a un 0,01 % del diseno virtual de este acceso es en comparacion y el conicto de Whetstone reduce al virtual es el con la anterior direccion 2
Se puede mejorar el rendimiento de la TLB primero reduciendo el consumo de energia, reduciendo el espacio, reduciendo la demora en la ruta critica.
Reduciendo el espacio
original. As 0,03 % de diseno podemos una RAM estar seguros del uso de solo para ahorrar energ a y espacio sin sacricar el rendimiento. ITLB y DTLB comparten solamente rea de la un solo puerto RAM, el a rea de RAM se reduce en 50 %, el a la TLB se reducir a en un 26 %. El de resultado de la s ntesis de diseno rea de la compiladores muestra que el a original es 724,464.8 um2 , y TLB diseno se convierte 552,445.9 um2 despu es de rea de TLB reduce usar la mejora . El a 23,7 %. La ecacia es que el consumo de energ a se reduce a un nivel m as bajo rea. debido a la menor a
[1]-[2]
El uso inicial de multiprocesadores para aumentar el rendimiento limitado de la consistencia con el sistema operativo, ya que las aplicaciones no pueden compartir la memoria. Las adiciones posteriores de la funcionalidad de memoria compartida para estos sistemas se han limitado a no causar mayores problemas de consistencia. Como resultado, el uso de tres etapas de mejora, la potencia y la zona de TLB se reducen a un nivel inferior sin sacricio de tiempo y rendimiento. Por supuesto, hay mucho m as detalles necesarios para ser considerados en el real del procesador. [8]-[10] diseno
4.
C ONCLUSI ON
Existen diversos m etodos para resolver el consumo de energ a de la TLB, no se puede saber cu al es el m as ecaz, ya que cada uno resuelve un problema espec co. El rendimiento del procesedor depende de nuestras manos, debido a que cada uno puede implementar estos variados m etodos.
Reduciendo la demora en la ruta critica Debido a que la ruta cr tica se encuentra de DTLB es similar en DTLB, y el diseno con ITLB, nos centramos en la estructura de DTLB para explotar una manera m as ecaz de resolver el problema de de retardo extra en tiempo. La razon la ruta cr tica es que la anchura a ser seleccionada es demasiado grande y la carga es tambi en demasiada pesada. entre la memoria RAM La seleccion y los registros Keep Reg se pospone. Las salidas de DTLB-RAM y Keep Reg con la est an ambos en comparacion etiqueta de cach e. A continuacion, se obtienen dos resultados de un bit. La entre los dos resultados se seleccion puede hacer para juzgar si es un acierto de cach e o no.
[1]-[2]
R EFERENCIAS
[1] Chinnakrishnan Ballapuram, Kiran Puttaswamy, Gabriel H. Loh and Hsien-Hsin S. Lee Entropybased low power data TLB design, School of Electrical and Computer Engineering College of Computing Georgia Institute of Technology, Atlanta, GA 30332, October 2006 [2] Dongrui Fan, Zhimin Tang, Hailin Huang and Guang R. Gao, An energy efcient TLB design methodology, Dept. of Electrical & Computer Engineering University of Delaware, August 2005 [3] Jongmin Lee and Soontae Kim, Adopting TLB index-based tagging to data caches for tag energy reduction, Department of Computer Science Korea Advanced Institute of Science and Technology (KAIST) Daejeon, Korea, July 2012. [4] Chinnakrishnan S. Ballapuram, Hsien-Hsin S. Lee and Milos Prvulovic, Synonymous address compaction for energy reduction in data TLB, School of Electrical and Computer Engineering College of Computing Georgia Institute of Technology, Atlanta, GA 30332, August 2005
3.
R ESULTADO Y D ISCUSI ON
La creciente de aplicaciones para multiprocesador ha aumentado la complejidad del problema de coherencia de TLB. 3
[5]
Hsien-Hsin S. Lee, Chinnakrishnan S. Ballapuram, Energy efcient D-TLB and data cache using semantic-aware multilateral partitioning, School of Electrical and Computer Engineering College of Computing Georgia Institute of Technology, Atlanta, GA 30332, August 2003 [6] Reiley Jeyapaul, Aviral Shrivastava, Code Transformations for TLB Power Reduction, Compiler and Microarchitecture Laboratory, Arizona State University, Tempe, AZ 85281, USA, January 2010 [7] Jung-hoon Lee, Control Mechanism for Low Power Embedded TLB, ERI, Electrical and Electronic Engineering, GyeongSang National University, 900 Ga-jwa, Jinju, South Korea, January 2012 [8] Omesh Tickoo, Hari Kannan, Vineet Chadha, Ramesh Illikkal, Ravi Iyer, and Donald Newell, qTLB: Looking Inside the Look-Aside Buffer, Stanford University, Stanford CA, USA, December 2007 [9] David L. Black, Richard F. Rashid, David B. Golub, Charles R. Hill, and Robert V. Baron, Translation Lookaside Buffer Consistency: A Software Approach, Carnegie Mellon University Pittsburgh, PA 15213 [10] Ashley Saulsbury, Fredrik Dahlgren, Per Stenstrom, Recency-Based TLB Preloading , Dept. of Computer Engineering Chalmers Univ. of Technology SE-412 96 Gothenburg, Sweden

Sic414 Ii 07.04.13 1

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Sic414 Ii 07.04.13 1

Enviado por

Direitos autorais:

Formatos disponíveis

1

TLB Translation Lookaside Buffer

el consumo de energ a de la TLB y la de Memoria. [3]-[5] Unidad de Gestion

de los datos globales ya que el tamano se determina y se ja durante la de un programa. compilacion

Você também pode gostar