Jerarquía de Memorias, Access Time y Costos.

¿Qué es Jerarquía de Memoria?

Consiste en distribuir la información de diversos dispositivos de memoria, de forma que, cerca del procesador se ubique el modelo de memoria más rápido y de menor capacidad
El dispositivo más lento y de mayor capacidad contiene la totalidad del código y los datos de un programa
El procesador percibe que la velocidad del sistema es aproximadamente la velocidad del dispositivo más rápido

Revisaremos dos procesadores, el prodesador AMD Opteron X4 (Barcelona) y el Intel Nehalem. la Figura 1 muestra la foto del Intel Nehalem, y la figura 2 muestra la del AMD Opteron X4. Ambos tienen caché secundario y terciario en el procesador principal. Tal integración reduce el tiempo de acceso al cache de nivel-inferior y también reduce el número de pines en el chip, de ahí que no se necesite un bus a un caché externo secundario. Ambos tienen controladores de memoria on-chip, que reduce la latencia a la memoria principal.

Figura 1: Intel Nehalem

Figura 2: AMD Opteron X4 (Barcelona)

Jerarquía de Memorias del Nehalem y Opteron

La tabla 1 resume los tamaños de las direcciones y TLBs de los dos procesadores. Note que el AMD Opteron X4 (Barcelona) tiene cuatro TLBs y que la dirección virtual y física no coincide con el tamaño de la palabra. El X4 implementa solo 48 de los 64 bits de su espacio virtual y 48 de los 64 bits de la dirección de su espacio físico. Nehalem tiene tres TLBs, y la dirección virtual es de 48 bits y su dirección física es 44 bits.

Tabla 1 Traducción de direcciones y hardware TLB para los Intel Nehalem y AMD
Opteron X4. El tamaño de la Palabra, fija el tamaño máximo de la dirección virtual, pero un procesador no necesita usar todos los bits. Ambos procesadores proveen soporte para páginas grandes, las cuales son usadas por ejemplo en sistemas operativos o mapeo de un buffer de frames. El sistema de página-grande evita usar números grandes en entradas para asignar a un objeto que siempre está presente. Nehalem soporta dos hilos de hardware-soportado por núcleo

Tabla 2

La tabla 2 muestra sus caches. Cada procesador en el X4 tiene su propia instrucción L1 64-KB y caché de datos y su propio caché 512-KB L2. Los cuatro procesadores comparten un solo caché 2-MB L3. Nehalem tiene una estructura similar, cada procesador maneja su propia instrucción L1 32-KB y datos de caché y su propia caché 512-KB L2, y los cuatro procesadores comparten un solo caché 8-MB L3.

Tabla 3

La tabla 3 muestra el CPI, record de perdidas por cada mil instrucciones para los cachés L1 y L2, y accesos DRAM por cada mil instruciones para el Opteron X4 corriendo el benchmark SPECint 2006. Note que el CPI y las pérdidas de cache están altamente relacionados. El coeficiente de relación del set de CPIs y el set de pérdidas en L1 por 1000 instrucciones es 0.97. A pesar que no tenemos las pérdidas de L3, podemos inferir la efectividad de L3 por la reducción de los accesos DRAM versus las pérdidas en L2.
Mientras algunos programas se benefician significativamente de la caché 2-MB L3 —h264avc, hmmer, y bzip2— la mayoría no lo hace.

Bibliografía:
David A. Patterson y John L. Henessy, Computer Organization and Design: The Hardware/Software Interface, Fourth Edition, Morgan Kaufmann, United States, Pages 539 - 542

CODES&OTHERS

Buscar este blog

Jerarquía de Memorias, Access Time y Costos.

Jerarquía de Memorias del Nehalem y Opteron

Comentarios

Publicar un comentario

Entradas populares de este blog

Malware WannaCry