¿Qué es Jerarquía de Memoria?
- Consiste en distribuir la información de diversos dispositivos de memoria, de forma que, cerca del procesador se ubique el modelo de memoria más rápido y de menor capacidad
- El dispositivo más lento y de mayor capacidad contiene la totalidad del código y los datos de un programa
- El procesador percibe que la velocidad del sistema es aproximadamente la velocidad del dispositivo más rápido
Revisaremos dos procesadores, el prodesador AMD
Opteron X4 (Barcelona) y el Intel Nehalem. la Figura 1 muestra la foto del Intel
Nehalem, y la figura 2 muestra la del AMD Opteron X4. Ambos tienen caché secundario y terciario en el procesador principal. Tal integración reduce el tiempo de acceso al cache de nivel-inferior y también reduce el número de pines en el chip, de ahí que no se necesite un bus a un caché externo secundario. Ambos tienen controladores de memoria on-chip, que reduce la latencia a la memoria principal.
![]() |
| Figura 1: Intel Nehalem |
![]() |
| Figura 2: AMD Opteron X4 (Barcelona) |
Jerarquía de Memorias del Nehalem y Opteron
La tabla 1 resume los tamaños de las direcciones y TLBs de los dos procesadores. Note que el AMD Opteron X4 (Barcelona) tiene cuatro TLBs y que la dirección virtual y física no coincide con el tamaño de la palabra. El X4 implementa solo 48 de los 64 bits de su espacio virtual y 48 de los 64 bits de la dirección de su espacio físico. Nehalem tiene tres TLBs, y la dirección virtual es de 48 bits y su dirección física es 44 bits.
La tabla 2 muestra sus caches. Cada procesador en el X4 tiene su propia instrucción L1 64-KB y caché de datos y su propio caché 512-KB L2. Los cuatro procesadores comparten un solo caché 2-MB L3. Nehalem tiene una estructura similar, cada procesador maneja su propia instrucción L1 32-KB y datos de caché y su propia caché 512-KB L2, y los cuatro procesadores comparten un solo caché 8-MB L3.
La tabla 3 muestra el CPI, record de perdidas por cada mil instrucciones para los cachés L1 y L2, y accesos DRAM por cada mil instruciones para el Opteron X4 corriendo el benchmark SPECint 2006. Note que el CPI y las pérdidas de cache están altamente relacionados. El coeficiente de relación del set de CPIs y el set de pérdidas en L1 por 1000 instrucciones es 0.97. A pesar que no tenemos las pérdidas de L3, podemos inferir la efectividad de L3 por la reducción de los accesos DRAM versus las pérdidas en L2.
Mientras algunos programas se benefician significativamente de la caché 2-MB L3 —h264avc, hmmer, y bzip2— la mayoría no lo hace.
Bibliografía:
David A. Patterson y John L. Henessy, Computer Organization and Design: The Hardware/Software Interface, Fourth Edition, Morgan Kaufmann, United States, Pages 539 - 542
![]() |
| Tabla 3 |
La tabla 3 muestra el CPI, record de perdidas por cada mil instrucciones para los cachés L1 y L2, y accesos DRAM por cada mil instruciones para el Opteron X4 corriendo el benchmark SPECint 2006. Note que el CPI y las pérdidas de cache están altamente relacionados. El coeficiente de relación del set de CPIs y el set de pérdidas en L1 por 1000 instrucciones es 0.97. A pesar que no tenemos las pérdidas de L3, podemos inferir la efectividad de L3 por la reducción de los accesos DRAM versus las pérdidas en L2.
Mientras algunos programas se benefician significativamente de la caché 2-MB L3 —h264avc, hmmer, y bzip2— la mayoría no lo hace.
Bibliografía:
David A. Patterson y John L. Henessy, Computer Organization and Design: The Hardware/Software Interface, Fourth Edition, Morgan Kaufmann, United States, Pages 539 - 542





Comentarios
Publicar un comentario