Cache

Briding the gap

Cache 存在的意义是弥合内存与CPU之间的速度差距,CPU的指令执行是低于ns级的,而内存的访存时延时十几到几十ns级的,一次访存操作,CPU就需要等几十上百个时钟周期,这样会严重降低系统的整体效率。然而内存速度慢仅体现在时延上,从带宽的角度,内存又是能满足CPU的要求的,这时引入一个容易稍小的快速存储介质就可以将这个时延隐藏掉。具体就是在CPU执行某条访存指令之前,先将需要访问的内存数据加载到Cache中,CPU执行到那条指令时,数据已经在Cache,因而可以以同样数量级的时延访问到数据。

Cache DRAM and Disk hiarachy

三种典型组织形式

CPU发出一个访存指令,怎么才能知道目标地址上的数据在Cache中是否存在呢?这就涉及Cache的组织形式问题。Cache通常理解为一个表,表中的每个条目记录了一个内存块的数据及这个内存块的起始地址。这样一个条目称为一个Cache line。一个Cache line存储的数据大小(即内存块的大小)在一个系统中通常是固定的,即每个cache line都是等长的。在x86系统中,这个数据是64Bytes。这也正常是一次DDR内存访问能得到的数据大小。一个Cache line不但要记录数据,还要记录数据对应的地址,通常只记录地址的一部分,比如说在32位系统中,Cache line为64Bytes的情况下,只要记录32 - 6 = 26个高位就好了。这里的5取自2^6=64。

怎么根据地址去查询Cache是否命中呢?最简单的办法是拿这个地址与Cache中的第一行的tag去对比,对上了就命中,没有对上的就是不命中。查询Cache的速度不能慢,所以这个挨个比较需要用硬件去并行的做。这个做法(做法1)做起来硬件复杂无比。

full set associative cache

全相联缓存

最好是能拿到地址,我就知道它可能存储在Cache的哪一行,我再去那一行去看,如果和那一行的tag对得上就命中,对不上就是不命中。一个可行的办法就是拿内存地址对Cache的总大小取模,模的值就是Cache的目标行号,规定每个内存地址上的数据只能存在这个目标行。我们暂时称这种办法是做法2。做法2有一个显著的问题就是某个内存地址上的数据只能存在固定的Cache行上。如果遇到两个取模后相同的地址,做其中一个就没有办法存进去,此时其他Cache行是空也不能用,因而可能造成空间利用率低。做法1由于没有这个限制,只要Cache中还是未存储的空间,就可以不用换出某个Cache行。

直接射缓存

图示的Cache中有8行,每行的大小为16字节。给定一个内存地址,它的最低4位对于从Cache中取数据来讲是没有用的。真正有用的是高28位。这28位数对Cache行数取模,得到的值恰好是这28位中的低3位。因而图中用低3位做索引,从Cache中选中一行。选出来的一行可能用目标内存的数据,也可能是空的,也可能是其他与类似地址(低三位相同)上的内存数据。因而选出来后,还要拿高25位与tag比对,才知道选出来的数据是否是目标内存块上的数据。

直接映射缓存地址含义

做法1和做法2是两个级端,做法1称为全关联缓存,即每个内存地址都可以与任何内存行关联,做法2称为直接映射缓存,即每个内存地址直接映射某个Cache line,不可以占用其他Cache line。

针对做法2,考虑到同时访问多个映射到同一个Cache line的内存地址的可能性也不是那么大,提出了一个优化办法,即在做法2的基础上,每个Cache line引入几个影子行。比如说原来的一个Cache line现在变成了4个Cache line,则只要同一段时间使用的映射到这一行的内存地址不多于4,就不会出现换出。这种一个内存地址对应一组几个Cache line的方式称为n路组相联缓存。

两路组相联缓存(2-way associative 8-entry cache)