原来CPU为程序性能优化做了这么多计算 - 竹笋

TUhjnbcbe - 2023/9/8 21:20:00

本文主要来学习内存屏障和CPU缓存知识，以便于我们去了解CPU对程序性能优化做了哪些努力。

首先来看下CPU缓存：

CPU缓存

CPU缓存是为了提高程序运行的性能，CPU在很多处理上内部架构做了很多调整，比如CPU高速缓存，大家都知道因为硬盘很慢，可以通过缓存把数据加载到内存里面，提高访问速度，而CPU处理也有这个机制，尽可能把处理器访问主内存时间开销放在CPU高速缓存上面，CPU访问速度相比内存访问速度又要快好多倍，这就是目前大多数处理器都会去利用的机制，利用处理器的缓存以提高性能。

多级缓存

CPU的缓存分为三级缓存，所以说多核CPU会有多个缓存，我们首先来看下一级缓存（L1Cache）：

L1Cache是CPU第一层高速缓存，分为数据缓存和指令缓存，一般服务器CPU的L1缓存的容量通常在32-KB。由于L1级高速缓存容量的限制，为了再次提高CPU的运算速度，在CPU外部放置-高速存储器，即二级缓存（L2Cache）。

因为L1和L2的容量还是有限，因此提出了三级缓存，L3现在的都是内置的，它的实际作用即是，L3缓存的应用可以进一步降低内存延迟，同时提升大数据量计算时处理器的性能，具有较大L3缓存的处理器提供更有效的文件系统缓存行为及较短消息和处理器队列长度，一般是多核共享一个L3缓存。

CPU在读取数据时，先在L1Cache中寻找，再从L2Cache寻找，再从L3Cache寻找，然后是内存，再后是外存储器硬盘寻找。

如下图所示，CPU缓存架构中，缓存层级越接近CPUcore，容量越小，速度越快。CPUCache由若干缓存行组成，缓存行是CPUCache中的最小单位，一个缓存行的大小通常是64字节，是2的倍数，不同的机器上为32到64字节不等，并且它有效地引用主内存中的一块地址。

多CPU读取同样的数据进行缓存，进行不同运算之后，最终写入主内存以哪个CPU为准？这就需要缓存同步协议了：

缓存同步协议

在这种高速缓存回写的场景下，有很多CPU厂商提出了一些公共的协议-MESI协议，它规定每条缓存有个状态位，同时定义了下面四个状态：

修改态(Modified)：此cache行已被修改过(脏行),内容已不同于主存，为此cache专有；专有态(Exclusive)：此cache行内容同于主存，但不出现于其它cache中；共享态(Shared)：此cache行内容同于主存，但也出现于其它cache中；无效态(Invalid)：此cache行内容无效(空行)。多处理器，单个CPU对缓存中数据进行了改动，需要通知给其它CPU，也就是意味着，CPU处理要控制自己的读写操作，还要监听其他CPU发出的通知，从而保证最终一致。

运行时的指令重排

CPU对性能的优化除了缓存之外还有运行时指令重排，大家可以通过下面的图了解下：

比如图中有代码x=10;y=z;，这个代码的正常执行顺序应该是先将10写入x，读取z的值，然后将z值写入y，实际上真实执行步骤，CPU执行的时候可能是先读取z的值，将z值写入y，最后再将10写入x，为什么要做这些修改呢？

因为当CPU写缓存时发现缓存区正被其他CPU占用（例如：三级缓存），为了提高CPU处理性能，可能将后面的读缓存命令优先执行。

指令重排并非随便重排，是需要遵守as-if-serial语义的，as-if-serial语义的意思是指不管怎么重排序（编译器和处理器为了提高并行度），单线程程序的执行结果不能被改变。编译器，runtime和处理器都必须遵守as-if-serial语义，也就是说编译器和处理器不会对存在数据依赖关系的操作做重排序。

那么这样就会有如下两个问题：

CPU高速缓存下有一个问题：缓存中的数据与主内存的数据并不是实时同步的，各CPU（或CPU核心）间缓存的数据也不是实时同步。在同一个时间点，各CPU所看到同一内存地址的数据的值可能是不一致的。

CPU执行指令重排序优化下有一个问题：虽然遵守了as-if-serial语义，仅在单CPU自己执行的情况下能保证结果正确。多核多线程中，指令逻辑无法分辨因果关联，可能出现乱序执行，导致程序运行结果错误。

如何解决上述的两个问题呢，这就需要谈到内存屏障：

内存屏障

处理器提供了两个内存屏障（MemoryBarrier）指令用于解决上述两个问题：

写内存屏障（StoreMemoryBarrier）：在指令后插入StoreBarrier，能让写入缓存中的最新数据更新写入主内存，让其他线程可见。强制写入主内存，这种显示调用，CPU就不会因为性能考虑而去对指令重排。

读内存屏障（LoadMemoryBarrier）：在指令前插入LoadBarrier，可以让高速缓存中的数据失效，强制从新的主内存加载数据。强制读取主内存内容，让CPU缓存与主内存保持一致，避免了缓存导致的一致性问题。

Java中也有类似的机制，比如Synchronized和volatile都采用了内存屏障的原理。

总结

本文主要介绍了在提高程序运行性能上，CPU作出了哪些优化：缓存和运行时指令重排，最后还介绍了内存屏障相关知识。