96核心、12通道DDR5!AMD Zen4 EPYC架构揭秘

快科技 @ 2022-11-14 09:49:06

  近日,AMD正式发布了代号"Genoa"(热那亚)的第四代霄龙EPYC 9004系列处理器,面向服务器、数据中心、高性能计算、人工智能等领域。

  此前,我们已经介绍了EPYC 9004系列的型号规格、整体特性、性能能效,但是关于它,还有很多层次的东西可以挖掘,包括架构、SoC、内存、小芯片、CXL等等。

  今天,我们就来仔细说道说道。

  一、Zen4架构

  EPYC 9004系列基于和桌面锐龙7000系列同款的Zen4架构,只是针对服务器与数据中心应用做了适当的调整优化。

  整体而言,综合计算33种不同的服务器负载,Zen4架构的IPC相比Zen3提升了大约14%,这比锐龙7000系列的提升高了1个百分点。

  不同模块的贡献差不多,最大的还是前端部分,接下来是载入/存储、分支预测、执行引擎、二级缓存。

  架构总览,以及与Zen3的变化细节对比,都和桌面版Zen4几乎毫无二致。这里也就不再赘述了,感兴趣的可以参考我之前的解析。

  AVX-512指令集其实也是一模一样的,但它在服务器数据中心显然更加如鱼得水,作用更加明显。

  根据AMD提供的数字,双路96核心新旗舰EPYC 9654对比双路64核心老旗舰EPYC 7763,得益于规格性能的改进,尤其是AVX-512指令集的加持,NLP吞吐量、物体检测吞吐量、图像识别吞吐量分别增加了大约4.2倍、3.5倍、3倍之多!

  安全方面也更丰富,其中安全加密虚拟化(SEV)方面,除了继续支持SME、SEVES、SEV-SNP,还将内存加密升级到AES-256-XTS,并支持1006个加密客户机,支持多重主机密钥(SMKE)。

  另外强化了对客户机的保护,尤其是可免于SMT攻击。

  二、SoC总览

  这是EPYC 9004系列额整体布局图、核心特性。

  这一代依然没有独立芯片组,而是一个完整的SoC,延续chiplet小芯片设计,内部包含一个IOD、最多12个CCD。

  CCD每个集成8颗Zen4 CPU核心、32MB三级缓存,合计最多96核心、384MB三级缓存,同时也有8个CCD、4个CCD的版本,分别最多64核心、32核心。

  IOD内集成了DDR5内存控制器、PCIe 5.0/CXL 1.1+控制器、第三代Infinity Fabric控制器、安全处理器。

  内存为12通道,最高频率4800MHz。PCIe 5.0可提供128条。这两部分后边细说。

  封装接口改为新的SP5,尺寸增加到约75×72毫米。

  单路配置下,EPYC 9004系列可搭配最多24条DDR5内存,每通道2条(2DPC),可提供128条PCIe 5.0、8条PCIe 3.0通道。

  双路配置下,每个内存通道就只能装1条了(1DPC),最多还是12条,PCIe 5.0通道对外可用则是最多160条,每路80条对外、48条用于彼此互连,另外还有12条PCIe 3.0,每路6条。

  IF高速总线升级到了第三代,最高带宽32Gbps,可选3条或4条链接,前者是默认的,此时对应的系统可用PCIe 5.0通道数量就是刚才说的160条。

  如果选择4链接,每路处理器就要贡献一半的PCIe 5.0通道用于彼此互连,留给系统可用的就是128条,这和上代是相同的。

  当然,即便同样128条,从PCIe 4.0升级到PCIe 5.0,可用带宽也是翻倍的。

  160条之多的PCIe 5.0通道能干什么?那就很随意了。

  xGMI、PCIe、SATA、CXL想怎么玩就怎么玩。x16、x8、x4、x2、x2想怎么拆分就怎么拆分。每一路x16都可以连接最多9个PCIe设备(一个x8和八个x1)。

  I/O性能方面,EPYC 9004支持新的高级虚拟中断控制器(AVIC),提升虚拟中断性能,并改善了中断处理吞吐量,包括CPU核心内部与SoC层面。

  搭配PCIe 4.0 x16规格的200Gbps(20万兆)网卡,默认设置下效率即可超过90%,最高达94%,单向能跑到188Gbps,双向则能跑到375Gbps。

  如果搭配PCIe 5.0 x16规格的400Gbps(40万兆) InfiBand高速网络,标准配置下效率也能超过90%,最高甚至达99%,能跑出396Gbps。

  三、内存

  内存方面,一如桌面锐龙7000系列,EPYC 9004也仅支持DDR5,可以带来更高的频率与带宽、更低的电压与功耗、更好的电源管理(板载PMIC)、更多的通道与更低的延迟、更大的容量、更好的校验纠错(板载ECC),等等。

  EPYC 9004系列支持12个DDR5内存通道,单路最大容量6TB(单条512GB)。

  标准的4800MHz频率下,峰值理论带宽可达460GB/s。

  延迟方面,EPYC 9004略有增加,但影响不大,其中SoC约73ns、设备约45ns,总计约118ns,比上代分别增加了3ns、10ns。

  EPYC 9004还支持每路多重内存节点(NPS),可以对12条内存进行分组管理,进一步优化性能。

  四、小芯片布局

  EPYC 9004依然是chiplet小芯片布局,其中CCD最大数量从上代的8个增加到12个,布局更加紧密,对带宽、延迟也提出了更高的要求。

  为此,小芯片间的通信通道升级为GMI3,最大带宽达到36Gbps,吞吐能力翻番,同时与内部基准频率的比例为20:1。

  针对不同数量的CCD,GMI还提供宽、窄两种模式,其中超过4个CDD为宽模式,充分利用足够的带宽,小于等于4个则是窄模式,提高效率。

  五、CXL

  CXL,也就是Compute EXpress Link,一种缓存一致性高速互连行业标准,主要用于处理器、内存扩展与加速器。

  CXL有三种工作模式,EPYC 9004并不支持第一种(面向NIC网卡)、第二种(面向GPU/FPGA/加速器等密集计算),而仅支持第三种,也就是内存缓冲,可扩展内存带宽与容量,协议走的是cxl.io、cxl.mem。

  总的来说,AMD EPYC 9004系列在延续chiplet设计的同时,升级了工艺、架构,升级了内存、扩展连接等,整体规格、特性上了一个大大的台阶。

  此外,Zen EPYC家族还会陆续还会推出采用3D V-Cache技术的更高性能版"Genoa-X",面向云计算服务的"Bergamo"(贝尔加莫),以及面向电信基础设施和边缘计算的"Siena"(锡耶纳),组成完整的产品矩阵。

  未来的第五代"Turing"(图灵)家族,还会再次升级全新的"Zen5"架构!

取消