【广发军工&化工】 LPU架构或为继CPX架构后英伟达布局PD分离的核心棋子,重视LPU架构带来的潜在PCB架构的变化
2025年底,英伟达(Nvidia)宣布与AI芯片初创公司Groq达成协议,斥资200亿美金获取其技术非独家许可并吸纳其核心团队。Groq代表了目前最先进的 LPU(Language Processing Unit,语言处理单元) 架构,英伟达此举核心是为了布局AI的推理算力部分。
大体思路为LPU利用天然的Decode优势,此前的CPX架构负责高效Prefill,以完成高效的PD分离:
(1)LPU的Decode优势:LPU可以理解为专为 推理部分 设计的ASIC,核心是#追求极致的低延迟和高吞吐量。其采用大容量片上的SRAM架构直接集成在芯片上,即仓库就在生产线旁,数据访问延迟远快于传统GPU架构;同时LPU的确定性执行架构将整个计算和芯片间通信的步骤精确规划到时钟周期,形成一个像传送带一样的"静态时序",保证稳定的高吞吐量。
(2)此前发布的CPX架构拥有强Prefill效率:Prefill阶段是计算密集型(Compute-bound)任务,对内存带宽需求很低,其单卡配备了128GB的GDDR7显存,FP4精度下的算力能达到30 PFLOPS。其核心是针对内存、互联等传统GPU高需求部分做减法,而在针对Prefill的算力部分做加法,专注NVFP4。
针对LPU架构,参考此前NVL144 CPX版本的大体Tray设计思路,无缆化或仍为新一代机柜的核心设计语言,重视LPU架构带来的潜在PCB架构的变化。
2025年底,英伟达(Nvidia)宣布与AI芯片初创公司Groq达成协议,斥资200亿美金获取其技术非独家许可并吸纳其核心团队。Groq代表了目前最先进的 LPU(Language Processing Unit,语言处理单元) 架构,英伟达此举核心是为了布局AI的推理算力部分。
大体思路为LPU利用天然的Decode优势,此前的CPX架构负责高效Prefill,以完成高效的PD分离:
(1)LPU的Decode优势:LPU可以理解为专为 推理部分 设计的ASIC,核心是#追求极致的低延迟和高吞吐量。其采用大容量片上的SRAM架构直接集成在芯片上,即仓库就在生产线旁,数据访问延迟远快于传统GPU架构;同时LPU的确定性执行架构将整个计算和芯片间通信的步骤精确规划到时钟周期,形成一个像传送带一样的"静态时序",保证稳定的高吞吐量。
(2)此前发布的CPX架构拥有强Prefill效率:Prefill阶段是计算密集型(Compute-bound)任务,对内存带宽需求很低,其单卡配备了128GB的GDDR7显存,FP4精度下的算力能达到30 PFLOPS。其核心是针对内存、互联等传统GPU高需求部分做减法,而在针对Prefill的算力部分做加法,专注NVFP4。
针对LPU架构,参考此前NVL144 CPX版本的大体Tray设计思路,无缆化或仍为新一代机柜的核心设计语言,重视LPU架构带来的潜在PCB架构的变化。