阿里巴巴推出了一种计算资源池化方案，据称可使运行人工智能模型所需的英伟达GPU数量减少82%池化（computing pooling solution）是通过资源共享、统一调度的方式，提高GPU的利用效率这套系统名为Aegaeon，本周在韩国首尔举行的第31届操作系统原理研讨会上发布的论文显示，在测试中，为运行多个参数规模高达720亿的模型，所需的英伟达H20 GPU数量从1,192块减少到213块

04:02 · Oct 18, 2025 · Sat

阿里巴巴推出了一种计算资源池化方案，据称可使运行人工智能模型所需的英伟达GPU数量减少82%

池化（computing pooling solution）是通过资源共享、统一调度的方式，提高GPU的利用效率
这套系统名为Aegaeon，本周在韩国首尔举行的第31届操作系统原理研讨会上发布的论文显示，在测试中，为运行多个参数规模高达720亿的模型，所需的英伟达H20 GPU数量从1,192块减少到213块。
在Aegaeon系统下，研究团队设计了一种能在“token级别”实现自动扩缩容的方案，也就是说，在生成token（AI系统处理的基本数据单元）的过程中，GPU可以在不同模型之间切换。
研究人员表示，这一方案使单块GPU最多可支持七个模型，而传统系统只能支持最多两到三个模型，同时模型切换的延迟也减少了97%。

来源：南华早报