阿里巴巴推出了一种计算资源池化方案,据称可使运行人工智能模型所需的英伟达GPU数量减少82%
池化(computing pooling solution)是通过资源共享、统一调度的方式,提高GPU的利用效率
这套系统名为Aegaeon,本周在韩国首尔举行的第31届操作系统原理研讨会上发布的论文显示,在测试中,为运行多个参数规模高达720亿的模型,所需的英伟达H20 GPU数量从1,192块减少到213块。
在Aegaeon系统下,研究团队设计了一种能在“token级别”实现自动扩缩容的方案,也就是说,在生成token(AI系统处理的基本数据单元)的过程中,GPU可以在不同模型之间切换。
研究人员表示,这一方案使单块GPU最多可支持七个模型,而传统系统只能支持最多两到三个模型,同时模型切换的延迟也减少了97%。
来源:南华早报
池化(computing pooling solution)是通过资源共享、统一调度的方式,提高GPU的利用效率
这套系统名为Aegaeon,本周在韩国首尔举行的第31届操作系统原理研讨会上发布的论文显示,在测试中,为运行多个参数规模高达720亿的模型,所需的英伟达H20 GPU数量从1,192块减少到213块。
在Aegaeon系统下,研究团队设计了一种能在“token级别”实现自动扩缩容的方案,也就是说,在生成token(AI系统处理的基本数据单元)的过程中,GPU可以在不同模型之间切换。
研究人员表示,这一方案使单块GPU最多可支持七个模型,而传统系统只能支持最多两到三个模型,同时模型切换的延迟也减少了97%。
来源:南华早报