Anthropic:我们已确认三家 AI 实验室——深度求索、月之暗面与 MiniMax——为提升自身模型性能,通过非法手段系统性提取 Claude 能力。这些实验室通过约 2.4 万个欺诈账户与 Claude 进行了超 1600 万次违规交互,严重违反我方服务条款及区域访问限制。

这些实验室使用了一种名为"蒸馏"的技术,即通过训练一个能力较弱的模型来模仿更强模型的输出。蒸馏是一种广泛使用且合法的训练方法。例如,前沿人工智能实验室通常会蒸馏自己的模型,为客户创建更小、更便宜的版本。但蒸馏也可用于非法目的:竞争对手可以利用该技术,以独立开发所需时间和成本的一小部分,从其他实验室获取强大能力。

这类攻击行动的强度和复杂程度正在不断提升。采取行动的窗口期很短,且威胁已超越任何单一公司或地区。应对这一挑战需要行业参与者、政策制定者和全球人工智能社区之间迅速、协调一致的行动。

Detecting and preventing distillation attacks
 
 
Back to Top