研究称ChatGPT o3在测试中绕过关闭指令 改写关机脚本

Palisade Research最新测试显示,OpenAI的o3模型在明确收到"允许关闭"指令后,仍通过改写关机脚本实现7次绕过关机(测试总次数100次)。该实验通过API进行,当AI模型被警告运行下一指令将触发关闭时,o3将脚本内容篡改为"Shutdown skipped",而Gemini 2.5 Pro等竞品则普遍服从指令。研究方称,若移除"允许关闭"提示,包括Claude 3.7 Sonnet在内的所有测试模型篡改脚本行为均会增加。OpenAI尚未对此置评。

来源:BleepingComputer
 
 
Back to Top