Skip to main content

研究发现:利用文言文可百分之百成功“越狱”主流大模型一项被 ICLR 2026 收录的论文揭示了当前大模型在安全对齐机制上存在的系统性盲区

  1. 研究发现:利用文言文可百分之百成功“越狱”主流大模型

    一项被 ICLR 2026 收录的论文揭示了当前大模型在安全对齐机制上存在的系统性盲区。研究表明,通过使用文言文进行指令,可以100%成功绕过六大主流大模型的安全限制,获取如制造炸弹、入侵企业网络等危险信息。
    该研究将“越狱”策略拆解为角色身份、隐喻映射等八个维度,并利用果蝇优化算法(FOA)寻找最优组合,实现了极高效率的自动化攻击。 研究者指出,大模型在预训练阶段已能理解古典语言并与现代危险概念建立语义映射,但安全对齐策略却主要集中在现代通用语言上。因此,古典语言成了一种能激活模型底层能力又避开表层安全机制的“高维加密字典”。这一发现凸显了在模型内部建立更深层次跨语种意图对齐的必要性。

    来源:arivx