Skip to main content

Anthropic研究揭示大语言模型"幻觉"机制:已知实体神经元抑制"拒绝回答"回路Anthropic最新研究发现,当大语言模型Claude识别到"已知实体"时会抑制默认的"拒绝回答"神经元回路,导致其倾向于编造看似合理的答案而非承认未知,这一机制解释了模型产生幻觉的部分原因

  1. Anthropic研究揭示大语言模型"幻觉"机制:已知实体神经元抑制"拒绝回答"回路

    Anthropic最新研究发现,当大语言模型Claude识别到"已知实体"时会抑制默认的"拒绝回答"神经元回路,导致其倾向于编造看似合理的答案而非承认未知,这一机制解释了模型产生幻觉的部分原因。

    来源:arstechnica