Anthropic研究揭示大语言模型"幻觉"机制：已知实体神经元抑制"拒绝回答"回路Anthropic最新研究发现，当大语言模型Claude识别到"已知实体"时会抑制默认的"拒绝回答"神经元回路，导致其倾向于编造看似合理的答案而非承认未知，这一机制解释了模型产生幻觉的部分原因

06:00 · Mar 29, 2025 · Sat

Anthropic研究揭示大语言模型"幻觉"机制：已知实体神经元抑制"拒绝回答"回路

Anthropic最新研究发现，当大语言模型Claude识别到"已知实体"时会抑制默认的"拒绝回答"神经元回路，导致其倾向于编造看似合理的答案而非承认未知，这一机制解释了模型产生幻觉的部分原因。

来源：arstechnica