Skip to main content

通过提示词来强制使异常的模型输出展示思考过程,可以得出,基于 qwen 的蒸馏模型甚至 qwen 本身在社科领域的客观参考价值很低,训练时RL阶段基于一定策略进行了针对性的惩罚通过提示词来强制使异常的模型输出展示思考过程,可以得出,基于 qwen 的蒸馏模型甚至 qwen 本身在社科领域的客观参考价值很低,训练时RL阶段基于一定策略进行了针对性的惩罚