针对复杂多跳推理任务我们能找到训练更早期可以被观测的代理指标，但并不是所有任务在预训练阶段都可以被观测（起码现在还不行）

针对复杂多跳推理任务我们能找到训练更早期可以被观测的代理指标，但并不是所有任务在预训练阶段都可以被观测（起码现在还不行）。同时随着任务越来越难，想要到对应指标观测的置信区间需要付出的算力代价也越来越大。

为什么M2是Full Attention？

source