GLM 预测第三个token的接受率基本为0的原因

DS v3 MTP预测第三个token的接受率还可以；
GLM 预测第三个token的接受率基本为0的原因是啥？

猜测的可能原因
1）DS v3的MTP是预训练原生支持MTP头，GLM的MTP是预训练原生训练还是后训练添加？
2）DS v3的MTP是串行多头，非并行多头；GLM的多头是并行多头？
3） DS v3 训练采用严格的自回归，给定前序token [t1, t2]，预测下一个token t3。它的注意力机制是单向的，只能看到左侧的上下文。因此，它在MTP这种“类填空”但实质是自回归的任务上表现自然；GLM 自回归空白填充模式导致MTP层训练时看到的“前文”不仅包括原始的上文，还包括它自己刚刚生成出来的、同属一个片段的token？