DS v3 MTP预测第三个token的接受率还可以;
GLM 预测第三个token的接受率基本为0的原因是啥?
猜测的可能原因
1)DS v3的MTP是预训练原生支持MTP头,GLM的MTP是预训练原生训练还是后训练添加?
2)DS v3的MTP是串行多头,非并行多头;GLM的多头是并行多头?
3) DS v3 训练采用严格的自回归,给定前序token [t1, t2],预测下一个token t3。它的注意力机制是单向的,只能看到左侧的上下文。因此,它在MTP这种“类填空”但实质是自回归的任务上表现自然;GLM 自回归空白填充模式导致MTP层训练时看到的“前文”不仅包括原始的上文,还包括它自己刚刚生成出来的、同属一个片段的token?