Hi~ 我在论文Format Reward部分看到您通过迭代优化Format Reward,让模型的格式输出可以保证顺序,保证思维过程必须包括真实的推理。然而,我在奖励函数代码部分只看到了针对模型格式输出顺序、数量,以及能否正确提取结果进行了限定,请问如何保证思维过程必须包含真实推理的呢?