如何保证思维过程必须包含真实推理？

Hi~

我在论文Format Reward部分看到您通过迭代优化Format Reward，让模型的格式输出可以保证顺序，保证思维过程必须包括真实的推理。然而，我在奖励函数代码部分只看到了针对模型格式输出顺序、数量，以及能否正确提取结果进行了限定，请问如何保证思维过程必须包含真实推理的呢？