在最近关于「Scaling Law 是否撞墙」的讨论中,后训练(post-training)被寄予厚望。众所周知,近期发布的 OpenAI o1在数学、 代码、长程规划等问题上取得了显著提升,而背后的成功离不开后训练阶段强化学习训练和推..