谷歌DeepMind的研究人员提出了一种创新多轮强化学习方法——SCoRe。目前,多数大模型不具备自我纠错或能力较差,尤其是在数学和代码领域在给出错误答案后,会一直坚持错误答案,影响模型的准确率。而SCoRe通过避免训..