一个省略号提示+强化学习搞定大模型“过度思考”,中科院自动化所新方法:从强制推理到自主选择

强化学习赋能大推理模型自主思考