为什么用错奖励,模型也能提分?新研究:模型学的不是新知识,是思维

不必过分追求奖励模型的高准确率。