Qwen&清华团队颠覆常识:大模型强化学习仅用20%关键token,比用全部token训练还好

超越二八法则