大模型反思是有效探索还是“形式主义”?科学家开发贝叶斯自适应强化学习框架,有望用于编程和智能体等