小米推出首个推理开源大模型Mimo!以7B参数打败OpenAI o1-mini和阿里QwQ-32B-Preview

在相同强化学习(RL)训练数据条件下,MiMo-7B在数学和代码领域展现出的强化学习潜力明显领先于业界广泛使用的其他模型,包括DeepSeek-R1-Distill-7B和Qwen2.5-32B等知名强化学习起步模型。