Qwen3家族训练秘籍公开:思考/非思考融进一个模型,大模型蒸馏带动小模型

预训练和微调均分段进行