Grok-4登顶,Kimi K2非思考模型SOTA,豆包、DeepSeek新模型性能提升|xbench月报