R2来之前，DeepSeek又放了个烟雾弹

宋思杭 6小时前来源: 虎嗅网热度: 7

DeepSeek近期通过V3模型论文展示了其“极致降本”技术方案，包括MLA机制优化显存、MoE架构提升效率、FP8低精度训练节省资源、多平面网络加速数据传输，同时推出ProverV2探索数学领域应用。这些技术突破聚焦软硬协同与成本控制，为行业提供高效模型开发新思路。多头隐注意力机制：通过压缩上下文信息降低显......