给语音模型戴上「眼镜」,错误率降低12.5%,人大CMU最新开源

BPO-AVASR通过音视频双焦点优化提升抗噪语音识别。