姚期智团队开源新型注意力,节省90%内存不降性能,一个框架统一MHA/MQA/GQA

张量积注意力TPA