麻省理工、英伟达与浙江大学研究人员提出TriAttention，一种KV缓存压缩…

2026.04.12 04:10 (3 天前) 人工智能

麻省理工、英伟达与浙江大学研究人员提出TriAttention，一种KV缓存压缩方法，在吞吐量提升2.5倍的同时匹配全注意力性能，适用于大型语言模型的长链推理任务。

消息来源 marktechpost.com

阅读原文报道

www.marktechpost.com

麻省理工、英伟达与浙江大学研究人员提出TriAttention，一种KV缓存压缩方法，在吞吐量提升2.5倍的同时匹配全注