返回快讯
2026.04.12 04:10 (3 天前) 人工智能

麻省理工、英伟达与浙江大学研究人员提出TriAttention,一种KV缓存压缩方法,在吞吐量提升2.5倍的同时匹配全注

麻省理工、英伟达与浙江大学研究人员提出TriAttention,一种KV缓存压缩方法,在吞吐量提升2.5倍的同时匹配全注意力性能,适用于大型语言模型的长链推理任务。

消息来源 marktechpost.com

阅读原文报道

www.marktechpost.com

访问

更多快讯

快讯卡片预览