网大论坛

 找回密码
 立即注册
查看: 411|回复: 3

Kimi发布MoBA,DS发步NSA,中国大模型卷起来了

[复制链接]

未关注公众号会员1

255

积分

0

贡献

0

奖励
发表于 3 天前 | 显示全部楼层 |阅读模式
MoBA华尔街见闻华尔街见闻官方账号02.1911:18
[size=0.24][url=][size=0.2][/url]
Kimi联合清华和浙大推出的稀疏注意力技术MoBA,在长文本处理任务中可以保持相近性能的同时,将注意力计算的时间和内存消耗显著降低。特别是在处理超长文本(如1000万token)时,MoBA的优势更加明显,可以实现16倍以上的加速。
周二,当全球目光聚焦于马斯克Grok-3的庞大GPU集群时,中国大模型公司正在技术创新的道路上默默加速。
先是DeepSeek提出了原生稀疏注意力(Native Sparse Attention, NSA)机制。这项梁文锋亲自参与的研究成果,结合了算法创新和硬件优化,旨在解决长上下文建模中的计算瓶颈。
NSA不仅能将大语言模型处理64k长文本的速度最高提升11.6倍,更在通用基准测试中实现了对传统全注意力模型的性能反超。这一突破表明,通过算法和硬件层面的协同创新,可以在不牺牲模型性能的前提下,显著提升长文本处理效率。
紧随DeepSeek的步伐,Kimi也迅速推出了自家的稀疏注意力技术——MoBA(Mixture of Block Attention)。
据这份由月之暗面、清华大学和浙江大学的研究人员共同发布的技术报告《MOBA: MIXTURE OF BLOCK ATTENTION FOR LONG-CONTEXT LLMS》,MoBA的设计理念是将全上下文划分为多个块,每个查询令牌(query token)学习关注最相关的键值(KV)块,从而实现对长序列的高效处理。
与DeepSeek创始人梁文锋参与著作一样,月之暗面创始人杨植麟的名字也出现这篇论文的作者栏里。
[url=][/url]
据论文介绍,在各种长文本处理任务中,采用MoBA技术的模型可以在保持相近性能的同时,将注意力计算的时间和内存消耗显著降低。在1M token的测试中,MoBA比全注意力快了6.5倍,在处理超长文本(如1000万token)时,MoBA的优势更加明显,可以实现16倍以上的加速。
MoBA已经部署于支持Kimi的长上下文请求处理,并在大语言模型的高效注意力计算方面取得了显著进展。更值得一提的是,MoBA可以轻松地集成到现有的 LLMs 中,而无需进行大量的训练。
MoBA:基于块的稀疏注意力
为了实现人工通用智能(AGI),LLMs需要能够处理长文本序列,这对于历史数据分析、复杂推理和决策等任务至关重要。
而传统的自注意力机制计算复杂度呈二次增长,限制了LLMs处理长文本的能力。现有的解决方案要么引入了强偏见的结构(如滑动窗口注意力),要么对注意力机制进行了线性近似,这些方法在复杂推理任务中的表现尚未得到充分验证。
MOBA技术的核心思想是将传统Transformer模型中的全局注意力机制改造为基于块的稀疏注意力。具体来说,MOBA将输入序列划分为多个块,然后对每个查询token动态选择最相关的几个块进行注意力计算,而不是像传统方法那样对所有token都进行计算。
[url=][/url]
这种方法既保留了原始Transformer的强大表达能力,又显著降低了计算复杂度,特别适合处理超长文本输入。
MoBA的核心创新点包括:
可训练的块稀疏注意力: 全上下文被划分为多个块,每个查询令牌学习关注最相关的KV块,实现长序列的高效处理。
无参数门控机制: 引入了一种新颖的无参数top-k门控机制,为每个查询令牌选择最相关的块,确保模型只关注信息量最大的部分。
全注意力和稀疏注意力之间的无缝切换: MoBA被设计为全注意力的灵活替代品,允许在全注意力和稀疏注意力模式之间无缝切换。
在处理超长文本时,MoBA可以实现16倍以上的加速
在各种长文本处理任务中,采用MoBA技术的模型可以在保持相近性能的同时,将注意力计算的时间和内存消耗显著降低。在1M token的测试中,MoBA比全注意力快了6.5倍,在处理超长文本(如1000万token)时,MoBA的优势更加明显,可以实现16倍以上的加速。
Kimi 团队在多个方面对 MoBA 进行了实验验证:
缩放定律实验(Scaling Law Experiments): 实验表明,尽管 MoBA 的注意力模式稀疏度高达 81.25%,但其在语言模型损失方面的表现与全注意力相当。
长文本缩放能力(Long Context Scalability): 通过增加序列长度到 32K,MoBA 的稀疏度进一步提高到 95.31%。实验表明,MoBA 在处理长文本时,其性能与全注意力之间的差距逐渐缩小。
细粒度块分割消融研究(Ablation Study on Fine-Grained Block Segmentation): 实验表明,更细粒度的块分割可以进一步提高 MoBA 的性能。
[color=rgb(136, 136, 136) !important][url=][/url]
MoBA 与全注意力的混合训练(Hybrid of MoBA and Full Attention): 实验表明,通过混合使用 MoBA 和全注意力进行训练,可以在训练效率和模型性能之间取得平衡。
[color=rgb(136, 136, 136) !important][url=][/url]
大型语言模型评估(Large Language Modeling Evaluation): 在多个真实世界的下游任务中,MoBA 的表现与全注意力模型相当,甚至在某些任务上略有优势。
[color=rgb(136, 136, 136) !important][url=][/url]
效率和可扩展性(Efficiency and Scalability): 实验表明,MoBA 在处理长序列时比全注意力更高效,计算复杂度为亚平方级。在1M token的测试中,MoBA比全注意力快了6.5倍,在处理 1000 万 token 的序列时,MoBA 的注意力计算时间减少了 16 倍。

新手上路

Rank: 1

24

积分

0

贡献

0

奖励
发表于 3 天前 来自手机 | 显示全部楼层
稀疏注意力一直有,不要过分当真

版主

Rank: 8Rank: 8

2763

积分

1

贡献

100

奖励
发表于 3 天前 来自手机 | 显示全部楼层
从背后的学校看,清华浙大领头一个阵营,北大领头另一个

白银长老

Rank: 8Rank: 8

3277

积分

1

贡献

2000

奖励
发表于 3 天前 | 显示全部楼层
稀疏注意力过去的一年都是很火的领域,大家有很多共识,虽然两个模型看起来方法有一些相似,但仔细看的话其实很多地方理念和技术都不太一样。应该是KIMI MoBA近期也在筹划发布,看到DeepSeek发布他们就赶紧当天发了。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

论坛的微信公众号(二维码如下),关注获取更多科教信息

Archiver|手机版|网大论坛 ( (鄂ICP备2021013060号-2) )

GMT+8, 2025-2-23 00:09 , Processed in 0.079643 second(s), 20 queries , Gzip On.

鄂公网安备 42018502005923号

Powered by Discuz! X3.4

Copyright © 2001-2022, Tencent Cloud.