算法、系统和应用,三个视角全面读懂混合专家(MoE)

2024-07-31 14:04:00
admin
原创
139
LLM 很强,而为了实现 LLM 的可持续扩展,有必要找到并实现能提升其效率的方法,混合专家(MoE)就是这类方法的一大重要成员。


最近,各家科技公司提出的新一代大模型不约而同地正在使用混合专家(Mixture of Experts:MoE)方法。


混合专家这一概念最早诞生于 1991 年的论文《Adaptive mixtures of local experts》,三十多年来已经得到了广泛的探索和发展。近年来,随着稀疏门控 MoE 的出现和发展,尤其是与基于 Transformer 的大型语言模型相结合,这种已有三十多年历史的技术焕发出了新的生机。


MoE 框架基于一个简单却又强大思想:模型的不同部分(称为专家)专注于不同的任务或数据的不同方面。


使用这一范式时,对于一个输入,仅有与之相关的专家(Expert)才会参与处理,这样一来便能控制计算成本,同时仍能受益于大量专业知识。因此,MoE 可在不大幅提升计算需求的前提下提升大语言模型的能力。


如图 1 所示,MoE 相关研究增长强劲,尤其是在 2024 年 Mixtral-8x7B 以及 Grok-1、DBRX、Arctic、DeepSeek-V2 等各种产业级 LLM 出现之后。


图片


这张图来自香港科技大学(广州)的一个研究团队近日发布的一篇 MoE 综述报告,其中清晰且全面地总结了 MoE 相关研究,并提出了一种全新的分类法,将这些研究归类到了算法、系统和应用三大类。


图片


  • 论文标题:A Survey on Mixture of Experts

  • 论文地址:https://arxiv.org/pdf/2407.06204


机器之心整理了这篇综述报告的内容主干,以帮助读者了解当前 MoE 的发展概况,更多详情请阅读原论文。此外,我们也在文末整理了一些与 MoE 相关的报道。


混合专家的背景知识


在基于 Transformer 的大型语言模型(LLM)中,每个混合专家(MoE)层的组成形式通常是

发表评论
评论通过审核后显示。
文章分类
联系我们
联系人: 羊毛君
Email: soft850207@gmail.com