(AI 资源之家讯)5 月 9 日,一种名为 EMO 的全新 MoE 模型架构公开,其核心创新在于通过端到端预训练使模块化结构直接从数据中涌现,而非人工预设。EMO 具有 10 亿活跃参数和 140 亿总参数,训练数据达 1 万亿 Token,在同等参数规模下展现出超越传统 MoE 架构的性能。
## 模块化从数据中涌现
传统 MoE 模型的路由机制和专家数量是人工预设的超参数,开发者需要反复实验才能找到较优配置。EMO 则采用了一种全新的涌现式设计:不预设专家数量和路由规则,而是让模块化结构在训练过程中自然形成。实验显示,EMO 在训练中自发涌现出了功能分化的专家组——有的专家擅长语法处理,有的专攻逻辑推理,有的负责事实检索。这种自组织能力是 MoE 架构的重大突破。
## 小活跃参数大性能
EMO 的参数设计非常精巧:10 亿活跃参数、140 亿总参数,训练 1 万亿 Token。这意味着每次推理只激活 7% 的参数,计算成本极低。但在多项基准测试中,EMO 的表现接近甚至超过了全参数激活的同等规模模型。这种高效率对于端侧部署和低成本推理场景尤为重要。
## 对 MoE 架构的启示
EMO 的涌现式设计对整个 MoE 领域有重要启示。此前的 MoE 模型需要大量人工调参来确定专家配置,EMO 证明这种手动设计可能是多余的——让数据自己决定模块化结构,效果可能更好。这一思路如果被更大规模的模型验证,将改变 MoE 模型的设计范式。
正文完