字节跳动开源Mamoda2.5：250亿参数多模模型，推理速度提升近百倍

AI 资源之家讯字节跳动于近日正式开源旗下多模态大模型 Mamoda2.5，这是国内大厂首次在 250 亿参数量级上实现 MoE（混合专家）+DiT（扩散 Transformer）融合架构并完全开源。该模型在文生图、文生视频、视频编辑三项核心任务上逼近 Sora 与快手 Kling 等闭源方案，而推理时仅需激活约 12% 的参数，官方数据显示综合推理速度提升最高达 95.9 倍。这一突破意味着，在消费级显卡上本地部署一个接近商用水平的 "多模态大脑" 已不再是天方夜谭。

Mamoda2.5 的架构设计围绕 "高效多模" 这一核心目标展开。传统多模态模型在处理图像与视频任务时，往往需要完整激活全部参数，导致算力消耗居高不下。字节团队通过引入 MoE 稀疏激活机制，使模型在推理时只调用必要的专家网络；同时借鉴 DiT 的时空建模能力，让模型在视频生成的一致性与长序列理解上取得显著进步。从实际测试来看，Mamoda2.5 在 MSVD、MSRVTT 等视频理解基准上得分提升超过 30%，文生视频的物体一致性指标也达到行业第一梯队水平。

开源策略方面，字节此次选择了较为激进的 Full Open 路线，不仅开放模型权重与推理代码，还同步释出了预训练数据集的部分清洗版本与技术报告。这一做法与 Meta 开源 Llama 系列时的策略颇为相似，被业内视为字节跳动争夺开源生态主导权的关键落子。目前 GitHub 上相关仓库 Star 数已突破 2 万，HuggingFace 下载量持续攀升。

竞争格局层面，Mamoda2.5 的发布让开源多模态赛道骤然升温。此前该领域主要由通义万相、腾讯混元开源版等产品主导，字节的加入打破了原有的势力平衡。有开发者指出，得益于字节在推荐算法与内容理解领域多年的工程积累，Mamoda2.5 在中文场景的指令遵循能力优于同期开源竞品，这一优势在短视频创作与营销内容生成场景中尤为突出。

值得注意的是，Mamoda2.5 的开源并非孤立事件。据 AI 资源之家了解，字节跳动近期在大模型开源社区动作频频，多个项目正在并行推进，涵盖语言模型、视觉模型与端侧部署等多个方向。业内普遍预期，2026 年下半年国内开源大模型竞争将进入新一轮洗牌期，技术迭代速度与生态运营能力将成为决定胜负的关键变量。

正文完