AI 资源之家讯 字节跳动于近日正式开源旗下多模态大模型 Mamoda2.5,这是国内大厂首次在 250 亿参数量级上实现 MoE(混合专家)+DiT(扩散 Transformer)融合架构并完全开源。该模型在文生图、文生视频、视频编辑三项核心任务上逼近 Sora 与快手 Kling 等闭源方案,而推理时仅需激活约 12% 的参数,官方数据显示综合推理速度提升最高达 95.9 倍。这一突破意味着,在消费级显卡上本地部署一个接近商用水平的 "多模态大脑" 已不再是天方夜谭。
Mamoda2.5 的架构设计围绕 "高效多模" 这一核心目标展开。传统多模态模型在处理图像与视频任务时,往往需要完整激活全部参数,导致算力消耗居高不下。字节团队通过引入 MoE 稀疏激活机制,使模型在推理时只调用必要的专家网络;同时借鉴 DiT 的时空建模能力,让模型在视频生成的一致性与长序列理解上取得显著进步。从实际测试来看,Mamoda2.5 在 MSVD、MSRVTT 等视频理解基准上得分提升超过 30%,文生视频的物体一致性指标也达到行业第一梯队水平。
开源策略方面,字节此次选择了较为激进的 Full Open 路线,不仅开放模型权重与推理代码,还同步释出了预训练数据集的部分清洗版本与技术报告。这一做法与 Meta 开源 Llama 系列时的策略颇为相似,被业内视为字节跳动争夺开源生态主导权的关键落子。目前 GitHub 上相关仓库 Star 数已突破 2 万,HuggingFace 下载量持续攀升。
竞争格局层面,Mamoda2.5 的发布让开源多模态赛道骤然升温。此前该领域主要由通义万相、腾讯混元开源版等产品主导,字节的加入打破了原有的势力平衡。有开发者指出,得益于字节在推荐算法与内容理解领域多年的工程积累,Mamoda2.5 在中文场景的指令遵循能力优于同期开源竞品,这一优势在短视频创作与营销内容生成场景中尤为突出。
值得注意的是,Mamoda2.5 的开源并非孤立事件。据 AI 资源之家了解,字节跳动近期在大模型开源社区动作频频,多个项目正在并行推进,涵盖语言模型、视觉模型与端侧部署等多个方向。业内普遍预期,2026 年下半年国内开源大模型竞争将进入新一轮洗牌期,技术迭代速度与生态运营能力将成为决定胜负的关键变量。