面壁智能开源BitCPM-CANN三值大模型:首次在华为昇腾完成端到端训练 手机跑大模型不再是梦

(AI 资源之家讯)大模型到底能不能真正跑在手机上?面壁智能和清华大学给出了最新的答案。5 月 25 日,面壁智能联合清华大学、OpenBMB 开源社区正式发布并开源 BitCPM-CANN 三值大模型系列。作为中国首个完全基于华为昇腾算力平台实现端到端训练并开源的三值(1.58-bit)大模型,它用不到传统方案六分之一的显存,实现了接近全精度模型的智能水平。这一突破在 5 月 23 日的华为鲲鹏昇腾开发者大会上首次技术亮相后,迅速引发业界高度关注。

三值量化:大模型瘦身的极限操作

所谓「三值量化」,是指将模型权重压缩到仅有三个数值(-1、0、+1),相比传统的 BF16 全精度浮点表示,数据量呈指数级下降。面壁智能此次发布的 BitCPM-CANN 包含 0.5B、1B、3B、8B 四个尺寸,与同尺寸 MiniCPM- 4 全精度家族相比,推理阶段可释放约 6 倍显存红利。更令人振奋的是,模型能力保留率维持在 95.7% 至 97.2% 之间——这意味着压缩了 6 倍显存,但智能水平几乎没有打折。在 Transformer 层数、Attention 头数等维度上,BitCPM-CANN 仍然保持了与全精度模型对标的容量配置。

国产算力平台的里程碑

BitCPM-CANN 的技术意义远不止模型压缩本身。它针对华为昇腾 Ascend 系列芯片进行了深度适配,从训练框架到底层算子全部自研优化,实现了从传统 GPU 生态到国产芯片的完整迁移。在当前全球 AI 芯片供应格局不确定的大背景下,这一突破证明了国产 AI 芯片在训练端同样具备竞争力。8B 参数模型仅需不到 3GB 显存即可运行,而 600 亿参数大模型有望装入 8GB 内存的普通智能手机——这在一年前还停留在学术论文的构想阶段。

端侧 AI 的新范式

AI 资源之家认为,BitCPM-CANN 的发布标志着端侧 AI 进入了一个全新阶段。过去两年,行业的主旋律是「把模型做大」——千亿参数、万亿参数层出不穷,但伴随而来的是天文数字般的算力成本和功耗压力。三值量化和端侧部署代表了另一个方向:把模型做「小」、做「省」、做「快」。面壁智能此次采用 Apache 2.0 协议开源了全部四个档位模型,意味着全球开发者都可以自由使用和改进这些成果,端侧 AI 应用生态的构建将因此大大提速。结合华为手机等国产终端的庞大用户基数,一个不依赖云端、可在本地运行强大 AI 的智能终端时代,正从构想走向现实。

正文完
post-qrcode
 0
admin
版权声明:本站原创文章,由 admin 于2026-05-26发表,共计970字。
转载说明:除特殊说明外本站文章皆由CC-4.0协议发布,转载请注明出处。