字节提出视觉生成第三种路线挑战扩散与自回归

（AI 资源之家讯）5 月 13 日，字节跳动商业化技术团队发布了一项突破性研究——生成精炼网络（GRN），提出了视觉生成的第三种路线。不同于主流的扩散模型和近来大火的自回归模型，GRN 让 AI 像人类一样 "边画边改"，不仅可以实时修改生成过程，还能根据画面复杂度智能分配计算步骤，在多项基准测试中刷新纪录。

## 从 "两步走" 到 "一口气"

当前视觉生成的主流范式是 "两步走"：扩散模型先加噪再逐步去噪，自回归模型逐 token 预测再解码生成。两种方式都有明显缺陷——扩散模型无法在生成过程中修改，自回归模型一旦早期 token 出错就只能将错就错。GRN 的核心创新在于引入了全局精炼机制，让模型像人类画家一样可以在生成过程中随时回头修改不满意的部分。

## 智能计算分配

GRN 的另一个关键创新是根据画面复杂度智能分配计算步骤。简单区域用少量步骤即可完成，复杂区域则投入更多计算资源。这种自适应策略使 GRN 在保持生成质量的同时大幅降低了计算成本。相比固定步数的扩散模型和固定 token 数的自回归模型，GRN 的效率优势在复杂场景中尤为明显。

## 视觉生成格局的变数

字节跳动与加州理工、斯坦福联手打造的 GRN 架构，为视觉生成领域注入了新的变数。此前扩散模型和自回归模型的对决已持续多年，GRN 的出现提供了第三种可能性。如果 GRN 在视频生成等大规模应用场景中验证了其效率和质量优势，视觉生成的技术格局可能被重新定义。

正文完

发表至： AI大模型

2026年5月16日

0

转载说明：除特殊说明外本站文章皆由CC-4.0协议发布，转载请注明出处。

Anthropic发布NLA技术破解AI黑箱

13人团队干翻Transformer！SSA新架构算力暴减千倍，AI大模型迎来算力革命

DeepSeek 4 Flash本地推理引擎开源

中科院重磅发布「磐石100」模型体系：八大科学大模型亮相，AI驱动科研范式革命

Ilya出庭作证持有70亿美元OpenAI股权曝光

字节提出视觉生成第三种路线挑战扩散与自回归

苹果iOS 27全面转向AI：Siri独立App对标ChatGPT 苹果智能生态迎来最大重构

中国AI企业注册量首破70万产业加速扩张

企业将token消耗纳入绩效考核引发管理困境

福布斯中国AI科技企业TOP 50重磅发布：具身智能与大模型成最强赛道

GAITC 2026杭州落幕全球AI最强大脑齐聚具身智能与大模型成最热议题

字节提出视觉生成第三种路线挑战扩散与自回归

苹果iOS 27全面转向AI：Siri独立App对标ChatGPT 苹果智能生态迎来最大重构

中国AI企业注册量首破70万产业加速扩张

企业将token消耗纳入绩效考核引发管理困境

福布斯中国AI科技企业TOP 50重磅发布：具身智能与大模型成最强赛道

GAITC 2026杭州落幕 全球AI最强大脑齐聚 具身智能与大模型成最热议题

GAITC 2026杭州落幕全球AI最强大脑齐聚具身智能与大模型成最热议题