(AI 资源之家讯)5 月 13 日,字节跳动商业化技术团队发布了一项突破性研究——生成精炼网络(GRN),提出了视觉生成的第三种路线。不同于主流的扩散模型和近来大火的自回归模型,GRN 让 AI 像人类一样 "边画边改",不仅可以实时修改生成过程,还能根据画面复杂度智能分配计算步骤,在多项基准测试中刷新纪录。
## 从 "两步走" 到 "一口气"
当前视觉生成的主流范式是 "两步走":扩散模型先加噪再逐步去噪,自回归模型逐 token 预测再解码生成。两种方式都有明显缺陷——扩散模型无法在生成过程中修改,自回归模型一旦早期 token 出错就只能将错就错。GRN 的核心创新在于引入了全局精炼机制,让模型像人类画家一样可以在生成过程中随时回头修改不满意的部分。
## 智能计算分配
GRN 的另一个关键创新是根据画面复杂度智能分配计算步骤。简单区域用少量步骤即可完成,复杂区域则投入更多计算资源。这种自适应策略使 GRN 在保持生成质量的同时大幅降低了计算成本。相比固定步数的扩散模型和固定 token 数的自回归模型,GRN 的效率优势在复杂场景中尤为明显。
## 视觉生成格局的变数
字节跳动与加州理工、斯坦福联手打造的 GRN 架构,为视觉生成领域注入了新的变数。此前扩散模型和自回归模型的对决已持续多年,GRN 的出现提供了第三种可能性。如果 GRN 在视频生成等大规模应用场景中验证了其效率和质量优势,视觉生成的技术格局可能被重新定义。
正文完