阶跃星辰发布NextStep-1.1:自回归流匹配模型通过RL增强大幅提升图像生成质量

当国产大模型在年底轮番冲刺、热议不断时,阶跃星辰一度显得颇为安静。

Kimi凭借K2模型重获关注,智谱与MiniMax在发布新SOTA模型的同时推进IPO进程,DeepSeek也因新功能引发热议。相比之下,作为“六小龙”中坚持自研路线的选手,阶跃星辰近期的声量似乎有所减弱。

直到其最新图像模型 NextStep-1.1 的发布,打破了这份“安静”。

阶跃星辰发布NextStep-1.1:自回归流匹配模型通过RL增强大幅提升图像生成质量

NextStep-1.1

总体而言,此次开源的NextStep-1.1解决了前代模型NextStep-1中存在的可视化失败问题。通过扩展训练以及基于流的强化学习后训练范式,模型的图像生成质量得到了显著提升。

阶跃星辰发布NextStep-1.1:自回归流匹配模型通过RL增强大幅提升图像生成质量

与NextStep-1相比,NextStep-1.1的主要改进集中在两方面:

  • RL增强视觉保真度:通过强化学习显著改善了图像纹理,并大幅减少了视觉伪影,确保输出图像更加清晰、专业。
  • 提升技术稳定性:解决了自回归流匹配模型在强化学习训练过程中固有的数值不稳定性问题。

目前,NextStep-1.1的模型已在GitHub和Hugging Face平台开源,但相应的技术报告尚未发布。从已披露的信息看,1.1版本的方法论基础仍延续了NextStep-1论文中提出的自回归流匹配技术路线。

自回归流匹配的图像生成

NextStep-1 系列架构的核心在于 使用流匹配目标对连续图像Token进行直接、自回归建模。这种方法旨在取代传统的 “自回归模型+重型扩散模型”混合架构。NextStep-1通过逐图像块自回归生成,仅使用一个轻量级的流匹配头,避免了对计算密集型扩散模型的依赖。

具体来说,NextStep-1是一个拥有140亿参数的自回归模型。其核心架构由Transformer骨干网络、用于处理离散文本Token的标准语言建模头、用于处理连续图像Token的轻量级流匹配头,以及一个图像分词器组成。

阶跃星辰发布NextStep-1.1:自回归流匹配模型通过RL增强大幅提升图像生成质量

其中,NextStep-1采用因果Transformer来处理离散化后的文本与图像Token。在训练阶段,流匹配头基于模型输出的隐藏状态,预测从噪声样本到下一个目标图像块的连续流。在推理阶段,该机制使模型能够以迭代方式引导噪声,逐步生成下一个图像块,从而完成整幅图像的构建。

在文生图任务中,NextStep-1展现出了接近传统扩散模型的生成质量,并在图像编辑方面表现优异。然而,该模型在高维连续潜在空间下运行时,仍存在数值不稳定性问题,可能导致输出图像出现块状或网格状的伪影。

阶跃星辰发布NextStep-1.1:自回归流匹配模型通过RL增强大幅提升图像生成质量

最新的NextStep-1.1版本正是针对这一核心问题进行了优化与改进。

密集更新与行业竞速

事实上,NextStep-1.1的发布只是阶跃星辰近期密集更新节奏的一部分。自11月底以来,该公司已先后:

  • 开源主打安卓端本地部署与低门槛移动端智能体开发的GELab-Zero。
  • 开源在数学能力上表现突出的80亿参数推理模型PaCoRe。
  • 推出包含云端模型、GUI Agent的MCP协议及开源端侧模型Step-GUI Edge的Step-GUI套件,深化智能终端布局。

尽管如此,友商的动作同样引人注目。智谱与MiniMax在推进IPO进程的同时,分别发布了GLM-4.7和MiniMax M2.1模型;Kimi也先后接入微软Azure和亚马逊Bedrock平台,其开源推理模型Kimi K2 Thinking广受好评。

这些动态集中呈现,也反映了大模型竞争格局的演变。在技术层面,编程、智能体与多模态成为主战场,开源生态成为关键策略。在资本层面,头部玩家寻求通过IPO获得更大资本杠杆,以开启新一轮竞速。

曾经的大模型创业“六小龙”格局已发生实质性变化。目前,仍坚持预训练、自研通用大模型路线的创业公司主要剩下智谱、MiniMax、Kimi和阶跃星辰。他们下一阶段的竞速对手,将是资源更为雄厚的行业巨头。

无论格局如何变化,能否持续投入自研基础大模型、是否储备了充足的资源、以及能否构建可持续的商业化闭环,将成为所有大模型玩家在接下来竞争中无法回避的核心问题。

参考链接:
https://x.com/StepFun_ai/status/2003746642026185055


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/15425

(0)
上一篇 2025年12月27日 下午2:47
下一篇 2025年12月27日 下午9:22

相关推荐

  • 探秘AI智能体设计模式:从ReAct到LATS,深入剖析智能体的“大脑”构建术

    AI智能体的设计模式围绕效率与灵活性展开:基础模式ReAct通过”思考-行动-观察”循环实现环境交互;Plan & Execute、ReWOO和LLM Compiler通过预规划和并行执行优化效率;反思架构赋予智能体自我改进能力;LATS实现多路径智能决策。这些模式为不同应用场景提供了关键设计思路。

    2025年10月14日
    80500
  • 清华UniCardio:多模态扩散模型革新心血管监测,实现实时全面信号生成

    可穿戴健康监测信号由于监测难度高、观测噪声大、易受干扰,高质量的心血管信号仍难以长期便捷获取,这是智能健康监测系统始终面临的现实困境。近日,清华朱军等团队提出了一种统一的多模态生成框架 UniCardio,在单扩散模型中同时实现了心血管信号的去噪、插补与跨模态生成,为真实场景下的人工智能辅助医疗提供了一种新的解决思路。相关工作《Versatile Cardi…

    2025年12月30日
    52000
  • 揭秘70M小模型层数玄学:隐藏维度≥512是关键,32层成最佳配置

    知名开源项目OpenEvolve的作者Asankhaya Sharma在一篇长文中,揭示了关于70M参数小模型的几个关键发现: 首先,模型的具体架构选择其重要性被高估,相比之下,模型的“形状”——即深度与宽度的配比——更为关键。 其次,小模型的层数选择存在明显的“玄学”现象:12层、32层和64层的模型表现优异,而16层、24层和48层的模型则效果不佳,其中…

    2026年1月11日
    30100
  • 手机远程操控Claude Code:三种方案助你随时随地监控AI智能体工作

    手机上远程操控 Claude Code:三种方案助你随时随地监控 AI 智能体 我曾在闲置的旧 Mac 电脑上部署了 OpenClaw,并将其重置为专用的运行环境。 然而,我的主力工作电脑并未安装 OpenClaw,因为大部分工作流都基于其上的 Claude Code 构建。在 OpenClaw 出现之前,主力机已积累了大量的个人开发环境、自定义 Skill…

    2026年4月16日
    46800
  • 如何使用 Knowledge Graph 和 LLM 构建构建问答系统

    基于模拟 FAQ 文档构建的知识图谱 本文将介绍一个基于知识图谱(使用上一篇文章介绍的方法构建)和大型语言模型(LLM,此处使用 Gemma3-4b-it-qat)的简易问答系统。选择 Gemma3-4b 是因为其模型尺寸适中,可在普通笔记本电脑上运行,且具备出色的指令遵循能力。 我们将以一个虚构智能手机产品的 FAQ 文本为例,复用上一篇文章的代码为其构建…

    2025年11月13日
    30600