阶跃星辰发布NextStep-1.1:自回归流匹配模型通过RL增强大幅提升图像生成质量

当国产大模型在年底轮番冲刺、热议不断时,阶跃星辰一度显得颇为安静。

Kimi凭借K2模型重获关注,智谱与MiniMax在发布新SOTA模型的同时推进IPO进程,DeepSeek也因新功能引发热议。相比之下,作为“六小龙”中坚持自研路线的选手,阶跃星辰近期的声量似乎有所减弱。

直到其最新图像模型 NextStep-1.1 的发布,打破了这份“安静”。

阶跃星辰发布NextStep-1.1:自回归流匹配模型通过RL增强大幅提升图像生成质量

NextStep-1.1

总体而言,此次开源的NextStep-1.1解决了前代模型NextStep-1中存在的可视化失败问题。通过扩展训练以及基于流的强化学习后训练范式,模型的图像生成质量得到了显著提升。

阶跃星辰发布NextStep-1.1:自回归流匹配模型通过RL增强大幅提升图像生成质量

与NextStep-1相比,NextStep-1.1的主要改进集中在两方面:

  • RL增强视觉保真度:通过强化学习显著改善了图像纹理,并大幅减少了视觉伪影,确保输出图像更加清晰、专业。
  • 提升技术稳定性:解决了自回归流匹配模型在强化学习训练过程中固有的数值不稳定性问题。

目前,NextStep-1.1的模型已在GitHub和Hugging Face平台开源,但相应的技术报告尚未发布。从已披露的信息看,1.1版本的方法论基础仍延续了NextStep-1论文中提出的自回归流匹配技术路线。

自回归流匹配的图像生成

NextStep-1 系列架构的核心在于 使用流匹配目标对连续图像Token进行直接、自回归建模。这种方法旨在取代传统的 “自回归模型+重型扩散模型”混合架构。NextStep-1通过逐图像块自回归生成,仅使用一个轻量级的流匹配头,避免了对计算密集型扩散模型的依赖。

具体来说,NextStep-1是一个拥有140亿参数的自回归模型。其核心架构由Transformer骨干网络、用于处理离散文本Token的标准语言建模头、用于处理连续图像Token的轻量级流匹配头,以及一个图像分词器组成。

阶跃星辰发布NextStep-1.1:自回归流匹配模型通过RL增强大幅提升图像生成质量

其中,NextStep-1采用因果Transformer来处理离散化后的文本与图像Token。在训练阶段,流匹配头基于模型输出的隐藏状态,预测从噪声样本到下一个目标图像块的连续流。在推理阶段,该机制使模型能够以迭代方式引导噪声,逐步生成下一个图像块,从而完成整幅图像的构建。

在文生图任务中,NextStep-1展现出了接近传统扩散模型的生成质量,并在图像编辑方面表现优异。然而,该模型在高维连续潜在空间下运行时,仍存在数值不稳定性问题,可能导致输出图像出现块状或网格状的伪影。

阶跃星辰发布NextStep-1.1:自回归流匹配模型通过RL增强大幅提升图像生成质量

最新的NextStep-1.1版本正是针对这一核心问题进行了优化与改进。

密集更新与行业竞速

事实上,NextStep-1.1的发布只是阶跃星辰近期密集更新节奏的一部分。自11月底以来,该公司已先后:

  • 开源主打安卓端本地部署与低门槛移动端智能体开发的GELab-Zero。
  • 开源在数学能力上表现突出的80亿参数推理模型PaCoRe。
  • 推出包含云端模型、GUI Agent的MCP协议及开源端侧模型Step-GUI Edge的Step-GUI套件,深化智能终端布局。

尽管如此,友商的动作同样引人注目。智谱与MiniMax在推进IPO进程的同时,分别发布了GLM-4.7和MiniMax M2.1模型;Kimi也先后接入微软Azure和亚马逊Bedrock平台,其开源推理模型Kimi K2 Thinking广受好评。

这些动态集中呈现,也反映了大模型竞争格局的演变。在技术层面,编程、智能体与多模态成为主战场,开源生态成为关键策略。在资本层面,头部玩家寻求通过IPO获得更大资本杠杆,以开启新一轮竞速。

曾经的大模型创业“六小龙”格局已发生实质性变化。目前,仍坚持预训练、自研通用大模型路线的创业公司主要剩下智谱、MiniMax、Kimi和阶跃星辰。他们下一阶段的竞速对手,将是资源更为雄厚的行业巨头。

无论格局如何变化,能否持续投入自研基础大模型、是否储备了充足的资源、以及能否构建可持续的商业化闭环,将成为所有大模型玩家在接下来竞争中无法回避的核心问题。

参考链接:
https://x.com/StepFun_ai/status/2003746642026185055


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/15425

(0)
上一篇 2025年12月27日 下午2:47
下一篇 2025年12月27日 下午9:22

相关推荐

  • Agent Infra:驾驭不确定性,开启智能体工程化落地新纪元

    毋庸置疑,2025年堪称「Agent元年」。 从年初到年末,Agent的热度持续攀升——从Manus到近期的豆包手机,Agent已成为全行业关注的焦点。回顾这一年,也是Agent从技术萌芽走向工程化落地的关键一年。 为此,量子位邀请到两位行业专家——Dify开源生态负责人郑立与腾讯云云原生产品副总经理于广游,共同探讨Agent落地过程中的挑战、机遇与未来。核…

    2025年12月23日
    43600
  • MiroThinker v1.5:30B小模型颠覆万亿参数Agent,交互深度成AI新范式

    30B的小模型,竟然在重量级Agent基准测试上,超越了万亿参数的Kimi K2T? MiroThinker v1.5的开源,似乎正在悄然改写行业长久以来对参数规模的迷信。这不仅仅是一次模型迭代,其背后以“交互深度”为核心的训练思想,可能正在定义Agent发展的新范式。 L3的影子 过去几年,AI性能的提升主要围绕两个轴心:数据规模与上下文长度。然而到了20…

    2026年1月8日
    38300
  • Cog-RAG:让RAG在检索前先思考,用双超图架构模拟人类认知过程

    Retrieval-Augmented Generation(RAG)已成为帮助大型语言模型保持信息“有根有据”的标准方法。其基本流程广为人知:将文档切分为片段,进行向量化嵌入,执行向量检索,最后将最匹配的前K个结果输入给大模型生成答案。 然而,这条标准流水线存在一些固有的局限性。 为什么多数 RAG 系统仍像支离破碎的记忆 图 1:图、超图与 Cog-RA…

    2026年2月23日
    41000
  • HermesAgent凭什么更胜一筹?四大进化算法协同,破解AI智能体Token黑洞难题

    HermesAgent 凭什么更胜一筹?四大进化算法协同,破解 AI 智能体 Token 黑洞难题(上) 近期,AI 智能体领域涌现出多个备受关注的项目,例如 OpenClaw、ClaudeCode、DeerFlow 等。在众多竞争者中,HermesAgent 脱颖而出。它究竟凭借什么优势实现超越? 一、OpenClaw 的确定性成果短板与 Token 黑洞…

    2026年4月10日
    46800
  • 解锁Agentic AI并行化:14个核心模式提升系统可靠性与性能

    构建高效的智能体(Agentic)系统,离不开扎实的软件工程实践。其核心在于设计能够协调运作、并行执行,并能与外部系统高效交互的组件。例如,推测执行(Speculative Execution) 通过预先处理可预测的请求来降低延迟;冗余执行(Redundant Execution) 则通过同时运行同一智能体的多个副本来避免单点故障,提升系统韧性。除此之外,还…

    2025年11月27日
    64100