阶跃星辰发布NextStep-1.1:自回归流匹配模型通过RL增强大幅提升图像生成质量

当国产大模型在年底轮番冲刺、热议不断时,阶跃星辰一度显得颇为安静。

Kimi凭借K2模型重获关注,智谱与MiniMax在发布新SOTA模型的同时推进IPO进程,DeepSeek也因新功能引发热议。相比之下,作为“六小龙”中坚持自研路线的选手,阶跃星辰近期的声量似乎有所减弱。

直到其最新图像模型 NextStep-1.1 的发布,打破了这份“安静”。

阶跃星辰发布NextStep-1.1:自回归流匹配模型通过RL增强大幅提升图像生成质量

NextStep-1.1

总体而言,此次开源的NextStep-1.1解决了前代模型NextStep-1中存在的可视化失败问题。通过扩展训练以及基于流的强化学习后训练范式,模型的图像生成质量得到了显著提升。

阶跃星辰发布NextStep-1.1:自回归流匹配模型通过RL增强大幅提升图像生成质量

与NextStep-1相比,NextStep-1.1的主要改进集中在两方面:

  • RL增强视觉保真度:通过强化学习显著改善了图像纹理,并大幅减少了视觉伪影,确保输出图像更加清晰、专业。
  • 提升技术稳定性:解决了自回归流匹配模型在强化学习训练过程中固有的数值不稳定性问题。

目前,NextStep-1.1的模型已在GitHub和Hugging Face平台开源,但相应的技术报告尚未发布。从已披露的信息看,1.1版本的方法论基础仍延续了NextStep-1论文中提出的自回归流匹配技术路线。

自回归流匹配的图像生成

NextStep-1 系列架构的核心在于 使用流匹配目标对连续图像Token进行直接、自回归建模。这种方法旨在取代传统的 “自回归模型+重型扩散模型”混合架构。NextStep-1通过逐图像块自回归生成,仅使用一个轻量级的流匹配头,避免了对计算密集型扩散模型的依赖。

具体来说,NextStep-1是一个拥有140亿参数的自回归模型。其核心架构由Transformer骨干网络、用于处理离散文本Token的标准语言建模头、用于处理连续图像Token的轻量级流匹配头,以及一个图像分词器组成。

阶跃星辰发布NextStep-1.1:自回归流匹配模型通过RL增强大幅提升图像生成质量

其中,NextStep-1采用因果Transformer来处理离散化后的文本与图像Token。在训练阶段,流匹配头基于模型输出的隐藏状态,预测从噪声样本到下一个目标图像块的连续流。在推理阶段,该机制使模型能够以迭代方式引导噪声,逐步生成下一个图像块,从而完成整幅图像的构建。

在文生图任务中,NextStep-1展现出了接近传统扩散模型的生成质量,并在图像编辑方面表现优异。然而,该模型在高维连续潜在空间下运行时,仍存在数值不稳定性问题,可能导致输出图像出现块状或网格状的伪影。

阶跃星辰发布NextStep-1.1:自回归流匹配模型通过RL增强大幅提升图像生成质量

最新的NextStep-1.1版本正是针对这一核心问题进行了优化与改进。

密集更新与行业竞速

事实上,NextStep-1.1的发布只是阶跃星辰近期密集更新节奏的一部分。自11月底以来,该公司已先后:

  • 开源主打安卓端本地部署与低门槛移动端智能体开发的GELab-Zero。
  • 开源在数学能力上表现突出的80亿参数推理模型PaCoRe。
  • 推出包含云端模型、GUI Agent的MCP协议及开源端侧模型Step-GUI Edge的Step-GUI套件,深化智能终端布局。

尽管如此,友商的动作同样引人注目。智谱与MiniMax在推进IPO进程的同时,分别发布了GLM-4.7和MiniMax M2.1模型;Kimi也先后接入微软Azure和亚马逊Bedrock平台,其开源推理模型Kimi K2 Thinking广受好评。

这些动态集中呈现,也反映了大模型竞争格局的演变。在技术层面,编程、智能体与多模态成为主战场,开源生态成为关键策略。在资本层面,头部玩家寻求通过IPO获得更大资本杠杆,以开启新一轮竞速。

曾经的大模型创业“六小龙”格局已发生实质性变化。目前,仍坚持预训练、自研通用大模型路线的创业公司主要剩下智谱、MiniMax、Kimi和阶跃星辰。他们下一阶段的竞速对手,将是资源更为雄厚的行业巨头。

无论格局如何变化,能否持续投入自研基础大模型、是否储备了充足的资源、以及能否构建可持续的商业化闭环,将成为所有大模型玩家在接下来竞争中无法回避的核心问题。

参考链接:
https://x.com/StepFun_ai/status/2003746642026185055


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/15425

(0)
上一篇 2025年12月27日 下午2:47
下一篇 2025年12月27日 下午9:22

相关推荐

  • Agent Infra:驾驭不确定性,开启智能体工程化落地新纪元

    毋庸置疑,2025年堪称「Agent元年」。 从年初到年末,Agent的热度持续攀升——从Manus到近期的豆包手机,Agent已成为全行业关注的焦点。回顾这一年,也是Agent从技术萌芽走向工程化落地的关键一年。 为此,量子位邀请到两位行业专家——Dify开源生态负责人郑立与腾讯云云原生产品副总经理于广游,共同探讨Agent落地过程中的挑战、机遇与未来。核…

    2025年12月23日
    13000
  • 微软MIRA:基于4540亿医疗时序数据的通用基座模型,突破不规则采样难题

    MIRA团队 投稿 在大模型(LLM)与计算机视觉(CV)争相重塑医疗行业的今天,我们似乎已经拥有了功能强大的数字助手:它们能够像放射科医生一样精准解读CT影像,也能像内科医生一样撰写病历摘要。 但医疗AI世界中,仍有一块关键拼图缺失——那就是理解“生命动态演变”的能力。 △ 图1.不同模态的医疗数据 正如图1所示,如果将患者的生命历程比作一部电影,现有的A…

    2026年1月24日
    2200
  • 揭秘NVIDIA GT200微架构:通过微基准测试发现未公开的存储层级与同步机制

    本文不仅验证了CUDA编程指南[1]中记录的部分硬件特性,还揭示了一系列未在文档中公开的硬件结构,例如_控制流机制、缓存与TLB层级_。此外,在某些场景下,我们的发现与文档描述的特性存在差异(例如纹理缓存和常量缓存的行为)。 本文的核心价值在于介绍了一套用于GPU架构分析的方法论。我们相信,这些方法对于分析其他类型的GPU架构以及验证类GPU性能模型都将有所…

    2025年12月20日
    21600
  • GraphMind:构建具备深度推理能力的全栈Agentic RAG架构

    GraphMind:构建具备深度推理能力的全栈Agentic RAG架构 本文介绍一套可用于生产环境的完整架构,该架构利用GraphRAG流水线将复杂的非结构化数据转化为高准确度、可检索的知识。我们将阐述Chonkie如何通过语义切分保留上下文,Neo4j如何同时存储向量和图表示以实现双重检索,以及LiteLLM如何编排推理流程。同时,文章将解释系统如何通过…

    2026年1月1日
    10800
  • 17岁高中生借力AI攻克数论难题,陶哲轩、Jeff Dean盛赞,数学研究进入人机协作新时代

    我的 17 岁,是坐在教室里苦哈哈地刷数学卷子;而这个名叫 Enrique Barschkis 的高中生,利用课间休息时间,成功解决了困扰数学家多年的埃尔德什第 347 号问题。 这一成就不仅在社交平台 X 上引发热议,更得到了谷歌首席科学家 Jeff Dean 的盛赞。 什么是埃尔德什第 347 号问题? 埃尔德什第 347 号问题,最初由埃尔德什和格雷厄…

    2026年1月25日
    5400