当国产大模型在年底轮番冲刺、热议不断时,阶跃星辰一度显得颇为安静。
Kimi凭借K2模型重获关注,智谱与MiniMax在发布新SOTA模型的同时推进IPO进程,DeepSeek也因新功能引发热议。相比之下,作为“六小龙”中坚持自研路线的选手,阶跃星辰近期的声量似乎有所减弱。
直到其最新图像模型 NextStep-1.1 的发布,打破了这份“安静”。

NextStep-1.1
总体而言,此次开源的NextStep-1.1解决了前代模型NextStep-1中存在的可视化失败问题。通过扩展训练以及基于流的强化学习后训练范式,模型的图像生成质量得到了显著提升。

与NextStep-1相比,NextStep-1.1的主要改进集中在两方面:
- RL增强视觉保真度:通过强化学习显著改善了图像纹理,并大幅减少了视觉伪影,确保输出图像更加清晰、专业。
- 提升技术稳定性:解决了自回归流匹配模型在强化学习训练过程中固有的数值不稳定性问题。
目前,NextStep-1.1的模型已在GitHub和Hugging Face平台开源,但相应的技术报告尚未发布。从已披露的信息看,1.1版本的方法论基础仍延续了NextStep-1论文中提出的自回归流匹配技术路线。
自回归流匹配的图像生成
NextStep-1 系列架构的核心在于 使用流匹配目标对连续图像Token进行直接、自回归建模。这种方法旨在取代传统的 “自回归模型+重型扩散模型”混合架构。NextStep-1通过逐图像块自回归生成,仅使用一个轻量级的流匹配头,避免了对计算密集型扩散模型的依赖。
具体来说,NextStep-1是一个拥有140亿参数的自回归模型。其核心架构由Transformer骨干网络、用于处理离散文本Token的标准语言建模头、用于处理连续图像Token的轻量级流匹配头,以及一个图像分词器组成。

其中,NextStep-1采用因果Transformer来处理离散化后的文本与图像Token。在训练阶段,流匹配头基于模型输出的隐藏状态,预测从噪声样本到下一个目标图像块的连续流。在推理阶段,该机制使模型能够以迭代方式引导噪声,逐步生成下一个图像块,从而完成整幅图像的构建。
在文生图任务中,NextStep-1展现出了接近传统扩散模型的生成质量,并在图像编辑方面表现优异。然而,该模型在高维连续潜在空间下运行时,仍存在数值不稳定性问题,可能导致输出图像出现块状或网格状的伪影。

最新的NextStep-1.1版本正是针对这一核心问题进行了优化与改进。
密集更新与行业竞速
事实上,NextStep-1.1的发布只是阶跃星辰近期密集更新节奏的一部分。自11月底以来,该公司已先后:
- 开源主打安卓端本地部署与低门槛移动端智能体开发的GELab-Zero。
- 开源在数学能力上表现突出的80亿参数推理模型PaCoRe。
- 推出包含云端模型、GUI Agent的MCP协议及开源端侧模型Step-GUI Edge的Step-GUI套件,深化智能终端布局。
尽管如此,友商的动作同样引人注目。智谱与MiniMax在推进IPO进程的同时,分别发布了GLM-4.7和MiniMax M2.1模型;Kimi也先后接入微软Azure和亚马逊Bedrock平台,其开源推理模型Kimi K2 Thinking广受好评。
这些动态集中呈现,也反映了大模型竞争格局的演变。在技术层面,编程、智能体与多模态成为主战场,开源生态成为关键策略。在资本层面,头部玩家寻求通过IPO获得更大资本杠杆,以开启新一轮竞速。
曾经的大模型创业“六小龙”格局已发生实质性变化。目前,仍坚持预训练、自研通用大模型路线的创业公司主要剩下智谱、MiniMax、Kimi和阶跃星辰。他们下一阶段的竞速对手,将是资源更为雄厚的行业巨头。
无论格局如何变化,能否持续投入自研基础大模型、是否储备了充足的资源、以及能否构建可持续的商业化闭环,将成为所有大模型玩家在接下来竞争中无法回避的核心问题。
参考链接:
https://x.com/StepFun_ai/status/2003746642026185055
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/15425
