阶跃星辰Step-3.5-Flash:300tps极速推理,Agent时代的新答案

核心结论:速度是Agent时代的关键竞争力

模型背景:

阶跃星辰在去年7月参与国内大模型评测后,一度沉寂。这并非停滞,而是潜心研发。如今,其全新力作Step-3.5-Flash正式发布,集中体现了团队对Agent(智能体)时代模型需求的思考。

在核心能力上,该模型实现了显著跨越:其智力水平已从落后梯队跃升至第二梯队,中位表现与体量更大的DeepSeek V3.2持平,足以胜任Agent驱动任务。而其最突出的亮点在于极致的推理速度:当国内模型50 TPS(每秒生成Token数)成为常态、100 TPS需要“Turbo”版本时,Step-3.5-Flash的平均速度接近200 TPS,峰值甚至可达300 TPS。这一速度优势如此耀眼,以至于其平均33K的输出长度都显得可以接受。

阶跃星辰的观点是:在Agent时代,模型并非越大越好。“短小精悍、以快制胜”成为新策略——借助完善的Agent工具链快速试错,最终以任务完成效果说话。Step-3.5-Flash正是这一理念的实践成果。

逻辑能力评测:

阶跃星辰Step-3.5-Flash:300tps极速推理,Agent时代的新答案

注1:上表为突出对比关系,仅展示部分可对照模型,非完整排名。
注2:题目及测试方法详见:大语言模型逻辑能力横评 26-01 月榜(新增#56题)。
*注3:完整榜单更新于 https://llm2014.github.io/llm_benchmark/

Step-3.5-Flash(3.5版)相比前代Step-3进步巨大。下文将主要对比Step-3与DeepSeek V3.2(DS3.2)。

主要改进:

  • 归纳洞察:归纳类问题是前代的“智力盲区”,其倾向于暴力穷举寻找规律。而3.5版则展现出更聪明的方法论:它会为不同的可能性分配多达4K的Token预算进行系统性实验,且不会在未得出结论前轻易放弃某个方向。在此类问题上,3.5版表现与DS3.2基本相当,部分甚至超出。
  • 指令遵循:此项改进有限。3.5版胜在表现更稳定,在多轮测试中一致性更好,但其能力上限提升不明显。尤其在处理需要间接理解的复杂指令时,其表现与前代相似,下限略有提高,但上限基本一致。相比之下,DS3.2在此方面显著更强,在3.5版可能丢分的指令类题目上,DS3.2通常能稳定满分。
  • 数学计算:计算能力与指令遵循情况类似,3.5版的主要优势在于稳定性。对于稍复杂的计算,前代模型会因误差放大导致结果大面积错误。3.5版在误差控制上仍有缺陷,计算步骤越多,错误率越高。不过,DS3.2在此项上并未比3.5版好太多,二者下限相当。
  • 上下文幻觉:前代的幻觉问题非常严重,几乎无法完成相关任务。3.5版在此方面有所进步,对于信息提取类问题,有时能以较高准确度完成。但其下限仍然很低,多数时候准确率不高,且随着需提取信息量的增加,成功率会快速下降。新增的#56题要求记忆并反复提取信息超过50次,3.5版的准确率已降至与Gemini 3 Flash、Sonnet 4.5在非推理模式下相当的水平。

现存不足:

  • 多轮对话能力:在标准猜词测试中,3.5版能始终保持对初始设定的记忆,但容易过早陷入局部细节的纠缠。例如,当目标词是“广告牌”,且模型已通过二分法正确锁定其为“公共展示物体”后,它会开始盲目地在“交通标识”子类中遍历。在编程问题上,这一缺陷表现为需要频繁的人工干预来纠正方向,其自主定位和修正逻辑问题的能力较弱。
  • 输出效率:如前所述,3.5版的Token消耗量比前代大幅增加了103%。在一些长链条推理问题上尤为明显,其思考过程所用Token常是前代的一倍以上,但最终正确率却只有微小提升或没有提升。其思维链(CoT)中存在大量无效的反思,往往答案已在推理中段明确,模型仍会花费数千Token进行冗余确认。所幸3.5版的Token单价较低,即便如此,其整体仍具备不错的性价比。

总结:

阶跃星辰如同一位潜心研究的学者,不时为市场带来独特的产品,从当年的万亿参数Step-2,到如今的300 TPS极速Step-3.5-Flash,皆是如此。

如何高效驱动Agent是一道开放命题,各大模型厂商各有见解。阶跃星辰给出了自己的答案——极致的推理速度,并以此赢得了继续参与大模型竞赛的重要筹码。一个兼具速度、能力与成本优势的开源模型,其吸引力不言而喻。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/19944

(0)
上一篇 2026年2月2日 下午2:35
下一篇 2026年2月2日 下午11:45

相关推荐

  • FysicsWorld:全球首个物理世界全模态评测基准,开启AI感知真实环境新纪元

    近年来,多模态大语言模型正经历快速的范式转变,研究焦点转向构建能够统一处理和生成跨语言、视觉、音频等多种感官模态信息的全模态大模型。这类模型的目标不仅是感知全模态内容,更要将视觉理解与生成整合进统一架构,实现模态间的协同交互。 这一转变的驱动力源于真实物理世界的复杂性。人类自文明诞生以来,正是通过对视觉线索、听觉信号、空间动态等复杂多模态信息的持续观察、分析…

    2025年12月28日
    27800
  • AI Agent独立复现顶会论文能力大揭秘:OpenAI PaperBench基准测试深度解析

    当我们探讨AI的边界时,一个颇具挑战性的问题浮现出来:AI能否像人类研究者一样,独立阅读一篇前沿论文,理解其核心思想,从零编写代码,并成功复现实验结果? OpenAI最新发布的PaperBench基准测试,正是为回答这个问题而设计的。这项研究不仅展现了当前AI Agent的真实能力边界,更为我们理解“AI辅助科研”这一命题提供了量化的参照系。 为什么需要Pa…

    2025年11月6日
    15600
  • MiniMax-M2实测揭秘:轻量级MoE架构如何实现性能飙升与成本锐减

    Minimax近期发布了MiniMax-M2新版本,这是一款轻量、快速且极具成本效益的MoE模型(230B总参数,10B激活参数),专为Max级编码与智能体打造。相比上一代MiniMax-M1,新版本在多个维度实现了性能优化。我们对这两个版本进行了全面的对比评测,测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。 MiniMax-M2版本…

    2025年11月4日
    14100
  • Agent能力评测全景图:从多轮对话到数据分析,解锁智能体真实水平

    大型语言模型的进化速度令人惊叹。我们见证了它们从简单的文本生成工具,逐步演变为能够感知、推理、规划并调用外部工具的智能体(Agent)。这种质的飞跃让LLM开始真正走向复杂任务的解决——无论是自动化办公流程、辅助数据分析,还是多轮对话中的智能决策。 然而,一个关键问题随之浮现:如何科学、系统地评测这些Agent的真实能力? 这并非简单的准确率计算。Agent…

    2025年11月8日
    12400
  • GPT-5.1-high深度评测:推理能力飙升10%,但成本暴涨5.6倍,性价比失衡引争议

    OpenAI近期发布了新版本GPT-5.1,其中GPT-5.1-high作为高性能思考模式(thinking)的旗舰产品,主打在复杂任务上的深度推理能力。官方强调该模型“在复杂任务上思考更久”,可提供更高质量的答案。我们对GPT-5.1-high与此前的GPT-5进行了全面对比评测,测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。 GP…

    2025年11月27日
    13800