核心结论:速度是Agent时代的关键竞争力
模型背景:
阶跃星辰在去年7月参与国内大模型评测后,一度沉寂。这并非停滞,而是潜心研发。如今,其全新力作Step-3.5-Flash正式发布,集中体现了团队对Agent(智能体)时代模型需求的思考。
在核心能力上,该模型实现了显著跨越:其智力水平已从落后梯队跃升至第二梯队,中位表现与体量更大的DeepSeek V3.2持平,足以胜任Agent驱动任务。而其最突出的亮点在于极致的推理速度:当国内模型50 TPS(每秒生成Token数)成为常态、100 TPS需要“Turbo”版本时,Step-3.5-Flash的平均速度接近200 TPS,峰值甚至可达300 TPS。这一速度优势如此耀眼,以至于其平均33K的输出长度都显得可以接受。
阶跃星辰的观点是:在Agent时代,模型并非越大越好。“短小精悍、以快制胜”成为新策略——借助完善的Agent工具链快速试错,最终以任务完成效果说话。Step-3.5-Flash正是这一理念的实践成果。
逻辑能力评测:

注1:上表为突出对比关系,仅展示部分可对照模型,非完整排名。
注2:题目及测试方法详见:大语言模型逻辑能力横评 26-01 月榜(新增#56题)。
*注3:完整榜单更新于 https://llm2014.github.io/llm_benchmark/
Step-3.5-Flash(3.5版)相比前代Step-3进步巨大。下文将主要对比Step-3与DeepSeek V3.2(DS3.2)。
主要改进:
- 归纳洞察:归纳类问题是前代的“智力盲区”,其倾向于暴力穷举寻找规律。而3.5版则展现出更聪明的方法论:它会为不同的可能性分配多达4K的Token预算进行系统性实验,且不会在未得出结论前轻易放弃某个方向。在此类问题上,3.5版表现与DS3.2基本相当,部分甚至超出。
- 指令遵循:此项改进有限。3.5版胜在表现更稳定,在多轮测试中一致性更好,但其能力上限提升不明显。尤其在处理需要间接理解的复杂指令时,其表现与前代相似,下限略有提高,但上限基本一致。相比之下,DS3.2在此方面显著更强,在3.5版可能丢分的指令类题目上,DS3.2通常能稳定满分。
- 数学计算:计算能力与指令遵循情况类似,3.5版的主要优势在于稳定性。对于稍复杂的计算,前代模型会因误差放大导致结果大面积错误。3.5版在误差控制上仍有缺陷,计算步骤越多,错误率越高。不过,DS3.2在此项上并未比3.5版好太多,二者下限相当。
- 上下文幻觉:前代的幻觉问题非常严重,几乎无法完成相关任务。3.5版在此方面有所进步,对于信息提取类问题,有时能以较高准确度完成。但其下限仍然很低,多数时候准确率不高,且随着需提取信息量的增加,成功率会快速下降。新增的#56题要求记忆并反复提取信息超过50次,3.5版的准确率已降至与Gemini 3 Flash、Sonnet 4.5在非推理模式下相当的水平。
现存不足:
- 多轮对话能力:在标准猜词测试中,3.5版能始终保持对初始设定的记忆,但容易过早陷入局部细节的纠缠。例如,当目标词是“广告牌”,且模型已通过二分法正确锁定其为“公共展示物体”后,它会开始盲目地在“交通标识”子类中遍历。在编程问题上,这一缺陷表现为需要频繁的人工干预来纠正方向,其自主定位和修正逻辑问题的能力较弱。
- 输出效率:如前所述,3.5版的Token消耗量比前代大幅增加了103%。在一些长链条推理问题上尤为明显,其思考过程所用Token常是前代的一倍以上,但最终正确率却只有微小提升或没有提升。其思维链(CoT)中存在大量无效的反思,往往答案已在推理中段明确,模型仍会花费数千Token进行冗余确认。所幸3.5版的Token单价较低,即便如此,其整体仍具备不错的性价比。
总结:
阶跃星辰如同一位潜心研究的学者,不时为市场带来独特的产品,从当年的万亿参数Step-2,到如今的300 TPS极速Step-3.5-Flash,皆是如此。
如何高效驱动Agent是一道开放命题,各大模型厂商各有见解。阶跃星辰给出了自己的答案——极致的推理速度,并以此赢得了继续参与大模型竞赛的重要筹码。一个兼具速度、能力与成本优势的开源模型,其吸引力不言而喻。
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/19944
