阶跃星辰Step-3.5-Flash：300tps极速推理，Agent时代的新答案

15小时前 • 大模型评测 • 阅读 4

核心结论：速度是Agent时代的关键竞争力

模型背景：

阶跃星辰在去年7月参与国内大模型评测后，一度沉寂。这并非停滞，而是潜心研发。如今，其全新力作Step-3.5-Flash正式发布，集中体现了团队对Agent（智能体）时代模型需求的思考。

在核心能力上，该模型实现了显著跨越：其智力水平已从落后梯队跃升至第二梯队，中位表现与体量更大的DeepSeek V3.2持平，足以胜任Agent驱动任务。而其最突出的亮点在于极致的推理速度：当国内模型50 TPS（每秒生成Token数）成为常态、100 TPS需要“Turbo”版本时，Step-3.5-Flash的平均速度接近200 TPS，峰值甚至可达300 TPS。这一速度优势如此耀眼，以至于其平均33K的输出长度都显得可以接受。

阶跃星辰的观点是：在Agent时代，模型并非越大越好。“短小精悍、以快制胜”成为新策略——借助完善的Agent工具链快速试错，最终以任务完成效果说话。Step-3.5-Flash正是这一理念的实践成果。

逻辑能力评测：

注1：上表为突出对比关系，仅展示部分可对照模型，非完整排名。
注2：题目及测试方法详见：大语言模型逻辑能力横评 26-01 月榜（新增#56题）。
*注3：完整榜单更新于 https://llm2014.github.io/llm_benchmark/

Step-3.5-Flash（3.5版）相比前代Step-3进步巨大。下文将主要对比Step-3与DeepSeek V3.2（DS3.2）。

主要改进：

归纳洞察：归纳类问题是前代的“智力盲区”，其倾向于暴力穷举寻找规律。而3.5版则展现出更聪明的方法论：它会为不同的可能性分配多达4K的Token预算进行系统性实验，且不会在未得出结论前轻易放弃某个方向。在此类问题上，3.5版表现与DS3.2基本相当，部分甚至超出。
指令遵循：此项改进有限。3.5版胜在表现更稳定，在多轮测试中一致性更好，但其能力上限提升不明显。尤其在处理需要间接理解的复杂指令时，其表现与前代相似，下限略有提高，但上限基本一致。相比之下，DS3.2在此方面显著更强，在3.5版可能丢分的指令类题目上，DS3.2通常能稳定满分。
数学计算：计算能力与指令遵循情况类似，3.5版的主要优势在于稳定性。对于稍复杂的计算，前代模型会因误差放大导致结果大面积错误。3.5版在误差控制上仍有缺陷，计算步骤越多，错误率越高。不过，DS3.2在此项上并未比3.5版好太多，二者下限相当。
上下文幻觉：前代的幻觉问题非常严重，几乎无法完成相关任务。3.5版在此方面有所进步，对于信息提取类问题，有时能以较高准确度完成。但其下限仍然很低，多数时候准确率不高，且随着需提取信息量的增加，成功率会快速下降。新增的#56题要求记忆并反复提取信息超过50次，3.5版的准确率已降至与Gemini 3 Flash、Sonnet 4.5在非推理模式下相当的水平。

现存不足：

多轮对话能力：在标准猜词测试中，3.5版能始终保持对初始设定的记忆，但容易过早陷入局部细节的纠缠。例如，当目标词是“广告牌”，且模型已通过二分法正确锁定其为“公共展示物体”后，它会开始盲目地在“交通标识”子类中遍历。在编程问题上，这一缺陷表现为需要频繁的人工干预来纠正方向，其自主定位和修正逻辑问题的能力较弱。
输出效率：如前所述，3.5版的Token消耗量比前代大幅增加了103%。在一些长链条推理问题上尤为明显，其思考过程所用Token常是前代的一倍以上，但最终正确率却只有微小提升或没有提升。其思维链（CoT）中存在大量无效的反思，往往答案已在推理中段明确，模型仍会花费数千Token进行冗余确认。所幸3.5版的Token单价较低，即便如此，其整体仍具备不错的性价比。

总结：

阶跃星辰如同一位潜心研究的学者，不时为市场带来独特的产品，从当年的万亿参数Step-2，到如今的300 TPS极速Step-3.5-Flash，皆是如此。

如何高效驱动Agent是一道开放命题，各大模型厂商各有见解。阶跃星辰给出了自己的答案——极致的推理速度，并以此赢得了继续参与大模型竞赛的重要筹码。一个兼具速度、能力与成本优势的开源模型，其吸引力不言而喻。

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：http://www.itsolotime.com/archives/19944

阶跃星辰Step-3.5-Flash：300tps极速推理，Agent时代的新答案

相关推荐

大模型评测的演进之路：从静态指标到动态验证（2025）【Benchmarks解读】

评测驱动时代开启：李飞飞World Labs联手光轮智能，破解具身智能规模化评测难题

腾讯混元HY 2.0 Instruct实测：速度提升109%、成本下降25%，能力结构调整下的性能突围

吴恩达提出图灵-AGI测试：专为通用人工智能设计的新评估标准

2025年大模型评测工具终极指南：五大工具深度解析与选型策略