阶跃星辰Step-3.5-Flash:300tps极速推理,Agent时代的新答案

核心结论:速度是Agent时代的关键竞争力

模型背景:

阶跃星辰在去年7月参与国内大模型评测后,一度沉寂。这并非停滞,而是潜心研发。如今,其全新力作Step-3.5-Flash正式发布,集中体现了团队对Agent(智能体)时代模型需求的思考。

在核心能力上,该模型实现了显著跨越:其智力水平已从落后梯队跃升至第二梯队,中位表现与体量更大的DeepSeek V3.2持平,足以胜任Agent驱动任务。而其最突出的亮点在于极致的推理速度:当国内模型50 TPS(每秒生成Token数)成为常态、100 TPS需要“Turbo”版本时,Step-3.5-Flash的平均速度接近200 TPS,峰值甚至可达300 TPS。这一速度优势如此耀眼,以至于其平均33K的输出长度都显得可以接受。

阶跃星辰的观点是:在Agent时代,模型并非越大越好。“短小精悍、以快制胜”成为新策略——借助完善的Agent工具链快速试错,最终以任务完成效果说话。Step-3.5-Flash正是这一理念的实践成果。

逻辑能力评测:

阶跃星辰Step-3.5-Flash:300tps极速推理,Agent时代的新答案

注1:上表为突出对比关系,仅展示部分可对照模型,非完整排名。
注2:题目及测试方法详见:大语言模型逻辑能力横评 26-01 月榜(新增#56题)。
*注3:完整榜单更新于 https://llm2014.github.io/llm_benchmark/

Step-3.5-Flash(3.5版)相比前代Step-3进步巨大。下文将主要对比Step-3与DeepSeek V3.2(DS3.2)。

主要改进:

  • 归纳洞察:归纳类问题是前代的“智力盲区”,其倾向于暴力穷举寻找规律。而3.5版则展现出更聪明的方法论:它会为不同的可能性分配多达4K的Token预算进行系统性实验,且不会在未得出结论前轻易放弃某个方向。在此类问题上,3.5版表现与DS3.2基本相当,部分甚至超出。
  • 指令遵循:此项改进有限。3.5版胜在表现更稳定,在多轮测试中一致性更好,但其能力上限提升不明显。尤其在处理需要间接理解的复杂指令时,其表现与前代相似,下限略有提高,但上限基本一致。相比之下,DS3.2在此方面显著更强,在3.5版可能丢分的指令类题目上,DS3.2通常能稳定满分。
  • 数学计算:计算能力与指令遵循情况类似,3.5版的主要优势在于稳定性。对于稍复杂的计算,前代模型会因误差放大导致结果大面积错误。3.5版在误差控制上仍有缺陷,计算步骤越多,错误率越高。不过,DS3.2在此项上并未比3.5版好太多,二者下限相当。
  • 上下文幻觉:前代的幻觉问题非常严重,几乎无法完成相关任务。3.5版在此方面有所进步,对于信息提取类问题,有时能以较高准确度完成。但其下限仍然很低,多数时候准确率不高,且随着需提取信息量的增加,成功率会快速下降。新增的#56题要求记忆并反复提取信息超过50次,3.5版的准确率已降至与Gemini 3 Flash、Sonnet 4.5在非推理模式下相当的水平。

现存不足:

  • 多轮对话能力:在标准猜词测试中,3.5版能始终保持对初始设定的记忆,但容易过早陷入局部细节的纠缠。例如,当目标词是“广告牌”,且模型已通过二分法正确锁定其为“公共展示物体”后,它会开始盲目地在“交通标识”子类中遍历。在编程问题上,这一缺陷表现为需要频繁的人工干预来纠正方向,其自主定位和修正逻辑问题的能力较弱。
  • 输出效率:如前所述,3.5版的Token消耗量比前代大幅增加了103%。在一些长链条推理问题上尤为明显,其思考过程所用Token常是前代的一倍以上,但最终正确率却只有微小提升或没有提升。其思维链(CoT)中存在大量无效的反思,往往答案已在推理中段明确,模型仍会花费数千Token进行冗余确认。所幸3.5版的Token单价较低,即便如此,其整体仍具备不错的性价比。

总结:

阶跃星辰如同一位潜心研究的学者,不时为市场带来独特的产品,从当年的万亿参数Step-2,到如今的300 TPS极速Step-3.5-Flash,皆是如此。

如何高效驱动Agent是一道开放命题,各大模型厂商各有见解。阶跃星辰给出了自己的答案——极致的推理速度,并以此赢得了继续参与大模型竞赛的重要筹码。一个兼具速度、能力与成本优势的开源模型,其吸引力不言而喻。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/19944

(0)
上一篇 2026年2月2日 下午2:35
下一篇 2026年2月2日 下午11:45

相关推荐

  • 阿里2步生成方案:5秒4张2K图,AI生图速度提升40倍

    阿里智能引擎团队推出2步生成方案:5秒产出4张2K图,速度提升40倍 AI生成一张图片,你愿意等多久? 当主流扩散模型仍在迭代中让用户等待时,阿里智能引擎团队实现了突破性的加速——仅需5秒钟,即可生成4张2K级高清大图。 该方案针对最新的Qwen开源模型,将生成所需的前向计算步数从80-100步大幅压缩至2步,速度提升达40倍。这意味着,原本需要近一分钟生成…

    2026年1月30日
    16000
  • ZeroClaw:Rust重构的AI Agent新星,性能提升400倍,内存占用减少99%

    26 年开年初,最火的开源项目莫过于 OpenClaw,其 Star 数已突破 20 万,增长速度远超所有人的预期,甚至可能包括其作者本人。 它让你能在本地电脑上运行 AI,并通过 Telegram、Discord、WhatsApp 等聊天软件直接指挥 AI 完成任务。 近日,一个名为 ZeroClaw 的项目正式开源。它被描述为对 OpenClaw 的“极…

    2026年2月17日
    45500
  • 阿里开源Zvec:向量数据库迎来轻量级革命,AI应用开发进入新纪元

    阿里开源了向量数据库 Zvec。 对于不熟悉向量数据库的读者,简单来说,它专门用于存储和检索向量数据,常见于相似性搜索、推荐系统、AI应用等场景。 和传统需要独立部署的向量数据库不同,Zvec 直接运行在应用程序进程内部。这意味着不需要额外服务器,没有配置负担,也省去了基础设施成本。 Zvec 基于阿里巴巴内部长期使用的 Proxima 向量搜索引擎构建。官…

    2026年2月23日
    39500
  • 马斯克官宣数字擎天柱:AI数字员工来袭,能模拟完整公司运作

    世界首富埃隆·马斯克在社交平台X上宣布了一项新的AI项目:数字擎天柱,其内部代号为“巨硬”。 与特斯拉正在研发的实体“擎天柱”机器人不同,数字擎天柱专注于数字世界。它是一个能够在计算机上自动完成操作的AI数字员工,能够理解屏幕内容、操控键盘和鼠标,执行一系列日常办公任务。 马斯克对其能力描述颇为宏大: 从原则上讲,它甚至可以模拟一家完整公司的运作。 这预示着…

    2026年3月12日
    29700
  • 华人学者闪耀2025届美国国家发明家科学院院士榜单:占比20%背后的创新力量与全球影响

    近日,美国国家发明家科学院(National Academy of Inventors, NAI)正式公布了2025届院士名单,共有185位杰出发明家入选,其中华人学者约37人,占比高达20%。这意味着平均每五位NAI院士中就有一位华人,这一数据不仅彰显了华人在全球科技创新领域的卓越贡献,也反映了国际科研生态中多元文化融合的积极趋势。 NAI院士是美国政府授…

    2025年12月14日
    16200