阶跃星辰Step-3.5-Flash:300tps极速推理,Agent时代的新答案

核心结论:速度是Agent时代的关键竞争力

模型背景:

阶跃星辰在去年7月参与国内大模型评测后,一度沉寂。这并非停滞,而是潜心研发。如今,其全新力作Step-3.5-Flash正式发布,集中体现了团队对Agent(智能体)时代模型需求的思考。

在核心能力上,该模型实现了显著跨越:其智力水平已从落后梯队跃升至第二梯队,中位表现与体量更大的DeepSeek V3.2持平,足以胜任Agent驱动任务。而其最突出的亮点在于极致的推理速度:当国内模型50 TPS(每秒生成Token数)成为常态、100 TPS需要“Turbo”版本时,Step-3.5-Flash的平均速度接近200 TPS,峰值甚至可达300 TPS。这一速度优势如此耀眼,以至于其平均33K的输出长度都显得可以接受。

阶跃星辰的观点是:在Agent时代,模型并非越大越好。“短小精悍、以快制胜”成为新策略——借助完善的Agent工具链快速试错,最终以任务完成效果说话。Step-3.5-Flash正是这一理念的实践成果。

逻辑能力评测:

阶跃星辰Step-3.5-Flash:300tps极速推理,Agent时代的新答案

注1:上表为突出对比关系,仅展示部分可对照模型,非完整排名。
注2:题目及测试方法详见:大语言模型逻辑能力横评 26-01 月榜(新增#56题)。
*注3:完整榜单更新于 https://llm2014.github.io/llm_benchmark/

Step-3.5-Flash(3.5版)相比前代Step-3进步巨大。下文将主要对比Step-3与DeepSeek V3.2(DS3.2)。

主要改进:

  • 归纳洞察:归纳类问题是前代的“智力盲区”,其倾向于暴力穷举寻找规律。而3.5版则展现出更聪明的方法论:它会为不同的可能性分配多达4K的Token预算进行系统性实验,且不会在未得出结论前轻易放弃某个方向。在此类问题上,3.5版表现与DS3.2基本相当,部分甚至超出。
  • 指令遵循:此项改进有限。3.5版胜在表现更稳定,在多轮测试中一致性更好,但其能力上限提升不明显。尤其在处理需要间接理解的复杂指令时,其表现与前代相似,下限略有提高,但上限基本一致。相比之下,DS3.2在此方面显著更强,在3.5版可能丢分的指令类题目上,DS3.2通常能稳定满分。
  • 数学计算:计算能力与指令遵循情况类似,3.5版的主要优势在于稳定性。对于稍复杂的计算,前代模型会因误差放大导致结果大面积错误。3.5版在误差控制上仍有缺陷,计算步骤越多,错误率越高。不过,DS3.2在此项上并未比3.5版好太多,二者下限相当。
  • 上下文幻觉:前代的幻觉问题非常严重,几乎无法完成相关任务。3.5版在此方面有所进步,对于信息提取类问题,有时能以较高准确度完成。但其下限仍然很低,多数时候准确率不高,且随着需提取信息量的增加,成功率会快速下降。新增的#56题要求记忆并反复提取信息超过50次,3.5版的准确率已降至与Gemini 3 Flash、Sonnet 4.5在非推理模式下相当的水平。

现存不足:

  • 多轮对话能力:在标准猜词测试中,3.5版能始终保持对初始设定的记忆,但容易过早陷入局部细节的纠缠。例如,当目标词是“广告牌”,且模型已通过二分法正确锁定其为“公共展示物体”后,它会开始盲目地在“交通标识”子类中遍历。在编程问题上,这一缺陷表现为需要频繁的人工干预来纠正方向,其自主定位和修正逻辑问题的能力较弱。
  • 输出效率:如前所述,3.5版的Token消耗量比前代大幅增加了103%。在一些长链条推理问题上尤为明显,其思考过程所用Token常是前代的一倍以上,但最终正确率却只有微小提升或没有提升。其思维链(CoT)中存在大量无效的反思,往往答案已在推理中段明确,模型仍会花费数千Token进行冗余确认。所幸3.5版的Token单价较低,即便如此,其整体仍具备不错的性价比。

总结:

阶跃星辰如同一位潜心研究的学者,不时为市场带来独特的产品,从当年的万亿参数Step-2,到如今的300 TPS极速Step-3.5-Flash,皆是如此。

如何高效驱动Agent是一道开放命题,各大模型厂商各有见解。阶跃星辰给出了自己的答案——极致的推理速度,并以此赢得了继续参与大模型竞赛的重要筹码。一个兼具速度、能力与成本优势的开源模型,其吸引力不言而喻。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/19944

(0)
上一篇 23小时前
下一篇 14小时前

相关推荐

  • 大模型评测的演进之路:从静态指标到动态验证(2025)【Benchmarks解读】

    在人工智能快速迭代的今天,大型语言模型(LLM)的能力边界不断拓展。从最初的文本生成,到如今的复杂推理、多模态理解、智能体协作,模型能力的跃升令人瞩目。然而,一个更为关键的问题浮出水面:我们真的知道如何准确衡量这些模型的能力吗? 评测基准的发展轨迹,恰恰映射着整个行业对“智能”理解的演进。本文将系统梳理当前大模型评测的全景图谱,分享在实践中的洞察,并探讨未来…

    2025年11月11日
    8200
  • 评测驱动时代开启:李飞飞World Labs联手光轮智能,破解具身智能规模化评测难题

    最火世界模型,最火具身智能基建,联手了! 前者,是李飞飞旗下的World Labs;后者,是一家炙手可热的仿真合成数据公司——光轮智能。 具身智能生态中最受关注的两家公司双刃合璧,原因无他,正是瞄准困扰行业已久的「规模化评测」问题,发起一波攻势。 而随着这波号角的吹响,也标志着具身智能正式迈入评测驱动时代。 在这个赛道上,光轮智能基于全栈自研仿真技术体系所构…

    2026年1月19日
    7300
  • 腾讯混元HY 2.0 Instruct实测:速度提升109%、成本下降25%,能力结构调整下的性能突围

    腾讯混元新发布了HY 2.0系列模型,除了推理版本HY 2.0 Think外,同步推出了非推理版本hunyuan-2.0-instruct-20251111。我们对新版本与上一版本hunyuan-turbos-20250926进行了全面对比评测,测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。 hunyuan-2.0-instruct-…

    2025年12月7日
    7400
  • 吴恩达提出图灵-AGI测试:专为通用人工智能设计的新评估标准

    吴恩达提出图灵-AGI测试:专为通用人工智能设计的新评估标准 AI领域知名学者吴恩达近期公开了其2026年的目标:创建一个新的测试标准,他称之为图灵-AGI测试。顾名思义,该测试旨在为评估通用人工智能(AGI)而设计。 过去一年,AGI成为业界焦点。吴恩达在其年度总结中曾指出: 2025年或许会被铭记为人工智能工业时代的开端。 创新推动模型性能到达新的高度,…

    2026年1月10日
    4800
  • 2025年大模型评测工具终极指南:五大工具深度解析与选型策略

    在大模型应用开发中,我们常面临这样的困境:系统上线后,实际表现却未达预期。问题根源何在?如何有效改进?答案往往隐藏在一个至关重要却容易被忽视的环节——评测。 市面上大模型评测工具众多,宣传语诸如“自信交付你的LLM”、“告别猜测游戏”令人眼花缭乱。但究竟什么样的工具才能真正解决问题? 设想一个真实场景:你开发了一个用于自动化处理工作流的大模型应用,投入使用后…

    2025年11月13日
    7700