Qwen3
-
阿里Qwen3 Max Preview Think实测:思维链模式带来1.7%准确率提升,代价是成本暴涨396%
阿里巴巴近期发布了Qwen3-Max-Preview-Think新版本,这是在Qwen3-Max-Preview基础上引入思维链(Thinking)模式的升级版本。我们对这两个版本进行了全面的对比评测,测试其在准确率、响应时间、Token消耗和成本等关键指标上的表现差异。 Qwen3-Max-Preview-Think版本表现:* 测试题数: 约1.5万* …
-
QwenLong-L1.5:一套配方三大法宝,让30B MoE模型长文本推理媲美GPT-5
作为大模型从业者或研究员,你是否也曾为某个模型的“长文本能力”感到兴奋,却在实践中发现其表现远未达到预期? 你很可能遇到过以下困境之一: 虚假的繁荣:模型在“大海捞针”(Needle-in-a-Haystack)等简单检索测试中表现出色,营造了长文本问题已解决的假象。然而,当任务升级为需要串联分散证据、整合全局信息的多跳推理(multi-hop reason…