Qwen3

大模型评测

阿里Qwen3 Max Preview Think实测：思维链模式带来1.7%准确率提升，代价是成本暴涨396%

阿里巴巴近期发布了Qwen3-Max-Preview-Think新版本，这是在Qwen3-Max-Preview基础上引入思维链（Thinking）模式的升级版本。我们对这两个版本进行了全面的对比评测，测试其在准确率、响应时间、Token消耗和成本等关键指标上的表现差异。 Qwen3-Max-Preview-Think版本表现：* 测试题数：约1.5万* …

2025年12月30日
450002
大模型工程

QwenLong-L1.5：一套配方三大法宝，让30B MoE模型长文本推理媲美GPT-5

作为大模型从业者或研究员，你是否也曾为某个模型的“长文本能力”感到兴奋，却在实践中发现其表现远未达到预期？你很可能遇到过以下困境之一：虚假的繁荣：模型在“大海捞针”（Needle-in-a-Haystack）等简单检索测试中表现出色，营造了长文本问题已解决的假象。然而，当任务升级为需要串联分散证据、整合全局信息的多跳推理（multi-hop reason…

2025年12月29日
388000