思考模式

大模型评测

小米开源MiMo-V2-Flash实测：零成本大模型在长上下文与推理效率间的新平衡

小米近期开源了MiMo-V2-Flash模型，这是其在大模型领域推出的开源产品。官方强调该模型在长上下文建模能力与推理效率之间实现了新的平衡。我们对MiMo-V2-Flash的思考模式（think）和非思考模式进行了全面评测，测试其在准确率、响应时间、token消耗等关键指标上的表现。 MiMo-V2-Flash-think版本表现：* 测试题数：约1.5万…

2025年12月21日
895001
大模型评测

GPT-5.1-medium深度评测：思考模式性能飙升，但成本激增175%引关注

OpenAI近期发布了GPT-5.1系列新版本，其中GPT-5.1-medium作为思考模式（thinking）的代表产品，在性能上实现了显著提升。官方强调该系列“在简单任务上反应更快，在复杂任务上思考更久”，并优化了对话自然度和情感共鸣。我们对GPT-5.1-medium与此前的GPT-5进行了全面对比评测，测试其在准确率、响应时间、token消耗和成本等…

2025年11月21日
312000