准确率对比

大模型评测

GPT-5.1性能评测：准确率骤降11.3%，OpenAI的“情绪价值”战略代价几何？

OpenAI近期发布了GPT-5.1新版本，主打更自然的对话体验和情感共鸣能力。值得注意的是，官方此次并未公布传统基准测试结果，而是强调“优秀的人工智能不仅应该是聪明的，而且应该提供令人愉快的交谈”。我们对GPT-5.1（默认非思考模式）与此前的GPT-5进行了全面对比评测，测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。 GPT-5.…

2025年11月20日
182000