成本分析

  • GPT-5.1-medium深度评测:思考模式性能飙升,但成本激增175%引关注

    OpenAI近期发布了GPT-5.1系列新版本,其中GPT-5.1-medium作为思考模式(thinking)的代表产品,在性能上实现了显著提升。官方强调该系列“在简单任务上反应更快,在复杂任务上思考更久”,并优化了对话自然度和情感共鸣。我们对GPT-5.1-medium与此前的GPT-5进行了全面对比评测,测试其在准确率、响应时间、token消耗和成本等…

    2025年11月21日
    9000
  • GPT-5.1性能评测:准确率骤降11.3%,OpenAI的“情绪价值”战略代价几何?

    OpenAI近期发布了GPT-5.1新版本,主打更自然的对话体验和情感共鸣能力。值得注意的是,官方此次并未公布传统基准测试结果,而是强调“优秀的人工智能不仅应该是聪明的,而且应该提供令人愉快的交谈”。我们对GPT-5.1(默认非思考模式)与此前的GPT-5进行了全面对比评测,测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。 GPT-5.…

    2025年11月20日
    7100
  • GLM-4.6评测:速度提升40%却难敌豆包与DeepSeek,成本与准确率成致命短板

    智谱AI近期发布了GLM-4.6新版本。根据官方介绍,相比GLM-4.5,新版本带来了多项关键改进:上下文窗口从128K扩展至200K tokens,以支持更复杂的智能体任务;代码性能显著提升;推理能力增强,支持在推理过程中调用工具;智能体能力更强,尤其在工具使用和搜索型任务方面表现出色;写作风格也更贴近人类偏好。 在这场激烈的竞争中,GLM-4.6交出了一…

    2025年10月17日
    40000