大模型评测

DeepSeek宕机8小时竟是升级前兆？模型能力突变引发全网热议

DeepSeek宕机8小时竟是升级前兆？模型能力突变引发全网热议 DeepSeek服务中断超过8小时，引发用户广泛讨论。此次宕机并非普通的服务器故障，而被许多用户解读为模型重大升级的前兆。在服务中断前，已有大量用户报告DeepSeek网页版出现显著变化，模型能力大幅提升。例如，在经典的“用SVG画鹈鹕骑自行车”任务中，3月29日版本的构图与色彩表现明显优于…

3天前

162000

大模型评测

大模型真能预测未来？UniPat AI发布Echo系统，EchoZ-1.0在动态评测中全面领先人类与顶级模型

大模型真能预测未来？UniPat AI发布Echo系统，EchoZ-1.0在动态评测中全面领先一个悬而未决的验证问题过去一年，预测能力越来越受到模型厂商的重视。然而，预测领域存在一个根本性的验证难题：如何证明模型能够预测未来？发布时的演示无法追溯，事后公布的案例可能存在选择性偏差，而通用的基准测试主要衡量语言理解和推理能力，与真实的预测任务相去甚远。 U…

3天前

130000

大模型评测

AI圈大地震！全球最难AGI测试ARC-AGI-3上线，人类满分通关，最强模型Opus 4.6仅得0.2%

今天，一项名为ARC-AGI-3的基准测试结果公布，其表现出的巨大“人机差距”在AI研究社区内引起了广泛关注。作为全球范围内尚未被现有AI能力“饱和”的关键智能基准，ARC-AGI-3对全球顶尖大模型进行了一次全面评估。结果显示，人类在该测试中平均得分高达100%，而所有参与测试的AI模型得分普遍低于1%。这一差距被形象地比喻为“比珠穆朗玛峰还高”。尤为…

6天前

338000

大模型评测

SuperCLUE-OpenClaw：首个中文AI Agent评估基准发布，国产模型表现亮眼

背景介绍一、OpenClaw介绍 OpenClaw（前身为 ClawdBot/Moltbot）是一个开源的AI Agent框架，由Peter Steinberger创建。作为目前GitHub上最受欢迎的AI Agent项目之一，它拥有超过32.5万颗星标。用户常将其昵称为“龙虾”，因为它像一个常驻电脑的数字助理，能够接收指令、调用工具、读写文件、执行脚本，…

2026年3月26日

318000

AI产业动态

GPT-5.4 mini发布即遭质疑：性能仅排第13，价格却涨三倍

GPT-5.4 mini 发布即遭质疑：性能仅排第13，价格却涨三倍 OpenAI 最新推出的 GPT-5.4 mini 模型，在发布首日便面临诸多质疑。根据公开的大语言模型评测基准 Vals 数据显示，新发布的 GPT-5.4 mini 仅排名第 13 位，其性能优于 OpenAI 半年前发布的 GPT-5。值得注意的是，排名第 12 位的是于一月底…

2026年3月18日

311000

大模型评测

EMPA与MAPO：大模型长程共情评测与训练新范式，让AI真正理解情感陪伴

现如今，大模型在单轮对话中已能生成温柔体贴、充满情绪价值的文字。然而，我们或许会怀疑：在一句句“高情商回复”的背后，模型是否真正理解了共情。在情感陪伴与心理支持等真实场景中，人类之间的有效交流极少依靠单薄的漂亮话。一句回复不仅影响用户当下的情绪，更会潜移默化地改变后续对话的轨迹。真正有效的共情，需要模型在长期的多轮互动中，持续观察并理解对方的潜在心理状态，…

2026年3月18日

262000

大模型评测

KernelArena：首个AI生成GPU内核评测平台，终结“靠感觉选模型”时代

KernelArena：首个AI生成GPU内核评测平台，终结“靠感觉选模型”时代前沿大模型的能力边界正在持续突破，如今甚至能精准编写GPU内核代码，成为高性能计算领域的新帮手。但一个行业痛点也随之浮现：没有单一前沿模型能在GPU内核生成上持续领先，而行业内对模型能力的评测大多依靠主观体验，缺乏统一、严谨、可复现的量化标准。为了解决这一问题，Wafer团队…

2026年3月14日

160000

大模型评测

AI专家级任务评测新标准：百万美元基准揭示模型真实经济价值

如果有价值一百万美元的顶级专家任务，AI 能完成其中多少？答案是：价值约 48 万美元的任务，而完成这些任务的 API 成本仅需约 100 美元。这个结论源于 Humanlaya Data Lab 联合北京通用人工智能研究院（BIGAI）、xbench、M-A-P 共同构建的百万美元级评测基准——$OneMillion-Bench。该基准招募了来自摩根士…

2026年3月10日

259000

大模型评测

PinchBench基准发布：大模型“养虾”能力大比拼，成功率、速度、成本三维度揭秘各家真实水平

一个评估大模型在“养虾”（OpenClaw）任务中表现的基准——PinchBench，现已正式发布。该基准获得了OpenClaw项目创始人的关注与转发。 PinchBench智能体评测系统通过真实的成功率、执行速度和运行成本三个维度，综合评估各大模型在OpenClaw实际业务场景中的表现。需要指出的是，本次评测尚未包含近期发布的新模型，例如谷歌主打性价比…

2026年3月9日

697000

大模型评测

通用大模型工业考试翻车，IndustryGPT三场全胜揭示制造业AI新方向

通用大模型工业考试遇挫，IndustryGPT全胜揭示制造业AI新方向近期，数款顶级通用大模型参与了三场特殊的 “工业执业考试” 。结果出人意料：即便是GPT-5.2 Thinking (high)、Gemini-3.1-Pro这类表现卓越的模型，在面对真实的工业工程语境时，也显得力不从心。能写诗、能编程的通用AI，为何难以应对一条生产线的实际问题？ …

2026年3月9日

265000