大模型评测
-
GPT-5.4 mini发布即遭质疑:性能仅排第13,价格却涨三倍
GPT-5.4 mini 发布即遭质疑:性能仅排第13,价格却涨三倍 OpenAI 最新推出的 GPT-5.4 mini 模型,在发布首日便面临诸多质疑。 根据公开的大语言模型评测基准 Vals 数据显示,新发布的 GPT-5.4 mini 仅排名第 13 位,其性能优于 OpenAI 半年前 发布的 GPT-5。 值得注意的是,排名第 12 位的是于一月底…
-
EMPA与MAPO:大模型长程共情评测与训练新范式,让AI真正理解情感陪伴
现如今,大模型在单轮对话中已能生成温柔体贴、充满情绪价值的文字。然而,我们或许会怀疑:在一句句“高情商回复”的背后,模型是否真正理解了共情。 在情感陪伴与心理支持等真实场景中,人类之间的有效交流极少依靠单薄的漂亮话。一句回复不仅影响用户当下的情绪,更会潜移默化地改变后续对话的轨迹。真正有效的共情,需要模型在长期的多轮互动中,持续观察并理解对方的潜在心理状态,…
-
KernelArena:首个AI生成GPU内核评测平台,终结“靠感觉选模型”时代
KernelArena:首个AI生成GPU内核评测平台,终结“靠感觉选模型”时代 前沿大模型的能力边界正在持续突破,如今甚至能精准编写GPU内核代码,成为高性能计算领域的新帮手。但一个行业痛点也随之浮现:没有单一前沿模型能在GPU内核生成上持续领先,而行业内对模型能力的评测大多依靠主观体验,缺乏统一、严谨、可复现的量化标准。 为了解决这一问题,Wafer团队…
-
AI专家级任务评测新标准:百万美元基准揭示模型真实经济价值
如果有价值一百万美元的顶级专家任务,AI 能完成其中多少? 答案是:价值约 48 万美元的任务,而完成这些任务的 API 成本仅需约 100 美元。 这个结论源于 Humanlaya Data Lab 联合北京通用人工智能研究院(BIGAI)、xbench、M-A-P 共同构建的百万美元级评测基准——$OneMillion-Bench。该基准招募了来自摩根士…
-
PinchBench基准发布:大模型“养虾”能力大比拼,成功率、速度、成本三维度揭秘各家真实水平
一个评估大模型在“养虾”(OpenClaw)任务中表现的基准——PinchBench,现已正式发布。 该基准获得了OpenClaw项目创始人的关注与转发。 PinchBench智能体评测系统通过真实的成功率、执行速度和运行成本三个维度,综合评估各大模型在OpenClaw实际业务场景中的表现。 需要指出的是,本次评测尚未包含近期发布的新模型,例如谷歌主打性价比…
-
通用大模型工业考试翻车,IndustryGPT三场全胜揭示制造业AI新方向
通用大模型工业考试遇挫,IndustryGPT全胜揭示制造业AI新方向 近期,数款顶级通用大模型参与了三场特殊的 “工业执业考试” 。 结果出人意料:即便是GPT-5.2 Thinking (high)、Gemini-3.1-Pro这类表现卓越的模型,在面对真实的工业工程语境时,也显得力不从心。 能写诗、能编程的通用AI,为何难以应对一条生产线的实际问题? …
-
3B小模型逆袭万亿巨头:Nanbeige4.1-3B如何以“小而全”颠覆大模型军备竞赛?
近年来,大模型领域的竞争日趋白热化,无论是开源还是闭源阵营,都陷入了对 Scaling Law、算力与参数量的极致追求,其规模膨胀的速度已近乎“军备竞赛”。 过去,拥有约15亿参数的GPT-2在如今看来已属“小模型”。而GPT-4的参数规模据业内估计已达万亿级别,GPT-5等后续模型的体量更是难以估量。开源模型同样在向超大参数迈进,超过6000亿参数的模型已…
-
UniScientist:30B参数开源模型实现科研闭环,匹敌百亿级闭源模型
多数大模型能够生成“看起来像”学术研究的文本,但极少能真正执行研究过程——即提出假设、收集证据、执行可复现的推导,并通过迭代验证形成可靠结论。 近期,发布了BabyVision评测基准(该基准已被多个重要模型采纳)的UniPat AI,在其最新博客《UniScientist: Advancing Universal Scientific Research I…
-
OpenAI重磅研究:推理越强的AI,越管不住自己的“脑子”!思维链可控性测试惊现0.1%成功率
【新智元导读】 OpenAI的最新研究揭示了一个反直觉的现象:推理能力越强的模型,越难以控制自身的思维过程。在CoT-Control评估套件测试的13款前沿模型中,DeepSeek R1控制自身思维链的成功率仅为0.1%,Claude Sonnet 4.5也仅有2.7%。 向AI下达一条明确的指令:在推理过程中,严禁出现“XOR”一词。 模型开始正常推理,但…
-
OpenAI深夜突袭!GPT-5.4震撼发布:原生电脑操控能力碾压人类,推理编程全维度封王
在经历了一段时间的竞争压力后,OpenAI 推出了其最新旗舰模型 GPT-5.4。此次发布包括:* ChatGPT 端:GPT-5.4 Thinking 与 GPT-5.4 Pro 全面上线。* 开发者端:GPT-5.4 接入 API 与 Codex,并提供极速版本 GPT-5.4 fast。 模型版本号直接跃升至 5.4,体现了这是一次在“推理”与“编程”…
