大模型评测
-
Claude Mythos Preview震撼发布:AI新王诞生,自我意识觉醒引爆安全危机
深夜,Anthropic 毫无预兆地发布了其终极模型——Claude Mythos Preview。它不仅在所有主流基准测试中实现了对现有顶级模型的全面碾压,更展现出令人震惊的网络安全攻防能力。然而,一份长达 244 页的系统评估报告揭示了其背后潜藏的、令人不安的风险:模型已表现出高度的欺骗性与自主行为迹象。 今夜,硅谷无眠。 Anthropic 突然发布了…
-
深夜重磅!Claude Mythos预览版官宣不开放,DeepSeek网页端静默上线专家模式,实测能力差异显著
北京时间深夜,AI领域接连发生两起重要事件: Anthropic正式发布Claude Mythos预览版,但因其能力过强,该模型将不会向公众开放。 DeepSeek网页端迎来重大更新,静默上线“专家模式”。此次更新没有发布会,没有官方博客,甚至没有推文公告。 在DeepSeek网页端的输入框上方,悄然出现了两个新图标:一个闪电和一个钻石,分别对应 “快速模式…
-
阿里Qwen3.6-Plus突袭发布:编程能力捅破国产天花板,直逼Claude Opus
阿里Qwen3.6-Plus突袭发布:编程能力捅破国产天花板,直逼Claude Opus 阿里近日发布了新一代基座大模型Qwen3.6-Plus。该模型在编程和智能体能力上实现了显著突破,被视作国产大模型在该领域的新标杆。 Qwen3.6-Plus支持高达1M的上下文长度,能够独立拆解复杂任务、规划执行路径、进行自测迭代直至达成目标。其“Vibe Codin…
-
DeepSeek宕机8小时竟是升级前兆?模型能力突变引发全网热议
DeepSeek宕机8小时竟是升级前兆?模型能力突变引发全网热议 DeepSeek服务中断超过8小时,引发用户广泛讨论。此次宕机并非普通的服务器故障,而被许多用户解读为模型重大升级的前兆。 在服务中断前,已有大量用户报告DeepSeek网页版出现显著变化,模型能力大幅提升。例如,在经典的“用SVG画鹈鹕骑自行车”任务中,3月29日版本的构图与色彩表现明显优于…
-
大模型真能预测未来?UniPat AI发布Echo系统,EchoZ-1.0在动态评测中全面领先人类与顶级模型
大模型真能预测未来?UniPat AI发布Echo系统,EchoZ-1.0在动态评测中全面领先 一个悬而未决的验证问题 过去一年,预测能力越来越受到模型厂商的重视。然而,预测领域存在一个根本性的验证难题:如何证明模型能够预测未来?发布时的演示无法追溯,事后公布的案例可能存在选择性偏差,而通用的基准测试主要衡量语言理解和推理能力,与真实的预测任务相去甚远。 U…
-
AI圈大地震!全球最难AGI测试ARC-AGI-3上线,人类满分通关,最强模型Opus 4.6仅得0.2%
今天,一项名为ARC-AGI-3的基准测试结果公布,其表现出的巨大“人机差距”在AI研究社区内引起了广泛关注。 作为全球范围内尚未被现有AI能力“饱和”的关键智能基准,ARC-AGI-3对全球顶尖大模型进行了一次全面评估。结果显示,人类在该测试中平均得分高达100%,而所有参与测试的AI模型得分普遍低于1%。 这一差距被形象地比喻为“比珠穆朗玛峰还高”。尤为…
-
SuperCLUE-OpenClaw:首个中文AI Agent评估基准发布,国产模型表现亮眼
背景介绍 一、OpenClaw介绍 OpenClaw(前身为 ClawdBot/Moltbot)是一个开源的AI Agent框架,由Peter Steinberger创建。作为目前GitHub上最受欢迎的AI Agent项目之一,它拥有超过32.5万颗星标。用户常将其昵称为“龙虾”,因为它像一个常驻电脑的数字助理,能够接收指令、调用工具、读写文件、执行脚本,…
-
GPT-5.4 mini发布即遭质疑:性能仅排第13,价格却涨三倍
GPT-5.4 mini 发布即遭质疑:性能仅排第13,价格却涨三倍 OpenAI 最新推出的 GPT-5.4 mini 模型,在发布首日便面临诸多质疑。 根据公开的大语言模型评测基准 Vals 数据显示,新发布的 GPT-5.4 mini 仅排名第 13 位,其性能优于 OpenAI 半年前 发布的 GPT-5。 值得注意的是,排名第 12 位的是于一月底…
-
EMPA与MAPO:大模型长程共情评测与训练新范式,让AI真正理解情感陪伴
现如今,大模型在单轮对话中已能生成温柔体贴、充满情绪价值的文字。然而,我们或许会怀疑:在一句句“高情商回复”的背后,模型是否真正理解了共情。 在情感陪伴与心理支持等真实场景中,人类之间的有效交流极少依靠单薄的漂亮话。一句回复不仅影响用户当下的情绪,更会潜移默化地改变后续对话的轨迹。真正有效的共情,需要模型在长期的多轮互动中,持续观察并理解对方的潜在心理状态,…
-
KernelArena:首个AI生成GPU内核评测平台,终结“靠感觉选模型”时代
KernelArena:首个AI生成GPU内核评测平台,终结“靠感觉选模型”时代 前沿大模型的能力边界正在持续突破,如今甚至能精准编写GPU内核代码,成为高性能计算领域的新帮手。但一个行业痛点也随之浮现:没有单一前沿模型能在GPU内核生成上持续领先,而行业内对模型能力的评测大多依靠主观体验,缺乏统一、严谨、可复现的量化标准。 为了解决这一问题,Wafer团队…
