大模型评测
-
阿里千问3.5-Plus重磅开源:原生多模态、性能倒挂、价格屠夫,开源大模型迎来王炸级突破
前阵子,各大模型厂商纷纷迭代产品,功能之多令人眼花缭乱。 就在大家以为临近春节,AI圈已无新牌可打时,阿里通义千问却毫无预兆地甩出了一对“王炸”——全新一代大模型 Qwen 3.5-Plus 正式重磅开源。 该模型在多模态理解、复杂推理、编程及Agent等核心维度上,不仅全面领先于同级开源模型,更在多项基准测试中足以媲美顶级闭源模型。 此次发布的核心亮点如下…
-
Apple Silicon神经引擎潜力爆发:M4 Pro ANE实现3.8 TFLOPS,能效超GPU 80%
关键词:Apple Silicon、专用硬件加速器(DSA)、ANE、NUC、HPC、性能评估 当我们在谈论苹果自研芯片 M1、M2、M3 乃至最新的 M4 时,我们在谈论什么?绝大多数人的第一反应是其惊人的能效比、无风扇的轻薄本体验,或是那颗用于剪辑 ProRes 视频的强大媒体引擎。 但在这些光鲜的表面之下,苹果芯片中其实一直藏着一个极为低调却又潜力巨大…
-
字节Seed-2.0-pro深度评测:挑战GPT与Gemini,多模态推理新标杆
短的结论:通往下一个时代的钥匙 基本情况: 字节跳动推出的多模态大模型 Seed-2.0-pro,是其技术序列中的关键升级。此前,Doubao 1.8 版本已展现出接近国际领先水平的潜力,而如今经过全面打磨的 Seed-2.0-pro 旨在确立其顶尖地位。 综合来看,Seed-2.0-pro 无愧于“Pro”的定位,在核心能力上与 Gemini 3 Pro …
-
多模态深度研究评测新标准:MMDR-Bench实现过程可核验、证据可追溯
Deep Research Agent 已变得流行,但其评估标准仍停留在“看起来很强”的层面。 生成内容像论文,并不等同于真正进行了研究。尤其当证据来自图表、截图、论文插图或示意图时,一个关键问题浮现:模型究竟是“看懂了”,还是仅仅“编造得像懂了一样”? 为了将多模态深度研究的评估从“读起来不错”拉回到更严格的标准,俄亥俄州立大学与 Amazon Scien…
-
WorldArena:颠覆世界模型评测,从“视觉内卷”到“功能智能”的革命性突破
当世界模型生成的视频足以「以假乱真」,为何机器人依然「有眼无脑」? 2026年2月13日,一则来自具身智能前沿的重磅消息引发学界与产业界震动:由清华大学、北京大学、香港大学、普林斯顿大学、中科院、上海交通大学、中国科学技术大学、新加坡国立大学等顶尖机构联合推出的 WorldArena —— 首个面向具身世界模型的「功能 + 视觉」统一评测体系,正式面向全球开…
-
WorldArena:颠覆世界模型评测,从“视觉内卷”到“功能智能”的范式重构
当世界模型生成的视频足以「以假乱真」,为何机器人依然「有眼无脑」? 2026年2月13日,由清华大学、北京大学、香港大学、普林斯顿大学、中科院、上海交通大学、中国科学技术大学、新加坡国立大学等顶尖机构联合推出的WorldArena——首个面向具身世界模型的「功能+视觉」统一评测体系,正式面向全球开源发布。 这并非又一套「比谁画得真」的榜单,而是一面照向世界模…
-
MiniMax M2.5深度评测:国模编程可用性突破,逻辑与工程能力全面进化
短的结论:向下扎根,向上生长 基本情况: 稀宇的前一代M2.1因技术问题,在逻辑能力上落后于M2。M2.5基本解决了这些问题,能力回归正轨,相比M2的综合性能提升约17%。 不过,部分进步是通过更长的思维链和更深的解空间探索换来的。M2.5的平均Token消耗在测试模型中排第6高,几乎是对手Sonnet的2倍。得益于稀宇充足的算力与可控的成本,M2.5在编程…
-
稀宇MiniMax M2.5深度评测:编程能力突破性提升,逻辑推理稳中有进
短的结论:向下扎根,向上生长 基本情况: 稀宇的前一代M2.1因技术问题,在逻辑能力上落后于M2。M2.5基本解决了这些问题,能力回归正轨。相比M2,M2.5的综合能力提升约17%。 部分进步源于更长的思维链和更深的解空间探索,M2.5的平均Token消耗在测试模型中位列第6,几乎是对手Sonnet的2倍。得益于稀宇充足的算力与可控的成本,M2.5在编程上虽…
-
MiniMax M2.5中文场景实测:准确率提升2.1%,响应速度翻倍,成本效率比优化
MiniMax在春节假期前发布了MiniMax M2.5新版本,官方表示该模型经过数十万个真实复杂环境中的大规模强化学习训练,在编程、工具调用和搜索、办公等生产力场景达到了行业前沿水平。我们对MiniMax M2.5与上一代MiniMax M2.1进行了全面的中文场景对比评测,测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。 需要说明的…
-
MiniMax M2.5全面评测:中文场景性能跃升,Agent能力暴涨10.6%,成本效率比显著优化
MiniMax在春节假期前发布了MiniMax M2.5新版本。官方表示,该模型经过数十万个真实复杂环境中的大规模强化学习训练,在编程、工具调用和搜索、办公等生产力场景达到了行业前沿水平。我们对MiniMax M2.5与上一代MiniMax M2.1进行了全面的中文场景对比评测,测试其在准确率、响应时间、token消耗和成本等关键指标上的表现差异。 本次评测…