大模型评测
-
3B小模型逆袭万亿巨头:Nanbeige4.1-3B如何以“小而全”颠覆大模型军备竞赛?
近年来,大模型领域的竞争日趋白热化,无论是开源还是闭源阵营,都陷入了对 Scaling Law、算力与参数量的极致追求,其规模膨胀的速度已近乎“军备竞赛”。 过去,拥有约15亿参数的GPT-2在如今看来已属“小模型”。而GPT-4的参数规模据业内估计已达万亿级别,GPT-5等后续模型的体量更是难以估量。开源模型同样在向超大参数迈进,超过6000亿参数的模型已…
-
UniScientist:30B参数开源模型实现科研闭环,匹敌百亿级闭源模型
多数大模型能够生成“看起来像”学术研究的文本,但极少能真正执行研究过程——即提出假设、收集证据、执行可复现的推导,并通过迭代验证形成可靠结论。 近期,发布了BabyVision评测基准(该基准已被多个重要模型采纳)的UniPat AI,在其最新博客《UniScientist: Advancing Universal Scientific Research I…
-
OpenAI重磅研究:推理越强的AI,越管不住自己的“脑子”!思维链可控性测试惊现0.1%成功率
【新智元导读】 OpenAI的最新研究揭示了一个反直觉的现象:推理能力越强的模型,越难以控制自身的思维过程。在CoT-Control评估套件测试的13款前沿模型中,DeepSeek R1控制自身思维链的成功率仅为0.1%,Claude Sonnet 4.5也仅有2.7%。 向AI下达一条明确的指令:在推理过程中,严禁出现“XOR”一词。 模型开始正常推理,但…
-
OpenAI深夜突袭!GPT-5.4震撼发布:原生电脑操控能力碾压人类,推理编程全维度封王
在经历了一段时间的竞争压力后,OpenAI 推出了其最新旗舰模型 GPT-5.4。此次发布包括:* ChatGPT 端:GPT-5.4 Thinking 与 GPT-5.4 Pro 全面上线。* 开发者端:GPT-5.4 接入 API 与 Codex,并提供极速版本 GPT-5.4 fast。 模型版本号直接跃升至 5.4,体现了这是一次在“推理”与“编程”…
-
Gemini 3.1 Flash Lite评测:推理速度创5秒新低,指令遵循能力意外强劲
核心结论:为高速响应与高效执行而生的轻量化模型 概述 Gemini 3.1 Flash Lite(下称Lite)在响应速度上实现了显著突破。其前代模型曾创下平均10秒的极速应答纪录,而新版Lite将非推理模式下的平均应答时间进一步缩短至5秒新低。对于简单问题,其响应近乎瞬时。 在推理能力方面,Lite展现出与其“轻量”定位不符的潜力。其推理模式可支持高达45…
-
Theory of Space:具身智能新突破,让大模型像人一样探索未知空间
【核心摘要】 全新的具身模型空间能力评估范式“Theory of Space”突破了传统静态图文问答的局限,系统性地考察基础模型能否像人一样,在部分可观测的动态环境中,通过自主探索来构建、修正和利用空间信念。该论文已被 ICLR 2026 接收。 当今的多模态大模型(如 GPT-5.2, Gemini-3 Pro)在各类视觉问答榜单上屡破纪录。然而,若希望将…
-
FeatureBench:填补大模型端到端复杂功能开发评测空白,中科院自动化所与华为联合推出新基准
在 Princeton 发布 SWE-Bench 之后,利用真实世界代码仓库与可执行测试来评估大语言模型的软件工程能力,已成为学术界与工业界的共识。围绕 SWE issue 的评测范式迅速发展,催生了一系列 SWE 系列基准,在刻画模型修复缺陷的能力方面发挥了重要作用。 然而,真实的软件工程实践远不止于修复缺陷。大量关键工作发生在功能级别的端到端开发中:这通…
-
阿里Qwen3.5-27B深度评测:理科思维突出,文档处理与逻辑推理是亮点,艺术创作待提升
阿里近期推出了Qwen3.5-27B模型,作为Qwen3.5系列中的中型主力版本,它定位为一款兼顾高性价比与密集推理需求的开源模型。其实际性能表现如何?以下是本次评测的核心结论。 核心结论: 三大亮点: OCR与文档理解能力出色: 在纯文本提取、复杂表格结构还原及合并单元格识别等任务中表现精准,效果优于部分更大参数的模型。 空间逻辑与数学推理能力强: 在立体…
-
阿里Qwen3.5-27B实测:270亿参数密集模型杀入前十,成本骤降59%!
阿里在推出Qwen3.5系列的首款模型Qwen3.5-Plus后,于春节后发布了中型模型系列。Qwen3.5-27B是该系列中的密集模型,其全部270亿参数在每次推理时均被激活,未采用MoE机制。该模型延续了Qwen3.5的混合注意力架构,以3:1的比例交替使用Gated DeltaNet线性注意力层和标准全局注意力层,支持最高262K至1M的上下文窗口,并…
-
阿里Qwen3.5-122B-A10B实测:1220亿参数开源模型性能超Qwen3-Max,成本更低
Qwen3.5-122B-A10B是阿里Qwen3.5 Medium系列的开源模型,总参数量为1220亿,采用256个专家的稀疏混合专家(MoE)架构,每次前向传播仅激活约100亿参数。该模型基于Gated Delta Networks与稀疏MoE的混合架构,支持文本、图像和视频输入。官方宣称其在纯文本任务上的性能可媲美前代旗舰模型Qwen3-Max,同时成…
