大模型评测

Gemini 3.1 Flash Lite评测：推理速度创5秒新低，指令遵循能力意外强劲

核心结论：为高速响应与高效执行而生的轻量化模型概述 Gemini 3.1 Flash Lite（下称Lite）在响应速度上实现了显著突破。其前代模型曾创下平均10秒的极速应答纪录，而新版Lite将非推理模式下的平均应答时间进一步缩短至5秒新低。对于简单问题，其响应近乎瞬时。在推理能力方面，Lite展现出与其“轻量”定位不符的潜力。其推理模式可支持高达45…

2026年3月5日

180000

大模型评测

Theory of Space：具身智能新突破，让大模型像人一样探索未知空间

【核心摘要】全新的具身模型空间能力评估范式“Theory of Space”突破了传统静态图文问答的局限，系统性地考察基础模型能否像人一样，在部分可观测的动态环境中，通过自主探索来构建、修正和利用空间信念。该论文已被 ICLR 2026 接收。当今的多模态大模型（如 GPT-5.2, Gemini-3 Pro）在各类视觉问答榜单上屡破纪录。然而，若希望将…

2026年3月4日

166000

大模型评测

FeatureBench：填补大模型端到端复杂功能开发评测空白，中科院自动化所与华为联合推出新基准

在 Princeton 发布 SWE-Bench 之后，利用真实世界代码仓库与可执行测试来评估大语言模型的软件工程能力，已成为学术界与工业界的共识。围绕 SWE issue 的评测范式迅速发展，催生了一系列 SWE 系列基准，在刻画模型修复缺陷的能力方面发挥了重要作用。然而，真实的软件工程实践远不止于修复缺陷。大量关键工作发生在功能级别的端到端开发中：这通…

2026年3月4日

111000

大模型评测

阿里Qwen3.5-27B深度评测：理科思维突出，文档处理与逻辑推理是亮点，艺术创作待提升

阿里近期推出了Qwen3.5-27B模型，作为Qwen3.5系列中的中型主力版本，它定位为一款兼顾高性价比与密集推理需求的开源模型。其实际性能表现如何？以下是本次评测的核心结论。核心结论：三大亮点： OCR与文档理解能力出色：在纯文本提取、复杂表格结构还原及合并单元格识别等任务中表现精准，效果优于部分更大参数的模型。空间逻辑与数学推理能力强：在立体…

2026年3月1日

392000

大模型评测

阿里Qwen3.5-27B实测：270亿参数密集模型杀入前十，成本骤降59%！

阿里在推出Qwen3.5系列的首款模型Qwen3.5-Plus后，于春节后发布了中型模型系列。Qwen3.5-27B是该系列中的密集模型，其全部270亿参数在每次推理时均被激活，未采用MoE机制。该模型延续了Qwen3.5的混合注意力架构，以3:1的比例交替使用Gated DeltaNet线性注意力层和标准全局注意力层，支持最高262K至1M的上下文窗口，并…

2026年2月27日

715000

大模型评测

清华×斯坦福联手打造Ctrl-World世界模型，具身智能评测登顶全球，视频生成力压谷歌英伟达

在全球具身智能领域的权威评测 WorldArena 榜单中，由清华大学陈建宇团队与斯坦福大学 Chelsea Finn 团队联合研发的 Ctrl-World 世界模型取得了突出成绩：具身任务能力综合排名全球第一，并在主体一致性、轨迹精度、深度准确性、策略评估一致性四大核心维度上登顶；视频生成能力排名全球第二，仅次于阿里 Wan 2.6，超越了谷歌 Veo…

2026年2月26日

280000

大模型评测

阿里Qwen3.5-122B-A10B实测：1220亿参数开源模型性能超Qwen3-Max，成本更低

Qwen3.5-122B-A10B是阿里Qwen3.5 Medium系列的开源模型，总参数量为1220亿，采用256个专家的稀疏混合专家（MoE）架构，每次前向传播仅激活约100亿参数。该模型基于Gated Delta Networks与稀疏MoE的混合架构，支持文本、图像和视频输入。官方宣称其在纯文本任务上的性能可媲美前代旗舰模型Qwen3-Max，同时成…

2026年2月26日

879000

大模型评测

通义 Qwen3.5-Flash 测评：开源新锐的剑之所及

核心结论：开源新锐的剑之所及基本情况：通义千问近期发布了Qwen3.5-Flash模型。该模型是开源Qwen3.5-35B-A3B的增强版本。官方宣称此代Flash模型的能力可媲美前代Qwen3-235B。在推理模式下，其表现确实大幅领先于235B；但在新模式下的稳定性仍需打磨，综合中位表现与235B基本持平。考虑到235B的参数量级更大，这一结果仍显…

2026年2月26日

183000

大模型评测

BabyVision评测揭示多模态模型视觉能力仅达三岁幼儿水平，AI看懂世界之路仍漫长

01｜“看懂世界”这关，大模型还没上幼儿园过去一年，大模型在语言与文本推理上突飞猛进，但在面对无法用语言清晰表述的问题时，其视觉理解能力却暴露了短板。为了量化评估这一能力，UniPat AI 联合红杉中国 xbench 团队及多家大模型公司与高校的研究员，发布了全新的多模态理解评测集 BabyVision。 UniPat AI 致力于构建真实场景下 AI …

2026年1月12日

188000

大模型评测

国产具身智能新突破：千寻Spirit v1.5开源即登顶全球真机评测榜首

全球榜单中唯一成功率超过50%的模型。智东西1月12日报道，今日，千寻智能正式开源自研VLA基础模型Spirit v1.5。就在前一天，该模型在全球具身智能模型评测平台RoboChallenge的综合评测中斩获第一。 RoboChallenge的基准测试包含30项任务，如摆放薯条、寻找固定颜色物体、贴胶带等。Spirit v1.5的综合得分为66.09分，…

2026年1月12日

181000