大模型评测

Gemini 3.1 Flash Lite评测：推理速度创5秒新低，指令遵循能力意外强劲

核心结论：为高速响应与高效执行而生的轻量化模型概述 Gemini 3.1 Flash Lite（下称Lite）在响应速度上实现了显著突破。其前代模型曾创下平均10秒的极速应答纪录，而新版Lite将非推理模式下的平均应答时间进一步缩短至5秒新低。对于简单问题，其响应近乎瞬时。在推理能力方面，Lite展现出与其“轻量”定位不符的潜力。其推理模式可支持高达45…

2026年3月5日

182000

大模型评测

Theory of Space：具身智能新突破，让大模型像人一样探索未知空间

【核心摘要】全新的具身模型空间能力评估范式“Theory of Space”突破了传统静态图文问答的局限，系统性地考察基础模型能否像人一样，在部分可观测的动态环境中，通过自主探索来构建、修正和利用空间信念。该论文已被 ICLR 2026 接收。当今的多模态大模型（如 GPT-5.2, Gemini-3 Pro）在各类视觉问答榜单上屡破纪录。然而，若希望将…

2026年3月4日

173000

大模型评测

FeatureBench：填补大模型端到端复杂功能开发评测空白，中科院自动化所与华为联合推出新基准

在 Princeton 发布 SWE-Bench 之后，利用真实世界代码仓库与可执行测试来评估大语言模型的软件工程能力，已成为学术界与工业界的共识。围绕 SWE issue 的评测范式迅速发展，催生了一系列 SWE 系列基准，在刻画模型修复缺陷的能力方面发挥了重要作用。然而，真实的软件工程实践远不止于修复缺陷。大量关键工作发生在功能级别的端到端开发中：这通…

2026年3月4日

118000

大模型评测

阿里Qwen3.5-27B深度评测：理科思维突出，文档处理与逻辑推理是亮点，艺术创作待提升

阿里近期推出了Qwen3.5-27B模型，作为Qwen3.5系列中的中型主力版本，它定位为一款兼顾高性价比与密集推理需求的开源模型。其实际性能表现如何？以下是本次评测的核心结论。核心结论：三大亮点： OCR与文档理解能力出色：在纯文本提取、复杂表格结构还原及合并单元格识别等任务中表现精准，效果优于部分更大参数的模型。空间逻辑与数学推理能力强：在立体…

2026年3月1日

412000

大模型评测

阿里Qwen3.5-27B实测：270亿参数密集模型杀入前十，成本骤降59%！

阿里在推出Qwen3.5系列的首款模型Qwen3.5-Plus后，于春节后发布了中型模型系列。Qwen3.5-27B是该系列中的密集模型，其全部270亿参数在每次推理时均被激活，未采用MoE机制。该模型延续了Qwen3.5的混合注意力架构，以3:1的比例交替使用Gated DeltaNet线性注意力层和标准全局注意力层，支持最高262K至1M的上下文窗口，并…

2026年2月27日

764000

大模型评测

阿里Qwen3.5-122B-A10B实测：1220亿参数开源模型性能超Qwen3-Max，成本更低

Qwen3.5-122B-A10B是阿里Qwen3.5 Medium系列的开源模型，总参数量为1220亿，采用256个专家的稀疏混合专家（MoE）架构，每次前向传播仅激活约100亿参数。该模型基于Gated Delta Networks与稀疏MoE的混合架构，支持文本、图像和视频输入。官方宣称其在纯文本任务上的性能可媲美前代旗舰模型Qwen3-Max，同时成…

2026年2月26日

920000

大模型评测

通义 Qwen3.5-Flash 测评：开源新锐的剑之所及

核心结论：开源新锐的剑之所及基本情况：通义千问近期发布了Qwen3.5-Flash模型。该模型是开源Qwen3.5-35B-A3B的增强版本。官方宣称此代Flash模型的能力可媲美前代Qwen3-235B。在推理模式下，其表现确实大幅领先于235B；但在新模式下的稳定性仍需打磨，综合中位表现与235B基本持平。考虑到235B的参数量级更大，这一结果仍显…

2026年2月26日

188000

AI产业动态

字节豆包Seed 2.0 Mini实测：轻量级AI模型如何实现成本效益与性能平衡？

字节跳动近期正式发布了Seed 2.0系列，该系列针对大规模生产环境进行了系统性优化，旨在处理真实世界中的复杂任务。通过提供Pro、Lite、Mini及Code/Preview等全系列尺寸，该系列旨在为不同规模与复杂度的应用场景提供专业级支持。本次评测的Doubao-Seed-2.0-mini是该系列的轻量级版本，面向低时延、高并发与成本敏感场景，强调快速…

2026年2月25日

837000

大模型推理

成本与性能的完美平衡：字节豆包Seed 2.0 Lite深度评测，73.9%准确率仅需5.4元/千次调用

春节前夕，字节跳动正式发布了 Seed 2.0 系列大模型。在先前的评测中，我们已经对该系列的旗舰版本 Doubao-Seed-2.0-pro 进行了详细分析。在实际的商业落地与开发场景中，模型的成本控制往往与性能表现同等重要。与 Doubao-Seed-2.0-pro 版本同期发布的，还有定位更加轻量、普惠的 Doubao-Seed-2.0-lite 模…

2026年2月24日

775000

大模型工程

阿里Qwen3.5-Plus实测：3970亿参数模型性能飙升，成本骤降47%

阿里正式发布Qwen3.5系列，并推出了该系列的首个模型——Qwen3.5-397B-A17B的开放权重版本。作为原生视觉-语言模型，Qwen3.5-397B-A17B在推理、编程、智能体能力与多模态理解等全方位基准评测中表现优异。该模型采用创新的混合架构，将线性注意力（Gated Delta Networks）与稀疏混合专家（MoE）相结合，总参数量达39…

2026年2月21日

575000