Gemini 3.1 Flash Lite评测：推理速度创5秒新低，指令遵循能力意外强劲

7小时前 • 大模型评测 • 阅读 15

核心结论：为高速响应与高效执行而生的轻量化模型

概述

Gemini 3.1 Flash Lite（下称Lite）在响应速度上实现了显著突破。其前代模型曾创下平均10秒的极速应答纪录，而新版Lite将非推理模式下的平均应答时间进一步缩短至5秒新低。对于简单问题，其响应近乎瞬时。

在推理能力方面，Lite展现出与其“轻量”定位不符的潜力。其推理模式可支持高达45K的Token消耗，并凭借与Flash系列同源的Token控制能力，能在接近上限时稳定运行。尽管单Token处理速度（tps）并非顶尖，但其整体平均推理耗时仍被控制在100秒以内，在同等智力水平的模型中表现尚可。若仅观察其推理后的最终输出，可将其等效为一个平均tps约25、输出约2K Token的常规模型。

根据官方报告及实际测试，新版Lite模型的综合能力已超越Gemini 2.5 Flash。具体而言，其推理模式性能略高约3%（处于误差边缘），非推理模式则领先约7%。不过，Lite并非在所有子项上都优于前代，下文将详细分析。

逻辑能力测试成绩

Gemini 3.1 Flash Lite评测：推理速度创5秒新低，指令遵循能力意外强劲

注1：上表为突出对比关系，仅展示部分可对照模型，非完整榜单。
注2：题目及测试方法详见：大语言模型逻辑能力横评。
注3：完整榜单更新于：https://llm2014.github.io/llm_benchmark/
注4：红色标注模型运行于推理模式（慢思考），黑色标注为对应的非推理模式（快思考）。

下文将重点对比Gemini 3.1 Flash Lite（Lite）与Gemini 2.5 Flash 0925（旧Flash），默认对比均为推理模式，非推理模式会特别标注。需注意，旧Flash已于去年12月停止追踪，故对比基于两者共同参与的测试交集。

主要改进

指令遵循能力：Lite基本继承了同代Flash模型的指令遵循能力。尽管其综合能力仅属推理模型第三梯队，但在指令遵循单项上，意外地能与第二甚至部分第一梯队模型持平。相比旧Flash，Lite能更稳定地在多轮次（Pass）中遵循相同指令。其未能遵循的情况通常源于指令非直接或包含复杂上下文背景。例如，在工具调用场景中，Lite能尽力遵守单个工具的传参约束，但难以统筹不同工具间的组合约束。这意味着，对于足够简单、明确的指令，Lite基本能稳定执行。
程序能力：Lite保留了新3.0 Flash模型相当一部分的编程能力，一些中等复杂度的算法题可实现一次性（one-shot）通过。相同测试在旧Flash上大多得分为零甚至无法编译。不过，Lite与新Flash类似，在大规模工程项目能力上仍不可用。因此，它适用于简单脚本开发，或在智能体（Agent）场景中承担数据清洗等前置任务。
计算能力：计算并非Lite的强项，整体弱于第二梯队推理模型的平均水平。但相比旧Flash仍有明显进步，对于K12范围内的初级计算问题可保持较高精度，甚至在非推理模式下也保留了相当的计算能力。然而，受限于幻觉率偏高，一旦计算步骤增多，错误率会大幅上升，甚至可能出现死循环。

现存不足

上下文幻觉：Lite的幻觉问题在3.0 Flash基础上有所改善，但稳定性不足。其表现时好时坏，最佳时可接近新Flash水平，最差时则回落至旧版Lite水准。当原文长度超过10K Token时，信息提取类任务便很难完美完成。其非推理模式的幻觉水平基本与旧Flash的非推理模式持平，以当前标准衡量，并不算低。
字符级理解能力：字符处理曾是Gemini 3系列（Pro与Flash）的强项，它们能稳定解析各类需要逐字符理解的问题。Lite虽从“大哥”那里继承了一定的相关能力，但表现不尽如人意。其输出往往形似而神不似，实际内容基本不可用，且模型自身并未意识到它并未真正解决此类问题。

总结

在智能体（Agent）时代，存在大量只需严格遵循指令进行数据搬运，或连续执行一系列简单、单一任务的场景。这类任务并不要求模型具备顶尖的智力，但极度需要高速响应与低成本。Gemini 3.1 Flash Lite正是为此类需求而生。最复杂的任务可由其“老大哥”Pro模型处理，常规推理任务则由Flash模型承担。

作为先行者，谷歌正在引导模型能力向特定方向进化。正如人类社会无需人人都是天才，在由智能体构建的硅基社会中，也必然需要能力侧重点不同的模型。Lite以其极致的“快”，必将在其中占据一席之地。

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：http://www.itsolotime.com/archives/24385

Gemini 3.1 Flash Lite评测：推理速度创5秒新低，指令遵循能力意外强劲

相关推荐

Grok-4-1-fast-reasoning评测：速度与成本的革命性优化，准确率与专业能力的权衡

通义 Qwen3.5-Flash 测评：开源新锐的剑之所及

Gemini 3 Pro深度评测：多模态推理模型如何重塑AI生产力边界

BabyVision评测揭示多模态模型视觉能力仅达三岁幼儿水平，AI看懂世界之路仍漫长

大模型评测框架全景解析：如何选择适合你的测试工具？