震惊！Gemini 3 Flash幻觉率高达91%：AA-Omniscience基准揭示模型致命缺陷

2025年12月19日上午2:28 • AI产业动态 • 阅读 302

在业界对Gemini 3 Flash的一片赞誉声中，AA-Omniscience基准测试的最新结果却令人瞠目结舌：该模型的幻觉率竟高达91%，在所有参与测试的模型中位列倒数。所谓幻觉率，是指模型在应当拒绝回答或承认未知时，却错误生成答案的比例，这一指标直接反映了模型的可靠性与准确性。

在更为全面的LisanBench测试中，Gemini 3 Flash的表现同样不尽如人意，仅排名第12位（Glicko-2 Elo排名第13）。LisanBench是一个专注于前瞻性规划、词汇深度、约束遵守、注意力及长上下文持久力的轻量级基准测试，其基于词汇链游戏变体，要求模型通过莱文斯坦距离为1的变换生成连续单词链。

测试者Lisan al Gaib采用了“reasoning effort high”设置，总测试成本略高于16美元。结果显示，Gemini 3 Flash与DeepSeek-V3.2 Thinking、Kimi-K2-Thinking等开源模型，以及GPT-5、Sonnet-4等前沿商业模型相比，表现相当，但并未脱颖而出。

更值得关注的是平均有效性比率指标，它衡量了模型在词汇链中生成错误链接或单词的频率。Gemini 3 Flash在此项上的表现仅为87%，进一步佐证了其潜在的幻觉问题，揭示了模型在核心推理任务上的稳定性不足。

从推理效率图分析，Gemini 3 Flash在平均输出token数量与平均最长有效链长度之间的平衡表现欠佳。与开源替代品相比，其性价比存在显著差距。具体而言，Gemini 3 Flash的定价为0.5/3.00美元，而性能更优的DeepSeek-V3.2 Thinking仅需0.28/0.42美元，后者不仅得分更高、价格更低，且token使用量更少。

在低资源设置下，Gemini 3 Flash的低配置版本表现更为堪忧：得分约为高配置的一半，token使用量也相应减半，但有效性比率被描述为“绝对糟糕”，这凸显了模型在资源受限环境中的适应性缺陷。

在当前AI模型竞争白热化的背景下，Gemini 3 Flash的表现引发了关于模型平衡性的深度讨论。回顾历史，类似的声音也曾出现在Deepseek r1等模型上。高幻觉率问题绝非小事，尽管部分观点将其视为模型的“创造力”体现，但在实际应用场景中，这种不准确性可能导致严重后果。可以说，稳定性和准确性依然是评判AI模型质量的核心标准，任何忽视这一点的模型都难以在长期竞争中立足。

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：http://www.itsolotime.com/archives/4461