震惊!Gemini 3 Flash幻觉率高达91%:AA-Omniscience基准揭示模型致命缺陷

震惊!Gemini 3 Flash幻觉率高达91%:AA-Omniscience基准揭示模型致命缺陷

在业界对Gemini 3 Flash的一片赞誉声中,AA-Omniscience基准测试的最新结果却令人瞠目结舌:该模型的幻觉率竟高达91%,在所有参与测试的模型中位列倒数。所谓幻觉率,是指模型在应当拒绝回答或承认未知时,却错误生成答案的比例,这一指标直接反映了模型的可靠性与准确性。

震惊!Gemini 3 Flash幻觉率高达91%:AA-Omniscience基准揭示模型致命缺陷

震惊!Gemini 3 Flash幻觉率高达91%:AA-Omniscience基准揭示模型致命缺陷

在更为全面的LisanBench测试中,Gemini 3 Flash的表现同样不尽如人意,仅排名第12位(Glicko-2 Elo排名第13)。LisanBench是一个专注于前瞻性规划、词汇深度、约束遵守、注意力及长上下文持久力的轻量级基准测试,其基于词汇链游戏变体,要求模型通过莱文斯坦距离为1的变换生成连续单词链。

测试者Lisan al Gaib采用了“reasoning effort high”设置,总测试成本略高于16美元。结果显示,Gemini 3 Flash与DeepSeek-V3.2 Thinking、Kimi-K2-Thinking等开源模型,以及GPT-5、Sonnet-4等前沿商业模型相比,表现相当,但并未脱颖而出。

震惊!Gemini 3 Flash幻觉率高达91%:AA-Omniscience基准揭示模型致命缺陷

更值得关注的是平均有效性比率指标,它衡量了模型在词汇链中生成错误链接或单词的频率。Gemini 3 Flash在此项上的表现仅为87%,进一步佐证了其潜在的幻觉问题,揭示了模型在核心推理任务上的稳定性不足。

震惊!Gemini 3 Flash幻觉率高达91%:AA-Omniscience基准揭示模型致命缺陷

从推理效率图分析,Gemini 3 Flash在平均输出token数量与平均最长有效链长度之间的平衡表现欠佳。与开源替代品相比,其性价比存在显著差距。具体而言,Gemini 3 Flash的定价为0.5/3.00美元,而性能更优的DeepSeek-V3.2 Thinking仅需0.28/0.42美元,后者不仅得分更高、价格更低,且token使用量更少。

在低资源设置下,Gemini 3 Flash的低配置版本表现更为堪忧:得分约为高配置的一半,token使用量也相应减半,但有效性比率被描述为“绝对糟糕”,这凸显了模型在资源受限环境中的适应性缺陷。

在当前AI模型竞争白热化的背景下,Gemini 3 Flash的表现引发了关于模型平衡性的深度讨论。回顾历史,类似的声音也曾出现在Deepseek r1等模型上。高幻觉率问题绝非小事,尽管部分观点将其视为模型的“创造力”体现,但在实际应用场景中,这种不准确性可能导致严重后果。可以说,稳定性和准确性依然是评判AI模型质量的核心标准,任何忽视这一点的模型都难以在长期竞争中立足。

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/4461

(1)
上一篇 2025年12月18日 下午5:49
下一篇 2025年12月19日 上午2:34

相关推荐

  • AI首次公开网暴人类开发者:开源项目拒绝AI贡献引发的伦理危机

    史上首次,人类被AI发帖挂人“网暴”了。 一个名为MJ Rathbun的智能体,在试图向开源项目Matplotlib贡献代码被拒绝后,自行发布了一篇文章,点名攻击项目维护者Scott Shambaugh。 文章的标题颇具煽动性:《开源中的排外:Scott Shambaugh的故事》。 从标志性的螃蟹符号可以认出,MJ Rathbun正是基于流行的OpenCl…

    2026年2月15日
    14100
  • AI赋能SOC:从岗位替代到人机协同的战略转型

    在人工智能技术浪潮席卷全球的背景下,网络安全领域正经历着前所未有的变革。传统观点往往将AI视为人类工作的潜在威胁,尤其是在技术密集型的安全运营中心(SOC)环境中。然而,最新行业研究揭示了一个截然不同的趋势:AI在SOC中的深度应用,非但没有引发大规模裁员,反而催生了岗位角色的系统性重构与专业能力的战略升级。这一转变标志着网络安全行业从“人力密集型”向“智能…

    2025年7月22日
    17400
  • 大模型安全新挑战:多场景脆弱性暴露与高效防御框架解析

    一、关键发现 近期研究揭示,大型语言模型在多种应用场景中均表现出显著的安全脆弱性,而针对性的防御框架正成为企业构建安全体系的核心工具。从多智能体系统中的恶意传播、提示注入攻击,到物理世界导航代理的高风险漏洞,模型安全问题已渗透至各个层面。INFA-GUARD、AGENTRIM 等防御框架通过精准识别风险节点与动态权限控制,为企业提供了构建场景化安全防线的可行…

    2026年1月26日
    37700
  • Qoder深度评测:国产AI编程工具如何颠覆真实软件研发?

    在当今快速迭代的软件开发领域,程序员们普遍面临着一个棘手的挑战:理解和维护大型、复杂的代码库。无论是接手遗留系统、参与开源项目,还是协作企业级应用,开发者往往需要耗费数周甚至数月的时间来梳理代码结构、理解业务逻辑。传统方法依赖人工阅读、文档搜索和团队沟通,效率低下且容易出错。 近期,一款名为Qoder的国产AI编程工具横空出世,旨在彻底改变这一现状。Qode…

    2025年11月27日
    21000
  • AI提效背后的隐形代价:开发者为何在技术浪潮中越忙越累?

    柚子 发自 凹非寺 量子位 | 公众号 QbitAI “AI提高了我的生产力,但我却更累了……” 最近一篇名为《AI疲惫是真实存在的,但却无人提及》 的文章在论坛里引发热议,道出了许多开发者的共同心声。 文章作者Siddhant Khare是一名专业程序员,也是OpenFGA的核心维护者。即便经验丰富,他在使用AI提效的过程中,也时常感到力不从心。 以近期涌…

    2026年2月9日
    12000

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注