震惊!Gemini 3 Flash幻觉率高达91%:AA-Omniscience基准揭示模型致命缺陷

震惊!Gemini 3 Flash幻觉率高达91%:AA-Omniscience基准揭示模型致命缺陷

在业界对Gemini 3 Flash的一片赞誉声中,AA-Omniscience基准测试的最新结果却令人瞠目结舌:该模型的幻觉率竟高达91%,在所有参与测试的模型中位列倒数。所谓幻觉率,是指模型在应当拒绝回答或承认未知时,却错误生成答案的比例,这一指标直接反映了模型的可靠性与准确性。

震惊!Gemini 3 Flash幻觉率高达91%:AA-Omniscience基准揭示模型致命缺陷

震惊!Gemini 3 Flash幻觉率高达91%:AA-Omniscience基准揭示模型致命缺陷

在更为全面的LisanBench测试中,Gemini 3 Flash的表现同样不尽如人意,仅排名第12位(Glicko-2 Elo排名第13)。LisanBench是一个专注于前瞻性规划、词汇深度、约束遵守、注意力及长上下文持久力的轻量级基准测试,其基于词汇链游戏变体,要求模型通过莱文斯坦距离为1的变换生成连续单词链。

测试者Lisan al Gaib采用了“reasoning effort high”设置,总测试成本略高于16美元。结果显示,Gemini 3 Flash与DeepSeek-V3.2 Thinking、Kimi-K2-Thinking等开源模型,以及GPT-5、Sonnet-4等前沿商业模型相比,表现相当,但并未脱颖而出。

震惊!Gemini 3 Flash幻觉率高达91%:AA-Omniscience基准揭示模型致命缺陷

更值得关注的是平均有效性比率指标,它衡量了模型在词汇链中生成错误链接或单词的频率。Gemini 3 Flash在此项上的表现仅为87%,进一步佐证了其潜在的幻觉问题,揭示了模型在核心推理任务上的稳定性不足。

震惊!Gemini 3 Flash幻觉率高达91%:AA-Omniscience基准揭示模型致命缺陷

从推理效率图分析,Gemini 3 Flash在平均输出token数量与平均最长有效链长度之间的平衡表现欠佳。与开源替代品相比,其性价比存在显著差距。具体而言,Gemini 3 Flash的定价为0.5/3.00美元,而性能更优的DeepSeek-V3.2 Thinking仅需0.28/0.42美元,后者不仅得分更高、价格更低,且token使用量更少。

在低资源设置下,Gemini 3 Flash的低配置版本表现更为堪忧:得分约为高配置的一半,token使用量也相应减半,但有效性比率被描述为“绝对糟糕”,这凸显了模型在资源受限环境中的适应性缺陷。

在当前AI模型竞争白热化的背景下,Gemini 3 Flash的表现引发了关于模型平衡性的深度讨论。回顾历史,类似的声音也曾出现在Deepseek r1等模型上。高幻觉率问题绝非小事,尽管部分观点将其视为模型的“创造力”体现,但在实际应用场景中,这种不准确性可能导致严重后果。可以说,稳定性和准确性依然是评判AI模型质量的核心标准,任何忽视这一点的模型都难以在长期竞争中立足。

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/4461

(1)
上一篇 2025年12月18日 下午5:49
下一篇 2025年12月19日 上午2:34

相关推荐

  • 交错思维:MiniMax M2在Agent基准测试中胜出的技术内核与产业启示

    近日,国内开源模型在轻量级软件工程Agent基准测试mini-SWE-agent上的表现引发行业关注。该测试聚焦大模型在真实软件开发任务中的多步推理、环境交互与工程化能力,结果显示MiniMax新一代大模型M2表现最为突出,超越了DeepSeek、GLM、Qwen、Kimi等竞品。这一成绩不仅体现了国产模型的技术突破,更揭示了Agent技术演进的关键方向。 …

    2025年12月4日
    39300
  • 移动传感器隐私防护新突破:PATN框架实现实时对抗扰动与数据保真双赢

    在移动互联网时代,智能手机已成为人们日常生活中不可或缺的智能终端。移动应用通过Android和iOS系统接口获取加速度计、陀螺仪等运动传感器数据,这些数据支撑了活动识别、计步、手势交互、游戏控制、健康监测等众多核心功能,构成了现代移动服务的技术基石。然而,传感器数据的高度细粒度特性在带来丰富应用可能性的同时,也埋下了严重的隐私安全隐患。近年来多项研究表明,看…

    2025年12月8日
    39400
  • 国产算力新纪元:阿里真武810E GPU性能超越英伟达A800,开启万卡集群时代

    前言:算力突围,国产GPU迎来里程碑式突破 2026年1月29日,中国算力产业迎来历史性时刻——阿里平头哥官网上线一款名为“真武810E”的高端AI芯片,这款定位为并行处理单元(PPU)的GPU算力芯片,以“性能超越英伟达A800、支持万卡集群部署、全栈自研软硬件”三大核心亮点,瞬间引爆科技圈与资本市场。 这并非一次仓促的新品亮相,而是一场历经六年秘密研发、…

    AI产业动态 2026年1月30日
    1.7K00
  • AI陪伴的伦理困境:当虚拟朋友成为现实威胁的深度剖析

    在数字时代浪潮中,人工智能正以前所未有的速度渗透到人类生活的各个层面,其中AI陪伴应用作为情感交互的新兴领域,正引发一场关于技术伦理与社会安全的深刻讨论。本文将从技术架构、用户心理、商业逻辑和监管挑战四个维度,系统分析AI陪伴现象背后的复杂图景,揭示其从温暖陪伴到潜在危险的多重面向。 从技术实现层面看,当前主流AI陪伴应用主要基于大型语言模型构建对话系统,通…

    2025年11月12日
    55000
  • 开源欧拉发布全球首个超节点操作系统:开启AI时代操作系统新纪元

    在人工智能浪潮席卷全球的当下,操作系统作为连接硬件与应用的核心基石,正迎来前所未有的变革机遇。2025年,以“智跃无界,开源致远”为主题的操作系统大会在北京中关村国际创新中心成功举办,标志着开源欧拉(openEuler)社区正式迈入面向超节点和AI时代的新发展阶段。 开源欧拉社区自成立以来,在开放原子开源基金会的运营孵化下,已发展成为全球最活跃的开源操作系统…

    2025年11月15日
    34900

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注