震惊!Gemini 3 Flash幻觉率高达91%:AA-Omniscience基准揭示模型致命缺陷

震惊!Gemini 3 Flash幻觉率高达91%:AA-Omniscience基准揭示模型致命缺陷

在业界对Gemini 3 Flash的一片赞誉声中,AA-Omniscience基准测试的最新结果却令人瞠目结舌:该模型的幻觉率竟高达91%,在所有参与测试的模型中位列倒数。所谓幻觉率,是指模型在应当拒绝回答或承认未知时,却错误生成答案的比例,这一指标直接反映了模型的可靠性与准确性。

震惊!Gemini 3 Flash幻觉率高达91%:AA-Omniscience基准揭示模型致命缺陷

震惊!Gemini 3 Flash幻觉率高达91%:AA-Omniscience基准揭示模型致命缺陷

在更为全面的LisanBench测试中,Gemini 3 Flash的表现同样不尽如人意,仅排名第12位(Glicko-2 Elo排名第13)。LisanBench是一个专注于前瞻性规划、词汇深度、约束遵守、注意力及长上下文持久力的轻量级基准测试,其基于词汇链游戏变体,要求模型通过莱文斯坦距离为1的变换生成连续单词链。

测试者Lisan al Gaib采用了“reasoning effort high”设置,总测试成本略高于16美元。结果显示,Gemini 3 Flash与DeepSeek-V3.2 Thinking、Kimi-K2-Thinking等开源模型,以及GPT-5、Sonnet-4等前沿商业模型相比,表现相当,但并未脱颖而出。

震惊!Gemini 3 Flash幻觉率高达91%:AA-Omniscience基准揭示模型致命缺陷

更值得关注的是平均有效性比率指标,它衡量了模型在词汇链中生成错误链接或单词的频率。Gemini 3 Flash在此项上的表现仅为87%,进一步佐证了其潜在的幻觉问题,揭示了模型在核心推理任务上的稳定性不足。

震惊!Gemini 3 Flash幻觉率高达91%:AA-Omniscience基准揭示模型致命缺陷

从推理效率图分析,Gemini 3 Flash在平均输出token数量与平均最长有效链长度之间的平衡表现欠佳。与开源替代品相比,其性价比存在显著差距。具体而言,Gemini 3 Flash的定价为0.5/3.00美元,而性能更优的DeepSeek-V3.2 Thinking仅需0.28/0.42美元,后者不仅得分更高、价格更低,且token使用量更少。

在低资源设置下,Gemini 3 Flash的低配置版本表现更为堪忧:得分约为高配置的一半,token使用量也相应减半,但有效性比率被描述为“绝对糟糕”,这凸显了模型在资源受限环境中的适应性缺陷。

在当前AI模型竞争白热化的背景下,Gemini 3 Flash的表现引发了关于模型平衡性的深度讨论。回顾历史,类似的声音也曾出现在Deepseek r1等模型上。高幻觉率问题绝非小事,尽管部分观点将其视为模型的“创造力”体现,但在实际应用场景中,这种不准确性可能导致严重后果。可以说,稳定性和准确性依然是评判AI模型质量的核心标准,任何忽视这一点的模型都难以在长期竞争中立足。

本文由鲸栖原创发布,未经许可,请勿转载。转载请注明出处:http://www.itsolotime.com/archives/4461

(0)
上一篇 1天前
下一篇 16小时前

相关推荐

  • 从通用炫技到垂直深耕:斑马口语如何以AI Agent技术重塑英语教育新范式

    2025年,AI产业的焦点正从实验室的惊艳演示转向商业价值的深度挖掘。当OpenAI、Google等巨头仍在探索多模态大模型的通用可能性时,一场决定AI真正落地效能的战役已在教育、医疗、客服等垂直领域悄然打响。在这场产业化竞赛中,斑马推出的业内首个实现AI外教一对一教学的「斑马口语」产品,不仅标志着AI Agent在垂直行业的实质性突破,更以系统性的技术攻坚…

    2025年11月18日
    200
  • 阿里千问APP深度解析:Qwen模型全面赋能,开启中国版ChatGPT的超级入口之战

    近日,阿里巴巴集团正式推出面向全球用户的ChatBot应用——千问APP,标志着其在C端AI应用市场的战略布局进入实质性阶段。这一举措不仅是对年初3800亿元AI基础设施投入的延续,更被视为阿里在“AI时代的未来之战”中的关键落子。从产品定位、模型能力到用户体验,千问APP展现出对标ChatGPT的雄心,并凭借其背后的Qwen大模型矩阵,试图在中文语境下打造…

    2025年11月17日
    100
  • 从人工伪装到AI独角兽:Fireflies.ai的伦理争议与商业启示

    在AI创业浪潮中,Fireflies.ai的崛起故事既是一个商业奇迹,也是一个伦理警示。这家如今估值超过10亿美元的AI独角兽,其创业起点竟是两位创始人亲自假扮AI助手,手动记录会议笔记。这种“人工伪装AI”的MVP(最小可行产品)验证方式,虽然帮助公司完成了最初的商业可行性测试,但也引发了关于商业伦理、用户隐私和创业方法的深刻讨论。 Fireflies.a…

    2025年11月16日
    100
  • 从金融深水区到产业级应用:蚂蚁数科Agentar-SQL开源背后的AI方法论

    近日,蚂蚁数科在第二届CCF中国数据大会上正式宣布开源其数据智能体关键技术——Agentar-SQL系列,这一举动在AI数据分析领域引发广泛关注。此次开源不仅包含实时文本转SQL(Text-to-SQL)框架的全套论文、代码、模型和使用指南,更标志着中国AI企业在核心技术开放共享方面迈出重要一步。 要理解这一开源事件的意义,必须从技术实力和市场表现两个维度深…

    5天前
    400
  • 内容主权与AI爬取博弈:Cloudflare内容信号政策如何重塑互联网契约

    在AI技术浪潮席卷全球的当下,互联网内容生态正面临前所未有的结构性挑战。传统模式下,网站运营者陷入两难困境:完全开放内容意味着数据被无偿爬取、流量被平台虹吸;而设置登录墙或严格屏蔽爬虫则会导致用户触达率骤降,商业价值受损。这种矛盾在生成式AI和大模型训练需求爆炸性增长的背景下被急剧放大——AI公司需要海量高质量数据训练模型,而内容创作者却难以从数据价值中分得…

    2025年10月19日
    100

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注