震惊!Gemini 3 Flash幻觉率高达91%:AA-Omniscience基准揭示模型致命缺陷

震惊!Gemini 3 Flash幻觉率高达91%:AA-Omniscience基准揭示模型致命缺陷

在业界对Gemini 3 Flash的一片赞誉声中,AA-Omniscience基准测试的最新结果却令人瞠目结舌:该模型的幻觉率竟高达91%,在所有参与测试的模型中位列倒数。所谓幻觉率,是指模型在应当拒绝回答或承认未知时,却错误生成答案的比例,这一指标直接反映了模型的可靠性与准确性。

震惊!Gemini 3 Flash幻觉率高达91%:AA-Omniscience基准揭示模型致命缺陷

震惊!Gemini 3 Flash幻觉率高达91%:AA-Omniscience基准揭示模型致命缺陷

在更为全面的LisanBench测试中,Gemini 3 Flash的表现同样不尽如人意,仅排名第12位(Glicko-2 Elo排名第13)。LisanBench是一个专注于前瞻性规划、词汇深度、约束遵守、注意力及长上下文持久力的轻量级基准测试,其基于词汇链游戏变体,要求模型通过莱文斯坦距离为1的变换生成连续单词链。

测试者Lisan al Gaib采用了“reasoning effort high”设置,总测试成本略高于16美元。结果显示,Gemini 3 Flash与DeepSeek-V3.2 Thinking、Kimi-K2-Thinking等开源模型,以及GPT-5、Sonnet-4等前沿商业模型相比,表现相当,但并未脱颖而出。

震惊!Gemini 3 Flash幻觉率高达91%:AA-Omniscience基准揭示模型致命缺陷

更值得关注的是平均有效性比率指标,它衡量了模型在词汇链中生成错误链接或单词的频率。Gemini 3 Flash在此项上的表现仅为87%,进一步佐证了其潜在的幻觉问题,揭示了模型在核心推理任务上的稳定性不足。

震惊!Gemini 3 Flash幻觉率高达91%:AA-Omniscience基准揭示模型致命缺陷

从推理效率图分析,Gemini 3 Flash在平均输出token数量与平均最长有效链长度之间的平衡表现欠佳。与开源替代品相比,其性价比存在显著差距。具体而言,Gemini 3 Flash的定价为0.5/3.00美元,而性能更优的DeepSeek-V3.2 Thinking仅需0.28/0.42美元,后者不仅得分更高、价格更低,且token使用量更少。

在低资源设置下,Gemini 3 Flash的低配置版本表现更为堪忧:得分约为高配置的一半,token使用量也相应减半,但有效性比率被描述为“绝对糟糕”,这凸显了模型在资源受限环境中的适应性缺陷。

在当前AI模型竞争白热化的背景下,Gemini 3 Flash的表现引发了关于模型平衡性的深度讨论。回顾历史,类似的声音也曾出现在Deepseek r1等模型上。高幻觉率问题绝非小事,尽管部分观点将其视为模型的“创造力”体现,但在实际应用场景中,这种不准确性可能导致严重后果。可以说,稳定性和准确性依然是评判AI模型质量的核心标准,任何忽视这一点的模型都难以在长期竞争中立足。

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/4461

(1)
上一篇 2025年12月18日 下午5:49
下一篇 2025年12月19日 上午2:34

相关推荐

  • 通义Qwen3.5-Plus深度测评:开源战神部队的排头兵,推理效率与性价比双突破

    短的结论:开源战神部队的排头兵 基本情况: Qwen3.5-Plus 的到来比预期更快。通义实验室延续了其“新一代模型跨级挑战上一代”的进化方法论,此前Qwen2.5-80B 曾战平旧款235B模型,如今这一策略再次上演:不到400B参数的Plus模型,在能力上已能追赶上一代万亿参数规模的Max模型。 其单位Token的推理性能也达到了前所未有的优秀水平。要…

    2026年2月18日
    15500
  • 从《杰森一家》到现实:个人飞行器技术演进与商业化挑战深度解析

    几十年来,人类对个人飞行器的幻想从未停止。从20世纪60年代动画片《杰森一家》中描绘的垂直起降飞行器,到如今Jetson ONE等产品的问世,这一领域正经历从科幻到现实的艰难跨越。本文将从技术原理、市场现状、法规挑战及未来展望四个维度,深入剖析个人飞行器的发展现状与瓶颈。 **技术架构:电动垂直起降(eVTOL)的突破与局限** Jetson ONE作为当前…

    2025年11月1日
    17900
  • 从万能钥匙到AI钥匙:谷歌创始人布林复盘技术决策与未来展望

    在斯坦福大学的演讲中,谷歌联合创始人谢尔盖·布林以罕见的坦诚,回顾了谷歌从诞生到AI竞争中的关键转折点。这场演讲不仅是对一家科技巨头历史的梳理,更是对技术决策、创新节奏与产业趋势的深刻反思。 布林首先指出,谷歌的诞生源于一次“无心插柳”的创业。1995年,他与拉里·佩奇在斯坦福相遇,最初的目标是开发一个名为“BackRub”的搜索算法,希望通过链接分析评估网…

    2025年12月15日
    16400
  • 解码AI时代红利:从技术突破到产业协同的多元路径分析

    在人工智能技术快速演进的当下,科技创新红利已成为驱动经济增长和社会变革的核心动力。近期一场汇聚学界与产业界精英的高端对话,从多维视角深入剖析了AI时代红利的释放机制与实现路径。本文将从技术基础、产业转化、协同创新及全球化布局四个维度,系统解析科技创新红利的深层逻辑与实践策略。 技术突破是红利释放的原始驱动力。当前,以大模型为代表的AI技术正掀起新一轮科技革命…

    2025年11月11日
    14700
  • 从规则到认知:TwinMarket如何用大语言模型重塑金融市场仿真

    三十年前,圣塔菲研究所的“人工股票市场”实验揭示了传统Agent-Based Models(ABM)的根本困境:它们难以捕捉人类投资者复杂的认知偏差、情绪波动和社交影响。如今,大语言模型(LLM)的出现为这一领域带来了范式转变的可能。香港中文大学(深圳)与南京大学的研究团队推出的TwinMarket平台,正是这一转变的里程碑式实践。该平台通过构建千人规模的L…

    2025年11月15日
    15700

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注