震惊!Gemini 3 Flash幻觉率高达91%:AA-Omniscience基准揭示模型致命缺陷

震惊!Gemini 3 Flash幻觉率高达91%:AA-Omniscience基准揭示模型致命缺陷

在业界对Gemini 3 Flash的一片赞誉声中,AA-Omniscience基准测试的最新结果却令人瞠目结舌:该模型的幻觉率竟高达91%,在所有参与测试的模型中位列倒数。所谓幻觉率,是指模型在应当拒绝回答或承认未知时,却错误生成答案的比例,这一指标直接反映了模型的可靠性与准确性。

震惊!Gemini 3 Flash幻觉率高达91%:AA-Omniscience基准揭示模型致命缺陷

震惊!Gemini 3 Flash幻觉率高达91%:AA-Omniscience基准揭示模型致命缺陷

在更为全面的LisanBench测试中,Gemini 3 Flash的表现同样不尽如人意,仅排名第12位(Glicko-2 Elo排名第13)。LisanBench是一个专注于前瞻性规划、词汇深度、约束遵守、注意力及长上下文持久力的轻量级基准测试,其基于词汇链游戏变体,要求模型通过莱文斯坦距离为1的变换生成连续单词链。

测试者Lisan al Gaib采用了“reasoning effort high”设置,总测试成本略高于16美元。结果显示,Gemini 3 Flash与DeepSeek-V3.2 Thinking、Kimi-K2-Thinking等开源模型,以及GPT-5、Sonnet-4等前沿商业模型相比,表现相当,但并未脱颖而出。

震惊!Gemini 3 Flash幻觉率高达91%:AA-Omniscience基准揭示模型致命缺陷

更值得关注的是平均有效性比率指标,它衡量了模型在词汇链中生成错误链接或单词的频率。Gemini 3 Flash在此项上的表现仅为87%,进一步佐证了其潜在的幻觉问题,揭示了模型在核心推理任务上的稳定性不足。

震惊!Gemini 3 Flash幻觉率高达91%:AA-Omniscience基准揭示模型致命缺陷

从推理效率图分析,Gemini 3 Flash在平均输出token数量与平均最长有效链长度之间的平衡表现欠佳。与开源替代品相比,其性价比存在显著差距。具体而言,Gemini 3 Flash的定价为0.5/3.00美元,而性能更优的DeepSeek-V3.2 Thinking仅需0.28/0.42美元,后者不仅得分更高、价格更低,且token使用量更少。

在低资源设置下,Gemini 3 Flash的低配置版本表现更为堪忧:得分约为高配置的一半,token使用量也相应减半,但有效性比率被描述为“绝对糟糕”,这凸显了模型在资源受限环境中的适应性缺陷。

在当前AI模型竞争白热化的背景下,Gemini 3 Flash的表现引发了关于模型平衡性的深度讨论。回顾历史,类似的声音也曾出现在Deepseek r1等模型上。高幻觉率问题绝非小事,尽管部分观点将其视为模型的“创造力”体现,但在实际应用场景中,这种不准确性可能导致严重后果。可以说,稳定性和准确性依然是评判AI模型质量的核心标准,任何忽视这一点的模型都难以在长期竞争中立足。

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/4461

(1)
上一篇 2025年12月18日 下午5:49
下一篇 2025年12月19日 上午2:34

相关推荐

  • 腾讯混元HunyuanOCR:轻量化端到端OCR专家模型的技术突破与产业影响

    近日,腾讯混元大模型团队正式发布并开源了HunyuanOCR模型,这是一款参数仅为1B的商业级开源OCR专用视觉语言模型。该模型采用原生ViT与轻量级LLM结合的创新架构,在文本检测识别、复杂文档解析等感知能力方面优于所有公开方案,并在信息抽取、文字图像翻译等语义任务中表现卓越。在ICDAR 2025 DIMT挑战赛(小模型赛道)中荣获冠军,同时在OCRBe…

    2025年11月29日
    8200
  • 谷歌开源Computer Use Preview:视觉AI革新浏览器自动化,让Selenium黯然失色

    做过爬虫或自动化测试的人,大多体会过被 Selenium 和 Puppeteer 支配的恐惧。 为了点击一个按钮,我们不得不去扒网页源码,寻找 ID 或 Class。一旦网页改版,精心编写的脚本瞬间报错,维护起来耗时耗力。 那时我就在想,如果 AI 能像人一样,看一眼屏幕就知道该点哪里,该多好。 如今,Google 将这个想法变成了现实。他们在 GitHub…

    2026年1月6日
    10100
  • UniLIP:突破多模态模型语义理解与像素重建的权衡,实现统一表征新范式

    在人工智能多模态领域,一个长期存在的核心挑战是如何构建既能深度理解语义又能精确重建像素的统一表征模型。传统方法往往在这两个目标间面临艰难权衡:专注于语义理解的模型(如基于CLIP的编码器)在图像重建任务中表现欠佳,而专注于像素重建的模型(如VAE)则语义理解能力有限。本文深入分析北京大学与阿里通义万相实验室联合提出的UniLIP模型,探讨其如何通过创新的两阶…

    2025年11月2日
    8700
  • 具身智能革命:人形机器人如何跨越死亡谷,开启百万亿市场新纪元

    引言:具身智能,AI从“认知”到“行动”的革命 当ChatGPT开启了通用人工智能的“认知时代”,AI实现了从“听懂、看懂”到“理解、思考”的跨越;而具身智能的崛起,则正在推开AI“行动时代”的大门,让人工智能真正走出屏幕、走进物理世界,实现“能做、会做、做好”的终极突破。 人形机器人作为具身智能的终极载体,凭借类人的形态、灵活的运动能力和自主决策能力,不仅…

    2天前
    2100
  • DeepAnalyze:首个面向自主数据科学的Agentic LLM,开启数据科学范式变革

    近日,来自中国人民大学与清华大学的研究团队联合发布了DeepAnalyze,这是全球首个面向自主数据科学的agentic LLM(大型语言模型)。该模型的发布在学术界和工业界引发了广泛关注,一周内即在GitHub上获得超过1000个星标,社交媒体浏览量突破20万次,标志着数据科学领域向智能化、自主化迈出了关键一步。 DeepAnalyze-8B的核心突破在于…

    2025年10月30日
    8200

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注