MiniMax模型惊现“马嘉祺”识别Bug:Tokenizer机制缺陷引发“幽灵编辑”现象

最近,有用户发现了一个有趣的现象:MiniMax的模型在处理“马嘉祺”这个名字时,出现了识别异常。

MiniMax模型惊现“马嘉祺”识别Bug:Tokenizer机制缺陷引发“幽灵编辑”现象

起初这被认为是个偶然事件。但经过多方测试,该问题在不同接口和平台上均能稳定复现。

甚至有人调侃道:未来如果在OpenRouter上出现一个匿名模型,且它认不出“马嘉祺”,那么它很可能就来自MiniMax。

MiniMax模型惊现“马嘉祺”识别Bug:Tokenizer机制缺陷引发“幽灵编辑”现象

测试表明,无论是在MiniMax官方的Agent平台,还是通过OpenRouter调用其API,这一现象均会出现。

更值得注意的是,在某些回复中,模型甚至同时生成了两个不同的名字。

MiniMax模型惊现“马嘉祺”识别Bug:Tokenizer机制缺陷引发“幽灵编辑”现象 MiniMax模型惊现“马嘉祺”识别Bug:Tokenizer机制缺陷引发“幽灵编辑”现象

然而,仔细分析用户截图和API返回结果可以发现,模型实际上能够检索到与马嘉祺相关的资料,并能大致正确地输出其背景信息。问题仅在于,每当需要输出名字时,模型便开始“自由发挥”。

简而言之,信息内容基本正确,所指人物也大致对应,唯独名字本身出现了偏差。

MiniMax模型惊现“马嘉祺”识别Bug:Tokenizer机制缺陷引发“幽灵编辑”现象

那么,导致这一现象的原因是什么?

从现有表现来看,这更像是模型在特定词汇的生成环节出现了异常,而非意味着它缺乏关于该人物的知识。

一种可能的解释与训练数据的清洗和分布有关。对于马嘉祺这类具有极高网络讨论度的公众人物,互联网上存在大量重复、模板化的内容。在大规模数据去重、过滤或重新加权过程中,此类词汇可能被“误伤”,从而导致模型在生成该名字时表现不稳定。

从生成机制上理解,大语言模型并非以“先完全确认人物,再机械输出名字”的流程工作,而是在理解问题、调用相关知识和组织语言的过程中同步完成内容生成。因此,一旦某个特定名字在生成阶段受到额外干扰,就可能出现“人物信息正确,但名字写错”的情况。

近期一篇论文探讨了与此相关的底层机制问题:某些看似发生在知识或推理层面的异常,其根源可能在于更底层的分词器(Tokenizer)机制缺陷,例如非唯一映射问题。

MiniMax模型惊现“马嘉祺”识别Bug:Tokenizer机制缺陷引发“幽灵编辑”现象

  • 论文标题:Say Anything but This: When Tokenizer Betrays Reasoning in LLMs
  • 论文地址:https://arxiv.org/pdf/2601.14658v1

作者指出,现代基于子词的分词器普遍存在“一对多编码,但多对一解码”的情况,即多个不同的Token序列可能解码为同一个文本字符串。其结果是,模型可能在Token层面做出了“更改”,但在最终的文本输出上却未产生任何可见变化。

论文设计了一个巧妙的测试:不要求模型解决复杂数学题或回答知识性问题,只让它执行一项看似极其简单的任务——替换句子中被标记出的词语,并保持其余内容完全不变。

理论上这几乎不应失败。但作者发现,在超过11000次的替换实验中,许多模型都出现了一种被称为“幽灵编辑”(phantom edits)的现象:模型输出的Token ID确实发生了变化,但解码后显示的词语却与原文一模一样。也就是说,模型“以为自己完成了修改”,而人类看到的却是“什么都没变”。

MiniMax模型惊现“马嘉祺”识别Bug:Tokenizer机制缺陷引发“幽灵编辑”现象

研究还指出,并非所有问题都能通过“扩大模型规模”自动解决。作者测试了多个模型家族后发现,这类由分词器非唯一映射引发的错误,并不会随着参数规模的增加而自然消失。

MiniMax模型惊现“马嘉祺”识别Bug:Tokenizer机制缺陷引发“幽灵编辑”现象

(图注:在词语替换任务中,不同大语言模型家族及不同参数规模的结果分布。“Different”类别突出了由分词器引发的“幽灵编辑”现象,该现象在所有模型规模和家族中均持续存在。)

论文进一步提出,某些看似是“推理能力不足”的问题,可能部分原因只是分词器在底层悄悄引入了干扰。换言之,有时并非模型不会推理,而是它被底层机制引导至一条看似完成任务、实则原地打转的路径上。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/26130

(0)
上一篇 16小时前
下一篇 13小时前

相关推荐

  • PaddleOCR-VL:文档理解新突破,复杂表格公式一键精准解析

    传统 OCR 工具在处理包含复杂表格、数学公式或多栏排版的文档时,往往输出杂乱,需要大量人工整理。近期,百度开源的 PaddleOCR-VL-0.9B 模型在文档理解任务上展现出了显著突破。 尽管其参数量仅为 9 亿,但该模型在全球权威评测基准 OmniDocBench v1.5 上取得了 92.6 的综合得分,位列榜首。在推理速度上,相比同类模型 Mine…

    2025年11月5日
    16300
  • Co-rewarding:突破自监督RL瓶颈,无标注数据下稳定诱导大模型推理能力

    本文介绍的工作来自香港浸会大学和上海交通大学的可信机器学习和推理组,已被 ICLR 2026 接收。 目前,RLVR(Reinforcement Learning with Verifiable Rewards)已成为诱导大语言模型推理能力的主流技术路线。然而,RLVR 需要高质量标注数据来监督奖励获取,这一点是其可扩展性上的主要瓶颈。 一旦走向不需要标注数…

    2026年2月25日
    14100
  • Parallel-Probe:大模型并行推理效率革命,计算浪费减少35.8%

    当大模型推理进入并行思考时代,一个关键问题随之浮现:在并行推理过程中,大量计算资源是否被浪费在了那些已无必要继续的思考路径上? 为探究此问题,来自马里兰大学、圣路易斯华盛顿大学及北卡罗来纳大学教堂山分校的研究团队提出了 Parallel-Probe。该研究并未直接从算法设计入手,而是首先引入 2D Probing 技术,系统性刻画了在线并行推理的全局动态特性…

    2026年3月7日
    10500
  • COMI框架:通过边际信息增益实现高压缩率下的长文本智能压缩

    为什么现有上下文压缩方法在高压缩率下集体“翻车”? 当模型需要将32K的长文本压缩到1K时,性能为何会断崖式下跌?现有方法在长文本压缩中容易保留大量“高度相似却重复”的内容,陷入“信息内卷”:看似保留了相关片段,实则堆砌了语义雷同的冗余token,反而会误导模型生成错误答案。 来自阿里巴巴未来生活实验室的研究团队发现,这背后是压缩目标的根本错位:现有方法只关…

    2026年2月25日
    12400
  • Video-Thinker:小红书首创视频推理内生智能,让大模型自主导航动态时序

    随着多模态大语言模型(MLLM)的飞速发展,“Thinking with Images”范式已在图像理解和推理任务上取得了革命性突破——模型不再是被动接收视觉信息,而是学会了主动定位与思考。 然而,当面对包含复杂时序依赖与动态叙事的视频推理任务时,这一能力尚未得到有效延伸。现有的视频推理方法往往受限于对外部工具的依赖或预设的提示词策略,难以让模型内生出对时间…

    2026年1月2日
    21000