MiniMax模型惊现“马嘉祺”识别Bug:Tokenizer机制缺陷引发“幽灵编辑”现象

最近,有用户发现了一个有趣的现象:MiniMax的模型在处理“马嘉祺”这个名字时,出现了识别异常。

MiniMax模型惊现“马嘉祺”识别Bug:Tokenizer机制缺陷引发“幽灵编辑”现象

起初这被认为是个偶然事件。但经过多方测试,该问题在不同接口和平台上均能稳定复现。

甚至有人调侃道:未来如果在OpenRouter上出现一个匿名模型,且它认不出“马嘉祺”,那么它很可能就来自MiniMax。

MiniMax模型惊现“马嘉祺”识别Bug:Tokenizer机制缺陷引发“幽灵编辑”现象

测试表明,无论是在MiniMax官方的Agent平台,还是通过OpenRouter调用其API,这一现象均会出现。

更值得注意的是,在某些回复中,模型甚至同时生成了两个不同的名字。

MiniMax模型惊现“马嘉祺”识别Bug:Tokenizer机制缺陷引发“幽灵编辑”现象 MiniMax模型惊现“马嘉祺”识别Bug:Tokenizer机制缺陷引发“幽灵编辑”现象

然而,仔细分析用户截图和API返回结果可以发现,模型实际上能够检索到与马嘉祺相关的资料,并能大致正确地输出其背景信息。问题仅在于,每当需要输出名字时,模型便开始“自由发挥”。

简而言之,信息内容基本正确,所指人物也大致对应,唯独名字本身出现了偏差。

MiniMax模型惊现“马嘉祺”识别Bug:Tokenizer机制缺陷引发“幽灵编辑”现象

那么,导致这一现象的原因是什么?

从现有表现来看,这更像是模型在特定词汇的生成环节出现了异常,而非意味着它缺乏关于该人物的知识。

一种可能的解释与训练数据的清洗和分布有关。对于马嘉祺这类具有极高网络讨论度的公众人物,互联网上存在大量重复、模板化的内容。在大规模数据去重、过滤或重新加权过程中,此类词汇可能被“误伤”,从而导致模型在生成该名字时表现不稳定。

从生成机制上理解,大语言模型并非以“先完全确认人物,再机械输出名字”的流程工作,而是在理解问题、调用相关知识和组织语言的过程中同步完成内容生成。因此,一旦某个特定名字在生成阶段受到额外干扰,就可能出现“人物信息正确,但名字写错”的情况。

近期一篇论文探讨了与此相关的底层机制问题:某些看似发生在知识或推理层面的异常,其根源可能在于更底层的分词器(Tokenizer)机制缺陷,例如非唯一映射问题。

MiniMax模型惊现“马嘉祺”识别Bug:Tokenizer机制缺陷引发“幽灵编辑”现象

  • 论文标题:Say Anything but This: When Tokenizer Betrays Reasoning in LLMs
  • 论文地址:https://arxiv.org/pdf/2601.14658v1

作者指出,现代基于子词的分词器普遍存在“一对多编码,但多对一解码”的情况,即多个不同的Token序列可能解码为同一个文本字符串。其结果是,模型可能在Token层面做出了“更改”,但在最终的文本输出上却未产生任何可见变化。

论文设计了一个巧妙的测试:不要求模型解决复杂数学题或回答知识性问题,只让它执行一项看似极其简单的任务——替换句子中被标记出的词语,并保持其余内容完全不变。

理论上这几乎不应失败。但作者发现,在超过11000次的替换实验中,许多模型都出现了一种被称为“幽灵编辑”(phantom edits)的现象:模型输出的Token ID确实发生了变化,但解码后显示的词语却与原文一模一样。也就是说,模型“以为自己完成了修改”,而人类看到的却是“什么都没变”。

MiniMax模型惊现“马嘉祺”识别Bug:Tokenizer机制缺陷引发“幽灵编辑”现象

研究还指出,并非所有问题都能通过“扩大模型规模”自动解决。作者测试了多个模型家族后发现,这类由分词器非唯一映射引发的错误,并不会随着参数规模的增加而自然消失。

MiniMax模型惊现“马嘉祺”识别Bug:Tokenizer机制缺陷引发“幽灵编辑”现象

(图注:在词语替换任务中,不同大语言模型家族及不同参数规模的结果分布。“Different”类别突出了由分词器引发的“幽灵编辑”现象,该现象在所有模型规模和家族中均持续存在。)

论文进一步提出,某些看似是“推理能力不足”的问题,可能部分原因只是分词器在底层悄悄引入了干扰。换言之,有时并非模型不会推理,而是它被底层机制引导至一条看似完成任务、实则原地打转的路径上。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/26130

(0)
上一篇 2026年3月17日 上午11:14
下一篇 2026年3月17日 下午2:29

相关推荐

  • 从AlphaGo到DeepSeek R1:推理模型如何重塑AI生产力与人类未来

    如果把人生看作一个开放式的大型多人在线游戏(MMO),那么游戏服务器在刚刚完成一次重大更新的时刻,规则改变了。 自 2022 年 ChatGPT 惊艳亮相以来,世界已经发生了深刻变化。在短短几年内,人工智能正从模仿语言的统计机器,迈向理解与操纵逻辑的思考系统。如果说早期的大语言模型更像是在进行高维概率空间中的词汇拼贴,那么新一代推理模型,则开始学会在生成之前…

    2026年2月20日
    20700
  • 性能远超 vLLM 和 SGLang!TileRT:编译器驱动下的 Tile-Based Runtime

    关键词:TileRT、超低延迟、LLM推理、tile 级运行时 、多GPU、编译器驱动 TileRT: Tile-Based Runtime for Ultra-Low-Latency LLM Inference https://github.com/tile-ai/TileRT https://github.com/tile-ai/TileRT/relea…

    2025年12月21日
    62400
  • Android异构硬件AI推理优化:NPU+INT8量化实现298倍加速的深度解析

    关键词: Android、异构计算、模型量化、ResNet、YOLO、高通骁龙 当你使用手机的“拍照识物”功能时,是否遇到过画面卡顿?当直播应用的实时美颜效果延迟明显时,你是否好奇问题出在哪里?这些场景背后,都指向移动 AI 推理的核心挑战:如何在手机有限的硬件资源下,让AI模型(如图像分类、目标检测)既跑得快(低延迟),又算得准(高精度),同时还不费电(低…

    2026年1月3日
    53200
  • OmniInfer:统一多后端引擎,破解端侧大模型推理碎片化难题

    随着大语言模型(LLM)和视觉语言模型(VLM)在参数量和架构上快速演进,AI应用的主战场正逐渐从云端算力中心向边缘侧和端侧设备转移。 端侧推理能够显著降低对云端服务器的算力依赖与带宽压力,并在保护用户数据隐私的前提下,提供离线可用、低延迟的交互体验。然而,要将LLM/VLM真正部署到“每一台设备上”,开发者面临着前所未有的工程挑战。 核心问题与痛点 硬件生…

    5天前
    17500
  • 北大清华联手DeepSeek突破Agentic LLM推理瓶颈!DualPath双路径KV缓存加载方案实现1.87倍吞吐提升

    关键词: Agentic LLM、KV缓存、PD分离、存储I/O、负载均衡 近年来,大型语言模型(LLM)的应用形态正在发生深刻变革。早期的LLM主要扮演聊天机器人的角色,交互回合有限,上下文相对较短。然而,随着技术的发展,LLM正迅速演变为能够自主规划、调用工具、解决实际任务的智能体(Agent)系统。这类系统通过多轮交互与环境(如代码解释器、浏览器、终端…

    2026年2月26日
    34700