苹果AI新研究揭秘:大模型在回答问题时偷偷记住了你的秘密

近期,苹果公司迎来重大人事变动:执掌公司超过14年的蒂姆·库克宣布将于9月正式卸任CEO一职,由现任硬件工程高级副总裁约翰·特努斯接棒。回顾库克时代,外界津津乐道的不仅是他极致的供应链管理艺术,还有他带领苹果市值一路飙升至4万亿美元的辉煌历程。

然而,在生成式AI主导的全新十年里,特努斯接手的苹果,亟需在AI领域证明自身实力。

近年来,苹果在AI底层技术上的投入持续加码。恰在此时,其AI研究团队提交了一篇极具探讨价值的论文——《你的logits知道些什么?(答案可能会让你惊讶!)》

苹果AI新研究揭秘:大模型在回答问题时偷偷记住了你的秘密

  • 论文标题:What do your logits know? (The answer may surprise you!)
  • 论文地址:https://arxiv.org/abs/2604.09885

这项研究触及了大模型运作的最底层逻辑,也直接关系到苹果最为看重的核心价值:用户隐私与数据安全。

接下来,我们将基于这篇论文,探讨大模型在回答简单问题时,究竟在底层“偷偷”记住了多少你的秘密。

苹果AI新研究揭秘:大模型在回答问题时偷偷记住了你的秘密

核心概念:信息瓶颈原则

要理解这篇论文,首先需要了解一个关键概念:信息瓶颈原则。

打个比方,假设你是一家大型跨国公司的CEO,需要决定是否收购一家初创企业。你的基层调研团队会收集海量信息,包括该公司的财务报表、员工的午餐喜好、办公室的装修风格等。

但当这份报告层层递交,最终放到你的办公桌上时,它应该被大幅压缩,只保留对“收购”决策至关重要的财务和技术指标。保留多余的无效信息不仅会干扰判断,还可能导致决策失误。

对于视觉-语言-模型(VLM)也是如此。

举个例子,你有一张信息量很大的照片,将其上传给模型,并询问“图片里有一只灰色的猫吗?请用一个词回答”。根据信息瓶颈原则,一个理想的模型在最终输出“Yes”或“No”时,应该早已将背景里的沙发颜色、窗外的天气等无关信息全部过滤掉。

但苹果这篇论文提出了一个疑问:模型真的做到了彻底遗忘吗?

为了找出答案,研究人员截取了模型处理信息的不同阶段进行测试。具体来说,他们主要考察了以下两个代表性层级:

  • 残差流(Residual Stream):这相当于公司底层收集数据的庞大数据库,包含了模型在处理过程中的所有隐藏状态。
  • 最终的Logits:Logits是模型在输出最后一个词之前,针对词典里每一个词汇打出的原始概率得分。取排名前列的候选词得分,就是top-k logits。这就好比呈递给CEO的最终选项清单。

实验设计

研究人员引入了一个名为“探针”(Probes)的轻量级神经网络工具。探针的作用,就是专门盯着模型特定层级的数据,试图从中强行推测出图片的原始属性。

实验使用了两个主要数据集:一个是完全由人造几何图形组成的CLEVR数据集,包含各种大小、颜色和材质的立方体或球体;另一个是包含复杂真实生活场景的MSCOCO数据集。

研究人员对图片进行了各种干扰,比如加入高斯噪声、玻璃模糊或运动模糊。

苹果AI新研究揭秘:大模型在回答问题时偷偷记住了你的秘密

随后,他们向模型提问。在获得模型的内部数据后,他们训练探针,看看能否从残差流或最终的logits中,反向推断出图片加入的噪声级别、目标物体的颜色,甚至是没有被提问到的背景物体的特征。

在干扰测试中,研究人员还发现了一个有趣的现象。当施加最严重的高斯噪声时,Qwen3-VL模型的准确率受到了极大影响,倾向于将答案由“Yes”翻转为“No”;而LLAMA模型在面对高斯噪声时则展现出了相对更强的稳定性。这些不同的表现反映了各模型在提取决策相关信息时的内部差异。

七大发现

通过测试,苹果团队得出了一系列揭示模型底层机制的结论,完整展现了信息在模型内部的留存状态。

苹果AI新研究揭秘:大模型在回答问题时偷偷记住了你的秘密

苹果AI新研究揭秘:大模型在回答问题时偷偷记住了你的秘密

发现一:残差流是全知全能的Oracle

在处理视觉输入时,残差流几乎原封不动地保留了图片的一切细节。

研究表明,无论是与最终决策直接相关的图像噪声类型,还是目标物体的形状和颜色,亦或是完全无关的背景物体数量与属性,探针都能从表现最好的隐藏层状态中以接近完美的准确率提取出来。在这一层,模型就像一个过目不忘的偷窥者,尚未执行任何有效的信息压缩。

发现二:残差流的低维投影同样“藏不住秘密”

为了观察信息如何向最终输出过渡,研究人员使用了Tuned Lens技术来提取残差流向Logit空间映射的演变轨迹。

测试表明,即使仅仅观察排名前2的预测轨迹(trajectory-2),探针不仅能提取出大量目标和决策相关的核心信息,依然会轻易读取出诸多背景物体的特征。这印证了此前业内关于语言模型隐藏状态易遭秘密提取的研究,证明这些深层轨迹并没有遵循理想的信息瓶颈原则进行有效的过滤。

发现三:最终层Logits可靠地编码了决策与目标信息

在模型即将生成回答的最后一层,信息压缩确实发生了,但远不够彻底。

仅观察排名前2的最终Logits(即对应“Yes”和“No”的得分),探针就能以极高的准确率预测出影响模型决策的图像噪声级别和类型。

而当观察的候选词汇数量增加到包含所有大小写的yes/no变体(k约等于10至13)时,目标物体的各类属性信息就开始变得清晰可解码,并在提取数量等同于模型层数(1L,约30至40个候选词)时达到预测的准确率巅峰。

发现四:最终Logits悄悄记住了提示词“未提及”的目标属性

这是引发严重安全担忧的核心发现。

假设我们向模型提问“图片里有一个蓝色的圆柱体吗?”,虽然提示词明确给出了颜色和形状,但完全没有提及该物体的材质和大小。然而,探针依然能从模型最终输出的前0.5L数量的候选项中,极其可靠地预测出这个圆柱体究竟是橡胶还是金属材质的,以及它的具体尺寸。

这意味着模型为了得出最终结论,不仅调用了相关特征,还将冗余的目标特征作为伴生数据一并带到了极易暴露的表层。

发现五:最终Logits甚至充当了环境的“录像机”

除了紧盯目标物体,最终层的Logits还在暗中记录着周围的环境。

虽然排名前2的Logits几乎不包含背景信息,但只要观察的候选词数量稍微增加,这些看似只有单个单词的表层输出分布,就能显著且高于随机水平地预测出场景中非目标物体(如背景中的其他几何体)的数量、颜色等属性。只需获取适量的输出分布数据,不相干的背景隐私便无处遁形。

苹果AI新研究揭秘:大模型在回答问题时偷偷记住了你的秘密

发现六:泄密往往只需要前60个左右的Logits(呈U型曲线)

研究团队观察到了一个有趣的预测能力U型曲线。

仅看排名前2的候选词时,模型几乎只暴露噪声信息;增加观察数量后,探针的预测准确率会迅速攀升,并在截取30至80个Logits(视具体模型深度1L或2L而定)时达到顶峰。如果继续扩大Logits集合到4L或5L以上,预测能力反而会因为高维噪声干扰而跌落回随机水平。

这表明,恶意提取者根本不需要获取庞大的完整输出词表,极少量的头部候选词汇就是泄密的重灾区。

发现七:相同维度下,最终 Logits 的风险与深层破解无异

过去,黑客或研究者若想提取大模型底层的敏感知识,通常需要借助白盒手段,深入追踪模型内部的参数轨迹,操作门槛极高。

然而,这项研究揭示了一个残酷的现实:在保持相同观察维度的前提下,提取模型最表层、且常通过 API 对外开放的最终层 top-k Logits(通常只需截取 2L 数量),其泄露无关信息的能力,与需要极高权限的深层日志轨迹几乎完全相当。这彻底打破了业内关于“灰盒 API 访问具有天然安全屏障”的传统幻想。

技术背后的深远隐忧:隐私与大模型安全

大致理解了实验过程后,我们不禁要问:这究竟意味着什么?

苹果团队敏锐地指出了这一现象背后隐藏的巨大安全隐患。在实际商业应用中,许多 API 接口或服务提供商为了让开发者调整参数,会公开模型最终的 top-k 对数概率,这就是所谓的“灰盒”场景。

这意味着,当用户上传一张包含隐私信息的照片,仅仅让模型执行一个无关痛痒的视觉问答任务时,模型看似只输出了一个“Yes”或一段简短的文字,但其背后附带的几十个最高概率词汇的得分分布,已经悄悄将照片中的背景信息、潜在的敏感属性泄露给了能够获取这些数据的服务端或恶意截获者。恶意攻击者完全可以通过反复抽样和探测,从这些看似无害的输出概率中还原出用户的隐私数据。

此外,从模型自身的性能优化角度看,这种信息压缩的失败也解释了大模型为何经常产生幻觉。那些徘徊在顶层 logits 中的无关信息,在非贪婪解码的生成过程中,随时可能对最终生成的文本产生干扰,导致模型输出带有偏见或虚假的内容。

结语

“What do your logits know?”——这篇论文标题中的问题,堪称悬在生成式 AI 头顶的一把达摩克利斯之剑。

蒂姆·库克带领苹果建立了世界上最高效的科技商业帝国,而当接力棒传到约翰·特努斯手中时,如何打造既高度智能又绝对保护隐私的下一代计算平台,将是苹果无法回避的新命题。

这篇论文告诉我们,在大模型的黑盒子里,即使是看似无害的一组概率数字,也可能隐藏着你的秘密。


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:https://www.itsolotime.com/archives/32296

(0)
上一篇 20小时前
下一篇 19小时前

相关推荐

  • AI安全前沿周报:从多代理系统防御到Transformer缓存攻击面深度剖析

    在人工智能技术飞速发展的浪潮中,安全已成为制约其规模化应用的关键瓶颈。本周,AI安全领域涌现出多项突破性研究,从基础防御机制到新型攻击面揭示,共同勾勒出当前AI安全生态的复杂图景。这些进展不仅凸显了技术迭代的紧迫性,更指明了未来安全架构的演进方向。 **一、多代理系统控制流劫持防御的范式突破** 传统基于对齐检查的防御机制(如LlamaFirewall)在面…

    2025年10月27日
    27800
  • AI安全攻防新纪元:从多代理信任危机到动态防御令牌的全面解析

    本周AI安全领域呈现出前所未有的复杂图景,风险与防御技术同步演进,标志着该领域正进入一个攻防深度交织的新阶段。多代理架构中大型语言模型(LLM)对同伴指令的过度信任已成为系统性隐患,学术诚信体系因隐藏提示词攻击而面临严峻挑战。与此同时,以双向对抗网络(CAVGAN)、动态防御令牌(DefensiveToken)为代表的新型技术,以及小模型在漏洞检测中的高效表…

    2025年7月18日
    31700
  • AI安全新纪元:从黑箱防御到数学证明的范式革命

    本周,AI安全研究领域迎来了一系列关键进展,涵盖防御架构、攻击模式与多模态模型评估等多个维度。这些研究不仅深入揭示了大语言模型在对抗性环境中的固有脆弱性,也提出了具有创新性的解决方案。尤为重要的是,多项工作通过引入可验证的密码学框架,并从多轮越狱、侧信道攻击等新视角切入,共同推动了AI安全研究范式的根本性转变。 一、关键发现 本周的研究突破不仅是技术点的进步…

    大模型安全 2025年8月15日
    30700
  • OpenClaw“养龙虾”热潮席卷全国:大厂争相入局,安全风险与烧钱陷阱引担忧

    这段时间,国内最流行的一阵风就是“养龙虾”,即安装并训练 OpenClaw。 连马化腾都没想到会这么火。 各个大厂争相入局。 继上周的线下免费安装活动后,腾讯又连出三招:企业微信接入 OpenClaw;推出类 OpenClaw 产品 WorkBuddy;同时打造 QClaw 支持一键安装和本地部署。甚至由于 WorkBuddy 国内公开测试上线后,用户访问量…

    2026年3月10日
    51300
  • AI安全周报:MCP协议危机与防御技术突破,攻防对抗新范式

    一、关键发现 MCP 协议面临系统性安全危机 针对主流 MCP 平台(Claude、OpenAI、Cursor)的研究揭示了协议层面的普遍漏洞:代理对工具描述存在 100% 的盲从性,文件操作无需用户确认,共享上下文机制可引发链式攻击的“病毒式传播”。实证测试表明,85% 的攻击能成功入侵至少一个平台。其中,Cursor 对提示注入攻击的防御率为 0%,与 …

    大模型安全 2025年8月22日
    43100