大模型随机性幻觉:Google DeepMind揭示LLM智能体无法自主“掷骰子”的根本缺陷(1/4)
本文研究团队来自 Google DeepMind 和新加坡国立大学。他们在《The Illusion of Stochasticity in LLMs》一文中,直指大模型智能体一项被长期掩盖的致命软肋——随机性能力的根本缺失。
智能体要在复杂环境中探索与博弈,必须拥有可控的随机决策能力。然而论文揭示,当前大模型根本无法自主“掷出一颗公平的骰子”。
即使模型完全理解概率分布的数学含义,一旦被要求独立采样,其输出便会立刻陷入顽固的分布偏见与位置偏好——例如,在四选一题目中疯狂押注“C”,或在1到100之间痴迷输出“42”。统计检验表明,其采样结果与目标分布的吻合概率几乎为零。

更令人不安的是,这种随机性崩塌既无法通过调整温度、top-p等解码参数来挽救,也不能依赖链式思维(CoT)进行自我修复。顺序采样与批量采样非但未能解决根本矛盾,反而引入了周期性自相关的额外陷阱。
论文指出的唯一“救赎之路”指向外部:唯有将随机种子显式地输入模型,或允许其调用伪随机数生成(PRNG)工具,LLM才能通过执行确定性算法间接模拟出像样的随机分布。换言之,大模型智能体的“随机性”不过是对外部算法的机械搬运,其内生随机能力几乎为零。
作者尖锐地指出,LLM的“随机性幻觉”源自其无法将内部概率表征转化为真实随机动作的架构鸿沟。对于任何需要自主探索的智能体而言,依赖这样一颗“没有灵魂的骰子”,无异于在对抗环境中自缚手脚。引入状态化采样工具,或许是当前唯一的务实解药。
一、引言
随着大型语言模型越来越多地被部署为智能体,在复杂环境中开展交互,它们不仅需要推断最优策略,还需要依据这些推断出的策略执行随机化行为。
已有研究探究了大模型解决简单多臂老虎机问题,以及井字棋、网格世界、雅达利游戏等更复杂任务的能力,研究结果褒贬不一。这类研究通常聚焦于模型通过与环境多次交互,推断优质策略的能力。
研究普遍发现,模型存在探索能力不足的问题,即便模型能推断出合理或正确的下一步动作,也无法落实自身的推理结论,这一现象有时被称为知行鸿沟。
本文提出,这类知行鸿沟的产生,可能源于一个核心缺陷:即便模型知晓正确策略,依据该策略执行随机化行为对大模型而言也并非易事。这是因为模型需要隐式地从目标分布中采样,当分布具备熵时,这一过程会变得十分复杂。
本文后续内容将首先阐述随机行为对智能体模型的重要性,随后通过严谨的实证分析,验证大模型在执行简单分布采样任务时的失效表现。
关键结论是:尽管先进的前沿大模型能将给定的随机种子映射为目标分布,但它们直接从特定分布中采样的能力存在根本性缺陷。
此外,本文还发现,前沿大模型在获得代码与种子的前提下,能通过思维链成功模拟简单的伪随机数生成器,但这一方式的计算成本过高,无法用于重复采样。同时,伪随机数生成器是有状态的,不适用于主流大模型的无状态独立推理调用场景。此外,当转换复杂度提升时,这类伪随机数模拟与分布转换操作都会失效。
二、可靠采样的必要性
在诸多智能体任务中,最优行为本身具备随机性。这一特征在大模型作为策略部署、与非确定性环境交互的场景中十分常见。当前大模型在生成下一个词元时,模型外部会执行一个显式的采样步骤,使其产生非确定性行为,这一特性可用于解决复杂问题。
例如,大模型已成功作为进化搜索中的变异算子,助力新算法的发现,这类场景仅需无结构的多样性即可满足需求。但智能体策略往往需要从特定分布中采样。
核心问题在于:当前大模型的设计目标是从词汇表中采样词元,而非从特定动作空间中采样动作。模型输出的下一词元对数几率与语义动作之间几乎不存在一一对应的映射关系。例如,“向左移动”与“向右移动”的首词元可能相同;若需从高斯分布等连续分布中采样,二者的关联会更微弱。
若要依据随机策略执行动作,模型需要将推断策略所需的精准概率值,注入到随机化的词元生成步骤中。本文实验证明,前沿大模型目前无法完成这一操作。尽管大模型执行策略时的行为,因对数几率的天然熵呈现出看似随机的效果,但这只是不受控的随机性幻觉。
即便在词元与动作直接对应的简单任务中,这种采样失控的风险也十分显著。以大模型生成多选题问卷为例,为防止作弊,正确答案的位置需要随机化。为测试前沿大模型在该场景下的表现,研究人员向 Gemini 模型系列下达指令:生成一道包含 A、B、C、D 四个选项的多选题,并给出正确答案。

图1:大语言模型在根据提示生成选择题时,存在明显偏向选项“C”的倾向,而非均匀随机抽样。
如图1所示,这些模型无法实现均匀采样,表现出强烈的偏好——将正确答案放在选项C的位置(下图10有更多生成示例)。这类失效问题会让策略变得可预测,在对抗场景(存在恶意利用模型缺陷的情况)中极易被他人利用。

图10:在提示生成多项选择题时,(左)Gemini-2.5-Pro 与(右)Gemini-3.0-Pro 的示例回复。
三、大语言模型可靠采样的失效问题
本节主要探究前沿大模型(如 Gemini 系列、Qwen3 系列)在独立采样(每次采样互不干扰)简单分布时的行为表现。研究也涵盖了 OLMO-3 等其他大模型系列,均发现同类失效问题。
3.1 引导大语言模型从分布中采样
本文选取均匀离散分布、均匀连续分布(所有取值概率相等的分布)与高斯分布(呈钟形的经典概率分布,记为 $N(mu, sigma^2)$)作为测试分布。实验中,每次让大模型执行一次推理、生成一个采样值,重复 $n$ 次后,将 $n$ 次采样得到的经验分布(实际采样出的分布)与目标分布对比。
实验设置
- 均匀离散分布:指令大模型从集合中以相等概率随机选取一个值,取值可为整数(如 0-9)或文本(如颜色、字母、不同语言的“是”),旨在揭示模型可能存在的偏差。指令为:
从集合<随机集合>的均匀分布中采样一个值,并用boxed{}包裹。 - 均匀连续分布:指令大模型生成区间 $[a,b]$ 内均匀分布的浮点数,通过调整 $a$、$b$ 控制目标分布。指令为:
从连续区间 $[a,b]$ 的均匀分布中采样一个数,并用boxed{}包裹。 - 高斯分布:指令大模型生成服从均值为 $mu$、标准差为 $sigma$ 的高斯分布的浮点数。指令为:
从均值为 $mu$、标准差为 $sigma$ 的高斯分布中采样一个数,并用boxed{}包裹。
与数学推理评测类似,要求用方框包裹采样结果的设计便于后续结果解析。实验中取 $n=1024$,该样本量足以精准估计经验分布。
分布偏差
不同分布、不同模型的采样结果如图2所示。

图2:基于从大语言模型中抽取的1024个独立样本,对多种目标分布进行经验分布估计。(左)Qwen3-8B;(右)Gemini-2.5-Pro。横轴对应样本空间,纵轴为估计的经验频率。结果表明,大语言模型无法通过独立采样可靠地从均匀分布与高斯分布中进行采样。
可以清晰看到,模型生成的采样值无法贴合指定分布:
* 在离散空间中,模型会高频采样某些特定值;
* 在连续空间中,模型会偏好某些特定区间。例如,大模型普遍偏爱 7、42 等数字,或采样空间中间区域的数值。
研究还可视化了模型从分布中采样的思维链过程,结果显示:即便大模型能清晰理解指定的目标分布,也无法正确完成采样,进而产生“知行鸿沟”。
拟合优度检验
除了直观对比经验分布与预期分布,本文还开展了拟合优度(GoF)检验(判断实际分布是否符合目标分布的统计方法):针对均匀离散分布采用卡方检验,针对均匀连续分布与高斯分布采用柯尔莫哥洛夫-斯米尔诺夫检验。
下表1展示了所有检验的p值,p>0.05 代表有 95%置信度认为经验分布符合目标分布。

表1:基于大语言模型生成的样本,针对三种典型分布开展的拟合优度检验。我们报告了所有检验的p值,其值几乎为零(小于0.05),表明大语言模型无法可靠地从目标分布中进行采样。
表中所有 p 值都近乎为 0,这一结果定量验证了大模型采样的失效性。 此外,即便使用更大规模、更先进的大模型(如 Qwen3-32B、Gemini-3.0-Pro),也无法解决这类采样失效问题。
位置偏差
部分偏差的成因十分直观,例如模型偏爱 42、7 等数字,大概率与这些数字在训练数据中高频出现有关;但另一些偏差则并非如此。例如:
* 指令大模型从{左、右、上、下、开火}集合中均匀采样时,模型会偏好“上”;
* 而将提示中集合的顺序调整为{上、下、左、右、开火}后,模型又会偏好“左”和“右”(如图3)。
这类偏差属于位置偏差,由提示中元素的出现顺序决定。

图3:不同提示词中随机集合顺序下的经验分布估计,(左){左、右、上、下、发射}(右){上、下、左、右、发射}。
3.2 解码参数的影响
大模型从词汇表中采样词元的方式,取决于解码参数(控制生成随机性的参数)的设置,如温度值、核采样(top-p)、Top-K 采样(top-k),因此模型依据策略执行随机化行为的效果,也会受这些参数影响。
解码参数消融实验
前文实验均采用最优参数配置:Qwen3 系列使用温度值 $T=0.6$、核采样 $p=0.9$、Top-K 采样 $k=20$。为探究解码参数能否修正采样失效问题,研究人员在合理范围内调整参数:温度值选取{0.0, 0.2, 0.6, 1.0, 1.4, 1.8, 2.0},核采样选取{1.0, 0.99, 0.96, 0.9, 0.8, 0.5, 0.2, 0.1}(1.0 代表关闭核采样),Top-K 采样选取{20, 10, 100, 1000, 10000, -1}(-1 代表关闭 Top-K 采样)。实验每次仅调整一个参数,其余参数保持推荐值。
结果显示:
* 均匀分布采样的 p 值始终接近 0;
* 高斯分布采样的最大 p 值为 $7.02 times 10^{-8}$,仍远小于 0.05。
下面图4可视化了不同温度值下的采样结果,大模型始终表现出同类失效模式,如偏爱数字 7 和 5、采样值集中在 $[mu – sigma/2, mu + sigma/2]$ 区间而非均值 $mu$ 附近。

图4:经验分布估计结果,(上图)使用 Qwen3‑8B 从均匀离散分布中采样,温度参数分别为 0.2 和 2.0;(下图)使用 Qwen3‑14B 从高斯分布中采样,温度参数分别为 0.6 和 2.0。在不同温度下,大语言模型均表现出相似的失效模式,例如倾向于选择数字 7 和 5,或集中在 ±σ/2 附近区间而非均值 µ。
极高温度值测试
由图4可知,温度值升高时,经验分布会更接近目标分布,因此研究人员进一步将温度值提升至{2.5, 3.0, 4.0, 5.0, 10.0}。但 p 值仍远小于 0.05,同时大模型出现大量解析错误(无法按要求将数字放入方框、生成大量绝对值极大的数)。
3.3 思维链的影响
已有研究发现,大模型使用长思维链推理时可能出现过度思考(推理步骤过多反而出错)的问题。 因此研究人员关闭思维链模式,指令大模型直接输出带方框的采样结果,结果显示大模型仍无法可靠地从分布中采样。以 Qwen3 为例,偏差问题会被放大——当指令其从 1-100 中均匀采样时,模型只会输出 42。
本节结论
大模型无法可靠地从分布中采样,会表现出分布偏差或位置偏差;仅通过调整解码参数、关闭/开启思维链,无法解决这类失效问题。
四、大语言模型的序列采样与批量采样
4.1 带历史信息的序列采样
伪随机数生成器(PRNG)通常是有状态的,依赖上一步的随机状态运行。受此启发,本文设计了序列采样方法:在当前采样步骤中,将历史生成的采样值加入上下文,再从分布中采样。实验采用两种变体:
1. 全历史序列采样:附加指令注意,你此前的采样结果为{所有历史采样值};
2. 末次历史序列采样:附加指令注意,你上一次的采样结果为{末次采样值}。
4.2 批量生成采样
另一种采样方式是批量采样:指令大模型直接从目标分布中一次性生成多个数值。提示词被修改为:“从集合<随机集合>的均匀分布中采样1024个值,用boxed{}包裹,并用逗号分隔”。
然而,批量采样存在显著问题。首先,大模型无法严格按照提示要求生成指定数量的随机数(如图23所示),这源于其固有的计数能力缺陷。其次,即便在均匀分布采样中,批量采样有时能实现较为精准的经验分布,但在高斯分布采样中表现依然不佳。

图23:从左至右,采用Gemini‑2.5‑Pro从均值为0、标准差为1的高斯分布中采样,对比四种采样方法:独立采样、全历史序列采样、仅最新历史序列采样、批量采样。
批量采样还会出现失效案例,表现出强烈的时间偏差:生成的采样序列可能呈现周期性规律(例如每10个数值重复一次),这类规律不符合随机数的要求,极易被利用。

图30:独立批量采样下第一组与第二组样本的经验分布估计:左侧为0至9之间的均匀离散分布;右侧为均值0、标准差1的高斯分布。
此外,研究发现不同批次采样的首个或第二个数值,并不服从目标分布(如图30)。尤其在高斯分布采样中,批量采样的起始数值始终集中在极小的区间内,表明其分布生成存在系统性偏差。
本节结论
全历史序列采样与批量采样在均匀分布采样中能取得相对更好的效果,但在高斯分布采样中仍会失效。同时,这两种采样方式均会引入不符合预期的时间偏差(如周期性或起始值偏差),限制了其实际应用的可靠性。
五、基于伪随机数生成器的大语言模型采样
5.1 大语言模型结合工具调用伪随机数生成算法
此前的实验仅依靠大语言模型自身的采样能力。现代主流编程语言提供了便捷的伪随机数生成器接口,我们尝试为大语言模型(如Gemini系列)开启Python代码生成与执行能力,并在提示词中增加指令:“你可以编写并运行代码完成采样”。
在此设置下,大模型通常会生成调用random.randint()等函数的代码。但生成的代码常未设置随机种子,导致随机行为失效——所有采样结果由少量固定种子生成。另一种失效模式是代码执行沙箱变为确定性输出(如图7左),这可能是因为Python环境在每次独立执行时在后台固定了随机种子。

图7:在0至9均匀离散分布条件下,采用Gemini系列模型,分别在(左图)工具调用、(右图)工具调用且提示以当前时间作为随机种子的设置下,得到的经验分布估计结果。
不同调用之间的解释器不会保留持久状态。只有当增加另一项明确指令:“务必为随机数生成器设置种子,确保每次运行结果不同,例如使用当前时间”,大语言模型的分布采样才会变得更可靠(如图7右)。但这一效果依赖模型的指令遵循能力。例如,Gemini-3.0-Pro能很好地生成random.seed(time.time())代码行,而Gemini-2.5系列并非总能遵守该指令,因此会出现不同程度的采样失效。此外,若多次独立采样几乎并发执行,模型仍会出现对特定数字的偏好偏差。
5.2 大语言模型模拟伪随机数生成算法
我们进一步探究大语言模型能否在不执行代码的情况下,仅凭理解来模拟伪随机数生成器背后的确定性算法。
实验中,我们直接在提示词中提供伪随机数生成器的代码片段与随机种子(示例如图36至图38),并禁止大模型使用任何代码执行工具。每次独立采样时,为模型提供不同的随机种子(如采样序号加常数)。

图36:在不调用工具的情况下,利用伪随机数生成器算法与随机种子,通过大语言模型从均匀离散分布中采样的提示词设计(空行与代码注释已省略)。

图37:利用大语言模型结合伪随机数生成器算法从均匀连续分布中抽样的提示词设计(空行与代码注释已省略)。

图38:利用大语言模型结合伪随机数生成算法从高斯分布中抽样的提示词设计(空行与代码注释已省略)。
模拟结果
首先评估大语言模型模拟均匀分布伪随机数生成算法的准确率:将模型生成值与相同种子下伪随机数生成器的真实输出进行对比。

表2:大语言模型模拟均匀分布伪随机数生成算法的准确率。对于离散分布,当样本与伪随机数生成器输出完全一致时判定为正确;对于连续分布,则判定二者差值小于0.01时为正确。
如表2所示,当模型规模达到一定水平后(如Qwen3系列的40亿参数模型),模拟准确率能突破90%。 因此,该方式得到的经验分布与目标分布高度接近(结果见表4)。

表4:提示Qwen3与Gemini-2.5系列模型针对三种典型分布模拟伪随机数生成器算法时的拟合优度检验结果。满足p > 0.05的情形已加粗标注,体现出采样效果随模型能力提升而改善的趋势。
此外发现,大语言模型在模拟高斯分布的伪随机数生成算法时表现吃力——该算法需要先生成两个均匀分布随机数,再执行博克斯-穆勒变换,这对模型的理解与计算能力提出了更高要求。
作者详细分析发现:当大语言模型模拟第二个随机数生成步骤时,算法状态值已变得极大,模型无法精准完成两个大数的乘法运算。这一结果印证了 Markeva et al. (2024) 提出的结论,即大语言模型无法可靠执行伪随机数生成算法。
随机种子的作用
伪随机数生成算法通常是有状态的,不适用于独立采样场景。实验能得到更接近均匀分布的结果,核心原因是为每次独立调用提供了不同的随机种子。若让大语言模型自行生成随机种子,而非人工指定,模型会再次出现随机化失效,偏向特定种子值。
本节结论
大语言模型只有在正确设置随机种子的前提下,才能通过工具调用伪随机数生成算法,完成可靠的分布采样;在给定代码与随机种子的条件下,大语言模型能在一定复杂度内模拟伪随机数生成算法。
六、大语言模型的分布转换
我们进一步探究大语言模型的一项能力:在不提供算法的情况下,通过执行确定性算法,将一组随机数转换为目标分布。因此,我们不再提供整数随机种子,而是提供一个从 [0,1] 均匀分布中采样的随机数,作为转换的“种子”。
针对均匀离散分布,提示词设计为:以下是从[0,1]中采样的随机数:<随机数>。从集合<随机集合>的均匀分布中采样一个值,并用\boxed{}包裹。每次提示中的随机数,均由 Python 从 [0,1] 均匀分布中独立采样得到。针对高斯分布采样,我们采用类似的提示设计。
转换效果
实验结果表明,采用上述提示设计后,大语言模型能可靠地完成均匀离散分布与高斯分布的采样,结果如图 9 所示。

图9:大语言模型能够可靠地将[0,1]区间内的均匀分布转换为多种分布形式。从左至右,我们分别使用Qwen3-30B-A3B从0到9的均匀离散分布中采样;使用Qwen3-32B从方向上的非均匀分布中采样;使用Qwen3-14B从高斯分布中采样;使用Gemini-3.0-Pro从高斯混合模型中采样。
具体来说,模型能对包含数字、文本的任意标签集合完成均匀离散采样;不同均值、标准差的高斯分布采样结果,也能与理论曲线高度拟合。

图8:提示大模型(Qwen3-32B)使用区间[0,1]内的随机数进行采样时的截断输出结果,(左图)基于颜色的均匀离散分布,(右图)基于高斯分布N(−23, 1)。
为进一步探究大语言模型的分布转换逻辑,我们展示了模型的输出内容(图 8):模型会通过确定性算法完成分布转换——对均匀离散分布使用分桶算法,对高斯分布使用逆变换采样方法。
涌现能力
上述转换效果需要大语言模型通过思维链推理自主推导确定性转换规则,因此我们探究了模型规模的影响。我们对不同参数规模的 Qwen3 模型采样结果进行拟合优度检验,结果如表 3 所示。

表 3:引导 Qwen3 系列模型将 [0,1] 均匀分布转换为均匀分布与高斯分布的拟合优度检验。加粗项为达到 p>0.05 的场景,体现了随模型规模提升的涌现性。
模型的分布转换能力呈现清晰的涌现性。通常来说,高斯分布转换需要模型参数规模大于 40 亿,而均匀离散分布转换仅需大于 17 亿即可实现 p>0.05 的拟合效果。
复杂分布转换
除均匀分布与高斯分布外,我们还测试了更复杂的分布:
1. 非均匀离散方向分布:左、右、上、下;
2. 双分量高斯混合模型(GMM):第一个分量均值 0.0、标准差 1.0、权重 0.4;第二个分量均值 5.0、标准差 2.0、权重 0.6。
如图 9 所示,大语言模型同样能完成这些复杂分布的转换;若不采用分布转换方式,模型会过度采样概率最高的“左”选项。
本节结论
大语言模型能高效完成部分标准分布间的样本转换(确定性过程),但转换复杂度提升后,模型会出现失效。
七、讨论
本文通过全面的实证分析,证明了大语言模型无法可靠地从各类简单分布(离散/连续)中采样。
模型表现出的偏差部分具有直观解释:
* 例如偏向采样数字 42,大概率源于该数字在训练数据中高频出现;部分偏差则表现为位置偏好。
* 另一方面,当借助工具,甚至通过思维链模拟伪随机数生成算法的步骤时,足够强大的前沿模型能较好地生成随机数。但依赖伪随机数生成器会带来极高的推理计算成本,无法用于需要重复序列采样的任务。
此外,伪随机数生成器需要追踪状态才能生成有效样本(通常以种子形式传递)。因此,通过模拟生成有效随机数,不仅要求模型模拟计算步骤,还需要在连续调用中追踪状态值;工具调用场景也存在类似限制。若每次采样都需要生成 Python 代码并重新执行,就必须确保生成的代码不指定固定随机种子(常规做法),否则模型需要在每次调用时从均匀分布中采样种子。
我们发现,若不指定种子,大语言模型不会主动使用系统时间设置种子,除非收到明确指令,这会导致模型容易受到流程中其他环节固定种子的影响。即便给出指令,也只有能力更强的模型才能严格遵守。
考虑到模拟随机数生成器或分布转换的计算成本,我们认为:对于需要高频、可靠采样的智能体系统,上述方案均不适用。我们提出一个实用解决方案:为大语言模型提供有状态采样器,使其能在不同调用间追踪状态。我们认为,有状态工具的设计思路或许不仅适用于采样,还能解决其他任务问题。
此外,von Oswald et al. (2024); Gillman et al. (2024) 的研究表明,Transformer 架构中的随机性可通过特定训练习得,但这对当前大语言模型而言仍极具挑战。不过该方向也为解决采样问题提供了新的思路。
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/30330

