
引言
本文将从信号处理的角度,解读大模型语义向量化背后的信息论原理,并从时间序列的视角分析 Transformer 架构及其与 Granger 因果性的关联。
我们首先提出一个核心观点:大模型的输入是 Token 的语义嵌入(即语义向量),这一过程本质上是将自然语言处理问题转换为信号处理问题。因此,向量化对于大模型至关重要,它与信号处理、信息论有着深刻的联系。
尽管从语言学角度看,语法和逻辑是人类语言的关键,但本系列《统计物理篇》已指出,大模型并不显式考虑这些因素,而是从纯概率的角度对自然语言进行建模。从 Token 维度看,这种纯粹的概率模型在计算上极为困难,因此催生了概率图模型、消息传递算法等工具。然而,面对当前的海量数据,这些方法的复杂度仍然过高,难以进行大规模训练,也难以有效建模语义的非对称性和长程依赖性。
当 Token 被向量化后,情况发生了根本性变化。向量化允许我们定义内积,并用内积来表示语义相关性,从而大幅降低计算复杂度。基于内积,我们可以进一步定义距离、微分、低维流形等一系列易于数值计算的量。这使得通过反向传播算法训练神经网络成为可能,将 Token 的向量化转化为神经网络的输入、输出和参数化记忆。事实上,许多研究表明,神经网络之所以能完成分类任务,正是因为同一类别的事物(如图片中的猫、狗)在高维参数空间中会内聚成低维流形。
语义嵌入 / 向量化
使用向量来建模语义的想法最早可追溯至 Luhn 在 1953 年发表的论文。但直到 2013 年,Mikolov 等人的工作才取得实质性突破。他们基于大规模语料库,成功训练出能将 Token 转化为语义向量的神经网络模型。一个常被引用的理想化语义向量化例子是:

其中 ( s(cdot) ) 表示一个词的向量化表示。遗憾的是,上述理想的线性关系目前尚未完全实现,但语义向量之间的内积(或归一化后的余弦相似度)已被证明可以有效表示 Token 层面的语义相关性。
假设 ( Omega ) 是一种自然语言所包含的 ( M ) 个 Token 的集合。从大模型的角度看,一个 Token 的语义可由定义在 ( Omega ) 上的概率分布来描述。该分布可从大量语料中学习得到,因此语义空间可以用这个学习到的概率空间来建模。进一步,我们将语义向量空间定义为一个 ( M ) 维空间中的单位球面 ( S^{M-1} ),其中每个 Token 都与球面上的一个点一一对应。
对于大模型而言,语义向量空间可以建模为一个概率-内积空间。尽管有研究认为语义向量空间应是结构更复杂的低维流形,但余弦相似度和欧氏距离在实践中已表现出足够好的效果。因此,我们认为用单位球面 ( S^{M-1} ) 来定义语义向量空间,是在效果与复杂度之间取得的良好平衡。需要特别强调的是,语义向量空间中的单个向量本身并无语义,该向量与其他所有向量的内积(即相对关系)才承载了语义。这一点与信息论中的经典信源编码有本质区别:后者是对单个信源符号的压缩,而语义向量压缩则是在保持相对关系近似不变的前提下,对整个语义向量空间进行降维。
那么,如何衡量两个语义空间之间的距离,以控制降维带来的精度损失,或度量不同自然语言间的语义差异,就变得至关重要。当代著名几何学家、2009年阿贝尔奖得主 Mikhael Gromov 为此提供了数学工具——Gromov-Wasserstein 距离。它衡量了两个度量-概率空间之间任意两点间度量的平均差异,极大地拓展了最优传输理论中 Wasserstein 距离的应用范围。据此,我们定义语义向量空间距离如下:

其中,( S_1 ) 和 ( S_2 ) 是两个语义向量空间,( x ) 是 ( S_1 ) 上的语义向量,( y ) 是 ( S_2 ) 上的语义向量。
可以看到,( d_{GW}(S_1, S_2) ) 衡量了在概率加权意义下,两个空间内积结构的最小平均差异。如果 ( d_{GW}(S_1, S_2) = 0 ),在数学上称这两个空间是等距同构的,意味着它们在 Token 语义层面完全等价,即两种语言在语义上可视为同一种语言。从这个角度看,( d_{GW} ) 衡量了两个语义向量空间偏离等距同构的程度,偏离越大,翻译难度越高。
因此,Gromov-Wasserstein 距离不仅可以用于衡量语义向量空间降维带来的语义失真,还可用于度量语义对齐的效果。我们近期正将这一方法从自然语言的语义对齐推广到多模态语义对齐问题。
基于语义向量空间的概念,接下来讨论语义压缩问题。原始的 ( M ) 维语义向量空间维度过高,难以计算且易引发维数灾难。Landauer 等人指出,语义向量化存在一个最优维数区间,即“甜点维数”。那么,如何将 ( M ) 维空间压缩到一个合适维度?其背后的数学原理是著名的 Johnson-Lindenstrauss 引理。考虑 ( epsilon in (0, 1) ) 和 ( K ) 个 ( M ) 维向量,如果目标维度 ( m ) 满足一定条件,那么一定存在一个线性变换矩阵,使得降维后向量间的内积误差小于 ( epsilon )。

JL 引理表明,可以通过线性变换降低语义向量的维数,同时将内积误差控制在 ( epsilon ) 以内。因此,压缩后的语义失真可用前述的语义向量空间距离来衡量:

其中,( S ) 为原 ( M ) 维语义向量空间,( S’ ) 为降维后的 ( m ) 维语义向量空间。更进一步,若考虑语义向量本身的稀疏性,我们还可以用压缩感知理论来强化 JL 引理。这种强化可以导出基于采样 FFT、采样 DCT 和采样 Hadamard 矩阵的快速压缩算法。需要注意的是,上述讨论未考虑语义向量空间上的概率测度,结论对每个语义向量均成立。若结合从语料中学到的概率测度,很可能催生出更高效的语义降维算法或获得更高的压缩比。
最优语义向量化
一个 Token 呈现何种语义,与下游任务密切相关。在本系列的《统计物理篇》中已指出,大模型的核心目标是预测下一个 Token。因此,Token 的向量化也应围绕该目标展开。令 ( X_t ) 为 Token 序列,( x_t ) 为对应的语义向量。对于下一个 Token 预测任务,语义编码器 ( f ) 是 ( x_t ) 的函数,其输出应包含对于预测 ( X_{t+1} ) 有用、但未显式包含在 ( x_t ) 中的信息。那么,从信息论角度看,最优语义编码器是下述优化问题的解:

上述定义的核心是条件互信息,它保证了语义向量 ( z_t ) 并非 ( x_t ) 的简单复现,而是提取了对于预测未来真正有用的信息。

该不等式的最右端项即为 Google DeepMind 团队提出并广泛应用的对比预测编码(Contrastive Predictive Coding, CPC)算法[17]。该论文明确指出其工作受信息论中预测编码(Predictive Coding)思想的启发。预测编码的概念最早出现在 IEEE 前身 IRE 主办的《IRE Transactions on Information Theory》创刊号(第 1 卷第 1 期)的首两篇论文中[18][19],作者是卷积码发明人、1977 年香农奖得主 Peter Elias。Google 研究人员在系统综述互信息变分下界后,最终选择 InfoNCE 作为损失函数,通过神经网络最小化 InfoNCE 来最大化
的下界[20]。
上述讨论表明:对于任何语义嵌入问题,均可先基于下游任务要求构建信息论优化问题,再设计神经网络或数值算法来逼近信息论最优解或其上下界。
从推导过程可见,CPC 实际上优化的是最优语义编码器上界的 InfoNCE 逼近,所得编码器并非最优。若能直接优化不等式最左端的条件互信息和,则可获得性能更优的语义编码器。为此,需引入信息论中的关键概念——定向信息(Directed Information),其提出者为著名信息论专家、1988 年香农奖得主 James Massey[21]。根据 Massey 的定义,从输入序列
到输出序列
的定向信息可表示为:

它衡量了从序列
传递到序列
的信息量。

“倒向”一词的选用受彭实戈院士所研究的倒向随机微分方程的启发[22]。彭院士的研究最终催生了与 Kolmogorov 概率公理化体系并行的非线性期望理论。由此可知,前述信息论最优语义编码器实则在优化倒向定向信息,即:

然而,定向信息的计算与估计极为困难,该问题将在本系列第三篇《信息论篇》中详细探讨。由此可见,CPC 选择 InfoNCE 作为损失函数,是在复杂度与效果之间取得的平衡。
Transformer:非线性时变向量自回归时间序列
在本系列第一篇《统计物理篇》中,我们已详细探讨了 Transformer 的能量模型形式。本篇将从信号处理视角进一步剖析 Transformer 的本质。业界共识认为 Transformer 是自回归大语言模型,因其基于输入 Token 序列及已生成 Token 序列来预测下一 Token。从经典随机过程与时间序列分析角度看,自回归模型有严格数学定义:利用过去随机变量值的线性加权和来预测未来随机变量[23]。
设提示词长度为 n,用向量序列
表示。当前待预测的第 i 个 Token 表示为向量
,其中 i=n+1,…,N。为简化表示,令
,则有:

其中,
为 Attention 权重,定义为:

从数学形式看,Attention 是一个非线性时变向量自回归时间序列:
* 时变性 体现在
与当前输出的 Token 编号 i 相关;
* 非线性 体现在
的定义中包含了 softmax 函数以及建模语义非对称关系的双线性型
,其中
。
令
表示 Transformer 的前馈网络层,则 Transformer 本质上通过:

来预测下一 Token 的向量表示。在《统计物理篇》中我们已指出,FFN 层对预测下一 Token 至关重要,被视为大模型储存知识的主要位置。基于记忆容量的思路,Attention 模块输出的向量应能激活 FFN 层中与之最匹配的记忆模式,进而作为下一 Token 的向量表示。后续操作需在离散词表中选取最可能的 Token,其多种采样策略的设计原理与通信接收机中的最大似然译码颇为相似。
为简化,将采样操作表示为 argsoftmax(·) 函数。令
为词表 Ω 中第 m 个 Token 的向量表示,则 Transformer 的数学形式可写为:

其中 T 为温度参数。
实际上,上述模型可推广为更一般的形式:

其中 Ψ 为非线性函数,
为时变参数矩阵。可见,Transformer 是此类普遍非线性时变向量自回归时间序列的一个特例。对
进行其他分解或简化,便可构造出新的 Attention 机制。例如,Mamba/Mamba2 即是一种线性化简化方案。由于线性 Attention 难以捕捉非对称语义相关性,其模型能力自然会受到较大限制。对 Ψ 同样可进行优化修改,例如用现代连续 Hopfield 网络直接替换 FFN 模块[24]。当前通过向量数据库和知识图谱实现的检索增强生成,也是通过改变 Ψ 来增强知识记忆的准确性与及时性[25]。
本系列《统计物理篇》已指出:大模型的能力极限,是在预测下一 Token 的任务上逼近人类水平的 Granger 因果推断。从时间序列角度看,Granger 因果检测主要用于分析两个序列间与时间相关的统计关系,该方法已广泛应用于物理学、神经科学、社交网络、经济学和金融学等领域。回顾 Granger 因果的定义,令
,
,则下述不等式自然成立:

因此,从时间序列视角看,大模型输入的 Token 序列与输出的 Token 序列符合 Granger 因果推断的定义。这进一步印证了第一篇的结论:大模型推理的本质,是通过预测下一 Token 这一看似简单的训练目标,实现逼近人类水平的 Granger 因果推断。
信号处理与信息论
引言中已指出:大模型处理的是向量化后的 Token 序列,其本质是将传统基于概率的自然语言处理问题转化为基于数值计算的信号处理问题。本文的讨论表明,这种从 Token 到向量表示的转化,与信息论和信号处理之间的关系高度相似。
具体而言,香农信息论是一个基于概率论的理论框架,旨在阐明信息压缩、传输与存储的基本原理及其性能极限,但并不关注工程实现的具体方法与复杂度。信号处理则将信息论中的抽象符号表示为 n 维实/复空间中的向量。这种表示使得数值计算方法能够有效应用于感知、通信与存储系统的高效算法设计。可以说,信号处理是信息论原理在特定计算架构下的具体实现。
更广泛地看,我们经常用下图来表达计算理论与信息论之间的关系。图的左侧是图灵及其计算理论,其核心关切是完成特定计算所需的步骤数,因此时延(通常以时间复杂度度量)是关键指标。图的右侧是香农及其信息论,其核心关切是通信速率的上限或数据压缩的下限,即存在性与可达性问题。此时通常假设码长趋于无穷,因而时延被忽略。在实践中,开发通信算法的瓶颈往往是算力不足、算法复杂度过高;而研究计算算法的瓶颈则往往是(访存/卡间/服务器间)通信带宽不足,或缓存/内存空间有限。
我们注意到,尽管计算理论与信息论存在本质差异,但其最基本的操作单位都是比特(BIT)。因此可以断言:BIT 是连接计算与通信两大领域的桥梁。

图:BIT 是连接计算理论与信息论的桥梁,是信息时代最伟大的发明。
正如 5G Polar 码发明人、2019 年香农奖得主 Erdal Arikan 教授在圆桌论坛中指出的:BIT 是信息时代最伟大的发明。香农在与 Weaver 合著的论文中也明确指出:信息论仅解决了信息的可靠传输问题,即技术问题,而不考虑语义与语效[26]。然而,人类已进入 AI 时代,信息论是否仍能发挥其基础性作用?
我们将在本系列的第三篇《信息论篇》中看到,只要将核心概念从信息时代的 BIT 转换为 AI 时代的 TOKEN,香农信息论便可用于阐释大模型背后的数学原理。
参考文献
- B. Bai, “Forget BIT, it is all about TOKEN: Towards semantic information theory for LLMs,” arXiv:2511.01202, Nov. 2025.
- D. Koller and N. Friedman, Probabilistic Graphical Models: Principles and Techniques. Cambridge, MA, USA: The MIT Press, 2009.
- G. Hinton, “Learning distributed representations of concepts,” in Proc. 8th Annual Conference on Cognitive Science Society ’86, Amherst, MA, USA, Aug. 1986.
- Y. Bengio, R. Ducharme, P. Vincent, and C. Jauvin, “A neural probabilistic language model,” Journal of Machine Learning Research, vol. 3, no. 2, pp. 1137–1155, Feb. 2003.
- S. Chung, D. Lee, and H. Sompolinsky, “Classification and geometry of general perceptual manifolds,” Physical Review X, vol. 8, no. 3, p. 031003, Jul. 2018.
- Y. Bahri, J. Kadmon, J. Pennington, S. Schoenholz, J. Sohl-Dickstein, and S. Ganguli, “Statistical mechanics of deep learning,” Annual Review of Condensed Matter Physics, vol. 11, no. 3, pp. 501–528, Mar. 2020.
- https://ann-benchmarks.com
- H. Luhn, “A new method of recording and searching information,” American Documentation, vol. 4, no. 1, pp. 14–16, Jan. 1953.
- T. Mikolov, K. Chen, G. Corrado, and J. Dean, “Efficient estimation of word representations in vector space,” arXiv:1301.3781, 7 Sep. 2013.
- T. Mikolov, I. Sutskever, K. Chen, G. Corrado, and J. Dean, “Distributed representations of words and phrases and their compositionality,” Proc. 27th Annual Conference on Neural Information Processing Systems ’13, Lake Tahoe, NV, USA, Dec. 2013.
- D. Jurafsky and J. Martin, Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition with Language Models, 3rd ed. Draft, 2025.
- M. Gromov, Metric Structures for Riemannian and Non-Riemannian Spaces. Boston, MA, USA: Birkhäuser, 2007.
- C. Villani, Optimal Transport: Old and New. New York, NY, USA: Springer, 2009.
- D. Alvarez-Melis and T. Jaakkola, “Gromov-Wasserstein alignment of word embedding spaces,” in Proc. ACL Conference on Empirical Methods in Natural Language Processing ’18, Brussels, Belgium, Oct. 2018, pp. 1881–1890.
- T. Landauer, P. Foltz, and D. Laham, “An introduction to latent semantic analysis,” Discourse Processes, vol. 25, no. 2-3, pp. 259–284, Jan. 1998.
- W. Johnson, J. Lindenstrauss, and G. Schechtman, “Extensions of Lipschitz maps into Banach spaces,” Israel Journal of Mathematics, vol. 54, no. 2, pp. 129–138, Jun. 1986.
- A. Oord, Y. Li, and O. Vinyals, “Representation learning with contrastive predictive coding,” arXiv:1807.03748, Jan. 2019.
-
P. Elias, “Predictive coding – Part 1,” IRE Transactions on Information Theory, vol. 1, no. 1, pp. 16–24, Mar. 1955.
-
P. Elias, “Predictive coding – Part 2,” IRE Transactions on Information Theory, vol. 1, no. 1, pp. 24-33, Mar. 1955.
-
B. Poole, S. Ozair, A. Oord, A. Alemi, and G. Tucker, “On variational bounds of mutual information,” in Proc. 36th International Conference on Machine Learning, Long Beach, CA, USA, Jun. 2019, pp. 5171-5180.
-
J. Massey, “Causality, feedback and directed information,” in Proc. IEEE International Symposium on Information Theory, Waikiki, HI, USA, Nov. 1990.
-
S. Peng, Nonlinear Expectations and Stochastic Calculus under Uncertainty: with Robust CLT and G-Brownian Motion. Berlin, Germany: Springer, 2019.
-
H. Lütkepohl, New Introduction to Multiple Time Series Analysis. Berlin, Germany: Springer, 2007.
-
H. Ramsauer et al., “Hopfield networks is all you need,” arXiv: 2008.02217, Apr. 2021.
-
Y. Xia et al., “ER-RAG: Enhance RAG with ER-based unified modeling of heterogeneous data sources,” arXiv: 2504.06271, Mar. 2025.
-
W. Weaver and C. Shannon, “Recent contributions to the mathematical theory of communications,” The Rockefeller Foundation, Sep. 1949.
关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/19697
