Self-E框架：无需教师蒸馏，实现任意步数高质量文生图

尽管扩散模型与流匹配方法已将文本到图像生成推向了更高的视觉质量与可控性，但它们通常在推理时需要数十步网络迭代，这限制了其在需要低延迟或实时响应的应用场景中的潜力。

为了降低推理步数，现有方法通常依赖于知识蒸馏：首先训练一个多步的教师模型，然后将能力迁移到少步的学生模型。然而，这条路径的代价同样显著——它既依赖于预训练的教师模型，又引入了额外的训练开销，并且在“从零训练”与“实现极少步高质量生成”之间留下了长期的空白。

近日，香港大学与 Adobe Research 联合提出了 Self-E 框架：一种无需预训练教师蒸馏、可从零开始训练的任意步数文生图框架。其目标非常直接：让同一个模型在极少步数下也能生成语义清晰、结构稳定的图像，同时在 50 步等常规设置下保持顶级生成质量，并且随着推理步数的增加，生成效果呈现单调提升。

论文标题：Self-Evaluation Unlocks Any-Step Text-to-Image Generation
项目主页：https://xinyu-andy.github.io/SelfE-project/
论文 PDF：https://www.arxiv.org/pdf/2512.22374

引言：从「轨迹匹配」到「落点评估」

扩散/流匹配范式的本质是学习一个“局部向量场”：给定当前的噪声状态，预测下一步应向何处移动。这种监督信号在“小步、密集积分”时非常有效，但一旦尝试“大步跳跃”，误差会被轨迹的曲率放大，导致生成结果滑向平均解、出现语义漂移或结构坍塌。

Self-E 的切入点是一个根本性的范式转变：我们能否不再执着于“每一步走得对不对”，而是将训练重心转向“落点好不好”？即，将目标从“轨迹匹配”转变为“落点评估”。

换言之，传统扩散模型训练强调“在起点对齐局部方向”；而 Self-E 强调“在落点评估结果并给出纠偏方向”。监督位置的改变，带来了训练信号性质的改变：从静态监督转变为动态反馈。

作者在项目主页用动图展示了这两者的区别：

这也解释了模型在测试阶段具备少步推理能力的原因：扩散模型在测试时只能逐步跟随当前点预测的最佳局部路径，最终走向全局最优；而 Self-E 在训练阶段就逐步学会了如何直接走向全局最优的落点。

这种方法也不同于当前多数少步生成模型所采用的学习轨迹积分策略（如一致性模型、均值流）。Self-E 不局限于沿着预定义的轨迹前进，而是直接关心每一步生成结果的质量与正确性。

Self-E 的核心：两条互补的训练信号

Self-E 使用同一个网络在两种“模式”下工作：一方面，它像流匹配一样从真实数据中学习分布的局部结构；另一方面，它利用“模型自身正在学习到的局部估计”来评估其自生成的样本，从而形成一个自反馈的闭环。

1）从数据学习

学什么：分布的局部结构（以局部得分/速度的期望形式表示），即“在邻域内数据密度如何变化”。
怎么学：采样真实图像与文本条件，通过加噪得到噪声输入，使用条件流匹配的目标训练模型去预测干净样本（或等价的参数化），提供稳定的局部监督。

2）自我评估学习

学什么：分布层面的正确性——生成样本是否与真实数据分布一致、是否与描述的文本对齐。
关键机制：模型先执行一次“长距离跳跃”（从起始时间步跳到落点时间步），然后在落点处，利用自己当前学到的局部估计产生一个“方向信号”，指示生成样本应如何移动才能进入更高质量、更符合文本的概率分布区域。
最大差异：评估信号并非来自外部预训练的教师模型，而是来自模型自身在训练过程中的动态估计。

训练细节：将「自我评估」转化为可反向传播的学习信号

Self-E 在理论上将评估表述为一个分布级别的目标（例如，以反向 KL 散度为代表的分布匹配视角）。然而，实际落地面临的难点在于：真实分布与生成分布的得分函数均不可直接获得。

Self-E 的关键观察是：模型在“从数据学习”阶段会逐步学到某种条件期望形式，而该量与得分函数通过 Tweedie 公式存在联系。因此，可以利用“正在训练的模型”来近似提供评估所需的方向。

在实现上，作者发现理论目标中包含“分类器得分项”等组成部分，并通过实证发现仅使用分类器得分项就足够有效，甚至更有利于模型收敛，从而避免了早期需要额外训练一个用于估计生成样本得分的模型分支。

为了将这种“评估方向”转化为可训练的损失，Self-E 采用停止梯度的方式构造双前向过程以生成伪目标，通过最小化均方误差来诱导出与所需方向一致的梯度。最终，将数据驱动损失与自评估损失进行加权混合，构成统一的训练目标。

最终，训练过程可以用一个统一的形式来表示：

其中，等式右边第一项对应“从数据学习”的目标，而第二项则对应“自我评估学习”。

推理：任意步数生成，并随步数单调提升

在推理阶段，Self-E 与扩散/流匹配模型一样进行迭代去噪。不同之处在于：由于在训练中已经显式地学习了“长距离落点”的质量评估与纠偏方向，它能够在非常少的步数下保持可用的语义与结构，同时在增加步数时持续提升图像的细节与真实感。

性能：GenEval 基准上全步数段领先，少步优势显著

在 GenEval 基准测试中，Self-E 相比其他方法取得了全面领先的成绩，并且随着步数增加呈现单调的性能提升。更关键的是其在少步区间的“断层式”优势：在 2 步推理设置下，Self-E 相比当时的最佳对比方法提升了约 0.12（0.7531 对比 0.6338），而多种传统的扩散/流匹配模型在 2 步下几乎无法生成可用的结果。

另一视角：将「预训练」与「反馈学习」统一

从更宏观的视角看，Self-E 将训练过程组织成一个类似强化学习中的“环境-智能体”闭环：
* 数据阶段：模型从真实数据中学习分布的局部结构，得到越来越可靠的局部估计（可视作学习环境，并提供评估基础）。
* 自我评估阶段：模型提出长距离跳跃方案（可视作智能体执行动作），在落点处利用内部估计产生反馈方向并更新参数（可视作获得环境的反馈）。
* 闭环：评估器随着训练而增强，反馈信号的质量也随之提升，这反过来又进一步强化了模型的少步生成能力。

作者在项目主页中指出：这种内部评估器在角色上接近于“一个可查询的学习型奖励模型”，为未来将强化学习更系统地引入视觉生成训练提供了新的接口与想象空间。

Self-E 的价值不局限于在“少步生成”指标上取得优势，更在于其推动了文生图训练范式的演进：从“遵循固定轨迹”转向“学会评估状态并自我纠偏”。该框架在不依赖预训练教师模型进行知识蒸馏的前提下，使单一模型能够同时满足极低时延与高质量长轨迹生成两种需求，并在不同的推理计算预算下保持可扩展的性能。

对于内容创作与生成式系统落地，“单一模型，任意算力”具有直接的工程意义：同一模型检查点可根据应用场景动态选择采样步数——在交互式场景中使用 1～4 步以追求即时反馈，在高质量离线渲染中则可采用 50 步以追求细节上限。在训练侧，该方法绕过了复杂的教师蒸馏流程，将“从零训练结合少步推理”重新纳入可讨论、可复现、可扩展的主流技术路径之中。

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：http://www.itsolotime.com/archives/18147

Self-E框架：无需教师蒸馏，实现任意步数高质量文生图

引言：从「轨迹匹配」到「落点评估」

Self-E 的核心：两条互补的训练信号

1）从数据学习

2）自我评估学习

训练细节：将「自我评估」转化为可反向传播的学习信号

推理：任意步数生成，并随步数单调提升

性能：GenEval 基准上全步数段领先，少步优势显著

另一视角：将「预训练」与「反馈学习」统一

相关推荐

Human-in-the-Loop标签清洗：单模型挖掘策略显著提升多目标检测召回率

金融大模型2026：云原生融合与AI无处不在的技术革命

a16z创始人Marc Andreessen深度解读：中国AI崛起，Kimi推理能力媲美GPT-5，DeepSeek成全球超新星

PartCrafter：结构化3D生成革命，从单图到可编辑部件级网格的端到端突破

谷歌开放世界模型Genie 3：AI游戏创作门槛归零，沉浸式虚拟世界一键生成