从参数微调到任务重编程:揭秘神经网络可重编程性如何重塑大模型适配范式

从参数微调到任务重编程:揭秘神经网络可重编程性如何重塑大模型适配范式

从模型重编程、参数高效微调,到大模型时代的提示调优、指令提示与上下文学习,研究者和从业者始终在探索一个核心问题:如何在尽量不修改模型参数的前提下,最大限度地复用预训练模型的能力?

过去几年,这类方法在不同研究社区中以相对独立的形式快速发展——有的源于对抗鲁棒性与迁移学习领域,有的专注于下游任务适配,有的则成为大模型对齐与应用的基础工具。然而,这些看似分散的技术路线背后,是否存在一个更统一、更本质的理论视角?

近期,来自墨尔本大学可信赖机器学习与推理研究小组和 IBM AI 研究所的研究者,系统性地提出了“神经网络可重编程性”这一统一主题。在一篇综述文章中,他们将模型重编程、提示调优、指令提示与上下文学习纳入同一分析框架,从操纵位置、操纵类型、操纵算子和输出对齐四个维度进行了系统梳理与对比。同时,该团队也在 AAAI 2026 上带来了同名教程,旨在帮助研究者与工程实践者全面理解这一正在重塑模型使用范式的关键能力。

从参数微调到任务重编程:揭秘神经网络可重编程性如何重塑大模型适配范式

  • 教程标题:Neural Network Reprogrammability: A Unified Framework for Parameter-Efficient Foundation Model Adaptation
  • 论文标题:Neural Network Reprogrammability: A Unified Theme on Model Reprogramming, Prompt Tuning, and Prompt Instruction
  • Arxiv:https://arxiv.org/pdf/2506.04650
  • GitHub:https://zyecs.github.io/awesome-reprogrammability/tutorial-AAAI26/

1. 模型训练范式的转变

我们认为,随着预训练模型规模的不断增长,其适配下游任务的范式已经发生了根本性转变:从传统的基于模型参数调整的适配,转变为了基于模型可重编程性的适配。

从参数微调到任务重编程:揭秘神经网络可重编程性如何重塑大模型适配范式

传统适配技术通过重新训练预训练模型,修改其内部参数,使其适用于新的下游任务。例如,将 ImageNet 预训练的图像分类器应用于猫狗分类任务时,通常需要调整分类头,甚至重新训练部分网络层参数。这种基于参数调整的适配,本质上改变了模型学习到的内部表征,并且需要为每个下游任务维护一份独立的参数副本。

新兴适配技术则采用了一种不同的理念:保持模型参数完全冻结,转而策略性地修改任务呈现的方式。通过精心设计下游任务的输入变换(包括模型输入、提示或上下文信息)以及模型输出的对齐方式,即可在不触及模型权重的情况下“重编程”预训练模型的行为,使其兼容下游任务。这种方法通常仅引入极少量可训练参数,甚至完全不引入新参数。

这一转变的核心在于理念的转换:从“修改模型以适应任务”转向“修改任务以适应模型”。这使得我们能够以极小的计算开销,在不同任务中重复使用同一个预训练模型,同时保持其原有能力。一个冻结的模型,仅通过改变与其“对话”的方式,就能处理多种不同的任务。

2. 可重编程性范式的效率优势

具体实验数据表明,相较传统参数调整方法,基于可重编程性的适配在参数效率上具有明显优势。例如,将 ImageNet 预训练的视觉 Transformer 适配到遥感图像分类任务时,柱状图展示了不同微调策略的参数需求。从左到右分别对应全参数微调到逐步减少可训练层数的各种配置,其训练参数量随之下降。但即便是最轻量的参数调整方案,仍需要相当数量的参数。

与之形成鲜明对比的是,基于可重编程性的适配方法所需的训练参数,始终比任何参数调整方案少 2-3 个数量级。这些参数仅用于输入变换和输出对齐,而非修改预训练模型的内部权重。

从参数微调到任务重编程:揭秘神经网络可重编程性如何重塑大模型适配范式

这表明,在实现可比性能的前提下,基于可重编程性的适配具有更高的参数效率。这使得在资源受限的环境中适配大模型成为可能,并支持同时适配多个任务而不会出现灾难性遗忘。在预训练模型规模与能力不断提升、获取方式日趋不透明的背景下,其优势愈发突出。

3. 可重编程性范式的“多种称谓”

然而我们发现,相似甚至相同的模型适配方法,在不同研究社区中却有着截然不同的命名:NLP 社区常称之为“提示调优”,而机器学习文献中研究者更倾向于使用“模型重编程”来指代这类方法。这种术语上的混乱,也时常引发“哪种方法更优”、“为何不比较其他方法”等争论。

核心问题在于:提示调优、模型重编程,甚至上下文学习,真的代表不同的模型适配方法吗?答案是否定的。尽管表现形式各异,但这些方法实质上都在利用神经网络的同一固有属性——神经网络可重编程性。基于这一认识,我们提出一个统一框架来连接这三个独立发展的研究领域,并系统性地描述和归类这些适配方法。

从参数微调到任务重编程:揭秘神经网络可重编程性如何重塑大模型适配范式

关键点 1:可重编程性的普适性。
它具备架构无关性和模态无关性,跨越三个核心维度:适配方法、预训练模型架构以及数据类型。无论具体实现细节如何,其共同的底层原理都是围绕模型接口的信息操作。基于此,我们能够将任意预训练模型适配到任意下游任务。

4. 可重编程性范式的首次提出(ICLR 2019)

那么,什么是可重编程性呢?下图展示了从神经网络对于对抗样本的脆弱性,向可重编程性的演进。该图源自 ICLR 2019 的论文《Adversarial reprogramming of neural networks》。

从参数微调到任务重编程:揭秘神经网络可重编程性如何重塑大模型适配范式

  • 左侧展示了经典的对抗攻击:在熊猫图像上添加人眼难以察觉的噪声,就能使 ImageNet 分类器以高达 99.3% 的置信度将其错分为长臂猿,尽管图像在人眼看来几乎没有变化。
  • 右侧展示了如何将这种脆弱性转化为建设性用途——不仅“欺骗”模型,同时将其“重编程”以执行完全不同的任务。例如,图中展示了如何将一个黑白格图像的计数任务,通过将不同的动物类别映射到方块数量类别,利用预训练的图像分类器来完成。

  • (b) 展示了“对抗程序”(adversarial program)——一种精心设计的噪声模式,它充当引导模型行为的指令(可理解为一种提示)。

  • (c) 展示了 (a) 与 (b) 的结合效果:一个仅在物体识别任务(如 ImageNet 分类)上预训练的分类器,被“重编程”以执行方格计数任务,并成功输出“4个方格”的预测结果(该预测由源域中的“虎鲨”类别映射而来)。

关键点 2:巧妙利用神经网络的敏感性

由对抗样本研究所揭示的神经网络敏感性(其理论背景包括决策边界的不连续性等),正是可重编程性的基础。我们不再将这种敏感性仅仅视为安全缺陷,而是建设性地利用它,在不重新训练模型的情况下,将预训练模型重定向到新的任务。精心设计的程序/提示可以将神经网络感知的弱点,转化为高效的模型适配机制。

从参数微调到任务重编程:揭秘神经网络可重编程性如何重塑大模型适配范式

5. 可重编程性范式的数学表达

基于上述讨论,我们给出神经网络可重编程性统一框架的定义,该定义涵盖了文章中讨论的各类模型适配方法。定义如下:

给定一个在源域上预训练的模型 从参数微调到任务重编程:揭秘神经网络可重编程性如何重塑大模型适配范式,该模型将源域输入空间 从参数微调到任务重编程:揭秘神经网络可重编程性如何重塑大模型适配范式 映射到源域输出空间 从参数微调到任务重编程:揭秘神经网络可重编程性如何重塑大模型适配范式。神经网络可重编程性使得这个固定模型(参数不再改变)能够通过两个可配置的变换,在完全不同的目标域上执行由该域输入/输出空间 从参数微调到任务重编程:揭秘神经网络可重编程性如何重塑大模型适配范式 定义的任务:

  • 输入操纵(input manipulation) 从参数微调到任务重编程:揭秘神经网络可重编程性如何重塑大模型适配范式:该变换将目标任务的输入转换为预训练模型可处理的格式。具体方式可能包括添加可学习的提示、拼接演示示例或在目标样本上应用对抗性扰动。
  • 输出对齐(output alignment) 从参数微调到任务重编程:揭秘神经网络可重编程性如何重塑大模型适配范式:该变换将预训练模型的源域预测映射到目标任务的输出格式。具体方式可能涉及标签映射、结构化解析或线性投影等。

将这两个变换与预训练模型结合,我们得到重编程后的模型 从参数微调到任务重编程:揭秘神经网络可重编程性如何重塑大模型适配范式。这个看似简单的复合函数,揭示了上述多种模型适配技术的共同本质:它们只是同一基本原理的不同实例化。

6. 可重编程性范式的具体案例

以视觉-语言模型为例,下图说明了三种可重编程方法在实现上的差异。

  • (4a)模型重编程(Model Reprogramming, MR):主要在模型的原始输入层进行操作。可学习的扰动直接添加到输入图像上。模型通过图像和文本编码器处理这些修改后的输入,并通过输出对齐将模型的原始预测映射到新任务。这种方法适用于可访问模型输入和输出,但对内部组件控制有限的情况。
  • (4b)提示调优(Prompt Tuning, PT):主要在模型的中间表示层进行操作。可学习的标记或嵌入被插入到模型的内部层(如图像编码器和文本编码器)。这些“软提示”可以在嵌入层或隐藏层进行前置或插值,在保持核心参数冻结的同时,允许对模型内部处理进行更直接的控制。
  • (4c)提示指令(Prompt Instruction, PI):通过上下文演示进行操作。该方法不使用可学习参数,而是提供多个示例图像和明确的文本指令来引导模型行为。模型从提供的演示中“上下文学习”任务,无需任何参数更新。该方法的有效性主要在大型语言模型和大型视觉-语言模型/多模态大模型上观察到。

| 特性维度 | 模型重编程 (MR) | 提示调优 (PT) | 提示指令 (PI) |
| :— | :— | :— | :— |
| 操作位置 | 输入空间 | 嵌入/隐藏空间 | 输入空间 |
| 参数需求 | 可学习扰动 | 可学习标记 | 无新参数 |
| 访问要求 | 输入访问 | 白盒访问 | API级访问 |

本质上,这三种方法都通过计算图中的不同路径,实现了相同的目标——将冻结的模型重新用于新任务。

从参数微调到任务重编程:揭秘神经网络可重编程性如何重塑大模型适配范式

那么,神经网络可重编程性如何在不同模态和任务中具体实现呢?

  • (a)面向图像分类任务的模型重编程(图 5a)

    • 输入操纵:目标图像经过调整大小,并与可学习的扰动模式 λ 结合,转换为预训练分类器可处理的格式。
    • 预训练模型:冻结的图像分类器(如 ResNet, ViT)处理操纵后的输入。
    • 输出对齐:通过标签映射,将分类器的原始类别预测转换到目标任务的标签空间(类别可能不同,数量也可能不同)。
    • 训练:仅通过反向传播优化扰动参数 λ,模型权重保持冻结。
  • (b)面向文本生成任务的提示调优(图 5b)

    • 输入操纵:可学习的提示标记 λ 通过拼接操作前置到目标文本输入。
    • 预训练模型:冻结的语言生成器(如 GPT)处理提示增强的输入。
    • 输出对齐:由于模型直接在目标文本空间输出,通常无需额外转换。
    • 训练:仅优化提示参数 λ,生成器完全冻结。

从参数微调到任务重编程:揭秘神经网络可重编程性如何重塑大模型适配范式

关键点 3:数学框架下的一致性

尽管操纵的模态(视觉 vs. 语言)、任务类型(分类 vs. 生成)以及输入操纵策略(加性扰动 vs. 连接提示)各不相同,但上述两种方法都遵循完全相同的数学框架。

7. 基于可重编程性范式归纳现有方法

基于这一统一视角,我们进一步提出了一个分类法,将过往的研究工作组织为跨四个维度的连贯结构,展示了可重编程性框架的广泛适用性。

  • 操纵位置:定义输入操纵发生在预训练模型的哪个接口,包括原始输入空间、嵌入空间以及隐藏空间。
  • 操纵类型:定义输入操纵的类型,分为可优化和固定两种。
  • 操纵算子:定义输入操纵如何应用到目标数据上,包括加性、拼接、参数化等算子。
  • 输出对齐:定义是否需要对模型输出进行额外操作以对齐目标任务,包括恒等映射、结构变换、统计变换、线性变换等。

相应地,MR、PT 和 PI 等研究方法可以被系统地归类,如下表所示。

从参数微调到任务重编程:揭秘神经网络可重编程性如何重塑大模型适配范式

8. 如何用可重编程性范式理解上下文学习与思维链推理

从参数微调到任务重编程:揭秘神经网络可重编程性如何重塑大模型适配范式

特别地,大型语言模型的上下文学习在该框架下可以描述为:
* 固定输入操纵:无训练参数,依赖于人为设计的演示示例。
* 原始输入空间操纵:演示示例直接与模型的文本查询拼接。

  • 拼接操纵算子:通过拼接操作构建演示示例(demonstration examples)。

  • 隐式输出对齐:无需额外的显式映射,预训练模型可直接生成目标输出,或依靠其自身能力对输出进行基于规则的格式与结构调整(例如,ChatGPT 可直接将输出的自然语言限制为项目符号列表或 LaTeX 格式)。

从参数微调到任务重编程:揭秘神经网络可重编程性如何重塑大模型适配范式

因此,模型通过这些在「上下文」中提供的示例学习目标任务的模式,且无需任何参数更新。演示示例本质上是一种输入操纵,通过策略性地构造输入来重编程模型行为。

从参数微调到任务重编程:揭秘神经网络可重编程性如何重塑大模型适配范式

相应地,思维链推理(Chain-of-Thought Reasoning)可被视为一种输入操纵,它在输入中融入了结构化的、与特定输入样本相关的「推理形式」。

  • 输入操纵:提供增强的上下文信息,不仅包含输入-输出对,还包含明确的中间推理步骤。例如,在解决数学问题时,CoT 会包含「问题 -> 第一步计算 -> 第二步计算 ->…-> 最终答案」的完整推理过程。每个目标查询都会触发模型生成与该具体查询匹配的推理链。例如,对于「23×47=?」,模型会生成针对这两个具体数字的逐步计算过程,而不仅仅是通用的乘法公式。
  • 输出对齐:由于模型输出完整的推理序列(例如「首先计算 23×40=920,然后计算 23×7=161,最后 920+161=1081」),因此需要结构化的、基于规则的解析机制从这个推理文本中提取最终的数值答案。

9. 资源分享:Awesome Neural Network Reprogrammability 资源库

为了方便社区追踪这一快速发展领域的最新进展,我们维护了一个 Awesome 风格的资源库,收录并持续更新神经网络可重编程性领域的最新论文和代码实现。

  • GitHub: https://zyecs.github.io/awesome-reprogrammability/

关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/18896

(0)
上一篇 2026年1月24日 上午11:52
下一篇 2026年1月24日 下午12:01

相关推荐

  • 企业推进大模型落地的关键工程与核心指标

    企业推进大模型落地,需统筹五大关键工程:算力工程是基础设施,关注规模、效率与服务;应用工程是价值门户,衡量业务覆盖与成效;模型工程是技术核心,驱动算法效能与迭代;知识工程是企业智库,负责知识的沉淀与复用;数据工程是循环血脉,确保数据的贯通与消费。五者协同,方能实现真正的业务智能化。

    2025年10月2日
    36900
  • AGI的物理边界:计算本质与硬件极限下的AI未来

    大模型的通用性与泛化能力正日益增强。 尽管一些新模型(例如在某些专业任务和智能水平上表现已相当出色的模型)不断涌现,但它们距离我们通常所理解的通用人工智能(AGI)依然十分遥远。 然而,这恰恰说明业界对AGI的实现仍抱有巨大的热情与信心,或许下一款突破性的大模型就能初步触及AGI的构想。 不过,卡耐基梅隆大学教授、AI2研究所科学家Tim Dettmers近…

    2025年12月21日
    10900
  • Python仪表盘开发利器:7款高效工具助你轻松构建数据可视化应用

    构建仪表盘是数据驱动应用开发中的常见需求,无论是用于系统监控、业务分析还是成果展示。然而,选择合适的工具至关重要——一些工具性能不佳,一些将简单的可视化复杂化,另一些则因模板僵化而限制了灵活性。 幸运的是,Python 生态提供了多样化的选择,无论你倾向于通过代码实现精细控制,还是希望通过低代码方式快速搭建,都能找到合适的方案。 1. Dash Dash 是…

    2025年12月7日
    8400
  • 突破GUI像素瓶颈!面向端侧Agent语义世界建模 MobileWorldBench!1.4M 数据样本驱动 7.4%性能跃升!

    关键词: 语义世界建模 、移动智能体 、MobileWorldBench、MobileWorld、 视觉语言模型 、GUI 世界建模 在手机 APP 操作中,我们早已习惯了“点击-反馈”的即时互动——但对 AI 智能体来说,要预判“点击按钮后界面会怎么变”,曾是个棘手难题。 传统 AI 依赖像素级世界建模,试图精准预测未来界面的每一个像素点,却因 GUI(图…

    2025年12月28日
    8200
  • 通用子空间革命:1100+模型揭示深度神经网络收敛至共享低维空间的秘密

    关键词:通用子空间、深度神经网络、低秩子空间、模型可复用性、权重空间分析 在大模型时代,一个核心矛盾始终困扰着研究者:我们训练的模型规模持续增长(从百亿到万亿参数),但每次为适配新任务都需要从头微调或训练全新模型。这不仅消耗海量算力,还导致严重的参数冗余。例如,排除任务特定的输入/输出层后,存储500个Vision Transformer(ViT)模型约需8…

    2026年1月3日
    6800