上下文工程:AI长任务性能优化的核心策略

Prompts 确立意图。Context 选择事实、历史和工具输出,让 AI 在长任务中保持连贯。

上下文工程:AI长任务性能优化的核心策略

在 AI 应用的早期,我们沉迷于字词的斟酌。微调一个动词,增加一条约束,观察模型是否按预期响应。这些技巧常常奏效,足以让人以为这是一门手艺。直到任务变得更长、更复杂、涉及更多步骤时,一条安静的真相才浮出水面:措辞固然重要,但模型看到什么 更为关键。

Prompt engineering 关注“如何把问题问好”。Context engineering 则关注此刻应该把哪些信息摆上台面 。这包括指令、检索到的事实、工具输出、计划,以及仍然会影响下一步的那部分历史。工作重心从“讨巧的提问”转向“信息的策展”,从机灵的话术转向精挑细选的输入。

别把模型当作精灵,更像是舞台监督。你的职责是决定谁上场,说哪句台词,什么时候退场。

为什么这很关键?因为模型有注意力预算。每个新增的 token 都会加剧对注意力、成本和延迟的竞争。将上下文窗口填得过满,输出质量会下降;提供的信息过少,模型则会凭空编造来填补空白。真正的技艺在于找到平衡点:提供相关、及时、最小化 的信息。

想象一个执行研究任务的智能体。它浏览资料、做笔记、调用工具,持续一小时。如果每一轮交互都重播全部历史,你需要为速度和连贯性付出代价;如果过早压缩历史,又会丢失真正需要的细节。系统的表现取决于你喂给模型的 context,而不是你囤积的 context。

Context engineering 是一门选择、塑形、编排 模型下一步应当关注内容的学科。

这并非否定 prompts 的价值,而是将其置于一个更大的框架中。好的 prompts 仍然锚定意图与语气,但它们坐落在一个动态的 context 里,必须在任务展开时被修剪、总结、刷新。每个强大系统背后的问题都变得既简单又苛刻:为什么是这些信息、在这一步、以这个代价、为了这个结果。


Context vs. Prompt Engineering

有什么区别?

Prompt engineering 调教的是指令 。你打磨措辞、约束、语气,让模型理解意图。它是“局部的”、迭代迅速,适合短小且独立的任务。

Context engineering 塑造的是信息集合 。你决定哪些事实、历史、计划、工具输出应该进入模型的上下文窗口,且是针对当前这一步 。它是“系统性的”,难以通过小技巧优化,当工作跨越多轮交互与多个工具时,其价值会显著放大。

指令再精炼,如果输入信息错误,任务也会失败;反之亦然。提示可能很混乱,但当正确的文档、数据和状态在场时,任务也能跑通。二者的区别不在于“文案”与“数据”的对立,而在于单句指令信息供应链 的差异。

从职责角度思考:Prompt engineering 锚定声音、目标和安全护栏;Context engineering 策展信息来源、压缩历史、编排工具结果。一个在约束语言,另一个在约束流程。

权衡随之而来。更重的 context 会增加成本、延迟,也扩大了出错面;更轻的 context 则冒着遗漏关键信息、导致重复工作或系统脆弱的的风险。需要根据任务类型校准:短问答偏向 prompt 技巧,长流程的智能体则更依赖 context 的控制。

上下文工程:AI长任务性能优化的核心策略

为什么把 prompt 视为 context 的子集?因为指令本身就在你组装的上下文窗口里“同行”。如果窗口嘈杂或信息单薄,再完美的措辞也救不了场;如果窗口相关且精简,普通的措辞往往就足够了。

实践中的判断标准很简单:如果你的改进计划改变了句子,你在做 prompt 工作;如果它改变了模型读什么 ,你在做 context 工作。最好的系统两者兼顾,且通常按这个顺序来构建。


为何随着 AI 成熟,Context 更重要

短任务会原谅糟糕的输入,长任务不会。一旦智能体开始浏览、调用工具、拟定计划、反复修改文稿,prompt 就不再是性能瓶颈。真正移动的靶子是“状态”:模型该记住什么、忘记什么、重新读取什么。

模型在这点上很像人类。工作记忆稀缺,长期记忆嘈杂。把一切塞进上下文窗口,注意力会涣散;剔除得太狠,又会丢掉主线。手艺不在于“量”,而在于“压力下的取舍”。

用预算思维。每个 token 都在购买注意力、延迟、金钱。要把预算花在能产生复利的地方。

多轮工作会留下轨迹。工具输出、中间计算结果、用户纠正、细小决策的积累速度超出预期。逐字逐句重播这条轨迹,系统会变慢,答案质量会漂移;不加思索地做总结,又可能压掉恰恰支撑下一步的那个关键数据。

这些失败模式与真实团队的通病如出一辙:旧错误残留,污染后续步骤;过时事实与新鲜事实并列,模型把它们混在一起;无关历史干扰下一次选择。另一边,修剪过猛会造成既视感:智能体反复学习它本来就知道的事。

有用的 context 位于相关性、时效性、可靠性 的交集。除此之外的信息,都是负担。更大的窗口容量有帮助,但也容易养懒:人们不再精心策展,因为系统“吃得下”。结果是账单攀升、延迟拉长、质量仍然下降。

设计问题转向务实:跨轮次需要缓存什么?需要重算什么?现在总结什么、以后再总结什么?这些是“策略选择”,不应事后想起,它们决定了你的智能体是保持专注还是走神。


上下文工程:AI长任务性能优化的核心策略


Context Engineering 的构件

Context 不靠一个绝招,而是一套小而严的纪律,彼此配合。Retrieval 拉来候选信息,Processing 进行提炼,Memory 管理时间维度,Orchestration 让整条环路保持清醒。把这些做好,模型读到的是简报,而不是逐字稿。

上下文工程:AI长任务性能优化的核心策略

1/ Context Retrieval 与 Generation

从“可能有用的候选信息”开始,而不是迷信模型“本来就知道”。从文档、代码、日志、工单或向量数据库中检索——带着预算意识去做。检索是工具,不是拐杖。

信息生成也属于这里。计划、假设、工作笔记不会凭空出现。让模型起草一个简短计划,然后把这个计划当作下一步的输入。草稿(scratchpads)让思考过程可见、可验证。

对“新鲜度”要挑剔。过期一周的 FAQ 若与新政策矛盾,比没有更糟。来源不可信,就别检索。你能维护的最简单检索策略,胜过你维护不动的花哨策略。

2/ Context Processing、Summarization 与 Compression

原始输入很少值得直接呈现。为长段落做总结,去掉套话,对敏感字段做脱敏。保留能锚定决策的数字与名字;丢掉只增添情绪、没有信息量的形容词。

压缩往往是团队容易抄近道的地方。克制“全都塞上去以求保险”的冲动。每多一个 token 就意味着延迟与成本。如果确实需要更长的记录,把它写进 memory,按需再取关键片段。

顺序很重要。先给出清晰的指令,再放置高信号的事实,然后是更短的历史。别把请求埋在 context 堆里指望模型自己挖出来。

3/ Context Management 与 Memory

短期 context 是窗口,长期 memory 是存储,要分开使用。窗口留给会直接影响下一步的东西;存储留给你希望跨轮次保留的事实与决策。

写得比你以为的更少。存储用户偏好、已解析的 ID、重新发现代价高的决策,以及紧凑的过去工作摘要。回避八卦与琐碎。按任务与语义双重索引,方便后续选择性检索。

隐私是设计,不是复选框。写入时脱敏、静态加密,明确可被召回的范围。没有什么比模型突然翻出用户没想到会再出现的旧细节更伤信任。

4/ Context Integration 与 Orchestration

真实系统要使用工具。工具输出也是 context,所以同样需要纪律。别整页地粘贴搜索结果或日志。提取相关行,并保留源链接以便审计。

子任务应有独立的 contexts。研究型智能体可广泛阅读,然后给写作型智能体一份两段式的简报。编码型智能体需要的是函数签名与失败的测试,而不是整个代码仓库。分离能降噪,让错误局部化。

编排是写进代码的策略。决定何时检索、何时总结、何时写入 memory、何时丢弃。为整个流水线添加监控,在生产环境观察 token 计数与延迟。目标是稳定的环路,而不是炫技的演示。

编排的检验很简单:拿掉某一步,如果质量可测地下降,那它就值得保留;否则就删。

稳定环路的共性

  • 目标与预算先行:先把任务目标与 token 预算说清的团队,选择会更干净。这听起来形式化,但当延迟与成本开始漂移时,它会省大事。
  • 检索即假设:检索更像“假设”而非“真相源”。在操作性任务上,新鲜度胜过广度;在开放式研究上,广度有益。不要猜测,值得测试。
  • 总结保关键:总结只有在保住数字、名字、决策时才有用。这些一丢,错误率就会上升,哪怕 prompts 看起来更干净。掩盖关键数字的整洁总结,是个 bug。
  • 顺序至关重要:耐用的系统常把指令放前、硬事实其次、历史只留薄薄一层:清楚的请求,其次是证据,再有恰到好处的过去以保持自洽。
  • 记忆需管理:把耐久事实写入 memory,且控制范围。一个越长却从不提升结果的存储,只是新杂物。决定留弃时,监控数据胜过直觉。

从打磨 Prompts 到工程化 Context

一种新范式

Prompt 小技巧给了我们开门红,它们仍然重要。但如今的工作更像“系统设计”而不是“文字游戏”。我们在选择信息来源、决定什么要持久化、把工具输出当作信号进行路由。

心智转变说起来简单、做起来难。与其问“怎么表述”,不如问“模型必须读什么,按什么顺序,为什么是现在”。这个问题引出的是“策略”,不是一次性的招数;也引出“度量标准”。

团队习惯也会随之改变。内容创作者与产品经理共同定义目标与语气;工程师搭建检索、记忆与过滤管道;数据分析师关注数据漂移与成本。只有这些角色坐在一起,对“什么是好”达成一致,整个环路才能顺畅运转。

失败模式也变了。过去 prompt 不好,答案就不好,你改句子就行。现在 context 不好,答案看起来可能像样却暗中走偏。错误藏在缺失的事实、陈旧的片段、或未经修剪就粘贴的工具结果里。

你不需要宣言来实践它。首先,明确某类任务每一轮都应该“存活”的少量关键事实。决定它们存储在哪里、何时被召回。设定一个硬性的 token 预算并遵守。其他都是在此基础上的打磨。

关于团队文化的最后一笔:Context 工作在“轻意见、重证据”的团队里更茁壮。某一步如果不改变结果,就删掉;更小的窗口表现更好,就保持更小。以“最小化”为傲,胜过以“复杂度”为傲。


结论

The Future is Engineered Context

Prompts 开启对话;Context 让对话保持诚实。耐久的系统把信息当作可塑的材料,而不是用来膜拜的垃圾场。它们选择谁该在场、谁该候场、谁永不入场。

收益是现实可感的。更小的模型在干净的简报下也能显得更锋利;评审更短,因为决策依据存放在该放的地方;团队少争论文案,多争论来源、顺序与成本——这样的争论更健康。

责任同样在这儿。记忆是力量,力量需要边界。写入你能辩护的,检索你能验证的,有意地遗忘。你守住的信任,是你交付的产品的一部分。

如果我们把 context 当成产品表层来对待,配上预算、测试与清晰的意图,会发生什么变化?答案很少是“更多数据”,更常是“更好的时机、更清晰的次序、更少的意外”。

Prompts 是接口。Context 是让这个接口可靠的环境。请慎选你的环境。

难的不是造更大的窗口;难的是决定该留什么在外,并在“再多粘一点更容易”时仍然守住这条线。这就是手艺,这就是工作的所在。


关注“鲸栖”小程序,掌握最新AI资讯

本文由鲸栖原创发布,未经许可,请勿转载。转载请注明出处:http://www.itsolotime.com/archives/13669

(0)
上一篇 2025年11月6日 下午10:28
下一篇 2025年11月7日 上午11:15

相关推荐

  • 2025年AI技能全景图:从Prompt Engineering到AI Agent的九大核心能力解析

    我们正从“与 AI 聊天”的时代迈向“用 AI 构建”的时代。 科技领域每隔几年就会经历一次范式转移,但当前人工智能领域的变革,其深度与广度远超过去十年间的任何一次。 一个清晰的现实是:到了 2025 年,掌握 AI 技能与不掌握 AI 技能的人,其能力差距将以指数级速度扩大。 这并非危言耸听,而是正在发生的趋势。从“与 AI 对话”到“用 AI 构建”,是…

    2025年12月10日
    500
  • Prompt与Context工程实战:解锁LLM高效沟通的核心技艺

    如果你一直在关注《Master LLMs》系列,那么你已经走过了从建立直觉到理解机制,再到学习关键原则的旅程。现在,我们将转向动手实践,聚焦于构建AI应用时,如何与大型语言模型(LLM)进行高效沟通的核心技艺。 许多人在使用LLM时并未意识到一个关键点: 模型非常聪明,但也非常“按字面理解”。 与LLM的沟通,并非像与人交谈那样简单。它既比想象中更直接,也比…

    2025年11月29日
    400
  • AI在线强化学习实现“实践式学习”,斯坦福团队助力7B小模型性能大幅提升,表现超越GPT-4o

    斯坦福团队推出AgentFlow框架,通过在线强化学习让仅7B参数的小模型在流式协作中“边做边学”。该方法使模型在搜索、数学等10项任务中性能显著提升,部分表现甚至超越了GPT-4o等超大模型,证明了优化系统设计可突破模型规模限制。

    2025年10月24日
    20900
  • 2025 年最火的 5 大 MCP 服务器,打造极致「Vibe Coding」体验

    如果你还在手动复制项目上下文给AI,或者反复粘贴数据库Schema来让Cursor理解你的项目,那么你正在做太多不必要的重复劳动。 最近,我深入体验了一系列新的MCP工具,它们彻底重塑了我利用AI进行项目开发的方式。我们来深入探讨一下原因——为什么这些工具能让AI从一个“看起来不错”的玩具,转变为真正实用的生产力伙伴。 什么是MCP? “MCP”代表模型上下…

    2025年11月3日
    400
  • Python开发者必备:12个能解决大问题的小型库

    小工具,大作用。 Python 工具带:12 个能解决大问题的小型库 发现一打容易被忽视的 Python 库,它们安静地让开发更顺滑、更高效、更聪明——一次优雅的 import 就够。 如果你是有经验的 Python 开发者,你的工具箱里可能已经装满了 requests、pandas、flask 和 numpy 这样的“大腕”。但在这些明星库之下,还隐藏着一…

    2025年12月4日
    300

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注