AI Agent部署的95%失败率真相：Uber等大厂600人圆桌揭示上下文工程与权限治理的关键突破

大多数创业者以为自己在构建AI产品，其实他们真正在做的是构建上下文选择系统。

近期，旧金山举办了一场高规格AI圆桌讨论，嘉宾包括来自Uber、WisdomAI、EvenUp和Datastrato的工程师和机器学习负责人。这场名为“Beyond the Prompt”的活动吸引了600多位报名者，主要是创始人、工程师和早期AI产品构建者。

讨论的核心议题是上下文工程、推理栈设计，以及在企业环境中扩展智能体系统需要什么。如果说“提示词”只是冰山一角，这场讨论深入到了水面下那片冰冷而复杂的巨大部分：上下文选择、语义层、记忆编排、治理和多模型路由。

现实很残酷：一位嘉宾提到，95%的AI Agent部署在生产环境中都失败了。不是因为模型不够聪明，而是因为它们周围的脚手架——上下文工程、安全性、记忆设计——还没到位。

当晚一个比喻让人印象深刻：

“基础模型是土壤；上下文是种子。”

业内人士普遍关注语义层，不是因为它们酷炫，而是因为这正是创始人悄悄地将信任、实用性和差异化构建到LLM系统中的地方。太多团队把提示词和产品混为一谈。这场讨论标志着一个重要时刻，真正的工程工作开始得到应有的重视。

以下是核心要点——不只是引用，而是在认真的AI团队中反复出现的模式。如果你在基础设施、工具链或垂直AI层构建产品，这些就是需要做对的脚手架。

一、上下文工程 ≠ 提示词黑客技巧

几位嘉宾都表达了同样的洞察：微调很少做，检索增强生成(RAG)做好了就够了。但今天的大多数RAG系统太过简陋。

三种常见的“翻车”方式：
* 索引所有内容 → 检索太多 → 让模型困惑
* 索引太少 → 让模型缺乏信号
* 混合结构化+非结构化数据 → 破坏嵌入或扁平化关键schema

那么，高级上下文工程实际上是什么样的？

LLM的特征选择
一位演讲者将上下文工程重新定义为LLM原生的特征工程：
- 选择性上下文剪枝 = 特征选择
- 上下文验证 = schema/类型/时效性检查
- “上下文可观测性” = 追踪哪些输入改善/恶化了输出质量
- 带元数据的嵌入增强 = 类型化特征+条件
  这个框架很重要。它意味着可以把上下文当作可版本化、可审计、可测试的制品，而不是一个字符串blob。
语义+元数据分层
几个团队描述了双层架构：
- 语义层 → 经典向量搜索
- 元数据层 → 基于文档类型、时间戳、访问权限或垂直本体强制过滤
  这种混合层有助于规范化混乱的输入格式(PDF、音频、日志、指标)，并确保检索的不仅仅是“相似内容”，而是相关的结构化知识。
Text-to-SQL的现实检验
当主持人问观众“你们中有多少人构建了text-to-SQL并将其投入生产？”时，没有一只手举起来。
这不是因为问题太小众，而是因为查询理解很困难。自然语言是模糊的。业务术语是领域特定的。而且如果没有大量的上下文工程，LLM不知道公司对“收入”或“活跃用户”的定义。
成功的团队不只是把SQL schema扔给模型。他们构建：
- 业务词汇表和术语映射
- 带约束的查询模板
- 在执行前捕获语义错误的验证层
- 随时间改善理解的反馈循环

二、为什么95%的AI都挂在了“权限”这道坎上

很多团队做AI的时候，只想着“怎么答得对”，却忽略了一个致命问题：这个答案该不该告诉他？

现场一位工程师分享了一个真实案例：公司上线了一个AI数据助手，结果第二天就被紧急下线。

原因很简单：
* 销售总监问：“上季度各区域业绩如何？”→ AI完整回答
* 普通销售问：“上季度各区域业绩如何？”→ AI也完整回答

问题出在哪？ 普通销售只能看自己负责区域的数据，但AI把所有区域的敏感业绩都透露了。这不是技术问题，是严重的数据泄露事故。

一句话点醒梦中人

那位演讲者说了一句让全场安静的话：

“同样的问题，不同的人问，AI给的答案就该不一样。”

听起来简单，但大部分AI系统根本做不到。为什么？因为它们只关心“语义理解”，不关心“谁在问”。

三道必须跨越的门槛

如果你想让AI真正在企业里用起来，这三件事必须做到：
* 可解释性与可追溯性：AI的回答必须能追溯源头。
* 这个数据从哪来的？
* 是基于哪些文档、哪些记录得出的结论？
* 出了问题能不能找到责任源头？
* 基于角色的差异化访问：同样的问题，不同权限的人应得到不同范围的答案。
* CEO能看完整财报
* 部门经理只能看自己部门的
* 普通员工可能只能看公开的季度总结
* 数据层级的权限检查：权限检查必须在数据检索的源头进行。
* 在数据入库时就标记权限
* AI检索时自动过滤掉用户无权访问的内容
* 从源头杜绝泄密可能

技术再牛，用户不敢用也白搭

一位嘉宾分享了他的亲身经历：他买了特斯拉，很想体验自动驾驶。但每次要开启，家人都坚决反对。

不是因为技术不行，而是因为“不信任”——家人觉得把命交给机器，心里没底。

他感慨地说：

“当AI要碰你的安全、你的钱这种要命的东西时，技术好不好是一回事，敢不敢用是另一回事。我们能做出AI Agent，但问题是：用户真的敢让它做决定吗？”

这句话戳中了所有人的痛点。

企业AI面临同样的信任危机，不只是自动驾驶，财务对账、医疗诊断、法律文书等企业场景更严重。其核心矛盾：AI可能做对了，但没人敢完全相信它。

成功的5%是怎么破局的？

那些真正在生产环境跑通的AI，有个共同特点：它们从不让AI“独自做主”，而是设计成“人机配合”模式。
* 将AI定位为助手，而非自主决策者
* 建立反馈循环 — 让系统能从人类的纠正中学习
* 设计易于验证和覆盖的流程 — 让人类能够轻松介入和最终决策

三、记忆不只是存储，它是架构决策

每个人都想“添加记忆”。但记忆不是一个功能，它是一个设计决策，涉及UX（用户体验设计）、隐私和系统影响。记忆的层级有如下几种：
* 用户级：偏好（如图表类型、风格、写作语气）等
* 团队级：高频查询、仪表板、运行手册等
* 组织级：机构知识、策略、先前决策等

大多数创业公司将记忆硬编码到应用逻辑或本地存储中。但最好的团队将其抽象为上下文层+行为层，可版本化和可组合。

一位演讲者这样描述：

“语义记忆+分类法+运行手册 = 上下文
个人偏好 = 记忆”

记忆作为个性化

在应用层，记忆有两个目的：
* 根据个人用户定制行为 —— 用户的写作风格、偏好、领域专长
* 基于事件和元数据的主动协助 —— 而不仅仅是被动聊天响应

一个团队分享了在Uber构建对话式数据分析工具的经验。他们遇到了一个典型难题：用户打开工具后不知道该问什么。

这就是所谓的“冷启动问题”——就像你第一次用一个新工具，面对空白对话框发呆，不知道从哪里开始。

他们的解决方案很巧妙：系统会分析用户过去的查询记录，然后主动推荐相关问题。

比如，如果你上周查过“北京地区的订单量”，这周打开工具时，系统会主动提示：“要不要看看本周北京订单的最新数据？”或者“上海地区的情况要对比一下吗？”

就像一个贴心的助手，记得你上次关心什么，这次主动帮你准备好了话题。

个性化的边界在哪里？

AI记忆功能带来了一个棘手的问题：记得太少不好用，记得太多又让人害怕。

个性化的边界问题

一位嘉宾分享了亲身经历：他问ChatGPT推荐适合全家看的电影，结果AI回答说：“根据Claire和Brandon的年龄，我推荐这几部动画片……”

他当场就不舒服了：“你怎么知道我女儿叫Claire、儿子叫Brandon？这也太吓人了吧！”

这就是个性化的边界问题：

记住用户喜欢的图表样式 → 贴心
记住用户常问的业务问题 → 高效
记住用户孩子的名字 → 越界了，感觉被监视

三大设计矛盾

矛盾1：功能 vs 隐私
* 记忆让AI更好用，但用户会担心隐私泄露。

矛盾2：个人 vs 团队
* 如果记忆在团队间共享，可能会泄露个人信息。
* 例如，你的搜索记录被同事看到。

矛盾3：锁定 vs 自由
* 当前的AI记忆大多绑定在各家平台上。
* 你在ChatGPT建立的“记忆”，换到Claude就没了。
* 数据控制权在厂商手里，不在用户手里。

理想的解决方案：用户拥有自己的记忆

嘉宾们提出一个大胆设想：能否建立一个“记忆银行”，让用户自己管理AI记忆？
* 就像通讯录、照片存在手机里，而不是锁在某个App里。
* 你可以授权任何AI工具读取这些记忆。
* 你随时能查看、修改、删除。
* 数据归你，不归平台。

但目前没人做出来。 一位嘉宾甚至表示：如果不是正在创业做别的项目，他下一个就想做这个。

四、多模型推理与编排模式

另一个被忽视的关键设计是模型选型与编排。

许多团队的做法是：无论什么问题，都扔给GPT-4、Claude等最强（也最贵）的模型。但真正运行良好的系统并非如此，而是基于以下因素进行模型动态选择：
* 任务复杂度
* 延迟约束
* 成本敏感度
* 数据本地性/监管问题
* 查询类型（如摘要 vs 语义搜索 vs 结构化QA）

一些典型的编排模式如下：
* 对于琐碎查询 → 本地模型（无网络调用）
* 对于结构化查询 → 调用DSL → SQL翻译器
* 对于复杂分析 → 调用OpenAI/Anthropic/Gemini
* 回退或验证 → 双模型冗余（判断者+响应者）

这不是简单的if-else判断，而像一个智能调度系统，根据：
* 问题有多复杂
* 用户能等多久（延迟要求）
* 预算够不够（成本控制）
* 数据能不能出境（合规要求）

来决定调用哪个模型。

为什么这很重要？

如果做错了：
* 简单问题用大模型 → 浪费钱，响应慢
* 复杂问题用小模型 → 答错了，用户体验差
* 所有问题都用同一个模型 → 成本失控，难以扩展

如果做对了：
* 成本降低50%以上
* 响应速度提升
* 准确率还更高

一个团队的经验是：这套路由策略本身也可以学习优化——系统会记录哪些类型的问题用哪个模型成功率高，然后自动调整策略。

就像使用导航软件：
* 不是所有路线都走高速（贵但快）
* 也不是所有路线都走小路（省钱但慢）
* 而是根据距离、时间、路况，智能选择最优方案

AI的模型选型与编排，道理是一样的。

五、 AI就一定要做成聊天框吗？

并非所有问题都适合通过“打字聊天”来解决。

一位观众提出了灵魂拷问：

“我不确定自然语言总是比GUI更可取。如果我在叫Uber，我不想对着手机说话。我就是点、点、点，车就来了。”

这句话点醒了很多人。大家都在做AI聊天机器人，但真的每个场景都需要聊天吗？

嘉宾们讨论后，总结出聊天真正有用的两种情况：

场景1：你不会用的复杂工具
以前做数据分析要学SQL、学Excel高级函数，门槛很高。现在直接问AI：“帮我看看上个月北京的销售额”，秒出结果。
这时候聊天有价值——因为它降低了学习成本。

场景2：需求很难用按钮表达的时候
比如你想订民宿，需求是：“加州海边、一线海景、有蓝天白云、适合拍照的那种”。这种复杂、模糊、个性化的需求，用传统筛选器要点20个选项，但说一句话就搞定了。

聊天不适合什么场景？

当用户已经明确知道想要什么时，点击比打字快得多。例如：
* 把饼图换成柱状图 → 不需要打字“帮我换成柱状图”，直接点按钮就行
* 调整字体大小 → 不需要说“把字体调大一点”，拖动滑块更直观
* 选择日期范围 → 不需要输入“2024年1月到3月”，日历选择器更好用

最好的方案：聊天+界面，让用户自己选

用聊天作为入口 → 降低上手门槛，让小白也能用
用界面作为工具 → 让熟练用户快速操作
让用户自己选 → 想打字就打字，想点就点

两个最适合自然语言的场景

嘉宾特别强调了两种情况，自然语言是最佳选择：
* 情绪化的场景：如客服投诉、求助，用户就是想发泄、想被理解，强迫他们点菜单选项会更生气。
* 探索式的需求：如“帮我找个加州海边、一线海景、有蓝天、适合拍照的民宿”，这种需求太复杂，用传统筛选器根本没法表达。

核心洞察

不要为了AI而AI。
问问自己：用户为什么想用自然语言？
* 如果是因为不会用工具 → 聊天有价值
* 如果是因为需求复杂 → 聊天有价值
* 如果只是简单操作 → 别强行用聊天，按钮更好

最好的产品，是让用户根据场景自由切换，而不是强迫所有交互都变成打字聊天。

六、四个被忽视的大机会

这场讨论中，几位嘉宾不约而同地提到：有些明明很重要的东西，居然还没人做好。这些可能就是下一波创业机会。

1. 上下文可观测性
当前问题：你喂给AI的那些背景资料，到底哪些有用、哪些有害？没人知道。就像炒菜时倒了一堆调料，但不知道哪个让菜变好吃，哪个搞砸了味道。
如果有人能做出：
* 告诉你“这段上下文提升了20%的准确率”
* 告诉你“这段上下文导致了幻觉”
* 像测试代码一样测试上下文
这会是个刚需工具。目前大家都在“盲飞”。

2. 你自己的“AI记忆银行”
这是最大的机会，但还没人做出来。想象一下：
* 你在ChatGPT里建立的记忆，换到Claude就没了
* 你在这个工具里的使用习惯，换个工具要重新来
* 你的数据被锁死在各个平台里
如果有人能做出一个像“云盘”一样的记忆存储，你可以：
* 授权任何AI读取你的偏好
* 随时查看、修改、删除这些记忆
* 换工具也能带着记忆走
* 数据归你，不归平台

3. 别再让AI“猜”SQL了
现在Text-to-SQL为什么没人敢用？因为太不靠谱！你问“给我看看收入”，AI不知道：
* 你们公司“收入”的定义是啥
* 该查哪张表
* 要不要排除退款
更好的方案——与其让AI瞎猜SQL，不如：
* 建立一个“业务术语词典”
* 让“Q4收入”直接对应一个验证过的计算公式
* 不是每次都现场翻译SQL，而是调用预定义好的、靠谱的计算逻辑

4. 让AI学会“察言观色”
一位嘉宾描述了一个有趣的产品：一个聊天机器人，虽然响应慢，但用户特别喜欢。为什么？因为它会主动关心你。
例如：
* 你打开工具，它说：“上周你问了XX，今天有新数据了，要不要看看？”
* 你要开会了，它提前把相关资料准备好
* 你的数据出现异常，它主动提醒你

关键洞察：
* 讲笑话要秒回，但深度分析慢一点没关系，只要让用户感觉“它在认真思考”
* 不是所有AI都要即时回复，有些场景提前准备、主动推送更有价值

护城河在哪里？

这场讨论传递出一个强烈信号 —— 未来AI产品的竞争，拼的不是谁用了GPT-4还是Claude，而是这四样东西：

上下文质量 → 喂给AI的资料有多靠谱
记忆设计 → 能记住多少、记在哪里、怎么用
编排可靠性 → 如何聪明地选择和组合模型
信任UX → 用户敢不敢把重要的事交给AI

基础设施的春天要来了

嘉宾们的共识是：接下来会有一大波工具出现，专门解决这些“脏活累活”。就像当年做网站，从手写HTML到用WordPress；做App，从写原生代码到用各种框架。

AI也会经历这个过程，谁先做出这些基础工具，谁就占据了生态位。

给创业者的灵魂拷问

如果你在做AI产品，问自己五个问题：

你的上下文策略是什么？ 给AI多少背景资料？怎么选的？
你的记忆存在哪里？ 用户级、团队级、公司级，怎么划分的？用户能看到吗？
你能追踪AI为什么这么回答吗？ 出了问题能调试吗？知道哪段输入导致了错误吗？
你用几个模型？ 是不是所有问题都扔给最贵的那个？有没有根据情况选择？
用户敢把钱交给你的AI吗？ 如果不敢，是安全问题？可解释性问题？还是反馈机制不够？

这五个问题，决定了你的AI产品能不能真正用起来。

写在最后

如果你正在做AI基础设施，或者在其他人意识到之前就在解决这些问题，这篇文章希望能给你一些共鸣。

对于技术从业者，尤其是在做AI/ML的朋友：你会想看关于这些话题的深度内容吗？

如何设计上下文剪枝策略
如何构建双层上下文系统
如何抽象记忆层
如何在设计阶段就考虑治理问题
Qwen3-Max-Preview实测：非思考模型新王者诞生
LLM文本摘要评测实战指南
姚顺雨成名作“智能体评测集τ-bench”上手指南
DeepSeek-V3.2-Exp非思考模式实测
DeepSeek-V3.2-Exp思考模式实测：开源模型王者
深度拆解：为什么通用 Agent 的下一站是 Agentic Browser？
每月AI大模型更新速递（25年9月）
每周AI大模型更新速递10.1~10.12
大模型智能体评测综述【Benchmarks解读】
智谱GLM-4.6硬刚豆包、DeepSeek：速度快40%，为何还是输了？
腾讯混元turbos实测：Agent能力暴跌25.7%，2元成本却让全行业沉默了

关于大模型评测诊断NoneLinear
https://nonelinear.com

评测榜单——已囊括300+大模型、300+评测维度，每周更新大模型评测结果
模型选型降本——一键选出最合适模型，效果更优，成本降低50%以上
智能模型超市——统一API，一键调用全球所有大模型，GPT5 / Gemini2.5 / Claude4.5免费体验，高并发，自动故障切换，实时监控模型调用效果

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：http://www.itsolotime.com/archives/14706