AI Agent部署的95%失败率真相:Uber等大厂600人圆桌揭示上下文工程与权限治理的关键突破

AI Agent部署的95%失败率真相:Uber等大厂600人圆桌揭示上下文工程与权限治理的关键突破

大多数创业者以为自己在构建AI产品,其实他们真正在做的是构建上下文选择系统

近期,旧金山举办了一场高规格AI圆桌讨论,嘉宾包括来自Uber、WisdomAI、EvenUp和Datastrato的工程师和机器学习负责人。这场名为“Beyond the Prompt”的活动吸引了600多位报名者,主要是创始人、工程师和早期AI产品构建者。

讨论的核心议题是上下文工程、推理栈设计,以及在企业环境中扩展智能体系统需要什么。如果说“提示词”只是冰山一角,这场讨论深入到了水面下那片冰冷而复杂的巨大部分:上下文选择、语义层、记忆编排、治理和多模型路由。

现实很残酷:一位嘉宾提到,95%的AI Agent部署在生产环境中都失败了。不是因为模型不够聪明,而是因为它们周围的脚手架——上下文工程、安全性、记忆设计——还没到位。

当晚一个比喻让人印象深刻:

“基础模型是土壤;上下文是种子。”

业内人士普遍关注语义层,不是因为它们酷炫,而是因为这正是创始人悄悄地将信任、实用性和差异化构建到LLM系统中的地方。太多团队把提示词和产品混为一谈。这场讨论标志着一个重要时刻,真正的工程工作开始得到应有的重视。

以下是核心要点——不只是引用,而是在认真的AI团队中反复出现的模式。如果你在基础设施、工具链或垂直AI层构建产品,这些就是需要做对的脚手架。

一、上下文工程 ≠ 提示词黑客技巧

几位嘉宾都表达了同样的洞察:微调很少做,检索增强生成(RAG)做好了就够了。但今天的大多数RAG系统太过简陋。

三种常见的“翻车”方式:
* 索引所有内容 → 检索太多 → 让模型困惑
* 索引太少 → 让模型缺乏信号
* 混合结构化+非结构化数据 → 破坏嵌入或扁平化关键schema

那么,高级上下文工程实际上是什么样的?

AI Agent部署的95%失败率真相:Uber等大厂600人圆桌揭示上下文工程与权限治理的关键突破

  1. LLM的特征选择
    一位演讲者将上下文工程重新定义为LLM原生的特征工程:

    • 选择性上下文剪枝 = 特征选择
    • 上下文验证 = schema/类型/时效性检查
    • “上下文可观测性” = 追踪哪些输入改善/恶化了输出质量
    • 带元数据的嵌入增强 = 类型化特征+条件
      这个框架很重要。它意味着可以把上下文当作可版本化、可审计、可测试的制品,而不是一个字符串blob。
  2. 语义+元数据分层
    几个团队描述了双层架构:

    • 语义层 → 经典向量搜索
    • 元数据层 → 基于文档类型、时间戳、访问权限或垂直本体强制过滤
      这种混合层有助于规范化混乱的输入格式(PDF、音频、日志、指标),并确保检索的不仅仅是“相似内容”,而是相关的结构化知识。
  3. Text-to-SQL的现实检验
    当主持人问观众“你们中有多少人构建了text-to-SQL并将其投入生产?”时,没有一只手举起来。
    这不是因为问题太小众,而是因为查询理解很困难。自然语言是模糊的。业务术语是领域特定的。而且如果没有大量的上下文工程,LLM不知道公司对“收入”或“活跃用户”的定义。
    成功的团队不只是把SQL schema扔给模型。他们构建:

    • 业务词汇表和术语映射
    • 带约束的查询模板
    • 在执行前捕获语义错误的验证层
    • 随时间改善理解的反馈循环

二、为什么95%的AI都挂在了“权限”这道坎上

很多团队做AI的时候,只想着“怎么答得对”,却忽略了一个致命问题:这个答案该不该告诉他?

现场一位工程师分享了一个真实案例:公司上线了一个AI数据助手,结果第二天就被紧急下线。

原因很简单:
* 销售总监问:“上季度各区域业绩如何?”→ AI完整回答
* 普通销售问:“上季度各区域业绩如何?”→ AI也完整回答

问题出在哪? 普通销售只能看自己负责区域的数据,但AI把所有区域的敏感业绩都透露了。这不是技术问题,是严重的数据泄露事故

一句话点醒梦中人

那位演讲者说了一句让全场安静的话:

“同样的问题,不同的人问,AI给的答案就该不一样。”

听起来简单,但大部分AI系统根本做不到。为什么?因为它们只关心“语义理解”,不关心“谁在问”。

三道必须跨越的门槛

如果你想让AI真正在企业里用起来,这三件事必须做到:
* 可解释性与可追溯性:AI的回答必须能追溯源头。
* 这个数据从哪来的?
* 是基于哪些文档、哪些记录得出的结论?
* 出了问题能不能找到责任源头?
* 基于角色的差异化访问:同样的问题,不同权限的人应得到不同范围的答案。
* CEO能看完整财报
* 部门经理只能看自己部门的
* 普通员工可能只能看公开的季度总结
* 数据层级的权限检查:权限检查必须在数据检索的源头进行。
* 在数据入库时就标记权限
* AI检索时自动过滤掉用户无权访问的内容
* 从源头杜绝泄密可能

技术再牛,用户不敢用也白搭

一位嘉宾分享了他的亲身经历:他买了特斯拉,很想体验自动驾驶。但每次要开启,家人都坚决反对。

不是因为技术不行,而是因为“不信任”——家人觉得把命交给机器,心里没底。

他感慨地说:

“当AI要碰你的安全、你的钱这种要命的东西时,技术好不好是一回事,敢不敢用是另一回事。我们能做出AI Agent,但问题是:用户真的敢让它做决定吗?”

这句话戳中了所有人的痛点。

企业AI面临同样的信任危机,不只是自动驾驶,财务对账、医疗诊断、法律文书等企业场景更严重。其核心矛盾:AI可能做对了,但没人敢完全相信它。

成功的5%是怎么破局的?

那些真正在生产环境跑通的AI,有个共同特点:它们从不让AI“独自做主”,而是设计成“人机配合”模式。
* 将AI定位为助手,而非自主决策者
* 建立反馈循环 — 让系统能从人类的纠正中学习
* 设计易于验证和覆盖的流程 — 让人类能够轻松介入和最终决策

三、记忆不只是存储,它是架构决策

每个人都想“添加记忆”。但记忆不是一个功能,它是一个设计决策,涉及UX(用户体验设计)、隐私和系统影响。记忆的层级有如下几种:
* 用户级:偏好(如图表类型、风格、写作语气)等
* 团队级:高频查询、仪表板、运行手册等
* 组织级:机构知识、策略、先前决策等

AI Agent部署的95%失败率真相:Uber等大厂600人圆桌揭示上下文工程与权限治理的关键突破

大多数创业公司将记忆硬编码到应用逻辑或本地存储中。但最好的团队将其抽象为上下文层+行为层,可版本化和可组合。

一位演讲者这样描述:

“语义记忆+分类法+运行手册 = 上下文
个人偏好 = 记忆”

记忆作为个性化

在应用层,记忆有两个目的:
* 根据个人用户定制行为 —— 用户的写作风格、偏好、领域专长
* 基于事件和元数据的主动协助 —— 而不仅仅是被动聊天响应

一个团队分享了在Uber构建对话式数据分析工具的经验。他们遇到了一个典型难题:用户打开工具后不知道该问什么。

这就是所谓的“冷启动问题”——就像你第一次用一个新工具,面对空白对话框发呆,不知道从哪里开始。

他们的解决方案很巧妙:系统会分析用户过去的查询记录,然后主动推荐相关问题。

比如,如果你上周查过“北京地区的订单量”,这周打开工具时,系统会主动提示:“要不要看看本周北京订单的最新数据?”或者“上海地区的情况要对比一下吗?”

就像一个贴心的助手,记得你上次关心什么,这次主动帮你准备好了话题。

个性化的边界在哪里?

AI记忆功能带来了一个棘手的问题:记得太少不好用,记得太多又让人害怕。

个性化的边界问题

一位嘉宾分享了亲身经历:他问ChatGPT推荐适合全家看的电影,结果AI回答说:“根据Claire和Brandon的年龄,我推荐这几部动画片……”

他当场就不舒服了:“你怎么知道我女儿叫Claire、儿子叫Brandon?这也太吓人了吧!”

这就是个性化的边界问题:

  • 记住用户喜欢的图表样式 → 贴心
  • 记住用户常问的业务问题 → 高效
  • 记住用户孩子的名字 → 越界了,感觉被监视

三大设计矛盾

矛盾1:功能 vs 隐私
* 记忆让AI更好用,但用户会担心隐私泄露。

矛盾2:个人 vs 团队
* 如果记忆在团队间共享,可能会泄露个人信息。
* 例如,你的搜索记录被同事看到。

矛盾3:锁定 vs 自由
* 当前的AI记忆大多绑定在各家平台上。
* 你在ChatGPT建立的“记忆”,换到Claude就没了。
* 数据控制权在厂商手里,不在用户手里。

理想的解决方案:用户拥有自己的记忆

嘉宾们提出一个大胆设想:能否建立一个“记忆银行”,让用户自己管理AI记忆?
* 就像通讯录、照片存在手机里,而不是锁在某个App里。
* 你可以授权任何AI工具读取这些记忆。
* 你随时能查看、修改、删除。
* 数据归你,不归平台。

但目前没人做出来。 一位嘉宾甚至表示:如果不是正在创业做别的项目,他下一个就想做这个。

四、多模型推理与编排模式

另一个被忽视的关键设计是模型选型与编排。

许多团队的做法是:无论什么问题,都扔给GPT-4、Claude等最强(也最贵)的模型。但真正运行良好的系统并非如此,而是基于以下因素进行模型动态选择:
* 任务复杂度
* 延迟约束
* 成本敏感度
* 数据本地性/监管问题
* 查询类型(如摘要 vs 语义搜索 vs 结构化QA)

一些典型的编排模式如下:
* 对于琐碎查询 → 本地模型(无网络调用)
* 对于结构化查询 → 调用DSL → SQL翻译器
* 对于复杂分析 → 调用OpenAI/Anthropic/Gemini
* 回退或验证 → 双模型冗余(判断者+响应者)

这不是简单的if-else判断,而像一个智能调度系统,根据:
* 问题有多复杂
* 用户能等多久(延迟要求)
* 预算够不够(成本控制)
* 数据能不能出境(合规要求)

来决定调用哪个模型。

为什么这很重要?

如果做错了:
* 简单问题用大模型 → 浪费钱,响应慢
* 复杂问题用小模型 → 答错了,用户体验差
* 所有问题都用同一个模型 → 成本失控,难以扩展

如果做对了:
* 成本降低50%以上
* 响应速度提升
* 准确率还更高

一个团队的经验是:这套路由策略本身也可以学习优化——系统会记录哪些类型的问题用哪个模型成功率高,然后自动调整策略。

就像使用导航软件:
* 不是所有路线都走高速(贵但快)
* 也不是所有路线都走小路(省钱但慢)
* 而是根据距离、时间、路况,智能选择最优方案

AI的模型选型与编排,道理是一样的。

五、 AI就一定要做成聊天框吗?

并非所有问题都适合通过“打字聊天”来解决。

一位观众提出了灵魂拷问:

“我不确定自然语言总是比GUI更可取。如果我在叫Uber,我不想对着手机说话。我就是点、点、点,车就来了。”

这句话点醒了很多人。大家都在做AI聊天机器人,但真的每个场景都需要聊天吗?

嘉宾们讨论后,总结出聊天真正有用的两种情况:

场景1:你不会用的复杂工具
以前做数据分析要学SQL、学Excel高级函数,门槛很高。现在直接问AI:“帮我看看上个月北京的销售额”,秒出结果。
这时候聊天有价值——因为它降低了学习成本。

场景2:需求很难用按钮表达的时候
比如你想订民宿,需求是:“加州海边、一线海景、有蓝天白云、适合拍照的那种”。这种复杂、模糊、个性化的需求,用传统筛选器要点20个选项,但说一句话就搞定了

聊天不适合什么场景?

当用户已经明确知道想要什么时,点击比打字快得多。例如:
* 把饼图换成柱状图 → 不需要打字“帮我换成柱状图”,直接点按钮就行
* 调整字体大小 → 不需要说“把字体调大一点”,拖动滑块更直观
* 选择日期范围 → 不需要输入“2024年1月到3月”,日历选择器更好用

最好的方案:聊天+界面,让用户自己选

  • 用聊天作为入口 → 降低上手门槛,让小白也能用
  • 用界面作为工具 → 让熟练用户快速操作
  • 让用户自己选 → 想打字就打字,想点就点

两个最适合自然语言的场景

嘉宾特别强调了两种情况,自然语言是最佳选择:
* 情绪化的场景:如客服投诉、求助,用户就是想发泄、想被理解,强迫他们点菜单选项会更生气。
* 探索式的需求:如“帮我找个加州海边、一线海景、有蓝天、适合拍照的民宿”,这种需求太复杂,用传统筛选器根本没法表达。

核心洞察

不要为了AI而AI。
问问自己:用户为什么想用自然语言?
* 如果是因为不会用工具 → 聊天有价值
* 如果是因为需求复杂 → 聊天有价值
* 如果只是简单操作 → 别强行用聊天,按钮更好

最好的产品,是让用户根据场景自由切换,而不是强迫所有交互都变成打字聊天。

六、四个被忽视的大机会

这场讨论中,几位嘉宾不约而同地提到:有些明明很重要的东西,居然还没人做好。这些可能就是下一波创业机会。

1. 上下文可观测性
当前问题:你喂给AI的那些背景资料,到底哪些有用、哪些有害?没人知道。就像炒菜时倒了一堆调料,但不知道哪个让菜变好吃,哪个搞砸了味道。
如果有人能做出:
* 告诉你“这段上下文提升了20%的准确率”
* 告诉你“这段上下文导致了幻觉”
* 像测试代码一样测试上下文
这会是个刚需工具。目前大家都在“盲飞”。

2. 你自己的“AI记忆银行”
这是最大的机会,但还没人做出来。想象一下:
* 你在ChatGPT里建立的记忆,换到Claude就没了
* 你在这个工具里的使用习惯,换个工具要重新来
* 你的数据被锁死在各个平台里
如果有人能做出一个像“云盘”一样的记忆存储,你可以:
* 授权任何AI读取你的偏好
* 随时查看、修改、删除这些记忆
* 换工具也能带着记忆走
* 数据归你,不归平台

3. 别再让AI“猜”SQL了
现在Text-to-SQL为什么没人敢用?因为太不靠谱!你问“给我看看收入”,AI不知道:
* 你们公司“收入”的定义是啥
* 该查哪张表
* 要不要排除退款
更好的方案——与其让AI瞎猜SQL,不如:
* 建立一个“业务术语词典”
* 让“Q4收入”直接对应一个验证过的计算公式
* 不是每次都现场翻译SQL,而是调用预定义好的、靠谱的计算逻辑

4. 让AI学会“察言观色”
一位嘉宾描述了一个有趣的产品:一个聊天机器人,虽然响应慢,但用户特别喜欢。为什么?因为它会主动关心你。
例如:
* 你打开工具,它说:“上周你问了XX,今天有新数据了,要不要看看?”
* 你要开会了,它提前把相关资料准备好
* 你的数据出现异常,它主动提醒你

关键洞察:
* 讲笑话要秒回,但深度分析慢一点没关系,只要让用户感觉“它在认真思考”
* 不是所有AI都要即时回复,有些场景提前准备、主动推送更有价值

护城河在哪里?

这场讨论传递出一个强烈信号 —— 未来AI产品的竞争,拼的不是谁用了GPT-4还是Claude,而是这四样东西:

  1. 上下文质量 → 喂给AI的资料有多靠谱
  2. 记忆设计 → 能记住多少、记在哪里、怎么用
  3. 编排可靠性 → 如何聪明地选择和组合模型
  4. 信任UX → 用户敢不敢把重要的事交给AI

基础设施的春天要来了

嘉宾们的共识是:接下来会有一大波工具出现,专门解决这些“脏活累活”。就像当年做网站,从手写HTML到用WordPress;做App,从写原生代码到用各种框架。

AI也会经历这个过程,谁先做出这些基础工具,谁就占据了生态位。

给创业者的灵魂拷问

如果你在做AI产品,问自己五个问题:

  1. 你的上下文策略是什么? 给AI多少背景资料?怎么选的?
  2. 你的记忆存在哪里? 用户级、团队级、公司级,怎么划分的?用户能看到吗?
  3. 你能追踪AI为什么这么回答吗? 出了问题能调试吗?知道哪段输入导致了错误吗?
  4. 你用几个模型? 是不是所有问题都扔给最贵的那个?有没有根据情况选择?
  5. 用户敢把钱交给你的AI吗? 如果不敢,是安全问题?可解释性问题?还是反馈机制不够?

这五个问题,决定了你的AI产品能不能真正用起来。

写在最后

如果你正在做AI基础设施,或者在其他人意识到之前就在解决这些问题,这篇文章希望能给你一些共鸣。

对于技术从业者,尤其是在做AI/ML的朋友:你会想看关于这些话题的深度内容吗?


关于大模型评测诊断NoneLinear
https://nonelinear.com

  1. 评测榜单——已囊括300+大模型、300+评测维度,每周更新大模型评测结果
  2. 模型选型降本——一键选出最合适模型,效果更优,成本降低50%以上
  3. 智能模型超市——统一API,一键调用全球所有大模型,GPT5 / Gemini2.5 / Claude4.5免费体验,高并发,自动故障切换,实时监控模型调用效果

AI Agent部署的95%失败率真相:Uber等大厂600人圆桌揭示上下文工程与权限治理的关键突破


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/14706

(0)
上一篇 2025年10月20日 下午12:58
下一篇 2025年10月21日 上午7:52

相关推荐

  • LLM 大模型工程师:AI 时代的弄潮儿

    随着 LLM 技术的不断发展和突破,LLM 大模型工程师这一新兴职业应运而生,他们正成为推动 AI 进步的关键力量,对于传统软件工程师来说,了解并迈向这一领域,或许将开启一段充满机遇与挑战的职业新征程。

    2025年10月2日
    41600
  • LingoEDU:结构化预处理新突破,让大模型生成可溯源,DeepSeek准确率飙升51%

    LingoEDU:结构化预处理新突破,让大模型生成可溯源,DeepSeek准确率飙升51% 一种名为LingoEDU(简称EDU,即基本话语单元技术)的新方法,能够零成本降低大模型幻觉,让DeepSeek的准确率相对提升51%。 LingoEDU是一个在大模型正式生成前执行的专用「预处理」模型。其核心在于对输入文本进行精准切分,为每一个最小信息单元(EDU)…

    2026年1月5日
    7800
  • 周末实战:5个能放进作品集的Agentic AI项目,助你求职脱颖而出

    人们常把“Agentic AI”描绘成只有大型实验室才能驾驭的高深技术。事实并非如此。 你完全可以在几天内,构建出真正能放进作品集的智能体项目。这些项目能解决实际问题,从而在求职时为你加分,而不是只会运行花哨提示词的玩具。 这里有五个你马上就可以动手实践的项目,即使你只有一台在卧室里、电量只剩一半的笔记本电脑。 我们将通过简单的示例逐一讲解,让你看清各个组件…

    2025年12月8日
    8000
  • Agent Infra:驾驭不确定性,开启智能体工程化落地新纪元

    毋庸置疑,2025年堪称「Agent元年」。 从年初到年末,Agent的热度持续攀升——从Manus到近期的豆包手机,Agent已成为全行业关注的焦点。回顾这一年,也是Agent从技术萌芽走向工程化落地的关键一年。 为此,量子位邀请到两位行业专家——Dify开源生态负责人郑立与腾讯云云原生产品副总经理于广游,共同探讨Agent落地过程中的挑战、机遇与未来。核…

    2025年12月23日
    13100
  • Agent原生架构:Claude Code 后时代该如何构建智能体应用

    最近,Claude Code 的流行不仅源于其作为“Vibe编程神器”的体验,更在于它正在重塑智能体的开发范式。过去那种依赖胶水代码或拖拽式构建的、面向过程的传统智能体,正面临被一种全新模式的挑战:这种模式只需开发者描述目标结果,然后交由智能体通过持续循环运行来达成目标。 Claude Code 配合其恰到好处的插件与技能机制证明,一个优秀的编程智能体,本身…

    2026年1月11日
    5300