AI生产力真相:Anthropic联创揭秘内部数据,代码加速遇瓶颈,维修工也难逃AI替代

Anthropic联合创始人Jack Clark近期参与了一场深度对话,同台的还有知名前对冲基金经理Michael Burry、Dwarkesh播客创始人Dwarkesh Patel以及软件创业者Patrick McKenzie。

AI生产力真相:Anthropic联创揭秘内部数据,代码加速遇瓶颈,维修工也难逃AI替代

四位业界人士的讨论揭示了关于AI生产力的一些反直觉细节和数据。

AI工具真的提升了生产力吗?
多数人的直觉答案是肯定的,但Jack Clark指出,目前的统计数据是矛盾且稀缺的。METR的研究显示,对于熟悉代码库的开发者,使用AI工具反而使其PR合并速度下降了约20%。然而,Anthropic的内部调查却显示,60%的Claude用户自我报告生产力提升了50%。这组矛盾数据表明,自我感知的生产力可能与实际生产力存在显著背离。

AI能否加速整体开发速度?
直觉上,AI编码工具应能大幅提速。但Jack Clark用“木桶原理”来解释其中的瓶颈:系统的整体速度取决于最慢的环节。如果写代码的速度提升了10倍,但代码审查的速度只提升了2倍,那么整体开发效率并不会出现爆炸式增长。

哪些职业会被AI影响?
人们通常认为PPT、Excel等白领工作已被AI接管,而维修工、水管工等技术工种相对安全。但Michael Burry分享了他的亲身实践:通过“拍照+AI指导”的方式,他已经能够独立完成许多电工和家居维修工作。这表明,技术工种也并非AI的“安全区”。

技术路线如何演进?
Jack Clark回顾了自2017年《Attention Is All You Need》发表以来的技术路径。人们成功押注了Transformer架构与规模定律(Scaling Law),由此构建出通用智能的基础。而当前的发展趋势正在“绕一圈回来”:人们开始基于强大的预训练模型(如DeepMind的SIMA 2、Claude Code)来构建智能体(Agent)。

Jack Clark强调,如果规模定律真的遇到瓶颈,那将是最令人震惊的事情。因为当前大规模的基础设施建设以及为训练未来模型投入的巨额资金,都清晰地表明行业主流正在押注相反的结果——即规模效应将继续生效。

兜兜转转又回到预训练

Patrick McKenzie:
自《Attention Is All You Need》发表以来,人类到底构建了什么?如果你把2025年的现实展示给2017年的人,哪些事情会让他们震惊?哪些当年的预测没有成真?

Jack Clark:
回顾2017年,主流路径是“白板假设”(tabula rasa):从零开始训练智能体,通过一套由易到难的任务课程,让它逐步获得通用能力。DeepMind、OpenAI等顶级实验室都在《星际争霸》《Dota 2》、AlphaGo等环境中进行尝试。这条路线在特定任务上造出了超人类系统,但并未直接带来通用智能。

与此同时,另一条路径在悄然发展:对超大规模数据集进行预训练,构建能够预测和生成这些数据分布的模型。这条路线被两件事极大加速:一是Transformer架构让大规模预训练变得高效;二是几乎同步被揭示的“规模定律”(Scaling Laws),即模型能力与数据、算力投入存在可预测的关系。

将Transformer与规模定律结合,一部分人准确押中了判断:只要对数据和算力进行足够规模的投入,就能得到通用系统。

现在,一个颇具讽刺意味的现象是:事情正在“绕一圈回来”。人们又开始大力构建智能体,但这一次,智能体是建立在强大的预训练模型基础之上。例如DeepMind的SIMA 2(一个能在3D环境中探索的通用智能体,底层依托预训练的Gemini模型)和Claude Code(一个编码智能体,其能力完全来自大型预训练模型)。

Patrick McKenzie:
由于大语言模型是可编程的且被广泛获取(包括一些能力较弱但相比2017年已极其强大的开源模型),我们已经进入一个新阶段:今后任何AI能力,都不必再构建在比“现在更差的认知基底”之上。也就是说,你今天看到的,是下限,不是上限。

这是我认为内部人士理解得最清楚、而政策制定者和公众理解得最糟糕的一点。未来任何一个《星际争霸》的AI,在诞生那一刻就已经读过《孙子兵法》,除非它的设计者判断这反而会让它更容易被击败。

Jack Clark:
是的,我们在Anthropic常对政策制定者说:“这已经是它最差的时候了。”但要让他们真正理解这句话的分量,非常困难。

另一件极不直觉的事情是能力提升的速度。一个现实例子是,很多用户在Claude Code中使用Opus 4.5后都会感叹:“这比之前好太多了。”如果你上一次接触前沿大模型还是在去年11月,那么你对当前能力的判断可能已经严重失准。

AI未必能实现开发效率爆炸式增长,速度取决于最慢的环节

Michael Burry:
在我看来,2017年的AI意味着AGI(通用人工智能)。那时人们根本不把大语言模型当作AI。我从小读科幻小说,它们预测了很多未来,但没有一本把“AI”想象成一个依赖搜索、像聊天机器人一样的东西。

《Attention Is All You Need》和Transformer的提出,本质上是Google工程师利用TensorFlow完成的。回到2010年代中期,神经网络、机器学习创业公司已很常见。Google其实已有大型语言模型,只是内部使用。最让我惊讶的是:以Google在搜索、Android、芯片和软件上的统治地位,它居然没有在这一轮竞赛中一路领跑。

另一个意外是,我原以为专用芯片(ASIC)和小模型(SLM)会更早普及。Nvidia至今仍在推理端占据主导,实在令人震惊。而最大的惊讶是:点燃这一轮资本狂潮的,竟然是ChatGPT。它的初始应用场景有限——搜索、学生辅助、写代码。现在确实有了更好的编码模型,但引爆“万亿级投入”的,最初竟是一个聊天机器人。

我特别认同Dwarkesh采访Satya Nadella时的一个瞬间:他承认,所有大型软件公司现在都变成了硬件公司、资本密集型公司。我甚至不确定覆盖这些公司的分析师是否真正理解“维护性资本支出”是什么。

Dwarkesh Patel:
另一个令人惊讶的地方在于:AI的领先优势并不持久。2017年,Google遥遥领先;几年前,OpenAI似乎一骑绝尘。但现在,不论是人才流动、信息扩散还是技术逆向工程,某种力量持续在“抹平差距”。几大实验室轮流站上领奖台。我很好奇,所谓的“递归式超级智能”是否真的能打破这种格局,还是说我们应该预期长期激烈竞争。

Jack Clark:
关于递归改进,所有前沿实验室都在用AI加速自己的开发流程,但这过程并不“干净利落”。它有一个明显特性:系统整体速度取决于最慢的环节。比如你能写出10倍的代码,但代码审查速度只提升了2倍,那整体效率并不会爆炸式增长。一个关键的未知数是:这个“开发-改进”的闭环是否能真正闭合。一旦闭合,才有可能出现真正复利式的研发优势。

Dwarkesh:
这是价值百万美元的问题。METR 的研究显示,在熟悉代码库的开发者中,使用 AI 工具反而使 PR 合并速度下降了约 20%。但另一方面,自包含编码任务的“等效人类时间跨度”已经达到数小时,并且每 4 到 7 个月翻倍。

我没有一手经验,但直觉上更接近前者——因为缺乏良好的反馈验证闭环,而且评价标准高度主观(可维护性、品味等)。

Jack:
我同意,这是一个核心问题,目前数据矛盾且稀缺。我们在 Anthropic 做过一次开发者调查,60% 使用 Claude 的人自报生产力提升了 50%。但 METR 的结果又似乎与此相反。

我们需要更好的数据,尤其是更精细的工具去测量“真实生产力”。不过,从宏观上看,编码工具前所未有的普及,很难解释为“越来越多开发者在热情地让自己变得更低效”。

Dwarkesh:
不过,METR 的研究恰恰预测了这种现象:自我感知的生产力可能与真实生产力高度背离,甚至方向相反。

Jack:
是的。我们正在认真考虑如何做更好的“仪表化”,以区分主观感受与客观现实。希望 2026 年能拿出研究成果。

AI刷爆了评测基准,但还是会犯一些荒谬的错误

Dwarkesh:
真正令人惊讶的是:自动化“人类的工作”到底有多复杂。我们已经跨过了一个又一个曾被视为 AGI 标志的门槛——图灵测试早已不值一提;模型可以解决复杂、开放式的数学和编程问题。

如果你在 2017 年给我看 Gemini 3 或 Claude 4.5 Opus,我会确信它会让一半白领失业。但现实中,AI 对劳动力市场的影响微弱到需要显微镜才能看见。

同样令人意外的是私人资本投入的规模和速度。几年前,人们还认为 AGI 必须是“曼哈顿计划”级别的国家工程,而现在看起来,市场本身就能支撑起 GDP 百分之几的投入。

Michael:
是的。历史上,每一次技术革命对劳动的冲击都非常明显——工业革命、服务业革命都导致了义务教育的扩张。而我们目前完全没有看到类似现象。

Jack:
AI 社区里有个老规律:我们不断设计看似“真正考验智能”的任务,然后模型轻松跨越。最终你得到的是一个表面极其强大、但仍会犯一些人类觉得荒谬错误的系统。

例如,LLM 在某些认知测试上被评为“超人类”,但却无法在犯错后自我纠正。这种缺陷正在改善,但它说明 AI 的弱点往往极不直觉。

在编程领域之外,谁来为AI付费?

Patrick:
编程显然是 AI 工业化应用的前沿阵地:Cursor 这样的公司收入暴涨,有审美的技术人员开始偏爱 Claude Code、OpenAI Codex,“vibe coding” 也成为一种文化现象。但这也造成了一种明显的不对称——因为大多数人并不是程序员。
接下来会是哪一个行业发生变化?什么样的变化,才会真正体现在财报、就业或价格中,而不仅仅是 demo?

Jack:
编程有一个非常关键的优势:它是相对“闭环”的。你用 LLM 生成或修改代码,然后可以立刻验证、部署。直到最近,一整套更完整的工具出现,LLM 才开始在编程之外的领域具备这种“闭环”能力,比如接入搜索、以及像 MCP 这样的连接协议。
举个例子,我最近在研究一些成本曲线问题,比如单位质量的入轨成本、单位瓦特的太阳能成本。以前也能用 LLM 辅助研究,但摩擦极大,需要在模型和外部工具之间反复切换。现在这些摩擦被消除了,使用频率自然迅速上升。
因此,我预计:程序员身上发生的事情,很快会在更广泛的知识工作者中重演,并以一种分散但广泛的方式,体现在科研、法律、学术界、咨询等多个领域。

Michael:
归根结底,AI 必须被某些人买单。有人为商品或服务付费,这才构成 GDP。而 GDP 的增长速度通常只有 2% 到 4%,除非某些公司拥有定价权——而这在 AI 的未来中似乎并不乐观。
经济体不是一个可以无限扩张的“魔法蛋糕”,而是受算术约束的。整个软件行业(包括各种 SaaS)规模也不过一万亿美元左右。这也是为什么我总是强调“基础设施与应用的比例”:Nvidia 卖出了 4000 亿美元的芯片,但终端 AI 产品的收入还不到 1000 亿美元。
AI 必须真正提高生产力,或者创造出不挤占现有支出的新需求,这非常困难。是否能做到,仍然存在争议。目前这轮资本开支,很大程度上建立在信念和 FOMO 之上,却几乎没有人能拿出真正算得通的数字。

如果Scaling Law撞墙,那会极其令人震惊

Patrick:
如果你在 2026 年看到一条技术或金融领域的头条新闻,什么会让你感到震惊,并因此重新校准你对 AI 进展速度或估值的整体判断?回头看,到目前为止,最大的意外是什么?

Michael:
最可能让我彻底重新评估的一件事,是看到自主 AI 智能体在大型公司中取代数百万个工作岗位。这会让我非常震惊,但它依然未必能让我看清“持久竞争优势”到底在哪里——又回到巴菲特那个自动扶梯的例子。

另一种情况是,应用层收入达到或超过 5000 亿美元,这意味着大量真正的“杀手级应用”出现了。

而在现实中,我们大概率会看到两种结果之一:要么 Nvidia 的芯片能用五到六年,于是人们对新芯片的需求下降;要么芯片两到三年就要淘汰一次,那么云厂商的盈利能力将崩塌,私人信贷也会遭受重创。

回顾到目前为止,最大的意外包括:

第一,Google 并没有一路领先
《Attention Is All You Need》的八位作者全部来自 Google。Google 拥有搜索、Gmail、Android,甚至已经有 LLM 和芯片,但它却失误了,给了资源远不如它的竞争者机会。一个科技巨头在 AI 上追赶一家创业公司,这件事本身就足够令人震撼。

第二,ChatGPT——一个聊天机器人引爆了一场数万亿美元级别的基础设施竞赛。这就像是有人造了一个机器人原型,全世界的企业突然都开始为“机器人时代”疯狂投资。

第三,Nvidia 在推理时代依然保持统治地位
我原本以为 ASIC 和小模型(SLM)早就该占据主导,我们也应该早就摆脱 prompt engineering 了。也许正是对 Nvidia 的迷恋拖慢了整个行业的转型,或者 Nvidia 的反竞争行为确实产生了影响。

Dwarkesh:
对我来说,最大的意外会是以下几种情况之一:

如果到 2026 年,AI 实验室的累计收入低于 400 亿美元,或高于 1000 亿美元,那都意味着事情的发展速度与我的预期出现了显著偏差——要么慢了很多,要么快了很多。

另一个巨大意外是:持续学习被真正解决了
不是 GPT-3 那种“在上下文中看起来会学”的解决,而是像 GPT-5.2 那样,模型在理解上下文方面几乎接近人类。如果和一个模型协作,更像是在复制一个已经与你共事六个月的熟练员工,而不是“上班第一小时的劳动力”,那将是一次巨大的能力解锁。

我认为,自 2020 年以来,通往 AGI 的时间窗口已经显著收敛。
当年,你既可以给“把 GPT-3 扩大一千倍就能到 AGI”分配一定概率,也可以认为我们走错了路,可能要等到本世纪末。如果进展突然偏离原有趋势线,清晰地指向未来 5 到 20 年内出现真正可替代人类的智能体,那将是我最大的意外。

Jack:
如果“规模化撞上了墙”,那将是极其令人震惊的事情,并且会对研究范式和整个 AI 经济产生深远影响。当前的大规模基础设施建设——包括为训练未来模型而投入的巨额设施投资,清楚地表明,大多数人是在押注相反的结果。

另一件我会感到震惊的事,是分布式训练在效率上出现重大突破,并且有一群参与者真的能凑出足够的算力,训练出一个非常强大的系统。如果这发生了,那意味着不仅可以有开放权重模型,还可能出现一种“开放式模型开发”的形态——不再需要一个单一的巨型组织来训练前沿模型。

这将彻底改变 AI 的政治经济结构,并带来极其复杂的政策影响,尤其是在前沿能力扩散方面。Epoch 对分布式训练有一篇很好的分析,值得参考。

Claude也能修水管,谁说AI不能替代维修工?

Patrick:
你最近一次在职业上真正重要的 LLM 使用经历是什么?如果需要,可以隐去细节。在那次互动中,你是如何“对待”这个 LLM 的?

Michael:
我现在用 Claude 来制作所有图表和表格。我会自己找到原始资料,但在设计和制作专业图表、可视化方面,我已经完全不花时间了。我仍然不完全信任数值本身,需要人工核查,但“创作”这一部分对我来说已经结束了。

此外,我也会特别用 Claude 来寻找资料来源,因为现在很多重要信息并不在 SEC 文件或主流报告里。

Patrick:
金融圈之外的人往往无法理解:过去几十年里,我们花了多少十亿美元,让全球最聪明、薪酬最高的一批人,去当 PowerPoint 和 Excel 专家。

这种技能在短期内仍然有价值,也许数据透视表和 VLOOKUP 的“身份象征意义”还会存在一段时间。但我在英格兰银行的那次演讲,所有图表都是用 LLM 做的。回头想想,我们曾经要求人类花数小时微调这些东西,本身就显得有点荒诞。

Dwarkesh:
现在,LLM 是我的一对一私人导师。我确实尝试过为一些学习目标雇佣真人导师,但 LLM 的延迟和响应速度带来了完全不同层级的体验。

这就像是有人愿意为 Waymo 相比 Uber 支付极高溢价一样。这让我越来越觉得,很多工作的“人类溢价”不仅不会存在,甚至可能是负的。

Michael:
顺着这个话题,很多人认为技工类职业是“AI 免疫”的。但我现在不太确定了。只要身边有 Claude,我已经能自己完成很多电工和家居维修工作。如果我是一个中产,面对一次 800 美元的水管工或电工上门费用,我可能真的会选择先用 Claude 试一试。我甚至可以拍张照片,让它一步步告诉我该怎么修。

目前为止,还不存在真正递归自我改进的AI

Patrick:
在相对了解 AI 的人群中,对风险的看法跨度极大:从“只是让社交媒体变得更糟”,到“如果中国在这项具备军事潜力的关键技术上领先美国就麻烦了”,再到“最坏情况是人类文明的终结”。

什么最让你夜不能寐?另外,如果你能和高级政策制定者单独谈五分钟,你会建议他们把注意力和资源重新投向哪里?

Jack:
我最担心的是,人们是否真的能成功构建出“能够构建 AI 的 AI ”——也就是彻底闭合 AI 研发的循环(有时称为递归式自我改进 AI)。

需要明确的是,我几乎可以肯定:在 2026 年 1 月,地球上还不存在真正的递归自我改进 AI。但我们已经看到极早期的迹象:AI 正在越来越擅长完成 AI 研究中的某些环节,比如内核开发、自动微调开源模型等。

如果这种趋势持续,最终构建出一个能“改进自身”的系统,那么 AI 的发展速度将急剧提升,并很可能超出人类的理解能力。这将带来一系列重大的政策挑战,同时也可能引发由 AI 驱动的、前所未有的经济跃迁。

如果我只有五分钟和政策制定者交流,我会直截了当地说:
“自我改进 AI 听起来像科幻,但从技术上看并非不可能,一旦发生,将是极其重大的事件。你们应该要求 AI 公司在这方面保持高度透明,并确保有你们信任的第三方机构,能独立测试这些系统是否具备这种特性。”

Michael:
Jack,我知道你能直接和政策制定者对话,希望他们真的在听。

就目前而言,AI 对人类文明的风险并没有让我太担心。聊天机器人确实可能让人变笨——医生如果过度依赖它,可能会逐渐忘记自己的专业知识。这不好,但不至于毁灭性。

至于 AGI 或 ASI 的末日级担忧,我个人并不太焦虑。我是在冷战时期长大的,世界随时可能毁灭,我们还有核爆演习。我在农场踢球时,直升机还会往我们头上喷杀虫剂。我 30 多年前就看过《终结者》,《红色黎明》当时看起来也并非不可能。我相信人类会适应。

如果让我和高级政策制定者谈五分钟,我会建议他们拿出 1 万亿美元 (反正现在“万亿”就像以前的“百万”一样随便)——绕过抗议和繁琐监管,在全国铺设小型核反应堆,同时建设一张全新的、最先进的电网。

尽快完成,并用最先进的物理和网络安全手段保护,甚至可以成立一支联邦资助的“核设施防卫部队”。
这是我们跟上中国的唯一希望,也是确保长期安全、增长和偿债能力的唯一出路——不能让能源成为创新的瓶颈。

Jack:
我非常认同能源这一点。AI 要在经济中发挥实质性作用,根本依赖于底层基础设施,才能以低成本、高效率地服务企业和消费者。

这和历史上的大规模电气化、公路、下水道建设并无本质不同——都是巨额资本开支项目。我们现在迫切需要在能源领域做同样的事。

此外,大规模 AI 数据中心本身就是新型能源技术的理想“试验客户”。我尤其期待 AI 能源需求与核能技术的“融合”。更广泛地说,“经济安全就是国家安全 ”。确保 AI 经济所需的基础设施到位,将对工业基础和整体韧性产生深远的正向外溢效应。

参考链接:
https://earmark.fm/id/4beae92f-ed45-429e-a633-faa48407fd4f


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/17823

(0)
上一篇 2026年1月11日 上午9:05
下一篇 2026年1月11日 上午11:32

相关推荐

  • 交错思维:MiniMax M2在Agent基准测试中胜出的技术内核与产业启示

    近日,国内开源模型在轻量级软件工程Agent基准测试mini-SWE-agent上的表现引发行业关注。该测试聚焦大模型在真实软件开发任务中的多步推理、环境交互与工程化能力,结果显示MiniMax新一代大模型M2表现最为突出,超越了DeepSeek、GLM、Qwen、Kimi等竞品。这一成绩不仅体现了国产模型的技术突破,更揭示了Agent技术演进的关键方向。 …

    2025年12月4日
    7600
  • xAI估值飙升背后:大模型竞赛进入资本驱动新阶段

    近日,华尔街日报披露xAI正计划进行新一轮150亿美元(约1067亿人民币)融资,公司估值或将达到2300亿美元(约1.6万亿人民币)。这一数字较今年3月xAI与X合并后的1130亿美元估值翻倍有余,引发业界广泛关注。 从估值增长轨迹来看,xAI的崛起速度堪称惊人。公司于2023年7月由马斯克正式创立,最初定位为公益性机构,宣称要“理解宇宙的真实本质”。20…

    2025年11月20日
    9500
  • Cartesia完成1亿美元B轮融资,SSM架构语音模型Sonic-3实现类人情感表达

    在人工智能语音合成领域,一场基于架构创新的技术竞赛正在悄然展开。近日,语音AI公司Cartesia宣布完成1亿美元B轮融资,英伟达作为投资方赫然在列。与此同时,该公司发布了新一代语音模型Sonic-3,凭借状态空间模型(SSM)架构实现了前所未有的类人情感表达能力。这一系列动作不仅标志着语音AI技术路线的多元化发展,更预示着实时交互语音应用即将迎来新的突破。…

    2025年11月3日
    7900
  • 悟界·Emu3.5:世界模型基座如何重塑多模态AI的物理认知与时空一致性

    在AI技术快速迭代的浪潮中,多模态模型正从简单的图文生成向更复杂的物理世界理解演进。北京智源人工智能研究院(BAAI)最新开源的悟界·Emu3.5,作为一款原生多模态世界模型,不仅在图、文、视频任务上展现出全面能力,更在模拟动态物理世界、保持时空一致性方面实现了突破性进展。这标志着AI正从“表象生成”迈向“本质理解”的新阶段。 Emu3.5的核心突破在于其作…

    2025年10月30日
    7800
  • 4KAgent:多智能体协同的通用图像超分辨率框架,突破传统模型局限

    图像超分辨率技术作为计算机视觉领域的重要研究方向,长期以来面临着处理复杂退化图像和跨领域应用的挑战。传统方法通常在特定数据集上表现优异,但面对真实世界中的噪声、模糊、压缩损伤以及AI生成图像、遥感影像、生物医学图像等多样化场景时,往往难以兼顾通用性与高质量输出。近期,由德克萨斯A&M大学、斯坦福大学、Snap公司、CU Boulder大学、德克萨斯大…

    2025年11月21日
    8400