AI自动化率仅3%：Scale AI研究揭示大模型在真实工作场景中的局限性

2025年11月6日下午10:28 • AI产业动态 • 阅读 3

近期，Scale AI与Center for AI Safety联合发布的研究报告《远程劳动指数（RLI）：评估AI在真实工作环境中的端到端性能》引发广泛关注。该研究通过构建包含240个真实远程工作项目的RLI基准，对全球六大顶尖AI模型进行了系统性评估，结果显示当前AI在处理具有经济价值的复杂任务时，自动化率最高仅为2.5%，整体平均不足3%。这一发现不仅挑战了“AI将迅速取代人类工作”的流行叙事，更为我们理解大模型的实际能力边界提供了关键数据支撑。

AI自动化率仅3%：Scale AI研究揭示大模型在真实工作场景中的局限性

研究团队首先指出，当前AI评估体系存在显著缺陷。主流基准测试（如MMLU、HumanEval等）大多聚焦于短任务、明确规则的学术问题，与真实工作场景中跨领域、长周期、高标准的复杂需求存在巨大差距。例如，GPT-4在AGI模拟测试中得分达58%，但这仅反映其在结构化环境中的表现，无法代表其在实际经济生产中的价值。为填补这一空白，RLI基准从远程劳动力市场（如Upwork、Fiverr等平台）收集真实项目，涵盖游戏开发、产品设计、建筑规划、数据分析、视频动画等七大领域，项目成本从数百美元至上万美元不等，完成时间最长超过100小时。数据集总计包含6000小时的真实工作量，总价值超过14万美元，确保了评估的生态效度。

AI自动化率仅3%：Scale AI研究揭示大模型在真实工作场景中的局限性

在数据构建过程中，研究团队经历了严格筛选：从64个初始领域筛选出43个符合条件的领域，通过两个阶段（自由职业平台抓取与长尾项目补充）收集550个初始项目，最终由358名经验丰富的自由职业者（平均平台工作时长2341小时，完成项目89个）审核筛选，形成240个项目的最终数据集。如图表所示，RLI项目的人类完成时间分布与真实平台数据高度吻合，且任务多样性远超既有基准（后者多集中于软件工程和文本写作），更全面反映了远程劳动力市场的实际形态。

AI自动化率仅3%：Scale AI研究揭示大模型在真实工作场景中的局限性

AI自动化率仅3%：Scale AI研究揭示大模型在真实工作场景中的局限性

评估阶段，研究团队引入四大核心指标：自动化率（AI交付成果被采纳的比例）、Elo评分（模型相对性能排名）、项目收益（经济价值产出）和自动化通缩（AI替代对劳动力成本的影响）。针对每个RLI项目，AI交付成果需与人类“黄金标准”成果进行对比，并依据项目简报核查缺陷，最终判定其是否达到专业场景的采纳标准。参与评估的模型包括GPT-4o、Claude 3.5 Sonnet、Gemini 1.5 Pro等六大前沿模型及其智能体架构。

AI自动化率仅3%：Scale AI研究揭示大模型在真实工作场景中的局限性

定量分析结果揭示了AI的显著局限性。所有模型中，最高自动化率仅为2.5%（Manus模型），多数模型低于2%。这意味着在真实工作场景中，AI能完全自主处理的任务不足3%，其余97%仍需人类介入或全程主导。Elo评分显示模型间相对性能存在差异（新一代模型普遍优于旧版），但绝对性能均处于低位。这一发现与近期行业裁员潮形成有趣对照：尽管AI在某些环节提升效率，但距端到端替代人类复杂劳动仍有巨大差距。

AI自动化率仅3%：Scale AI研究揭示大模型在真实工作场景中的局限性

AI自动化率仅3%：Scale AI研究揭示大模型在真实工作场景中的局限性

定性分析进一步挖掘了AI失败的根本原因。研究团队对约400份被拒交付成果进行归类，发现主要问题集中于四类：一是技术与文件完整性缺陷（如生成损坏文件、格式错误），占比约35%；二是交付成果不完整或关键组件缺失（如视频截断、缺乏源素材），占比28%；三是质量不达专业标准（如设计粗糙、逻辑混乱），占比22%；四是不一致性（同一任务输出波动大），占比15%。这些问题的根源可追溯至AI的核心能力短板——缺乏世界知识、实时核验能力和复杂交互理解力。例如，在建筑或游戏开发项目中，AI无法自主检测设计中的结构错误或用户体验缺陷，因其缺乏物理空间感知和迭代验证机制。

AI自动化率仅3%：Scale AI研究揭示大模型在真实工作场景中的局限性

然而，研究也识别了AI的优势领域。在部分创意任务中（如音频处理、图像生成、简单数据可视化），AI交付成果可媲美甚至超越人类水平。例如，Claude 4.5 Sonnet在基础网页视觉化任务中表现优异，而图像生成模型能有效完成某些营销设计需求。这些成功案例多集中于当前AI技术成熟的“舒适区”，即规则相对明确、输出可量化评估的领域。

AI自动化率仅3%：Scale AI研究揭示大模型在真实工作场景中的局限性

AI自动化率仅3%：Scale AI研究揭示大模型在真实工作场景中的局限性

RLI研究的深层启示在于，AI发展正从“基准竞赛”转向“场景适配”阶段。自动化率低并非技术倒退，而是揭示了真实工作场景的复杂性：人类劳动不仅涉及任务执行，更包含需求理解、跨领域协调、错误修正和价值判断等高层级能力。当前AI虽在特定任务中展现潜力，但距通用劳动替代仍需突破三大瓶颈：一是多模态交互的鲁棒性（如处理跨文件格式项目），二是长期任务中的状态维持与一致性，三是对模糊需求的创造性解读能力。

AI自动化率仅3%：Scale AI研究揭示大模型在真实工作场景中的局限性

AI自动化率仅3%：Scale AI研究揭示大模型在真实工作场景中的局限性

对产业而言，这一研究提供了理性发展的路线图。企业应避免对AI替代劳动力的过度乐观，转而聚焦人机协作模式——将AI用于提升特定环节效率（如资料检索、初稿生成），而非追求全流程自动化。同时，RLI基准的开放性为后续研究奠定基础，未来可扩展至更多领域（如医疗诊断、法律咨询），持续追踪AI能力演进。

AI自动化率仅3%：Scale AI研究揭示大模型在真实工作场景中的局限性

AI自动化率仅3%：Scale AI研究揭示大模型在真实工作场景中的局限性

总之，Scale AI的研究以数据驱散迷雾，揭示AI自动化仍处早期阶段。3%的自动化率既是现状描述，也是发展起点：它提醒我们警惕技术炒作，同时为AI向更深层、更实用方向演进指明路径。在可预见的未来，人类工作的核心价值——创造力、复杂决策和情境适应——仍难以被机器复制，而如何将AI转化为增强这些能力的工具，才是产业变革的关键课题。

AI自动化率仅3%：Scale AI研究揭示大模型在真实工作场景中的局限性

AI自动化率仅3%：Scale AI研究揭示大模型在真实工作场景中的局限性

AI自动化率仅3%：Scale AI研究揭示大模型在真实工作场景中的局限性

AI自动化率仅3%：Scale AI研究揭示大模型在真实工作场景中的局限性

AI自动化率仅3%：Scale AI研究揭示大模型在真实工作场景中的局限性

AI自动化率仅3%：Scale AI研究揭示大模型在真实工作场景中的局限性

AI自动化率仅3%：Scale AI研究揭示大模型在真实工作场景中的局限性

AI自动化率仅3%：Scale AI研究揭示大模型在真实工作场景中的局限性

AI自动化率仅3%：Scale AI研究揭示大模型在真实工作场景中的局限性

— 图片补充 —

AI自动化率仅3%：Scale AI研究揭示大模型在真实工作场景中的局限性

AI自动化率仅3%：Scale AI研究揭示大模型在真实工作场景中的局限性

关注“鲸栖”小程序，掌握最新AI资讯

本文由鲸栖原创发布，未经许可，请勿转载。转载请注明出处：http://www.itsolotime.com/archives/12270

AI自动化大模型评估远程劳动指数

赞 (0)

0 0

软硬一体：讯飞星火X1.5引领国产大模型进入物理世界的新纪元

上一篇 2025年11月6日下午10:23

隐形字符攻击：大模型安全防线的新漏洞与防御策略

下一篇 2025年11月7日上午11:15

AI产业动态

LimiX：以2M参数颠覆表格数据建模，清华团队破解深度学习结构化瓶颈

在人工智能的浪潮中，大语言模型（LLM）凭借其在文本生成、代码编写和多模态推理方面的卓越表现，已成为通用智能的代名词。然而，当我们把目光投向现实世界的关键系统——电网调度、用户画像、通信日志等，这些领域的核心数据往往以结构化表格的形式存在。令人意外的是，在这个看似“简单”的领域，包括LLM在内的现代深度学习模型却频频失手，其性能在多数真实场景下仍难以超越XG…

2025年11月13日
5000
AI产业动态

DemoHLM：单次演示生成海量数据，破解人形机器人移动操作三大难题

近日，北京大学与BeingBeyond的研究团队联合提出了DemoHLM框架，为人形机器人移动操作领域带来了突破性进展。该框架仅需在仿真环境中采集一次人类演示，即可自动生成海量训练数据，实现真实人形机器人在多任务场景下的泛化操作，有效解决了传统方法依赖硬编码、真实数据成本高昂、跨场景泛化能力差的核心痛点。移动操作作为人形机器人融入人类环境的核心能力，长期面…

2025年11月13日
6000
AI产业动态

摩尔线程LiteGS技术斩获SIGGRAPH Asia银奖：3D高斯溅射重建效率突破性提升

在近期于香港举办的SIGGRAPH Asia 2025国际图形学顶级会议上，摩尔线程凭借其自主研发的3D高斯溅射（3DGS）基础库LiteGS，在3DGS重建挑战赛中荣获银奖。这一成果标志着该公司在下一代图形渲染技术领域取得了重要进展。 3D高斯溅射：图形渲染技术的范式变革3D高斯溅射（3D Gaussian Splatting）是2023年提出的一种革命性…

1天前
9000
AI产业动态

从文本生成到任务执行：AI能力跃迁的三年革命与人类角色的重新定义

在人工智能发展的历史长河中，过去三年无疑构成了一个独特而关键的转折期。从2022年底ChatGPT引爆全球关注至今，AI技术不仅完成了从实验室到大众应用的跨越，更在功能形态上实现了从被动响应到主动执行的质变。这一进程不仅重塑了技术本身的能力边界，更在深层次上重构了人类与智能系统之间的协作关系。回顾三年前的技术图景，GPT-3所展现的文本生成能力曾被视为革命…

2025年11月30日
3000
AI产业动态

Vidu Agent深度评测：AI视频创作从“片段生成”到“专业拍片”的范式革命

2025年，视频生成AI领域正经历着前所未有的技术竞赛。谷歌Veo 3、OpenAI Sora 2、Runway Gen-4.5以及本土的Vidu等模型相继推出，参数规模不断刷新纪录，演示视频一个比一个惊艳。然而，在这场看似繁荣的技术狂欢背后，一个根本性问题逐渐浮出水面：AI能够生成高质量的视频片段，但真正“会拍片”的模型仍然凤毛麟角。创意如何系统化拆解？镜…

2天前
4000

发表回复