吴恩达提出图灵-AGI测试:专为通用人工智能设计的新评估标准

吴恩达提出图灵-AGI测试:专为通用人工智能设计的新评估标准

AI领域知名学者吴恩达近期公开了其2026年的目标:创建一个新的测试标准,他称之为图灵-AGI测试。顾名思义,该测试旨在为评估通用人工智能(AGI)而设计。

吴恩达提出图灵-AGI测试:专为通用人工智能设计的新评估标准

过去一年,AGI成为业界焦点。吴恩达在其年度总结中曾指出:

2025年或许会被铭记为人工智能工业时代的开端

创新推动模型性能到达新的高度,AI驱动的应用变得不可或缺,顶尖企业人才争夺激烈,基础设施建设推动社会生产总值增长。

尽管学术界与工业界频繁讨论AGI,相关企业也为其设定发展目标,但关于AGI的定义至今缺乏统一标准。现有的基准测试有时会误导公众,使其高估当前AI的实际能力。吴恩达注意到这一现状,希望新的图灵测试能够填补这一空白。

吴恩达提出图灵-AGI测试:专为通用人工智能设计的新评估标准

正如一些观点所言:

要衡量智能,首先要定义智能。

吴恩达提出图灵-AGI测试:专为通用人工智能设计的新评估标准

图灵-AGI测试设想

传统的图灵测试在AGI时代已显不足。该测试由艾伦·图灵于上世纪五十年代提出,核心是通过人机对话判断机器是否具备智能。若机器能欺骗人类评估者,使其无法分辨对话方是人还是机器,则视为通过测试。

然而,当前AI的目标已超越简单对话,转向构建具有经济价值的实用系统。因此,业界亟需一个能够衡量AI实际工作能力的评估标准。这正是图灵-AGI测试的核心:评估AI是否能像人类一样智能,并完成大部分知识型工作。

在该测试设想中,受测对象(AI系统或人类专业人士)将使用一台可访问互联网、并配备浏览器及Zoom等工具的计算机。

吴恩达提出图灵-AGI测试:专为通用人工智能设计的新评估标准

裁判将为受测对象设计一项持续多日的体验式任务。例如,让AI扮演客服角色:先接受培训,随后执行接听电话等任务,并在此过程中提供持续反馈。若AI能像人类一样熟练完成工作,即被视为通过测试。

该测试聚焦于AGI的经济价值与实际产出,更贴近对AGI的普遍初始定义——即能在工作和生产场景中应用的智能。它也比现有基准测试更能考验AI的通用能力

目前,大多数AI基准测试(如GPQA、AIME、SWE-bench等)都基于预先确定的测试集。这导致开发团队可能针对已公开的测试集优化模型,使得榜单成绩优异,但模型在真实世界中的表现却不尽如人意。去年引发广泛讨论的Llama 4刷榜事件便是一个例证。

吴恩达提出图灵-AGI测试:专为通用人工智能设计的新评估标准

此外,固定测试集只能评估AI在特定狭窄领域的能力。相比之下,传统的图灵测试允许评委自由提问,范围不受限,更能检验系统的通用性。改进后的图灵-AGI测试延续了这一思路:裁判可以任意设计体验任务,且受测的AI或人类均不会提前知晓任务内容,从而更有效地判断AGI水平。

为了校准社会对AI的期望,吴恩达表示,未来可能举办一场公开的图灵-AGI测试,邀请各类AI系统参与。即便最终所有系统都未能达标,也有助于平息当前对AGI的过度炒作。这种“降温”能为AI领域创造更稳健的发展环境,促使行业重新聚焦于非AGI级别的实际进步,例如开发具有实用价值的应用,而非追逐AGI的营销噱头。

从长远看,图灵-AGI测试能为AI研发团队设定一个清晰、具体的目标,而非模糊地追求“人类级智能”。倘若真有公司开发的系统能通过该测试,其成果必将具备坚实的实用价值。图灵-AGI测试有望为真正的AGI突破提供可信的判定依据。

接下来的发展,值得拭目以待。

参考链接:
[1]https://x.com/AndrewYNg/status/2008578741312836009?s=20
[2]https://www.deeplearning.ai/the-batch/issue-334/

吴恩达提出图灵-AGI测试:专为通用人工智能设计的新评估标准


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/17955

(0)
上一篇 2026年1月10日 上午10:42
下一篇 2026年1月10日 上午11:36

相关推荐

  • 摩尔线程LiteGS斩获SIGGRAPH Asia银奖:3D高斯溅射技术突破60秒高质量重建极限

    在近期于香港举办的SIGGRAPH Asia 2025国际图形学顶级学术会议上,摩尔线程凭借其自主研发的3D高斯溅射(3DGS)基础库LiteGS,在3DGS重建挑战赛中荣获银奖。这一成就不仅展示了摩尔线程在算法创新与软硬件协同优化方面的深厚实力,也标志着该公司在新一代图形渲染技术领域获得了学术界的高度认可。 3D高斯溅射作为2023年提出的革命性三维场景表…

    2025年12月17日
    28100
  • OpenClaw(Clawdbot)实现主动通话功能:AI助手迈向交互新纪元

    OpenClaw(Clawdbot)实现主动通话功能:AI助手迈向交互新纪元 在人工智能助手领域,实现自然、主动的对话一直是技术演进的核心目标。近日,开源项目 OpenClaw(亦被称为 Clawdbot)宣布成功实现了主动通话功能,标志着 AI 助手从被动响应迈向了主动交互的新阶段。 传统的 AI 助手大多遵循“一问一答”的模式,需要用户主动发起对话。而 …

    AI产业动态 2026年2月7日
    25600
  • 2025年中国人工智能合规治理全景:从法律框架到技术落地的系统性变革

    2025年是中国人工智能治理体系从顶层设计迈向精细化实施的关键转折点。这一年,国家密集出台了一系列法律法规、国家标准和专项指引,构建起“法律-规章-国标-框架”四位一体的协同治理体系,标志着我国AI治理正式从“原则性引导”阶段进入“精细化落地”阶段。对企业而言,合规已从过去的“可选项”转变为关乎生存发展的“必选项”。 从法律层面看,2025年10月29日《网…

    2025年11月13日
    18800
  • 告别AI健忘症:构建Claude Code项目记忆系统,每年节省26小时开发时间

    发光的神经网络“大脑”连接到悬浮的文档图标,代表包含 bugs、decisions、configuration files 的项目记忆,便于快速 recall。 一个不到 300 行的 skill,如何变成我最常用的 AI 辅助开发效率工具 想象一下:周二晚上 11 点。你盯着一个似曾相识的报错信息—— “Connection refused on port…

    2026年2月5日
    29400
  • 超越基础RAG:构建面向学术论文的智能检索系统实战

    在AI工程实践中,你很快会意识到:并不存在一张可以完全照搬的“通用蓝图”。 对于检索增强生成(RAG)中的基础检索(“R”),标准流程包括文档分块、查询语义搜索、结果重排等。这套流程已广为人知。 但随着系统深入应用,一个问题会浮现:如果一个系统对一篇文档的理解仅限于几个零散的文本块,我们如何能称其为“智能”? 那么,如何确保系统获得足够的信息,从而做出“聪明…

    2026年1月19日
    17400