吴恩达提出图灵-AGI测试：专为通用人工智能设计的新评估标准

2026年1月10日上午10:48 • AI产业动态 • 阅读 158

吴恩达提出图灵-AGI测试：专为通用人工智能设计的新评估标准

AI领域知名学者吴恩达近期公开了其2026年的目标：创建一个新的测试标准，他称之为图灵-AGI测试。顾名思义，该测试旨在为评估通用人工智能（AGI）而设计。

过去一年，AGI成为业界焦点。吴恩达在其年度总结中曾指出：

2025年或许会被铭记为人工智能工业时代的开端。

创新推动模型性能到达新的高度，AI驱动的应用变得不可或缺，顶尖企业人才争夺激烈，基础设施建设推动社会生产总值增长。

尽管学术界与工业界频繁讨论AGI，相关企业也为其设定发展目标，但关于AGI的定义至今缺乏统一标准。现有的基准测试有时会误导公众，使其高估当前AI的实际能力。吴恩达注意到这一现状，希望新的图灵测试能够填补这一空白。

正如一些观点所言：

要衡量智能，首先要定义智能。

图灵-AGI测试设想

传统的图灵测试在AGI时代已显不足。该测试由艾伦·图灵于上世纪五十年代提出，核心是通过人机对话判断机器是否具备智能。若机器能欺骗人类评估者，使其无法分辨对话方是人还是机器，则视为通过测试。

然而，当前AI的目标已超越简单对话，转向构建具有经济价值的实用系统。因此，业界亟需一个能够衡量AI实际工作能力的评估标准。这正是图灵-AGI测试的核心：评估AI是否能像人类一样智能，并完成大部分知识型工作。

在该测试设想中，受测对象（AI系统或人类专业人士）将使用一台可访问互联网、并配备浏览器及Zoom等工具的计算机。

裁判将为受测对象设计一项持续多日的体验式任务。例如，让AI扮演客服角色：先接受培训，随后执行接听电话等任务，并在此过程中提供持续反馈。若AI能像人类一样熟练完成工作，即被视为通过测试。

该测试聚焦于AGI的经济价值与实际产出，更贴近对AGI的普遍初始定义——即能在工作和生产场景中应用的智能。它也比现有基准测试更能考验AI的通用能力。

目前，大多数AI基准测试（如GPQA、AIME、SWE-bench等）都基于预先确定的测试集。这导致开发团队可能针对已公开的测试集优化模型，使得榜单成绩优异，但模型在真实世界中的表现却不尽如人意。去年引发广泛讨论的Llama 4刷榜事件便是一个例证。

此外，固定测试集只能评估AI在特定狭窄领域的能力。相比之下，传统的图灵测试允许评委自由提问，范围不受限，更能检验系统的通用性。改进后的图灵-AGI测试延续了这一思路：裁判可以任意设计体验任务，且受测的AI或人类均不会提前知晓任务内容，从而更有效地判断AGI水平。

为了校准社会对AI的期望，吴恩达表示，未来可能举办一场公开的图灵-AGI测试，邀请各类AI系统参与。即便最终所有系统都未能达标，也有助于平息当前对AGI的过度炒作。这种“降温”能为AI领域创造更稳健的发展环境，促使行业重新聚焦于非AGI级别的实际进步，例如开发具有实用价值的应用，而非追逐AGI的营销噱头。

从长远看，图灵-AGI测试能为AI研发团队设定一个清晰、具体的目标，而非模糊地追求“人类级智能”。倘若真有公司开发的系统能通过该测试，其成果必将具备坚实的实用价值。图灵-AGI测试有望为真正的AGI突破提供可信的判定依据。

接下来的发展，值得拭目以待。

参考链接：
[1]https://x.com/AndrewYNg/status/2008578741312836009?s=20
[2]https://www.deeplearning.ai/the-batch/issue-334/

关注“鲸栖”小程序，掌握最新AI资讯

本文来自网络搜集，不代表鲸林向海立场，如有侵权，联系删除。转载请注明出处：http://www.itsolotime.com/archives/17955

吴恩达提出图灵-AGI测试：专为通用人工智能设计的新评估标准

吴恩达提出图灵-AGI测试：专为通用人工智能设计的新评估标准

图灵-AGI测试设想

相关推荐

摩尔线程LiteGS斩获SIGGRAPH Asia银奖：3D高斯溅射技术突破60秒高质量重建极限

OpenClaw（Clawdbot）实现主动通话功能：AI助手迈向交互新纪元

2025年中国人工智能合规治理全景：从法律框架到技术落地的系统性变革

告别AI健忘症：构建Claude Code项目记忆系统，每年节省26小时开发时间

超越基础RAG：构建面向学术论文的智能检索系统实战