吴恩达提出图灵-AGI测试:专为通用人工智能设计的新评估标准
AI领域知名学者吴恩达近期公开了其2026年的目标:创建一个新的测试标准,他称之为图灵-AGI测试。顾名思义,该测试旨在为评估通用人工智能(AGI)而设计。

过去一年,AGI成为业界焦点。吴恩达在其年度总结中曾指出:
2025年或许会被铭记为人工智能工业时代的开端。
创新推动模型性能到达新的高度,AI驱动的应用变得不可或缺,顶尖企业人才争夺激烈,基础设施建设推动社会生产总值增长。
尽管学术界与工业界频繁讨论AGI,相关企业也为其设定发展目标,但关于AGI的定义至今缺乏统一标准。现有的基准测试有时会误导公众,使其高估当前AI的实际能力。吴恩达注意到这一现状,希望新的图灵测试能够填补这一空白。

正如一些观点所言:
要衡量智能,首先要定义智能。

图灵-AGI测试设想
传统的图灵测试在AGI时代已显不足。该测试由艾伦·图灵于上世纪五十年代提出,核心是通过人机对话判断机器是否具备智能。若机器能欺骗人类评估者,使其无法分辨对话方是人还是机器,则视为通过测试。
然而,当前AI的目标已超越简单对话,转向构建具有经济价值的实用系统。因此,业界亟需一个能够衡量AI实际工作能力的评估标准。这正是图灵-AGI测试的核心:评估AI是否能像人类一样智能,并完成大部分知识型工作。
在该测试设想中,受测对象(AI系统或人类专业人士)将使用一台可访问互联网、并配备浏览器及Zoom等工具的计算机。

裁判将为受测对象设计一项持续多日的体验式任务。例如,让AI扮演客服角色:先接受培训,随后执行接听电话等任务,并在此过程中提供持续反馈。若AI能像人类一样熟练完成工作,即被视为通过测试。
该测试聚焦于AGI的经济价值与实际产出,更贴近对AGI的普遍初始定义——即能在工作和生产场景中应用的智能。它也比现有基准测试更能考验AI的通用能力。
目前,大多数AI基准测试(如GPQA、AIME、SWE-bench等)都基于预先确定的测试集。这导致开发团队可能针对已公开的测试集优化模型,使得榜单成绩优异,但模型在真实世界中的表现却不尽如人意。去年引发广泛讨论的Llama 4刷榜事件便是一个例证。

此外,固定测试集只能评估AI在特定狭窄领域的能力。相比之下,传统的图灵测试允许评委自由提问,范围不受限,更能检验系统的通用性。改进后的图灵-AGI测试延续了这一思路:裁判可以任意设计体验任务,且受测的AI或人类均不会提前知晓任务内容,从而更有效地判断AGI水平。
为了校准社会对AI的期望,吴恩达表示,未来可能举办一场公开的图灵-AGI测试,邀请各类AI系统参与。即便最终所有系统都未能达标,也有助于平息当前对AGI的过度炒作。这种“降温”能为AI领域创造更稳健的发展环境,促使行业重新聚焦于非AGI级别的实际进步,例如开发具有实用价值的应用,而非追逐AGI的营销噱头。
从长远看,图灵-AGI测试能为AI研发团队设定一个清晰、具体的目标,而非模糊地追求“人类级智能”。倘若真有公司开发的系统能通过该测试,其成果必将具备坚实的实用价值。图灵-AGI测试有望为真正的AGI突破提供可信的判定依据。
接下来的发展,值得拭目以待。
参考链接:
[1]https://x.com/AndrewYNg/status/2008578741312836009?s=20
[2]https://www.deeplearning.ai/the-batch/issue-334/

关注“鲸栖”小程序,掌握最新AI资讯
本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/17955
