吴恩达提出图灵-AGI测试:专为通用人工智能设计的新评估标准

吴恩达提出图灵-AGI测试:专为通用人工智能设计的新评估标准

AI领域知名学者吴恩达近期公开了其2026年的目标:创建一个新的测试标准,他称之为图灵-AGI测试。顾名思义,该测试旨在为评估通用人工智能(AGI)而设计。

吴恩达提出图灵-AGI测试:专为通用人工智能设计的新评估标准

过去一年,AGI成为业界焦点。吴恩达在其年度总结中曾指出:

2025年或许会被铭记为人工智能工业时代的开端

创新推动模型性能到达新的高度,AI驱动的应用变得不可或缺,顶尖企业人才争夺激烈,基础设施建设推动社会生产总值增长。

尽管学术界与工业界频繁讨论AGI,相关企业也为其设定发展目标,但关于AGI的定义至今缺乏统一标准。现有的基准测试有时会误导公众,使其高估当前AI的实际能力。吴恩达注意到这一现状,希望新的图灵测试能够填补这一空白。

吴恩达提出图灵-AGI测试:专为通用人工智能设计的新评估标准

正如一些观点所言:

要衡量智能,首先要定义智能。

吴恩达提出图灵-AGI测试:专为通用人工智能设计的新评估标准

图灵-AGI测试设想

传统的图灵测试在AGI时代已显不足。该测试由艾伦·图灵于上世纪五十年代提出,核心是通过人机对话判断机器是否具备智能。若机器能欺骗人类评估者,使其无法分辨对话方是人还是机器,则视为通过测试。

然而,当前AI的目标已超越简单对话,转向构建具有经济价值的实用系统。因此,业界亟需一个能够衡量AI实际工作能力的评估标准。这正是图灵-AGI测试的核心:评估AI是否能像人类一样智能,并完成大部分知识型工作。

在该测试设想中,受测对象(AI系统或人类专业人士)将使用一台可访问互联网、并配备浏览器及Zoom等工具的计算机。

吴恩达提出图灵-AGI测试:专为通用人工智能设计的新评估标准

裁判将为受测对象设计一项持续多日的体验式任务。例如,让AI扮演客服角色:先接受培训,随后执行接听电话等任务,并在此过程中提供持续反馈。若AI能像人类一样熟练完成工作,即被视为通过测试。

该测试聚焦于AGI的经济价值与实际产出,更贴近对AGI的普遍初始定义——即能在工作和生产场景中应用的智能。它也比现有基准测试更能考验AI的通用能力

目前,大多数AI基准测试(如GPQA、AIME、SWE-bench等)都基于预先确定的测试集。这导致开发团队可能针对已公开的测试集优化模型,使得榜单成绩优异,但模型在真实世界中的表现却不尽如人意。去年引发广泛讨论的Llama 4刷榜事件便是一个例证。

吴恩达提出图灵-AGI测试:专为通用人工智能设计的新评估标准

此外,固定测试集只能评估AI在特定狭窄领域的能力。相比之下,传统的图灵测试允许评委自由提问,范围不受限,更能检验系统的通用性。改进后的图灵-AGI测试延续了这一思路:裁判可以任意设计体验任务,且受测的AI或人类均不会提前知晓任务内容,从而更有效地判断AGI水平。

为了校准社会对AI的期望,吴恩达表示,未来可能举办一场公开的图灵-AGI测试,邀请各类AI系统参与。即便最终所有系统都未能达标,也有助于平息当前对AGI的过度炒作。这种“降温”能为AI领域创造更稳健的发展环境,促使行业重新聚焦于非AGI级别的实际进步,例如开发具有实用价值的应用,而非追逐AGI的营销噱头。

从长远看,图灵-AGI测试能为AI研发团队设定一个清晰、具体的目标,而非模糊地追求“人类级智能”。倘若真有公司开发的系统能通过该测试,其成果必将具备坚实的实用价值。图灵-AGI测试有望为真正的AGI突破提供可信的判定依据。

接下来的发展,值得拭目以待。

参考链接:
[1]https://x.com/AndrewYNg/status/2008578741312836009?s=20
[2]https://www.deeplearning.ai/the-batch/issue-334/

吴恩达提出图灵-AGI测试:专为通用人工智能设计的新评估标准


关注“鲸栖”小程序,掌握最新AI资讯

本文来自网络搜集,不代表鲸林向海立场,如有侵权,联系删除。转载请注明出处:http://www.itsolotime.com/archives/17955

(0)
上一篇 2026年1月10日 上午10:42
下一篇 2026年1月10日 上午11:36

相关推荐

  • AI Agent独立复现顶会论文能力大揭秘:OpenAI PaperBench基准测试深度解析

    当我们探讨AI的边界时,一个颇具挑战性的问题浮现出来:AI能否像人类研究者一样,独立阅读一篇前沿论文,理解其核心思想,从零编写代码,并成功复现实验结果? OpenAI最新发布的PaperBench基准测试,正是为回答这个问题而设计的。这项研究不仅展现了当前AI Agent的真实能力边界,更为我们理解“AI辅助科研”这一命题提供了量化的参照系。 为什么需要Pa…

    2025年11月6日
    8200
  • ERNIE-5.0全面评测:2.4万亿参数旗舰大模型性能与成本深度解析

    百度近期正式发布了原生全模态大模型ERNIE-5.0(文心5.0),这是一款参数达2.4万亿、采用原生全模态统一建模技术的旗舰级产品,支持文本、图像、音频、视频等多种信息的输入与输出。我们对ERNIE-5.0正式版与此前的ERNIE-5.0-Thinking-Preview版本进行了全面的对比评测,测试其在准确率、响应时间、token消耗和成本等关键指标上的…

    2026年1月24日
    5100
  • 智谱GLM-4.7全面评测:编程专用模型性能跃升,开源优势凸显

    智谱AI昨日开源了其编程专用模型GLM-4.7。相较于前代GLM-4.6版本,新模型在多项关键指标上实现了显著提升。我们对两个版本进行了全面评测,对比了准确率、响应时间、Token消耗及成本等维度。 GLM-4.7版本核心测试数据如下:* 测试题数:约1.5万* 总分(准确率):71.5%* 平均耗时(每次调用):96秒* 平均Token(每次调用):392…

    2025年12月23日
    50200
  • Agent能力评测全景图:从多轮对话到数据分析,解锁智能体真实水平

    大型语言模型的进化速度令人惊叹。我们见证了它们从简单的文本生成工具,逐步演变为能够感知、推理、规划并调用外部工具的智能体(Agent)。这种质的飞跃让LLM开始真正走向复杂任务的解决——无论是自动化办公流程、辅助数据分析,还是多轮对话中的智能决策。 然而,一个关键问题随之浮现:如何科学、系统地评测这些Agent的真实能力? 这并非简单的准确率计算。Agent…

    2025年11月8日
    7700
  • AI Agent架构评测:从实验室到生产环境的Skills解耦工程化实践

    评测盲区:为什么「能用」不等于「可用」? 在大模型评测领域,我们有 MMLU 测知识、HumanEval 测代码、BFCL 测函数调用。但对于 Agent 系统,评测维度往往停留在「任务完成率」这个单一指标上。 这里存在一个评测盲区:我们很少评测 Agent 能力的「可迁移性」和「可工程化程度」。 举个例子:在 Claude Code 环境中,构建了一套完整…

    2天前
    4200